C’est le modèle économique principal des géants du web. Le recueil et l’exploitation de nos données personnelles permet aux très grandes entreprises comme Google et Facebook de récolter des milliards de dollars chaque année.
Dans son ouvrage « L’âge du capitalisme de surveillance », la chercheuse Shoshana Zuboff d’Harvard décrit ainsi ce phénomène de plus en plus décrié : « Toutes ces informations, traitées par l’intelligence artificielle, leur servent à modéliser le comportement de leurs milliards d’utilisateurs pour prédire leurs actions et, de plus en plus, pour les influencer ».
Le data poisoning, une technique aux résultats mitigés ?
Les internautes prennent de plus en plus conscience des dangers de ces pratiques, et ils mettent donc en place des stratégies pour les contrer. C’est notamment le cas du « data poisoning », ou empoisonnement des données en Français. Comme son nom l’indique, l’objectif poursuivi par l’utilisateur sera de fausser les informations récupérées par les algorithmes, et ainsi de d’empêcher le ciblage publicitaire.
Et si cette stratégie était adoptée par un plus grand nombre de personnes, certains modèles d’IA pourraient ainsi être mis à mal. Comme l’explique le site Techniques de L’Ingénieur, le data poisoning peut s’exercer via deux moyens principaux.
Certains internautes peuvent d’abord brouiller les pistes en retenant ou en supprimant certaines informations transmises. L’exemple le plus éclairant est l’utilisation d’un VPN qui permet de masquer son adresse IP, ou encore l’utilisation navigateur Tor qui peut être installé très simplement sur son ordinateur et ne requiert aucune compétence technique particulière.
Autre solution privilégiée : polluer délibérément les systèmes en installant certains extensions comme AdNauseam (disponible uniquement sur le navigateur Firefox Ndlr). Cet outil clique systématique sur toutes les publicités et l’algorithme de ciblage en perd son latin. Il n’est plus en capacité de savoir quel contenu est le plus susceptible de fonctionner pour vous. Pour autant, il faudrait qu’au moins 30 % des internautes utilisent cette extension pour qu’elle soit réellement efficace.
À noter que cette technique est également utilisée par certains acteurs malveillants. D’ailleurs, Google a pu constater en 2018 que des groupes tentaient de tromper ses outils en signalant des « quantités massives de spam comme n’étant pas des spams ».
Enfin, et comme le rapporte Usbek & Rica, ces stratégies restent malheureusement imparfaites. Nos confrères citent le chercheur en informatique Steve Bellovin de l’université de Colombia. Selon ce dernier, les trackers seraient en mesure « reconstituer les parcours et les habitudes de l’utilisateur », et ce quand bien même il utilise une de ces extensions.
Tout le monde n’est pas de cet avis. D’après Libération qui cite une étude datant de 2020 : « modifier seulement 1 % du jeu de données d’entraînement utilisé par un modèle pourrait affecter significativement les performances d’un algorithme de tri. » Cela dit, les gestionnaires de bases de donnée peuvent aussi réaliser que quelque chose cloche et « expurger les données fallacieuses », précise le quotidien.
(Source – Techniques de L’ingénieur)