Cur Non Kosinski : les effets prédictifs et néfastes des données
Michal Kosinsky, professeur assistant à l’université de Stanford a développé deux algorithmes illustrant le pouvoir prédictif dangereux des données. Ces derniers illustrent à quel point l’usage non réfléchi des algorithmes peut engendrer des problématiques majeures pour notre société. Le docteur en psychologie de Cambridge s’est attelé à une question très simple : un clic peut-il permettre de prédire des informations aussi sensibles que le sexe, les préférences sexuelles, les traits de personnalités ? Cela parait surprenant et pourtant, l’algorithme de Kosinski[1] basé sur l’analyse des likes de quelque 58 000 volontaires a montré avec un indice de prédiction élevé que ces valeurs étaient belles et bien prédictibles. Ainsi, ce diabolique bouton « j’aime », si facile à cliquer, trahirait à lui seul beaucoup de ce que nous sommes. Parmi les caractéristiques prédites par cet algorithme : orientation sexuelle, appartenance ethnique, opinions religieuses et politiques, traits de personnalité, intelligence, bonheur, utilisation de certaines substances, séparation des parents, âge et sexe.
Pour en venir au niveau de performance obtenu, le modèle établit correctement une distinction entre hommes homosexuels et hétérosexuels dans 88 % des cas, Afro-Américains et Américains du Caucase dans 95 % des cas, et entre démocrates et républicains dans 85 % des cas. De plus, pour le trait de personnalité extraverti, l’exactitude de la prédiction obtenue est proche de celle d’un test traditionnel de personnalité.
Inutile de préciser à quel point, les grands amas de données ne se réduisent pas à un simple clic sur un bouton. Dans ces conditions, s’imaginer disposer encore d’une bribe de vie privée sur le digital semble fatalement utopique. Notons que cet algorithme n’a rien de complexe est n’appartient pas aux si fameuses techniques d’apprentissage automatique ou d’apprentissage profond. Il ne s’agit en fait que de la combinaison d’une décomposition en valeurs singulières avec des régressions logistiques et linéaires. Deux approches classiques qui ont respectivement plus d’un et de trois siècles. Les concepteurs du bouton « j’aime » Justin Rosenstein et Leah Pearlman chez Facebook, aujourd’hui lanceurs d’alertes sur l’économie de l’attention s’expliquent :
« Il est très courant que les êtres humains développent des objets avec les meilleures intentions qui ont des conséquences négatives et involontaires. »
Aujourd’hui, Justin Rosenstein a fondé le site one Project[2]avec l’ambition de permettre un modèle de société qui évolue du moi au nous. Sur la page du projet, il défend une ambition louable :
« Je réfléchis depuis plusieurs années à la manière dont les chefs de file de la technologie, des entreprises et autres institutions peuvent travailler ensemble dans le cadre d’un projet commun dont la mission commune est de contribuer au développement de l’humanité. »
Pour en revenir à l’apprentissage profond, celui-ci a été testé par Kosinski et Niang dans un second algorithme, encore plus déroutant que le premier. Rappelons que le deep learning est une approche d’intelligence artificielle utilisée pour la reconnaissance d’objets sur une image. En particulier, l’approche des « réseaux de neurones artificiels » est un algorithme qui s’inspire du mode de fonctionnement de notre cerveau. Les neurones sont représentés par des fonctions mathématiques qui s’activent ou non en fonction des signaux qui lui sont transmis des autres neurones. Les signaux de départ sont, par exemple, les pixels d’une image. Le signal de sortie indique, par exemple, la reconnaissance ou non d’un objet dans l’image en question. Kosinski a testé un algorithme d’apprentissage profond pour tenter d’identifier automatiquement à partir de photos de visages uniquement, les sujets homosexuels et hétérosexuels[3]. Une manière de vérifier si les algorithmes peuvent entrainer des discriminations et identifier de tels caractères qui semblent si personnels, si humains et certainement pas algorithmiques. Le résultat est pourtant sans appel, sur la base d’une seule image, l’algorithme identifie correctement la différence de sexualité dans 81 % des cas chez les hommes et 74 % pour les femmes. Ces performances sont logiquement bien meilleures qu’une estimation pouvant être effectuée par les humains. Avec l’aide de cinq photos, les performances sont encore plus marquantes. L’algorithme augmente sa performance à 91 % chez les hommes et 83 % chez les femmes. Kosinski nous a offert deux illustrations de l’ampleur associée à la transformation digitale éthique. Pour lutter contre cette folie des algorithmes, nous devons être capables de les auditer et de les analyser.
[1]Private traits and attributes are predictable from digital records of human behavior, Michal Kosinski, David Stillwell, and Thore Graepel, PNAS April 9, 2013 110 (15) 5802–5805.
[2] http://www.oneproject.org.
[3] Wang, Yilun & Kosinski, Michal. (2018). Deep neural networks are more accurate than humans at detecting sexual orientation from facial images. Journal of Personality and Social Psychology. 114.