The blog of blog of blogs

Les aventures d'un ethnologue dans le grand monde

IA et deep learning (2): comment les datasets vous biaisent 14 avril 2021

Filed under: Ethnologie,IA,organisation,Société,technologie — Yannick @ 11:11

.

Dans l’article précédent j’évoquais les jeux de données (datasets) qui servent à l’apprentissage profond des algorithmes (deep learning) et le fait que cette étape est le point de départ qui permet l’existence des intelligences artificielles. Cette phase d’étiquetage est trop souvent considérée comme de peu de valeur ajoutée. Elle nécessite une main-d’œuvre pléthorique et elle est mal rémunérée, puisqu’après tout il ne s’agit que d’associer des mots à des « choses », n’est-ce pas ?

1_NLnnf_M4Nlm4p1GAWrWUCQ


.
Grave erreur, aux conséquences qui peuvent être sont dévastatrices. Car c’est un préjugé dans le préjugé : croire que les technologies sont socialement neutres, alors qu’elles sont une construction culturelle.  Si vous êtes un décideur politique, relisez cette phrase plusieurs fois. 

La création du jeu de données initial est un phénomène culturel qui a un impact direct sur la confiance qu’on peut accorder aux produits de cette industrie et à toute décision prise par une IA.

Pour ceux qui m’ont déjà entendu le dire, je le redis : l’intelligence de l’artificiel vient de l’intelligence de ses concepteurs
-et pour l’IA, ça commence avec les jeux de données.
(Si vous ne m’aviez jamais entendu le dire, ce n’est pas grave, je le redirai :) )

Au moment de l’étiquetage, ce sont les représentations mentales de milliers de travailleurs anonymes du net qui sont projetées dans la base de données qui servira ensuite de référence pour qu’un algorithme s’y entraîne à interpréter une réalité.

En plus des erreurs factuelles, il y a des idées reçues, des croyances, des approximations et des préjugés de toutes sortes qui sont donc embarqués dans ce qui va servir à “éduquer” les algorithmes, qui ne sauront rien faire d’autre ensuite que reproduire les préjugés qui leur auront été inculqués. Il y a bien entendu du contrôle qualité de la part des fabricants des jeux de données mais essentiellement en ayant recours à une vérification croisée, par les participants eux-mêmes.
Si l’image d’une antilope est étiquetée comme étant une pie, soit c’est une erreur factuelle qui peut être détectée et corrigée (ce qui reste à prouver), soit ce sont les participants qui croient majoritairement et de bonne foi qu’une antilope est une pie, auquel cas ce ne sera même pas considéré comme une anomalie puisque dans leurs représentations culturelles c’est une vérité. 

…ou, confondant corrélation et causalité, ils croient majoritairement que si une main noire tient quelque chose, c’est nécessairement une arme (photo).

googlevision


La question se pose de savoir quelle est la variété des participants humains à une campagne d’étiquetage ? Comment est constitué cet échantillon là ? Est-ce qu’il y a une campagne de recrutement pensée avec soin, ou est-ce qu’on prend les premiers volontaires dont on sait que dans le milieu des technologies ce sera essentiellement des hommes à la peau blanche appartenant à la classe moyenne ?

Mais il serait aussi trop facile de rejeter toute la faute sur la foule qui est sollicitée en crowdsourcing : la question se pose également de savoir quel type de données ont été soumises à l’étiquetage. Quelle est la validité des données, dans le jeu de données lui-même ?

Le jeu de données MNIST qui regroupe 70000 chiffres manuscrits de 0 à 9 a été constitué en recueillant les papiers d’employés du Bureau du Recensement américain. Un algorithme qui s’entraîne sur cet échantillon saura plutôt bien reconnaître l’écriture d’une certaine tranche de population : adultes, nord-américains, employés de bureau. Donnez au même algorithme des chiffres écrits à la main par des enfants, ou par des personnes peu scolarisées, ou par des européens qui mettent une barre au chiffre 7 et le taux d’erreur va exploser. Dans un autre contexte, mais pour la même raison d’échantillon trop homogène, lors des premiers tests de voitures autonomes configurées en Europe, les IA n’ont pas su identifier les kangourous qui traversaient les routes australiennes puisque le jeu de données pensé et conçu en Europe avait peu de raison d’inclure les marsupiaux. Les datasets asiatiques sont connus pour mal reconnaître les visages non-asiatiques, toujours pour la même raison.

.

deep learning error dataset_black women_oprah-winfrey
Technologies are not « socially neutral » and even less with AI : its victims are usualy the groups already vulnerable in society at large and very especially the black women.

Les exemples sont abondants et très bien documentés dans tous les domaines : c’est d’abord le manque de variété dans les datasets de l’intelligence artificielle qui génère des conséquences nocives, dont les victimes sont régulièrement les populations déjà vulnérables dans le paysage social.

Si votre jeu de données contient essentiellement des images de visages de personnes à la peau blanche, pas étonnant que les IA qui s’entraîneront dessus ne sauront pas identifier les visages de vraies personnes qui n’ont pas cette couleur de peau. Les femmes noires sont particulièrement (mais pas exclusivement) victimes de ce travers (et, non, ce n’est pas qu’une question d’éclairage ambiant).

.

Cette ostracisation récurrente n’implique pas que les datasets ou les algorithmes sont volontairement configurés pour être racistes, ou anti-pauvres, ou anti-kangourou, ou anti-ce-que-vous-voulez. Mais les conséquences entretiennent et amplifient les disparités existantes, y compris dans leurs inégalités, injustices ou même tout simplement leurs absurdités. 

.

Pour ceux qui ont recours aux IA c’est un point d’attention qui doit être vraiment, vraiment pris au sérieux : il est de votre devoir de demander aux vendeurs de ces logiciels quelles preuves ils ont que leur machin n’a pas de conséquences perverses. Quel genre de tests de recevabilité éthique sont mis en œuvre ? Où sont les résultats ? Les créateurs de datasets devraient être dans l’obligation de prouver une variété suffisante de leur jeu de données ainsi que dans le recrutement des humain(e)s qui ont procédé à l’étiquetage et, légalement, je ne suis pas loin de penser qu’un jeu de données utilisé pour le deep learning devrait être dans le domaine public, ouvert et sûrement pas protégé par un quelconque et opaque secret industriel ou licence « propriétaire » ou brevet de propriété intellectuelle.

Les jeux de données du deep learning doivent faire partie de l’open data. Tous. Y compris pour le secteur de la Défense, maintien de l’ordre ou antiterrorisme, d’autant que cette technologie pour notre malheur à tous est de plus en plus comprise comme un élément de l’infrastructure de surveillance globale, sinon de répression, c’est donc l’ensemble de la population qui est susceptible d’en être victime.

Et une technologie de surveillance qui fait des erreurs, c’est le règne de l’arbitraire, où tous les décideurs se cacheront derrière la complexité technologique pour ne pas être tenus responsables.
A ce stade, je me retiens d’aborder le sujet des smart cities

.

.

Ainsi donc, avant même la phase d’étiquetage, les « choses » qui sont mises dans les jeux de données s’avèrent être aussi la résultante de choix, de jugements de valeurs, de positionnements en termes de vie collective, avec ses propres biais et idées reçues. 

Si votre IA voit une image d’antilope et l’appelle une pie, c’est presque comique (cf. mon article précédent : ici). Sauf si le logiciel est déployé dans un parc naturel en vue d’empêcher le braconnage. Et comment le logiciel appelle-t’il une image de pie ? Et l’étiquette « antilope » est apposée sur l’image de quoi ?
Et si une IA pour véhicule autonome n’a pas assez appris à reconnaître l’image d’une poussette, comment pourra-t’elle déclencher un freinage d’urgence lorsqu’il y en aura une devant elle dans la rue ? Elle ne la verra même pas et la traversera sans ralentir.

Il est trop simple d’affirmer qu’on peut « corriger l’erreur » car vous corrigerez cette erreur-là, ponctuellement, mais pas toutes les fois suivantes puisque l’algorithme a appris à faire cela. Il ne sait pas faire autre chose et il reproduira l’erreur qui, de son point de vue de machine, n’en est pas une.
(une machine, rappelons-le, c’est con comme un balai)
Et bien sûr, en attendant, « cette erreur-là » aura été commise :
-une poussette a été percutée,
-une main noire portant un téléphone portable a déclenché une intervention de police pour un « individu armé »,
-vous êtes sous surveillance de la DGSI parce qu’une caméra-micro dans la rue vous a enregistré en train de mentionner « demain » « pose » « bombe », alors que la phrase complète était « demain je pose mon nouveau parquet, ça va être de la bombe ». 

Nous ne sommes pas censés attendre que ce genre d’erreur soit commis : nous voulons, nous avons besoin de certitudes préalables.

Quelles sont les probabilités que, dans un avenir pas trop lointain, un pays, une administration, une grande entreprise de la tech se mette à réfléchir sérieusement aux conséquences non-intentionnelles des IA, avant de les balancer dans les pattes de centaines de millions de gens qui n’ont rien demandé à personne ?

.

Au début de l’année 2021, une étude est venue renforcer le doute quant à la fiabilité du deep learning : Curtis G. Northcutt, Anish Athalye, Jonas Mueller : Pervasive Label Errors in Test Sets Destabilize Machine Learning Benchmarks. 2021
En analysant les dix principaux datasets mondiaux (dont ImageNet), les chercheurs ont identifié un taux d’erreur de 6% en moyenne dans l’étiquetage.

Et ça les copains, c’est 6% d’anomalies absolument critiques, parce que tous les programmes d’IA apprennent à partir de ces jeux de données qui ont en moyenne 6% d’erreurs. Ces erreurs se propagent donc dans les logiciels partout dans le monde en reproduisant les mêmes conséquences déplaisantes. C’est encore plus vrai dans les systèmes dits « prédictifs » qui servent par exemple à évaluer sur la base de critères (biaisés) les probabilités (fantasmées) de futur comportement criminel d’une personne. La justice à ce stade devient une injustice algorithmique institutionalisée et c’est une démonstration d’ignorance de la part de tous ceux qui ont validé le fait que l’idée avait l’air bonne.
Dans ce cas le drame est triple : il y a des innocents en prison, des malfaisants en liberté et des naïfs pour croire que si c’est une machine qui l’a dit c’est que c’est forcément objectif.

Il y a là une abondance d’arguments qui relèvent de la superstition technologique : croire que la décision automatisée est exempte de biais, de défaut ou d’erreur, alors qu’elle a été créée par des gens, nécessairement faillibles. Parce que non, il n’y a pas une étape secrète dans le code informatique qui supprime toutes les « erreurs » faites par les humains et rétablit miraculeusement la justice. Il n’y a pas d’algorithme de ce qui est « juste ».

Et ces logiciels d’automatisation des décisions servent à vous évaluer pour vous accorder (ou pas) un crédit immobilier, un emploi ou un licenciement, un examen universitaire, le droit à des allocations familiales ou a un contrôle fiscal…

.

The failures of any « predictive » software would be laughable, if it was not for their dramatic impact on real lives.
That is algorithmic injustice. On what kind of biased dataset was this AI trained ?
Beforehand, what kind of proof of viability could / should publish the editors of AI software ?

.

Et on peut aussi parler de la « reconnaissance des émotions » qui est une gigantesque arnaque intellectuelle, en plus d’avoir des conséquences humaines dignes d’un accident industriel. Répétez après moi : la reconnaissance des émotions est une fumisterie, une tromperie, ça ne fonctionne pas, ça ne peut pas fonctionner, c’est une impossibilité anthropologique. Si vous êtes un décideur politique, relisez cette phrase plusieurs fois. 

.

Consciente de cet empilement de défauts qui commence à devenir très gênant aux entournures, en avril 2021 l’entreprise Facebook a publié un jeu de données visant à établir un standard dans la variété qu’on est en droit d’attendre pour éduquer des IA de reconnaissance faciale. Ce dataset en libre accès est appelé Casual conversations et il est remarquable parce que ses concepteurs ont bien compris que c’était un élément clé dans le process de fabrication de l’intelligence artificielle. Il a donc été bien fait, preuve que c’est tout à fait possible. Comment votre IA se comporte si elle tourne sur cet échantillon ?

Spéciale dédicace à Yann Le Cun.

.

Ainsi, comme toute technologie, l’IA est ambivalente et les conséquences de son déploiement seront hétérogènes. Son potentiel est certes époustouflant… mais on évalue une technologie d’abord sur la réalité de sa mise en œuvre, de la manière dont elle est fabriquée jusqu’à la manière dont elle est utilisée… et sur ces deux points force est d’admettre qu’on peut mieux faire.
(sauf pour la reconnaissance des émotions… laissez tomber. N’insistez pas, je vous assure…)


Le gentil robot inoffensif qui sert de compagnon aux personnes âgées en reconnaissant leur visage, leurs gestes et en leur faisant la conversation est mu par du code informatique qui pourra resservir dans un drone-chien d’attaque qui vous cassera les deux jambes lors d’une prochaine manifestation sur la voie publique. A moins que le gentil robot ait fait trébucher la personne âgée dans l’escalier en voulant lui faire un câlin, parce que c’est ce comportement qu’il aura appris dans un dataset animalier.
Techniquement il est donc possible de rendre ces outils plus performants.

Socialement, la question reste posée de l’utilisation qui en sera faite. Veut-on en faire des machines qui atténuent et éventuellement corrigent les discriminations et les injustices, ou choisit-on de laisser faire et donc d’amplifier les discriminations et les injustices ? Car en matière de conception informatique -de design– il n’y a pas de demi-mesure. Soit c’est excellent, soit c’est un piège profond. Les doctrines d’emploi de ce genre de logiciels seront directement issues de choix politiques, qui s’élaborent dans le débat citoyen, dans nos assemblées nationales ou instances internationales. Un acte de construction sociale, là encore.
C’est toujours de cela dont je parle quand je répète (encore) que l’intelligence de l’artificiel vient de l’intelligence de ses concepteurs.

.
Du début à la fin, de la sélection de la data qui entre dans un dataset, en passant par les preuves de fiabilité de l’étiquetage jusqu’aux choix (ou non choix) politiques qui régulent son usage, l’intelligence artificielle est une construction sociale. 

.

.

.

The "intelligence" of the "arificial" comes from the intelligence of its designers.
From beginning to end, from the choice of data in the datasets, to the labeling of this data, up to the political choices made (or not made) to regulate its use : Artificial Intelligence is a human, social construct.

.

.

 

2 Responses to “IA et deep learning (2): comment les datasets vous biaisent”

  1. Nidyia Says:

    Les IA qui démontrent des biais raciaux sont assimilables à une pratique commerciale trompeuse et punissables comme tel :
    https://www.ftc.gov/news-events/blogs/business-blog/2021/04/aiming-truth-fairness-equity-your-companys-use-ai

  2. Bogossling Says:

    « artificiel: produit par le travail de l’homme et non par la nature / qui résulte de la vie en société et n’est pas essentiel : Besoins artificiels : / qui n’est pas conforme à la réalité… »
    Desfois faudrait juste revenir aux définitions humaines des trucs, les gens.
    Et accepter que tout ce qui est produit par l’homme, ne peut être définitivement qu’une extension/amplification de lui-même, et de ses caractéristiques naturelles: dépendant, influençable, hétérogène, inconstant, faillible, et heureusement, périssable.


Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.