Séquence 2 — Anatomie des biais algorithmiques : origines, manifestations, conséquences

Durée : 45 min | Modalité : Apport illustré + discussion guidée
Mouvements DPA : Savoir, Discerner

🎯 Objectifs de la séquence

À l'issue de cette séquence, les participant·es sauront : - Distinguer les 4 origines des biais algorithmiques - Citer 3 manifestations concrètes dans des outils du quotidien - Expliquer pourquoi éliminer totalement les biais est impossible

⏱️ Minutage formateur

0:00 – 0:45 (45 min) — Apport structuré avec questions interactives

Partie 1 — D'où viennent les biais ? (15 min)

Les 4 origines à distinguer :

1. Le biais des données :
L'IA apprend sur des données produites par des humains. Si ces données surreprésentent certains groupes, la machine les surreprésente aussi.

Exemple concret : Les corpus de texte sur Internet en 2020 contenaient environ 50% de textes en anglais, pour une population mondiale anglophone d'environ 15%. Les IA entraînées sur ce corpus "pensent" mieux en anglais et pensent le monde à travers un prisme culturel anglophone.

2. Le biais de représentation :
Même si les données sont nombreuses, certains groupes sont sous-représentés ou représentés de façon stéréotypée.

Exemple concret : Demandez à un générateur d'images "un médecin". Pendant longtemps, les résultats montraient quasi-exclusivement des hommes blancs en blouse blanche. Pas parce que le modèle était "raciste" — mais parce que les images médicales dans ses données d'entraînement reflétaient une réalité historiquement biaisée.

3. Le biais d'objectif (ou d'alignement) :
L'IA optimise pour un objectif mesurable. Si cet objectif est mal choisi, l'IA fait "ce qu'on lui a dit de faire" — mais pas ce qu'on voulait vraiment.

Exemple concret : Un algorithme de sélection de CV optimisé sur "les CV des employés qui ont réussi chez Amazon" a appris à pénaliser les CV mentionnant le mot "femmes" (ex: "capitaine de l'équipe féminine de football"). Les CV de femmes étaient systématiquement mieux notés quand ce mot était absent. Amazon a arrêté l'outil en 2018.

4. Le biais d'usage :
Comment l'outil est déployé, par qui, dans quel contexte, peut créer des effets différenciés selon les groupes.

Exemple concret : La reconnaissance faciale fonctionne moins bien sur les peaux sombres (taux d'erreur documenté jusqu'à 35% contre 1% sur les peaux claires dans certains systèmes — étude Buolamwini & Gebru, 2018). Si cet outil est utilisé par la police pour identifier des suspects, les conséquences discriminatoires sont réelles.

Partie 2 — Comment ça se manifeste concrètement ? (15 min)

Exercice interactif : Pour chaque exemple, demandez au groupe de deviner avant de donner la réponse.

Cas 1 — Les traductions genrées :
En 2023, Google Translate (et d'autres) traduisait "she is a nurse" (en turc, langue sans genre) en "il est infirmier" et "he is a doctor" en "elle est médecin" — avant correction. L'IA avait appris les associations culturelles dominantes dans ses corpus.

Cas 2 — Les filtres de beauté racistes :
Certains filtres beauté IA sur téléphone ont été documentés comme "blanchissant" automatiquement les peaux sombres. L'IA avait appris que les photos les mieux notées sur des plateformes d'entraînement (à dominante occidentale) montraient des teintes de peau plus claires.

Cas 3 — Les modèles de scoring de crédit :
Des systèmes d'IA d'attribution de crédit ont été documentés comme défavorisant des clients habitant dans certains quartiers — reproduisant des logiques de redlining historique (pratique discriminatoire de la banque américaine du 20e siècle).

Cas 4 — Les assistants vocaux :
Les assistants vocaux (Siri, Google Assistant, Alexa) comprennent mieux les accents de certaines régions que d'autres, et mieux les voix masculines que féminines dans certaines langues — en raison de déséquilibres dans les corpus audio d'entraînement.

Partie 3 — Peut-on éliminer les biais ? (15 min)

La réponse courte : Non. Mais on peut les réduire, les identifier, les atténuer.

Pourquoi c'est impossible à 100% : - Toute donnée d'entraînement est une sélection. Toute sélection a des angles morts. - L'"objectivité" mathématique d'un algorithme cache des choix humains (quelles données ? quel objectif ? quelle métrique de succès ?). - Il n'existe pas de consensus universel sur ce qui est "juste" dans tous les contextes.

Ce qui peut être fait : - Audits des modèles par des équipes indépendantes et pluridiversifiées. - Représentation de la diversité dans les équipes de développement. - Obligation de transparence (AI Act européen l'impose pour les "systèmes à haut risque"). - Feedback utilisateurs et mécanismes de signalement.

Message de clôture :
"Un outil n'est jamais neutre. Il porte les traces de qui l'a fait, avec quelles données, pour qui. La bonne posture n'est pas de refuser l'outil parce qu'il est biaisé — c'est de nommer le biais, de comprendre son impact, et de choisir en connaissance de cause."

📌 Ressources formateur

Slide avec 4 origines des biais (schéma visuel)
Exemples préparés dans un document partageable

📚 Sources mobilisables en formation

Buolamwini, J. & Gebru, T. (2018). Gender Shades. MIT Media Lab. gendershades.org
O'Neil, C. (2016). Weapons of Math Destruction. Crown.
AI Act (EU) 2024 — systèmes à haut risque, Article 10 (données d'entraînement).
CNIL (2023). Biais et discrimination dans les algorithmes. cnil.fr