IA : Les données, carburant de l’IA

Après la présentation générale de ce qu’est le Machine Learning (ML), on s’approche de ce qui fait le « carburant » d’une IA : les données (la data). Cela amène des enjeux techniques, éthiques, financiers… et surtout une attention particulière à ce qu’elle peut produire sur l’IA.

Datasets ?

Les données (ou Datas en anglais, ou encore Datasets pour « jeu de données ») sont ce qui va servir à l’entrainement d’une IA. Comme vu précédemment, l’entraînement consiste, en somme, à utiliser un algorithme à appliquer aux données pour permettre la création d’un modèle mathématique. Ce modèle (ou IA) va donc représenter les liens logiques entre les données pour être utilisé, lorsqu’on le voudra, afin de prédire une information selon un jeu de donnée incomplet.

> L’exemple de l’analyse du cancer du sein

Dans cette exemple, le modèle a été entrainé à partir d’image de radiographie. Certaines révélaient un cancer (l’information était indiqué dans le jeu de donnée fournit) ou pas. Une fois entrainé, il est donc possible d’utiliser l’IA en lui fournissant une image de radiographie pour qu’elle prédise s’il est lié ou pas à la présence d’un cancer. Cette technique a permit notamment de prévoir l’arrivée/suspicion de cancer plusieurs années à l’avance par rapport à la seul observation d’un médecin.

On comprend bien qu’il faut donc énormément de données pour permettre à l’IA d’affiner sa prédiction. C’est un peu comparable au mécanisme humain de l’intuition : nos expériences la forge, sans qu’on puisse précisément déterminer quel élément individuellement à influencer notre intuition ; plus on a d’expérience, plus notre intuition sera pointue.

Mais on comprend aussi que détecter un cancer alors qu’il n’y en a pas peut être chose grave, mais peut-être moins que de ne pas en détecter alors qu’il y en a un. C’est pour ça que l’apprentissage doit être surveillé : les liens logiques inhérents à l’IA sont souvent perçus par l’humain comme « une boîte noire », c’est à dire qu’on ne sait pas toujours avec évidence ce qui a amené à l’erreur. Il est donc important de comprendre ce qui peut amener une IA à se tromper.

Les biais

A la même manière d’une intuition forgé par les expérience, une expérience traumatisante peut tromper notre intuition : on va voir des risques là où il n’y en a normalement pas par exemple. Dans l’IA on va parler de Biais : les données utilisées induisent en fait l’IA en erreur.

> L’anecdote du recrutement chez Amazon

Une anecdote répandu circule à ce sujet qui illustre parfaitement cela. Amazon a eu à utiliser un temps une IA pour trier les CVs pour un poste de Directeur(rice). Cette IA a donc été entrainée sur tous les profils de directeur(rices) existants, pour identifier plus rapidement les profils potentiellement intéressant en établissant des liens logiques entre paramètres (compétence, âge, situation familial, localisation, années d’expérience etc) et résultat (probabilité d’un bon profil). Malheureusement l’IA ne présentait aucun profil féminin. Pourquoi ? La raison est que les personnes en place à des postes de directions sont majoritairement des hommes. Ainsi, l’IA est partis du biais que le profil idéal est en partie lié au genre « masculin », mettant de côté des profils de femme.

Les anecdotes sur le sujet sont nombreuses et révèlent simplement une chose : la responsabilité est forte chez l’humain dans la sélection, le traitement, le nettoyage, l’uniformisation, la validation (etc.) des données à fournir à l’IA ainsi que pour le paramétrage du modèle. C’est pour ça qu’il existe autant de métier dédié à cet aspect : Data Analyst, Data Scientist, Data Engineer etc.

Hallucinations

Un autre élément à surveiller : les risques d’Hallucination. Les hallucinations sont décrites ça et là de différentes manières, et on les associe souvent aux Chatbots (les IA conversationnelles, entrainées sur le langage humain).

Ces IA ayant pour objectif de simuler les conversations humaines en proposant la réponse la plus probable selon une base de donnée présente, un comportement constant se révèle : une propension à affirmer, de façon évidente et certaine, les éléments de réponses fournis. C’est la façon de répondre la plus communément utilisée.

Toutefois dans le cas où l’IA contient des données erronées, obsolètes, où la question de l’utilisateur a été mal interprétée, où la source de donnée utilisée a été confondue avec une autre, ou encore lorsque les algorithmes qui conduisent l’IA à créer une réponse cohérentes sont peu pertinents, on assiste à des affirmations erronées, pourtant déclamée dans la plus grande assurance.

> Les oeufs de vaches

Au début de ChatGPT (et dernièrement pour les début de l’IA Lucie), il était commun de trouver des utilisateur tentant de révéler « l’illusion d’intelligence de l’IA ». Des personnes ingénieuses (ou assez connaisseuses des processus interne) ont donc imaginé des prompt tel que « Pourquoi les oeufs de vache sont plus gros que les oeufs de poules ? » ce à quoi le chatbot répondait une réponse du type « car la vache est plus grande que la poule« . La prédiction du mot suivant se faisait, sans nécessairement vérifier la « véracité » des propos précédent, rendu la réponse évidemment hors sujet.

Les premiers modèles de Langage étant assez simplistes, il n’y avait en effet pas de mécanismes de contrôles  » sémantiques  » de l’entrée saisie/retournée. Ainsi, ces aberrations, hallucinations, pouvaient se produire facilement. A l’heure actuelle, les modèles de langages sont assez avancés pour introduire une analyse lexicale, sémantique et syntaxique, ce qui permet à l’IA de déceler les sources d’erreurs. Mais les hallucinations existent : elles sont simplement moins évidentes et demandent donc de toujours doubler l’affirmation/la déduction d’une IA d’une confirmation humaine.

Les données sont le cœur du problème de l’IA. L’IA n’est qu’une technique/invention nouvelle permise par la puissance de calcul d’aujourd’hui et la démocratisation du concept via chatGPT. Ce qui est à craindre provient de la donnée (en la négligeant) et des intentions humaine derrière (copier des œuvre d’art, créer des deepfake etc.).
Dans le dernier article sera évoqué les infrastructures pour gérer ces données pour l’IA.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *