À l’heure où l’intelligence artificielle générative s’impose dans nos vies professionnelles et personnelles, comprendre ce risque a son importance. Ce qui est un outil puissant aujourd’hui pourrait perdre tout son intérêt si nous n’y prenons pas garde.
Qu’est-ce que la consanguinité de l’IA ?
Pour comprendre, il faut se rappeler comment fonctionne un grand modèle de langage (LLM) comme ChatGPT. Ces systèmes ont été entraînés sur d’immenses corpus de textes collectés sur Internet : articles, livres, forums, blogs, publications scientifiques, etc. Ce sont ces milliards de contenus rédigés par des humains qui donnent richesse et capacité à une IA. Le problème survient lorsque, génération après génération, ces modèles sont réentraînés sur du contenu déjà produit par d’autres modèles d’IA. Autrement dit, l’IA apprend à partir d’elle-même. C’est comme photocopier une photocopie : au début la perte de qualité est subtile, mais au fil des itérations, les détails s’estompent et l’image devient floue. Les chercheurs de l’Université d’Oxford, en 2023, ont montré ce mécanisme dans une étude intitulée « The Curse of Recursion ». Ils ont démontré que lorsqu’un modèle est réentraîné à plusieurs reprises sur ses propres sorties, il perd progressivement la capacité à générer des cas rares et atypiques mais essentiels à la richesse du langage.
Est-ce un problème pour nous, utilisateurs d’IA ?
Nous pourrions croire que ce problème ne concerne que les data scientists qui entraînent des modèles à grande échelle. Pourtant, ces effets touchent déjà tout le monde. Lorsqu’une IA « recycle » trop ses propres productions, elle tend à uniformiser ses sorties. Les textes deviennent fades, interchangeables, incapables d’apporter de la nuance. Les images convergent vers des styles répétitifs, comme cette dom…