L'IA révolutionne les dictionnaires : 7 000 langues bientôt documentées grâce aux modèles génératifs

Google, l'Académie française et le MIT s'allient pour créer le plus grand dictionnaire multilingue de l'histoire. Les modèles de langage permettent désormais de documenter des langues en danger de disparition en quelques semaines.

Par Rédaction OrChair ·

La lexicographie entre dans une ère de rupture. En mars 2026, Google DeepMind a dévoilé « LexiGen », un modèle de langage spécialisé capable de générer des entrées de dictionnaire complètes — définitions, étymologies, exemples d'usage, registres — pour n'importe quelle langue à partir d'un corpus de seulement 10 000 phrases. La prouesse technique repose sur un apprentissage par transfert multilingue entraîné sur 400 langues et affiné par des linguistes natifs. Le projet, baptisé « Universal Dictionary Initiative », vise à documenter les 7 168 langues vivantes recensées par Ethnologue d'ici 2030. (Source : Google DeepMind, Ethnologue)

L'urgence est réelle. Selon l'UNESCO, une langue disparaît toutes les deux semaines. Sur les 7 168 langues parlées dans le monde, 3 045 sont considérées comme en danger, et 573 sont « critiquement menacées » — ce qui signifie que seuls quelques locuteurs âgés les maîtrisent encore. Jusqu'à présent, documenter une langue exigeait des années de travail de terrain par des linguistes spécialisés. Avec LexiGen, la phase d'amorçage — création d'un vocabulaire de base de 15 000 entrées — peut être réalisée en six semaines, à condition de disposer d'enregistrements audio et de transcriptions minimales. (Source : UNESCO Atlas des langues en danger)

L'Académie française, institution traditionnellement méfiante envers la technologie, a surpris en annonçant un partenariat avec le MIT Media Lab pour intégrer l'IA dans la neuvième édition de son Dictionnaire. Le projet ne vise pas à remplacer les académiciens mais à les outiller : l'IA analyse 28 milliards de mots issus de corpus francophones contemporains — réseaux sociaux, podcasts, publications scientifiques — pour identifier les néologismes, les évolutions sémantiques et les emprunts. En 2025, le système a détecté 4 200 nouveaux usages, dont 340 ont été retenus par la Commission du Dictionnaire. (Source : Académie française, MIT Media Lab)

Les applications commerciales se multiplient. La startup berlinoise Langify, levée de fonds de 85 millions d'euros en janvier 2026, propose aux entreprises un service de terminologie multilingue en temps réel : un terme technique créé en anglais est instantanément traduit, défini et contextualisé dans 120 langues avec une précision que la société revendique supérieure à 97 %. Airbus, Siemens et l'OMS figurent parmi ses premiers clients. Le modèle menace directement les éditeurs traditionnels de dictionnaires bilingues, dont le chiffre d'affaires a chuté de 45 % depuis 2020. (Source : TechCrunch, Langify)

La question éthique demeure : qui définit une langue ? Les dictionnaires ont toujours été des instruments de pouvoir, codifiant certains usages et en excluant d'autres. Confier cette codification à des algorithmes entraînés sur des corpus massifs risque de renforcer les biais dominants — l'anglais représente encore 56 % des données textuelles mondiales. Les linguistes du programme Endangered Languages Project insistent sur la nécessité d'une gouvernance communautaire : ce sont les locuteurs natifs, et non les ingénieurs de la Silicon Valley, qui doivent valider les entrées de dictionnaire. L'IA est un outil, pas un oracle — et la diversité linguistique est un patrimoine trop précieux pour être confié aux seuls algorithmes. (Source : Endangered Languages Project, Nature Human Behaviour)