[Article issu de la Newsletter] Vous pouvez désormais utiliser Google Traduction en wolof, fon, kikongo, nko, luo, ga, swati, tamazight ou venda, parmi beaucoup d’autres langues.
Au total, Google a annoncé l’ajout de 110 langues dans son outil de traduction, dont un quart de langues africaines. Cette expansion, la plus large de l’histoire de Google Trad, “permet de toucher à peu près 600 millions de personnes”, estime Abdoulaye Diack, responsable de projet chez Google AI à Accra au Ghana, dans les colonnes de RFI.
La clé de cette mise à jour historique : la combinaison de l’algorithme de machine learning Zero-Shot et du grand modèle de langage (LLM) maison de Google, PaLM 2.
Pour comprendre l’importance de l’IA dans la traduction automatique, revenons aux fondamentaux. Pour faire de la traduction, il faut en général des données parallèles venues à la fois de la langue source et de la langue cible. Un processus qui est relativement aisé pour des langues très documentées, voire très présentes sur internet, mais un vrai défi pour des langues principalement orales ou avec un corpus hors ligne et en ligne extrêmement réduit. C’est là où Zero-Shot entre en jeux, permettant à un modèle de machine learning de traduire dans une autre langue sans jamais en voir d’échantillon.
Pourtant, encore une fois, cette méthode a des limites. Limites qui ont été en parties dépassées, estime Abdoulaye Diack, grâce aux LLM, et notamment à PaLM 2. “Par rapport à nos précédents modèles, PaLM 2 est particulièrement efficace pour l’apprentissage de langues étroitement liées les unes aux autres”, explique Google dans un billet de blog. Ce qui permet d’améliorer la compréhension du modèle dans une langue grâce à une autre langue, qui lui est proche.
Récemment, PaLM 2 a été entraîné sur plus de 400 langues, ce qui a permis à Google de proposer des traductions entre langues qui ont très peu de liens, voire qui n’ont même pas été entraînées ensemble – le tibétain et le wolof, par exemple.
Mais les machines ne font pas tout. En plus de l’IA, les équipes de recherche de Google s’appuient beaucoup sur des universitaires et locuteurs locaux, notamment en Afrique.
“Nous travaillons avec les communautés [et] des universités, pour qu’elles puissent ouvrir des données à tout le monde, et que n’importe qui dans l’écosystème puisse construire et entraîner des modèles d’IA et construire des applications qui seront utiles à la population, explique Abdoulaye Diack sur le site de RFI. Nous travaillons par exemple avec l’université du Ghana sur un projet depuis presque deux ans.”
D’ailleurs, le géant de Mountain View ne compte pas s’arrêter là. Cette mise à jour s’inscrit en fait dans la “1000 Languages Initiative”, un engagement annoncé en 2022 à construire des modèles d’IA qui prendront en charge les 1000 langues les plus parlées dans le monde.