Alors que les initiatives Open Source sont toujours d’actualités, Google et Microsoft ont tous deux décidé d’ajouter la langue Odia de l’Inde à leurs logiciels de traduction automatique respectifs, cette année – Google Translate en février et Microsoft un peu plus tôt le 13 août.
Odia est la langue officielle de l’Etat indien d’Odisha et la deuxième langue officielle de l’Etat de Jharkhand. Elle est parlée par environ 35 millions de locuteurs natifs et comme seconde langue par environ 4 millions de personnes. C’est également une langue classée par le gouvernement indien comme l’une des langues classiques du pays sur la base d’un ensemble de critères qui comprend une tradition littéraire de plus de 1500 ans.
Cependant, l’Odia affiche une présence limitée sur internet. Odia Wikipedia, l’un des plus grands références en matière de contenu textuel, ne compte actuellement que 15 858 articles alors qu’il a été mis à jour en 2011 après avoir été interrompu pendant 9 ans. En revanche, le Malayalm, une langue parlée par à peu près le même nombre de locuteurs que l’Odia, possède environ 70 000 articles sur Wikipédia. Le contenu sur l’Odia est essentiellement disponible sous forme d’images et de PDF. Certains documents de très longues dates comprennent des magazines du gouvernement d’Odisha, édité par Utkal Prasanga. Ce dernier continue de publier une combinaison d’images et de PDF à ce jour. Mais l’adoption tardive d’Unicode a rendu ce contenu moins accessible.
La traduction automatique contribue de manière significative à accroître la présence numérique des langues en rendant le contenu plus accessible aux non-locuteurs.
Les services Cloud gérés par Microsoft, notamment Microsoft Translatorapp, Office, Translator for Ring et Azure Cognitive Services Translator, prendront désormais tous en charge les traductions d’Odia. Microsoft Translator et Google Translate (disponibles à la fois sur le web et en tant qu’application) permettent la traduction du texte copié directement dans le champ dédié.
De plus, ces plateformes prennent également en charge la traduction de documents texte de sites web et de chats en direct. L’application mobile Google Traduction dispose de fonctionnalités supplémentaires, notamment la traduction hors ligne, la reconnaissance de l’écriture manuscrite, la numérisation, la traduction et la lecture de texte à partir d’images ainsi que l’utilisation de la commande vocale pour parler à un locuteur de langue étrangère. Une fonctionnalité appelée « Tap to translate » permet à un utilisateur de traduire directement un texte saisi dans n’importe quelle application. On peut également écouter la prononciation d’une langue grâce à la synthèse vocale de Google.
L’ajout d’Odia a été salué par le gouvernement de l’Etat d’Odisha. Sur Twitter, le cabinet du ministre en chef d’Odisha a déclaré en août 2020 :
« #OdiaTranlsation a désormais été ajouté par @Microsoft à son @mstranslator, et devient ainsi la 12e langue indienne couramment utilisée à intégrer le logiciel. Cela va faciliter l’accès aux informations internationales dans #Odia et favorisera les interactions entre les différentes langues. »
En février 2020, le Département de l’électronique et des technologies de l’information du gouvernement d’Odisha a également déclaré :
« Utilisé par des millions de personnes dans le monde, @GoogleTranslate a désormais ajouté #Odia à la liste des langues prises en charge. C’est une étape majeure vers la promotion de la littérature numérique dans notre langue maternelle et pour aider des millions de non-locuteurs à l’adopter. »
Avec l’ajout d’Odia, Google Translate et Microsoft Translator prennent désormais en charge 11 langues indiennes. Au total, Google prend en charge 109 langues du monde tandis que Microsoft en supporte environ 73.
En même temps, les initiatives Open Source n’ont pas encore réussi à développer des projets de traduction automatique dans Odia. Le plus connu des projets menés par la communauté concerne MTEnglish2Odia, un logiciel de traduction automatique qui permet de collecter des fichiers de traductions à partir de sources existantes comme Wikipédia en langage Odia ainsi que le crowdsourcing à partir des contributions des utilisateurs de Twitter.
En outre, certaines recherches et ressources peuvent être utilisées par d’autres organisations pour créer des logiciels de traduction automatique.
La politique de la traduction automatique
La technologie utilisée par Google Translate ou Microsoft Translator est complexe du point de vue social, juridique, éthique et des droits. Une plateforme de traduction automatique peut être d’une grande utilité pour la plupart, y compris les journalistes qui pourront alors accéder rapidement aux actualités dans plusieurs langues. De la même façon, cela faciliterait l’accès des étudiants à des ressources multilingues.
L’aide à la synthèse vocale permet d’aider les personnes handicapées, en particulier celles qui ont un problème lié à la cécité, à accéder et partager plus facilement des informations. L’éducation, les médias et l’industrie du divertissement profitent également du potentiel de Google Translate pour la traduction de grandes quantités de contenu en un délai court.
D’un autre côté, la traduction automatique peut contribuer à répandre la désinformation, tandis que la synthèse vocale facilite les fraudes et toutes autres formes d’arnaques, car ils vont communiquer avec eux dans leur langue.
Plus de 6 000 langues sont actuellement documentées dans le monde, et seule une minorité d’entre elles ont établi des systèmes d’écriture. Ce sont notamment les langues qui peuvent être incluses dans les projets de traduction automatique tels que Google Translate et Microsoft Translator.
La disponibilité du contenu en ligne, ainsi que le nombre d’internautes qui parlent une langue donnée, sont des facteurs majeurs que les entreprises à but lucratif utilisent pour décider des langues à inclure dans leurs systèmes. Plus une entreprise prend en charge de langues, plus elle peut proposer du contenu ciblé aux utilisateurs et plus elle génère des revenus grâce aux publicités.
En outre, il existe des questions d’éthiques d’attribution et de rémunération dans des projets comme Google Translate, qui dispose d’une structure de communauté de contributeurs qui examinent les traductions existantes (ce qui aide les ingénieurs à améliorer régulièrement l’outil). Bien que Google soit une entreprise à but lucratif, comptant de nombreux services payants – y compris un service de traduction dans le Cloud, ni les bénévoles individuels ni les nombreuses sources publiques n’en tirent profits directement.
L’utilisation de communications privées pour améliorer l’apprentissage automatique et l’intelligence artificielle est également controversée du point de vue de la confidentialité – bien que Google s’efforce de rendre ces données anonymes.
Dans un pays comme l’Inde, où la création de contenu multilingue se heurte à des problèmes majoritairement liés aux coûts, des produits tels que Google Translate et Microsoft Translator peuvent pratiquement révolutionner l’économie du contenu. Ces outils peuvent faire la différence à côté des projets comme Wikipédia, qui existe actuellement dans 23 langues indiennes, ou encore StoryWeaver, une plateforme multilingue de littérature en ligne pour enfants qui repose essentiellement sur le travail de bénévoles.
Avec la disparition rapide de nombreuses langues indiennes, le défi supplémentaire de l’analphabétisme et de l’accessibilité numérique, le monde des communications a besoin de plus d’innovations en matière de technologies vocales et visuelles. La traduction automatique peut être un outil viable pour éviter l’extinction des langues. Mais en Inde, il reste encore beaucoup à faire.