Leonard Orban, membre de la Commission chargé du multilinguisme, a déclaré: «Cette initiative de la Commission européenne vise à dynamiser les technologies liées au langage humain, à favoriser le multilinguisme et à rendre la traduction assistée par ordinateur plus facile, moins chère et plus accessible. Les citoyens appartenant aux communautés linguistiques les plus petites pourront accéder plus facilement aux documents et aux pages web qui ne sont disponibles que dans les langues les plus utilisées.»
Selon Janez Potočnik, membre de la Commission chargé de la science et de la recherche, «ce corpus unique de données linguistiques contribue à l’apparition d’une nouvelle génération d'outils logiciels pour le traitement du langage humain et aide à renforcer la compétitivité du secteur des langues, qui est déjà l’un des secteurs connaissant la croissance la plus rapide dans l’Union européenne.»
Les institutions de l'UE possèdent un nombre de textes multilingues plus important que n’importe quelle autre organisation du fait de l’obligation de traduire le droit communautaire dans chacune des 23 langues officielles. Leurs services de traduction travaillent avec 253 combinaisons de paires de langues potentielles et traduisent environ 1,5 million de pages par an.
S’il existe de nombreuses traductions de textes anglais ou français sur l’internet, les ressources sont plus rares pour des langues comme le letton ou le roumain et elles sont pratiquement inexistantes pour les combinaisons de deux langues pour lesquelles peu de ressources existent.
La Commission publie donc, grâce à la coopération de ses traducteurs et de ses chercheurs en interne, un vaste corpus de phrases extraites de documents juridiques couvrant les domaines technique, politique et social, disponibles en 22 langues. Dans ce recueil de traduction, il est possible de trouver des phrases et leur équivalent dans toutes les autres langues officielles. Seules les traductions en gaélique ne sont pas encore disponibles. La publication de ces données linguistiques constitue un bon exemple de la politique transparente menée par la Commission pour la réutilisation de ses informations et suit l’ouverture au public des bases de données documentaires et terminologiques de l’Union européenne, Eur-Lex et IATE.
La Commission possède une vaste expérience dans le développement d’outils pour le traitement de textes multilingues et se trouve à l’avant-garde du multilinguisme, en offrant au public la possibilité de rechercher des articles de presse dans 35 langues sur son site European Media Monitoring. Le volet «Technologies de l’information et de la communication» du 7e programme-cadre de recherche et de développement soutient la recherche sur la traduction automatique et sur d’autres technologies liées au langage.
- Pour de plus amples informations sur les données de traduction, voir: http://langtech.jrc.it/DGT-TM.html
- Le European Media Monitor est disponible à l’adresse suivante: http://emm.jrc.it/overview.html