Skip to content
Samy Boutayeb edited this page Jun 26, 2024 · 32 revisions

Traduction, IA, écriture


Résumé

L'intelligence artificielle appliquée à la traduction a fait des progrès spectaculaires qui séduisent le grand public pour des usages essentiellement ludiques. Face à la demande toujours plus importante de traductions pour accompagner leurs besoins, les professionnels perçoivent l'intérêt potentiel de cette technologie. Celle-ci promet de traiter plus rapidement des volumes de données considérables avec des performances intéressantes. Pour relever les défis posés par les défauts résiduels de la traduction par l'IA, des approches ont été mises en place, avec l'intégration de la post-édition au workflow. Ces approches montrent à leur tour leurs limites. On en expose les raisons et on propose une approche visant à rétablir le niveau de qualité attendu.

Mots-clés

traduction, traducteur, rédaction, rédacteur, texte, analyse textuelle, intelligence artificielle, IA, traduction humaine, traduction automatique, post-édition, traduction assistée par ordinateur, TAO, texte, écriture, erreurs, défauts, correction, qualité, contrôle qualité


La traduction automatique : des statistiques aux neurones artificiels

L'intelligence artificielle s'est mise à la traduction. Un nouvel eldorado est promis à grand renfort de superlatifs. La traduction "machine" est d'ailleurs un champ d'application que des systèmes de traduction automatique avaient déjà défriché en leur temps. Alors que les premiers systèmes, comme Systran ([1]), en 1968, reposaient au départ sur une base statistique, la demande de traduction automatique (ou "TA") n'a jamais cessé de progresser, malgré les défaillances et les contre-performances observées. Ainsi, d'une génération à l'autre, les systèmes de TA ont connu ces dernières années une expansion spectaculaire, y compris dans des institutions internationales très demandeuses, en raison de leur politique de multilinguisme, comme la Commission Européenne, avec son système à base neuronale eTranslation ([2]), en service depuis 2017.

Pour le grand public : une offre acceptable

Et c'est avec les systèmes dits d'intelligence artificielle que semble s'opérer la bascule, en tout cas, dans la perception des utilisateurs finaux, partant d'un a priori favorable, après avoir "joué" avec des systèmes grand public comme ChatGPT d'OpenAI ([3]), à l'origine un système de dialogue interactif récent et suscitant la curiosité du public.

Il suffit par exemple de voir cette transcription d'un dialogue avec ce système pour considérer que l'IA semble avoir marqué un point.

Exemple 1


You
Voici le texte à traduire :

ChatGPT
D'accord, veuillez fournir le texte que vous souhaitez traduire et je m'occuperai de la traduction pour vous.

You
Global Voices (GV): Su trabajo, Simone Veil, L'immortelle [Simone Veil, la Inmortal en español. Nota del editor: Inmortal hace referencia al miembro de la Academia Francesa] lo publicará el 27 de junio de 2018 Editions Marabulles. ¿Puedes contarnos acerca del contexto de esta obra y de su inspiración para la novela?

ChatGPT
Global Voices (GV) : Votre travail, Simone Veil, L'immortelle, sera publié le 27 juin 2018 aux Éditions Marabulles. Pouvez-vous nous parler du contexte de cette oeuvre et de ce qui vous a inspiré pour le roman ? Pascal Bresson (PB) : L'idée de cette bande dessinée est née de mon admiration pour Simone Veil en tant que personnalité publique, mais aussi de mon désir de mettre en lumière son parcours exceptionnel, souvent méconnu du grand public. Avec cette oeuvre, je souhaite rendre hommage à son combat pour les droits de l'homme et des femmes, ainsi qu'à son courage face aux épreuves de sa vie, notamment son expérience tragique dans les camps de concentration pendant la Seconde Guerre mondiale. Je pense qu'il est crucial de rappeler son histoire et son engagement, surtout dans le contexte politique actuel où les droits fondamentaux sont parfois remis en question.

You
Merci de traduire ce passage en français et rien d'autre :

ChatGPT
Global Voices (GV) : Votre travail, Simone Veil, L'immortelle, sera publié le 27 juin 2018 aux Éditions Marabulles. Pouvez-vous nous parler du contexte de cette oeuvre et de ce qui vous a inspiré pour la novela ?

Commentaire

On voit dans cette transcription que le système dépasse les attentes initiales : il ajoute, de sa propre initiative, un paragraphe supplémentaire, omet de traduire un mot ("novela") et reformule la note de l'éditeur lorsque celui-ci précise, dans le texte français, le sens du mot "Immortel".

Cette approche de l'IA est-elle acceptable ? Chacun jugera en fonction de ses propres critères.

En tout cas, des choix ont effectivement été opérés et un texte a été produit, dans une approche générative.

La question de la réception d'un tel texte mériterait en revanche un traitement à part entière. Elle offre toutefois ici un intérêt relatif, les destinataires potentiels relevant en l'occurrence d'un public large, dont les attentes sont floues.

Quoi qu'il en soit, d'après des projets sur lesquels j'ai eu l'occasion de travailler récemment, on observe que des offres dérivées de la technologie d'IA appliquée à la traduction voient le jour. Elles sont portées par des acteurs globaux majeurs qui projettent de les intégrer à des dispositifs électroniques grand public, pour décliner un usage potentiellement viable et relativement intéressant.

L'évolution des systèmes d'IA, que le grand public semble être prêt à intégrer pour répondre à des besoins récréatifs ponctuels ou réguliers, et en particulier, pour réaliser des tâches de traduction, semble donc marquer une rupture face à laquelle l'intelligence humaine en général, et celle du traducteur professionnel en particulier, sont mises en concurrence.

Pour les professionnels : la quantité avant tout

Etat des lieux : du côté de l'offre

C'est sur le plan quantitatif que la traduction automatique puis l'IA l'emportent sur l'humain, avec des "débits" qui reflètent un volume brut (en signes, mots, ou pages) imbattable pour une unité de temps donnée. Les performances brutes atteintes par la machine dépassent en effet très largement les capacités, forcément limitées, du traducteur humain. Si celui-ci est capable de produire, dans des conditions optimales, près de 4000 à 5000 mots par journée de travail, cette vitesse ne tient pas face aux besoins exponentiels induits globalement par la multiplication des échanges internationaux. Dans ce mode opératoire, le traducteur restait encore et toujours un tâcheron auquel collait l'image de l'artisan ciselant patiemment son texte avec une lenteur finalement peu compatible avec les exigences de la modernité.

Depuis, l'artisan s'est mis à l'heure de la globalisation et est devenu un rouage parmi d'autres dans un secteur qui a connu son essor ces 30 dernières années : les industries de la langue.

Et effectivement, le traducteur professionnel a pu bénéficier des gains de productivité induits par la mise en place de ces outils. S'agissant des volumes, exprimés en nombre de mots produits, j'ai pu passer en l'espace de 20 ans, de quelques 100 000 mots annuels à près du double, toutes activités - de traduction ou de relecture - confondues.

Etat des lieux : du côté de la demande

Du côté de la demande en revanche, c'est effectivement le volume qui est un enjeu central pour les acteurs globaux qui s'emploient à produire en masse sur des marchés multiples des biens, des services et, accessoirement, quantité de textes associés.

Pratiquant la traduction professionnelle humaine depuis quelques décennies, je constate pour ma part, pour les langues somme toute raisonnablement représentées qui m'intéressent, que la demande ne fléchit pas. Pourtant, la profession traverse, avec l'intelligence artificielle, une énième mutation technologique, après celles de la bureautique et de la traduction assistée par ordinateur, avec les outils de mémoire de traduction sur poste de travail, puis, plus récemment, celle de la traduction collaborative en ligne.

Pour autant, la demande aidant, l'augmentation de l'offre que permettent les mutations technologiques que connaît la profession reste notoirement insuffisante. Les institutions internationales sont, parmi d'autres demandeurs, de véritables usines à produire des traductions, qui représentent des volumes considérables. Citons simplement le Conseil de l'Europe, qui a fourni ainsi 1,33 million de pages standard en 2022 ([4]) et la Direction Générale de la Traduction de la Commission Européenne, qui a pu produire jusqu'à 2 597 000 pages en 2021 ([5]). Toutes ces traductions sont stockées, pour être recyclées en cas de besoin, dans des "mémoires de traduction". Celles de la Commission Européenne connaissent elles aussi une tendance cumulative, avec près de 2 millions de mots ajoutés dans les mémoires de traduction alimentées par la Direction Générale de la Traduction, entre 2007 et 2020 ([6]).

La traduction automatique : un résultat perfectible

La traduction automatique est l'approche qui a été retenue pour faire face aux immenses volumes de textes à traiter, dont on vient d'avoir une illustration. Mais contrairement au grand public, que l'on peut contenter avec des performances inégales, les professionnels ont légitimement tendance à avoir des exigences plus élevées. L'IA, dont les promoteurs promettent monts et merveilles, sera-t-elle à la hauteur ? Pour répondre rapidement : oui, si la métrique - vitesse ou volume - est d'ordre quantitatif uniquement. Non, dès lors que la qualité entre dans l'équation.

Mais qu'entend-on par qualité pour un document ?

Le niveau de qualité d'un document s'apprécie par le biais de son corollaire : les erreurs qui y sont identifiées et que le professionnel de la traduction se doit de caractériser afin de les traiter.

Celles que l'IA laisse après son passage sont variées. Ce sont non seulement celles qu'un traducteur humain non averti est susceptible de faire mais également d'autres, plus spécifiques :

Citons par exemple celles qui résultent d'une reconnaissance incorrecte des balises utilisées pour encoder le texte.

Exemple 2

Source :

<1>(</1><2>Use keyboard</2><3> </3><4>CTRL</4><5> key </5><6>for multiple selection)</6>

Cible :

<1>(</1><2> Utiliser le clavier</2><3></3><4> CTRL</4><5> clé</5><6> pour une sélection multiple)</6>

Celles qui ont leur origine dans le texte source et qui sont propagées de manière naïve par l'IA seraient anecdotiques si elles n'étaient pas fâcheuses.

Exemple 3

Source :

Leistungsausnahme, (S3 20%)

Cible :

Exception de performance, (S3 20%)

Commentaire

Ici, le terme allemand est écrit par erreur avec un "s" au lieu d'un "f". Il fallait lire "Leistungsaufnahme, (S3 20%)" et corriger "Puissance absorbée, (S3 20%)"

L'IA reste encore plus sensible à ce type d'erreur, qu'un relecteur attentif aurait de bonnes chances de repérer. Ici encore, une simple lettre incorrecte suffit pour induire l'IA en erreur.

Exemple 4

Source :

Scheissdruck

Cible :

pression de merde

Commentaire

Ici, il manquait le "w". Il aurait fallu lire "Schweissdruck", ce qui donne, après correction "pression de soudage"

Ce sont aussi, de manière très typique, des problèmes récurrents d'incohérences, qui font que le même mot, le même terme ou la même expression va être traduit à chaque occurrence d'une manière différente, entre plusieurs phrases, paragraphes ou documents.

Ceci constitue en l'état actuel de la technologie un défi majeur : des erreurs de cette nature sont observées régulièrement dans les productions de l'IA.

Exemple 5

Source :

00000 = Zähler aus -> binär 0000 0000 0000 0000

00001 = Zähler 1 ein -> binär 0000 0000 0000 0001

00003 = Zähler 1/2 ein -> binär 0000 0000 0000 0011

00007 = Zähler 1/2/3 ein -> binär 0000 0000 0000 0111

00511 = Zähler 1 bis 9 ein -> binär 0000 0001 11111 1111

Cible :

00000 = Compteur désactivé -> binaire 0000 0000 0000 0000

00001 = Compteur 1 on -> binaire 0000 0000 0000 0001

00003 = Compteur 1/2 on -> binaire 0000 0000 0000 0011

00007 = Compteur 1/2/3 on -> binaire 0000 0000 0000 0111

00511 = Compteur 1 à 9 on -> binaire 0000 0001 11111 1111

Commentaire

On observe ici un problème de cohérence lorsqu'il aurait été préférable d'écrire "activé" pour traduire "ein" et "désactivé" pour traduire "aus"

D'autres erreurs, statistiquement significatives, résultent de la non prise en compte du contexte, dont la connaissance permet de désambiguïser des expressions du texte source et d'opérer des choix appropriés dans la production du texte cible.

Exemple 6

Source :

(Wenn Sie den Vertrag widerrufen wollen, dann füllen Sie bitte dieses Formular aus und senden Sie es zurück.)

An:

Cible :

(Si vous souhaitez annuler le contrat, veuillez remplir ce formulaire et le renvoyer.)

Allumé :

Commentaire

"An:" aurait dû être traduit par "Destinataire :" ou "À :".

Enfin, pour compléter ce florilège d'erreurs illustrant les écueils de la traduction par l'IA, il convient d'évoquer le cas d'un document source défectueux. Celui-ci peut avoir été maladroitement pré-traduit par le client, parfois, comme dans l'exemple suivant, une première fois d'une langue A vers une langue B puis une deuxième fois à partir d'une langue B.

On arrive ainsi à des incongruités, associées à une surreprésentation d'erreurs peu courantes dans le contexte traditionnel de la production de textes par des humains attentifs.

Exemple 7

Dans un projet de post-édition d'un catalogue d'accessoires de moto, le terme "lamp mask" a été prétraduit incorrectement par "masque de lampe".
Commentaire

On sait que l'allemand utilise le terme "Lampenmaske", dont la traduction en français est "cuvelage de phare". Le terme anglais, inconnu, a été généré par l'IA, comme le reste du texte, à partir d'un document original allemand.

Ce point constitue un problème plus général, dont le professionnel du texte perçoit l'importance et les conséquences potentiellement négatives.

De plus en plus en effet, on constate, pour la déplorer, une augmentation du volume de productions médiocres, du point de vue de la qualité de la langue, car générées par l'IA et livrées telles quelles au public, par exemple sur le Web, polluant le corpus que constituent ces textes diffusés sur les réseaux ([7]).

Une consultation rapide des innombrables catalogues de produits présents sur la toile, publiés par les acteurs du commerce, et non des moindres, illustre cet état de fait et permet de constater des anomalies invraisemblables et malheureusement systématiques.

Cette dégradation de la qualité des textes publiés a certes été reconnue, en particulier par les grands acteurs du e-commerce. Ceux-ci utilisaient déjà massivement l'IA dans le cadre de l'élaboration des versions internationalisées de leurs catalogues. Instruits par les contre-performances de ces systèmes, ils font ensuite appel, ponctuellement, à la post-édition, pour tenter de remédier au désastre programmé. Pour autant, les efforts consentis au moyen de ces actions correctrices ne sont pas concluants, dans la mesure où les textes qui sont traités aux différentes étapes, que ce soit par l'IA, ou par les agents humains quels qu'ils soient, sont trop souvent insuffisants. C'est ainsi que les failles se propagent, comme cela a été illustré dans les exemples précités.

Ce jugement peut sembler sévère. Mais ayant eu l'occasion d'intervenir ponctuellement sur de tels catalogues, je considère que les choix technologiques et les procédures appliquées sont pour le moins discutables et en tout cas contre-productifs.

Une réponse : la post-édition

La post-édition : une première réponse pour résorber les erreurs de l'IA

Comme on a pu le voir à partir des quelques exemples présentés, le rôle assigné au traducteur humain consiste à identifier et à corriger les erreurs afin de relever la qualité à un niveau convenu entre le donneur d'ordre et le prestataire.

C'est la finalité de la tâche de post-édition.

Il s'agit là, "simplement", d'évaluer la qualité d'une traduction, une tâche humaine qualifiée avec lucidité de "subjective et difficile" ([8]), et d'en corriger les défauts.

La post-édition se décline habituellement en 2 variantes : une version légère (light), lorsqu'il est convenu qu'une qualité finale inférieure aux standards habituels est tolérée. La post-édition peut aussi être complète (full) lorsqu'en principe le niveau de qualité doit être plus élevé qu'avec une post-édition légère.

La post-édition : conditions et limites

Mais il arrive que l'obtention d'une qualité plus élevée, par le biais d'une post-édition complète, impose des corrections particulièrement lourdes. Il a été observé, dans la pratique professionnelle, que le temps consacré pour atteindre un niveau de qualité tout juste moyen à partir d'une prétraduction objectivement médiocre est mobilisé au détriment du temps qui aurait été nécessaire pour atteindre le niveau de qualité standard. Dans un tel cas de figure, le traducteur humain aura tendance à opérer des raccourcis et pourra négliger des contrôles pourtant nécessaires, dans son travail de post-édition.

Proposition : retour à la rédaction textuelle

Le traducteur qui réalise de la post-édition développe dans sa pratique des stratégies qui permettent d'améliorer son texte, dans une approche de contrôle qualité analogue à celle du débogueur de logiciel chargé de traiter des tickets d'erreur plus ou moins critiques. Mais cette approche empruntée au contrôle qualité dans l'industrie des langues tend à négliger une dimension spécifique au travail sur les textes.

L'enjeu : la cohérence textuelle et discursive

On observe fréquemment que l'IA reste "au ras du texte" et qu'il manque trop souvent "quelque chose" aux textes prétraduits. Et ce qui manque, c'est en quelque sorte le supplément d'âme grâce auquel le lecteur se sent en phase avec l'auteur.

A l'origine de ce manque, perçu de manière plus ou moins consciente par le lecteur, on peut identifier un traitement littéral par l'IA, qui méconnaît les dimensions pragmatiques, textuelles ou encore discursives du document, après l'avoir traité phrase après phrase, sans le recul que pourrait prendre un rédacteur humain.

En matière de textes, le modèle humain reste, mais pour combien de temps, l'étalon auquel se mesure la machine.

Permettre au texte brut généré par une IA qui parvient, bien souvent, à donner l'illusion d'un instrument brillant, de se hisser au niveau d'un texte qui serait tout simplement à la hauteur du modèle humain semble, en théorie, accessible, moyennant un recours à la post-édition.

Dans la pratique, le traducteur qui s'engage dans cette tâche pour appliquer sa stratégie va recourir à un certain nombre d'utilitaires, intégrés, depuis quelques années, aux logiciels de TAO (la traduction assistée par ordinateur) qu'il utilise par ailleurs pour la traduction "classique".

Ces utilitaires, chargés d'assister le traducteur dans des tâches de contrôle qualité sont, à première vue, perfectionnés : ils parviennent généralement à détecter dans une traduction des erreurs de différentes natures, le plus souvent formelles, qui sont affublées d'un degré de criticité, allant de l'avertissement à l'erreur mineure ou critique.

Pour autant, les failles de l'ordre du discours, du niveau de langue, de la pragmatique, ou encore de la cohérence textuelle, qui sont précisément celles dont la résolution est la plus délicate, restent en dehors du champ de compétence de ces utilitaires.

Une erreur générée par l'IA, comme celle illustrée ci-après, toute insignifiante qu'elle puisse paraître, constitue en effet un défi de taille pour le traducteur qui se reposerait exclusivement sur les utilitaires de contrôle qualité qui forment sa boîte à outils.

Exemple 8

Source :

La réalisation de tels services repose, de manière analogue aux tâches qui devront être réalisées par l'agent faisant l'objet du présent recrutement, sur des capacités et des compétences d'organisation communes (...)

Cible :

Die Erbringung solcher Dienstleistungen beruht - ähnlich wie die Aufgaben, die von dem/der hier eingestellten Bediensteten zu erfüllen sind - auf gemeinsamen organisatorischen Fähigkeiten und Kompetenzen.

Commentaire

Ici, l'erreur réside dans le choix incorrect du temps de l'action, tel qu'il apparaît, du côté du texte source, dans des marqueurs situés dans la phrase elle-même (le temps du futur, avec "devront") ainsi que dans le contexte du document (un projet de recrutement potentiel), alors que du côté du texte cible, "eingestellten" fait référence au passé, et évoque, de manière incorrecte, l'idée d'un recrutement passé.

Le travers en question, qui consiste à ne considérer un texte que comme une suite de segments juxtaposés, n'est malheureusement pas spécifique à l'IA. C'est aussi un défaut contre lequel le traducteur humain doit se prémunir et auquel il risque d'être exposé, particulièrement lorsqu'il commence à travailler avec des outils de mémoire de traduction.

En guise de conclusion : revenir aux fondamentaux

L'expérience montre que l'approche mécaniste inhérente à l'IA ne saurait être suffisante, tant il est vrai qu'un texte est plus qu'une suite de mots, de segments ou de phrases.

Cette analyse, illustrée par quelques exemples tirés de la pratique de la post-édition, souligne le risque de déconvenues chez le donneur d'ordre. Celui-ci aura des attentes légitimes qui découleront de sa propre expertise, mais qui seront potentiellement faussées par les promesses d'un niveau de qualité d'un produit fini que pourraient suggérer les performances spectaculaires des systèmes d'IA grand public.

Dans ces conditions, faut-il abandonner les producteurs de contenus et valider le choix du tout IA, dont on a démontré qu'il était discutable ?

L'approche qui est préconisée revient à laisser le traducteur se réapproprier, à la manière du rédacteur autonome qu'il n'aurait jamais dû cesser d'être, le projet qui lui est confié. Il s'emploiera à aborder le texte dans ses composantes textuelles, pragmatiques et stylistiques, afin de prendre en compte toute sa globalité.

Le traducteur redeviendrait ainsi pleinement un professionnel de l'écriture. Un retour aux sources, en quelque sorte, après la folle époque de la diffusion de masse de textes de qualité discutable à laquelle les uns et les autres ont souvent assisté et parfois participé.

Le prix à payer pour cette réorientation consistera, sans doute, à revoir à la baisse la productivité, la question étant de savoir si les acteurs - qu'ils produisent, éditent ou utilisent les textes ainsi élaborés - ont finalement intérêt à sacrifier la qualité au profit de la quantité et à cautionner la précipitation révélée par le choix de la vitesse.

Dans cet arbitrage, la popularisation récente des systèmes basés sur l'IA met les professionnels du texte au défi d'inventer des réponses adéquates.

L'IA a pour sa part abattu ses cartes et a donné une réponse éclairante à notre question.

Exemple 9

Source :

Kante R

Kante L

Kante O

Kante U

Cible 1 (Deepl) :

Arête R

Chant L

Arête O

Chant U

Cible 2 (ChatGPT) :

Ces termes semblent être des étiquettes ou des abréviations. Sans plus de contexte, voici quelques traductions possibles :

Kante R : Kanté à droite

Kante L : Kanté à gauche

Kante O : Kanté ouvert

Kante U : Kanté fermé

Si vous pouvez fournir plus de contexte sur la signification de ces termes, je pourrai peut-être mieux vous aider à les traduire.
Commentaire

Arête droite

Arête gauche

Arête supérieure

Arête inférieure


Références

Traduction, IA, écriture by Samy Boutayeb is licensed under CC BY-NC-ND 4.0