# Construire des mémoires de traduction

## Le format TMX

**TMX :** *Translation Memory eXchange*

Il s’agit d’un format de fichiers basé sur XML pour la traduction en plusieurs langues :
- développé par LISA (*Localization Industry Standards Association*), insolvable en 2011 puis versé dans les *Creative Commons*
- repris en 2014 par [GALA](https://www.gala-global.org/knowledge-center/industry-development/standards/lisa-oscar-standards) (*Globalization & Localization Association*)
- largement utilisé pour constituer des corpus parallèles
- technologie de l’architecture ouverte pour la création et la localisation (OAXAL)

**Avantages :**
- vocabulaire réduit
- données humainement lisibles
- détection aisée de traductions manquantes

Quelques exemples de corpus parallèles au format TMX :
- *Europarl*
- *OpenSubtitles*
- *Wikipedia*
- …

## Aspects techniques

**Version 1.4b :** <https://www.gala-global.org/tmx-14b>

**DTD :** <https://www.gala-global.org/sites/default/files/migrated-pages/docs/tmx14%20%281%29.dtd>

**Encodage :**
- format Unicode seul : UTF-8, UTF-16 ou ISO-646 (US-ASCII)
- 5 références d’entités `&amp;` `&lt;` `&gt;` `&apos;` `&quot;`
- représentation numérique pour les caractères non-ASCII : `#230` `#167` …

### Éléments

**Racine :** `<tmx>`

**Éléments structurels :**  
`<body>` `<header>` `<map/>` `<note>` `<prop>` `<seg>` `<tmx>` `<tu>` `<tuv>` `<ude>`

**Éléments en ligne :**  
`<bpt>` `<ept>` `<hi>` `<it>` `<ph>` `<sub>` `<ut>`

**Structure minimale :**
```xml
<tmx version="1.4">
	<header
		creationtool=""
		creationtoolversion=""
		segtype=""
		o-tmf=""
		adminlang=""
		srclang=""
		datatype="">
	</header>
	<body/>
</tmx>
```

### Attributs notables

| Attribut | Description | Valeur
|:-:|:-|:-:|
|`creationdate`|Date de création de l’élément|Format ISO 8601 : `YYYYMMDDThhmmssZ`|
|`creationid`|Identifiant de l’auteur responsable de la création de l’élément|Chaîne de caractères|
|`changedate`|Date de la dernière modification de l’élément|Format ISO 8601 : `YYYYMMDDThhmmssZ`|
|`changeid`|Identifiant de l’auteur responsable de la dernière modification de l’élément|Chaîne de caractères|
|`tuid`|Identifiant pour un élément `tu`|Chaîne de caractères|
|`o-encoding`|Encodage de l’original|Chaîne de caractères|

## Mécanique

L’élément `<tu>` (*Translation Unit*) est au centre de TMX. C’est lui qui documente le terme et ses différentes traductions au sein d’éléments enfants `<tuv>` (*Translation Unit Variant*).

Une variante est éventuellement composée de notes `<note>`, de propriétés `<prop>`, et obligatoirement du segment traduit `<seg>`

```xml
<tu>
	<tuv xml:lang="en">
		<seg>Hello World!</seg>
	</tuv>
	<tuv xml:lang="fr">
		<seg>Bonjour monde !</seg>
		<note>To improve! Does not seem accurate.</note>
	</tuv>
</tu>
```

## Exemple d’encodage d’un haïku de Matsuo Bashō

### Les différentes versions

#### Japonais

>古池や  
>蛙飛込む  
>水の音

#### Japonais (transcription alphabétique)

>furuike ya  
>kawazu tobikomu  
>mizu no oto

#### Français

>Un vieil étang et  
>Une grenouille qui plonge  
>Le bruit de l'eau

#### Anglais

>Old pond  
>A frog leaps in  
>Water's sound

### L’élaboration du document

#### 1e étape : construire la structure au format TMX

À noter que l’encodage des différentes versions des vers sera intégrée à l’intérieur de l’élément `body`.

```xml
<tmx version="1.4">
	<header
		creationtool="Sublime Text"
		creationtoolversion="3"
		segtype="phrase"
		o-tmf="undefined"
		adminlang="fr"
		srclang="ja"
		datatype="plaintext">
	</header>
	<body/>
</tmx>
```

#### 2e étape : encoder le premier vers

```xml
<tu>
    <tuv xml:lang="ja">
        <seg>古池や</seg>
	</tuv>
	<tuv xml:lang="ja-Latn">
		<seg>furuike ya</seg>
	</tuv>
	<tuv xml:lang="fr">
		<seg>Un vieil étang et</seg>
	</tuv>
	<tuv xml:lang="en">
		<seg>Old pond</seg>
	</tuv>
</tu>
```

#### 3e étape : encoder le second vers

```xml
<tu>
	<tuv xml:lang="ja">
		<seg>蛙飛込む</seg>
	</tuv>
	<tuv xml:lang="ja-Latn">
		<seg>kawazu tobikomu</seg>
	</tuv>
	<tuv xml:lang="fr">
		<seg>Une grenouille qui plonge</seg>
	</tuv>
	<tuv xml:lang="en">
		<seg>A frog leaps in</seg>
	</tuv>
</tu>
```

#### 4e étape : encoder le troisième vers

```xml
<tu>
	<tuv xml:lang="ja">
		<seg>水の音</seg>
	</tuv>
	<tuv xml:lang="ja-Latn">
		<seg>mizu no oto</seg>
	</tuv>
	<tuv xml:lang="fr">
		<seg>Le bruit de l’eau</seg>
	</tuv>
	<tuv xml:lang="en">
		<seg>Water's sound</seg>
	</tuv>
</tu>
```

## Présentation de quelques corpus au format TMX

### *Europarl*

*Europarl* est un corpus parallélisé issu des sessions de travail du Parlement européen entre 1996 et 2011. Il intègre, dans sa v7, des versions dans 21 langues européennes et se destine plutôt à être utilisé par des outils automatiques (TAL, statistiques…).

```xml
<tmx version="1.4">
    <header adminlang="en"
            creationdate="Mon Jan 16 10:29:40 2017"
            creationtool="Uplug"
            creationtoolversion="unknown"
            datatype="PlainText"
            o-tmf="unknown"
            segtype="sentence"
            srclang="en"/>
    <body>
        <tu>
            <tuv xml:lang="fr">
                <seg>Reprise de la session </seg>
            </tuv>
            <tuv xml:lang="en">
                <seg>Resumption of the session </seg>
            </tuv>
        </tu>
        <tu>
            <tuv xml:lang="fr">
                <seg>Je d&#233;clare reprise la session du Parlement europ&#233;en qui avait
                    &#233;t&#233; interrompue le vendredi 17 d&#233;cembre dernier et je vous
                    renouvelle tous mes vux en esp&#233;rant que vous avez pass&#233; de bonnes
                    vacances.</seg>
            </tuv>
            <tuv xml:lang="en">
                <seg>I declare resumed the session of the European Parliament adjourned on Friday 17
                    December 1999, and I would like once again to wish you a happy new year in the
                    hope that you enjoyed a pleasant festive period.</seg>
            </tuv>
        </tu>
        …
    </body>
</tmx>
```

### DGT-TM

Mémoires de traduction dans les 22 langues officielles de la Commission Européenne : <http://data.europa.eu/euodp/en/data/dataset/dgt-translation-memory>

```xml
<tu>
	<prop type="Txt::Doc. No.">52014BP1121(01)</prop>
	<tuv lang="EN-GB">
		<seg>Resolution of the European Parliament</seg>
	</tuv>
	<tuv lang="DE-DE">
		<seg>Entschließung des Europäischen Parlaments</seg>
	</tuv>
	<tuv lang="DA-01">
		<seg>Europa-Parlamentets beslutning</seg>
	</tuv>
	<tuv lang="EL-01">
		<seg>Ψήφισμα του Ευρωπαϊκού Κοινοβουλίου</seg>
	</tuv>
	<tuv lang="ES-ES">
		<seg>Resolución del Parlamento Europeo</seg>
	</tuv>
	…
</tu>
```

### Tanaka Corpus

Corpus aligné de 150 000 entrées japonais-anglais :  
<http://edrdg.org/wiki/index.php/Tanaka_Corpus>

```xml
<tu tuid="1" srclang="JA">
	<tuv xml:lang="JA">
		<seg>すぐに戻ります。</seg>
	</tuv>
	<tuv xml:lang="EN">
		<seg>I'll be back in a second.</seg>
	</tuv>
</tu>
<tu tuid="3" srclang="JA">
	<tuv xml:lang="JA">
		<seg>すぐに戻ります。</seg>
	</tuv>
	<tuv xml:lang="EN">
		<seg>I will be back soon.</seg>
	</tuv>
</tu>
<tu tuid="5" srclang="JA">
	<tuv xml:lang="JA">
		<seg>すぐに諦めて昼寝をするかも知れない。</seg>
	</tuv>
	<tuv xml:lang="EN">
		<seg>I may give up soon and just nap instead.</seg>
	</tuv>
</tu>
```