# Échanger des unités terminologiques

## Le format TBX

**TBX :** *TermBase eXchange*

Il s’agit d’un format de fichier basé sur XML pour représenter et échanger des unités terminologiques :
- développé de 2002 à 2008 par LISA (*Localization Industry Standards Association*), insolvable en 2011
- repris par [GALA](https://www.gala-global.org/knowledge-center/industry-development/standards/lisa-oscar-standards) (*Globalization & Localization Association*)
- technologie de l’architecture ouverte pour la création et la localisation (OAXAL)
- norme ISO
- constituer des glossaires


## Aspects techniques

### Des différentes versions

Plusieurs versions de TBX coexistent. La version actuelle, développée par LISA jusqu’en 2008, est [hébergée par GALA](https://www.gala-global.org/sites/default/files/migrated-pages/docs/tbx_oscar_0.pdf), avec sa [DTD](https://www.gala-global.org/sites/default/files/migrated-pages/docs/TBXcoreStructV02%20%281%29.dtd).

Une nouvelle version, déjà utilisable, est en préparation. Elle repose sur une structure modulaire, dont les éléments sont aujourd’hui au nombre de trois :
- TBX-Core
- TBX-Min (glossaire bilingue)
- TBX-Basic (glossaires multingues)

Ces modules sont compatibles avec les deux styles de XML design :
- DCA (*Data Category as Attribute*)
- DCT (*Data Category as Tag*)

Les schémas de validation peuvent être récupérés sur le GitHub de [LTAC-GLobal](https://github.com/LTAC-Global). Par exemple :
- [Module TBX-Min au format DCT](https://github.com/LTAC-Global/TBX-Min_dialect/tree/master/DCT)
- [Module TBX-Core au format DCA](https://github.com/LTAC-Global/TBX-Core_dialect/tree/master/Schemas)

**Remarque :** La nouvelle version étant en cours de normalisation, des conflits peuvent exister entre la documentation officielle et les contraintes de validation des schémas.

Pour intégrer les schémas de validation aux documents TBX, il suffit de rajouter une instruction de traitement :
```xml
<!-- TBX-Min DCA, Relax NG format -->
<?xml-model href="TBXcoreStructV03_TBX-Min_integrated.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<!-- TBX-Min DCA, Schematron -->
<?xml-model href="TBX-Min_DCA.sch" type="application/xml" schematypens="http://purl.oclc.org/dsdl/schematron"?>
```

### Structure minimale d’un document TBX-Min au format DCA

```xml
<?xml version="1.0" encoding="utf-8"?>
<?xml-model href="TBXcoreStructV03_TBX-Min_integrated.rng" type="application/xml" schematypens="http://relaxng.org/ns/structure/1.0"?>
<tbx type="TBX-Min" style="dca" xml:lang="" xmlns="urn:iso:std:iso:30042:ed-2">
    <!-- header -->
    <tbxHeader>
        <fileDesc>
            <sourceDesc>
                <p></p>
            </sourceDesc>
        </fileDesc>
    </tbxHeader>
    <!-- body -->
    <text>
        <body>
            <!-- concept -->
            <conceptEntry id="">
                <!-- language -->
                <langSec xml:lang="">
                    <!-- term -->
                    <termSec>
                        <term></term>
                    </termSec>
                </langSec>
            </conceptEntry>
        </body>
    </text>
</tbx>
```
La structure minimale est composée de :
- une racine `tbx` avec des attributs obligatoires :
    - `dialect` : nom du module
    - `style` : DCA ou DCT
    - `xml:lang` : langue principale du document
    - `xmlns` : espace de nommage
- un en-tête `tbxHeader` compatible avec la TEI
- un corps `text`, également compatible avec la TEI, qui incorpore pour chaque unité terminologique une description sur trois niveaux :
    - le niveau du concept
    - le niveau de la langue
    - le niveau du terme

## La mécanique au cœur de TBX

L’élément `<conceptEntry>` est au cœur de TBX. Il sert à exprimer un concept en plusieurs langues, associé ou non à un domaine particulier. Et pour chaque langue documentée, il peut exister plusieurs termes qui définissent le même concept.

### Exemple minimal

```xml
<conceptEntry id="c1">
    <langSec xml:lang="fr">
        <termSec>
            <term>disque d’accrétion</term>
        </termSec>
    </langSec>
</conceptEntry>
```

### Un concept associé à une catégorie

```xml
<conceptEntry id="c1">
    <!-- field -->
    <descrip type="subjectField">Naissance d’une étoile</descrip>
    <langSec xml:lang="fr">
        <termSec>
            <term>disque d’accrétion</term>
            <!-- comment -->
            <termNote type="partOfSpeech">noun</termNote>
        </termSec>
    </langSec>
</conceptEntry>
```

### Deux termes synonymes pour un concept

```xml
<conceptEntry id="c1">
    <descrip type="subjectField">Naissance d’une étoile</descrip>
    <langSec xml:lang="fr">
        <termSec>
            <term>disque d’accrétion circumstellaire</term>
            <termNote type="partOfSpeech">noun</termNote>
            <termNote type="administrativeStatus">preferredTerm-admn-sts</termNote>
        </termSec>
        <termSec>
            <term>disque d’accrétion</term>
            <termNote type="partOfSpeech">noun</termNote>
            <termNote type="administrativeStatus">admittedTerm-admn-sts</termNote>
        </termSec>
    </langSec>
</conceptEntry>
```

### Description complète d’un concept

```xml
<conceptEntry id="c1">
    <descrip type="subjectField">Naissance d’une étoile</descrip>
    <langSec xml:lang="fr">
        <termSec>
            <term>disque d’accrétion circumstellaire</term>
            <termNote type="partOfSpeech">noun</termNote>
            <termNote type="administrativeStatus">preferredTerm-admn-sts</termNote>
        </termSec>
        <termSec>
            <term>disque d’accrétion</term>
            <termNote type="partOfSpeech">noun</termNote>
            <termNote type="administrativeStatus">admittedTerm-admn-sts</termNote>
        </termSec>
    </langSec>
    <langSec xml:lang="en">
        <termSec>
            <term>circumstellar accretion disk</term>
            <termNote type="partOfSpeech">noun</termNote>
            <termNote type="administrativeStatus">preferredTerm-admn-sts</termNote>
        </termSec>
        <termSec>
            <term>accretion disk</term>
            <termNote type="partOfSpeech">noun</termNote>
            <termNote type="administrativeStatus">admittedTerm-admn-sts</termNote>
        </termSec>
    </langSec>
</conceptEntry>
```

## Plongée dans le module TBX-Min

### Le niveau du concept

L’élément `conceptEntry` impose un attribut obligatoire `id`. Les éléments attendus à l’intérieur sont :
- `descrip` : pour renseigner le domaine ou la catégorie
- `admin` : pour documenter la source associée à l’entrée
- `langSec` (obligatoire) : pour documenter la langue
- `note` : pour des commentaires éventuels

```xml
<conceptEntry id="c1">
    <descrip type="subjectField">Naissance d’une étoile</descrip>
    <admin type="customerSubset"></admin>
    <langSec xml:lang="fr">…</langSec>
    <note>…</note>
</conceptEntry>
```

### Le niveau de la langue

L’élément `langSec` impose un attribut obligatoire `xml:lang`. Pour le reste, les éléments attendus à l’intérieur sont :
- `termSec` (obligatoire) : pour documenter les informations sur un terme
- `note` : pour des commentaires éventuels

```xml
<langSec xml:lang="fr">
    <termSec></termSec>
    <note>…</note>
</langSec>
```

### Le niveau du terme

L’élément `termSec` permet de documenter les différents synonymes d’un concept. Il prend un attribut optionnel `id` et à l’intérieur on peut retrouver les éléments suivants :
- `term` (obligatoire) : pour définir le terme
- `termNote` : dans la pratique, il sert à documenter la partie du discours ou le statut administratif du terme
- `note` : pour des commentaires éventuels

```xml
<termSec id="t12">
    <term>Disque d’accrétion</term>
    <termNote type="partOfSpeech">noun</termNote>
    <termNote type="administrativeStatus">admittedTerm-admn-sts</termNote>
</termSec>
```

### Documentation

|Élément|Description|Attributs|
|:-:|:-|:-:|
|`admin`|Pour documenter la source associée à l’entrée ou identifier les clients spécifiques. Attribut `type` avec valeur `customerSubset`.|`type`|
|`conceptEntry`|Pour décrire un concept.|`id`|
|`descrip`|Domaine auquel appartient le terme. Attribut `type` avec valeur `subjectField`.|`type`|
|`langSec`|Identifier la langue du terme grâce à l’attribut xml:lang qui accepte une valeur compatible RFC 4646.|`xml:lang`|
|`note`|Commentaires.||
|`term`|Terme du lexique.||
|`termNote`|Notes à propos du terme. Attribut `type` avec deux valeurs : `partOfSpeech` ou `administrativeStatus`. La première contraint le contenu à : `noun`, `verb`, `adjective`, `adverb`, `properNoun`, `other`. Le second fournit un indice du statut du terme : `preferredTerm‐admn‐sts` (recommandé), `admittedTerm‐admn‐sts` (correct), `deprecatedTerm-admn-sts` (déprécié), `supersededTerm‐admn‐sts` (obsolète)|`type`|
|`termSec`|Ensemble des informations pour un terme. Possibilité de lui fournir un identifiant.|`id`|

## IATE : un corpus en TBX

**IATE :** *InterActive Terminology for Europe*

Il s’agit de la base de données terminologique de l’Union Européenne, documentée depuis 1999 et décrite selon la version 2008 du format TBX. Elle contient 7,5 millions de termes et est continuellement mise à jour dans un but de normalisation des informations. En plus des vingt-quatre langues de l’UE, elle est également disponible en latin.

**Téléchargement :** https://iate.europa.eu/download-iate

### Architecture du corpus

- Niveau du concept :
    - identifiant
    - domaine
    - commentaire
- Niveau de la langue :
    - code langue
- Niveau du terme :
    - terme
    - type de terme
    - degré de fiabilité
    - évaluation

### Niveau du concept

#### Identifiant

Identifiant unique, préfixé IATE-.

```xml
<termEntry id="IATE-14">…</termEntry>
```

#### Domaine

Identifiants numériques reliant l’entrée aux activités de l’Union Européenne, selon le thésaurus EuroVoc.

```xml
<descripGrp>
    <!-- mechanical engineering, electronics and electrical engineering -->
    <descrip type="subjectField">6821, 6826</descrip>
</descripGrp>
```

#### Commentaire

Informations relatives au contexte spécifique d’application du domaine.

```xml
<descripGrp>
    <descrip type="subjectField">6411, 6821</descrip>
    <note>refrigeration</note>
</descripGrp>
```

### Niveau de la langue

#### Code langue

Code ISO 639-1 (sur deux lettres) des langues de l’Union Européenne. Un code `mul` pour *multilingue* est étiqueté sur les concepts indépendants de tout langage.

```xml
<!-- Danois -->
<langSet xml:lang="da">…</langSet>
```

### Niveau du terme

#### Terme

Mot ou ensemble de mots qui désignent un concept dans la langue spécifiée au niveau supérieur.

```xml
<tig>
    <term>βήμα χρόνου</term>
</tig>
```

#### Type de terme

Choix parmi le vocabulaire suivant : `fullForm`, `abbreviation`, `phraseologicalUnit`, `formula`, `shortForm`.

```xml
<tig>
    <term>E 228</term>
    <termNote type="termType">shortForm</termNote>
</tig>
```

#### Degré de fiabilité

Échelle numérique de 1 à 4 : non vérifié (1), fiabilité minimale (2), fiable (3), autorité (4).

```xml
<tig>
    <term>regenwater</term>
    <descrip type="reliabilityCode">3</descrip>
</tig>
```

#### Évaluation

Statut administratif du terme : obsolète (`supersededTerm-admn-sts`), déprécié (`deprecatedTerm-admn-sts`), correct (`admittedTerm-admn-sts`), à utiliser de préférence (`preferredTerm-admn-sts`).

```xml
<tig>
    <term>sofazne motnje</term>
    <termNote type="administrativeStatus">preferredTerm-admn-sts</termNote>
</tig>
```

### Extrait

```xml
<termEntry id="IATE-1436822">
    <descripGrp>
        <descrip type="subjectField">3221</descrip>
    </descripGrp>
    <langSet xml:lang="da">
        <tig>
            <term>dokumentalist</term>
            <termNote type="termType">fullForm</termNote>
            <descrip type="reliabilityCode">3</descrip>
        </tig>
    </langSet>
    <langSet xml:lang="de">
        <tig>
            <term>Dokumentalist</term>
            <termNote type="termType">fullForm</termNote>
            <termNote type="administrativeStatus">deprecatedTerm-admn-sts</termNote>
            <descrip type="reliabilityCode">3</descrip>
        </tig>
        <tig>
            <term>Dokumentar</term>
            <termNote type="termType">fullForm</termNote>
            <termNote type="administrativeStatus">preferredTerm-admn-sts</termNote>
            <descrip type="reliabilityCode">3</descrip>
        </tig>
    </langSet>
</termEntry>
```