# Les défis de la variabilité des langues humaines

## La diversité des langues humaines

- **7 000+ langues** dans le monde, chacune avec ses propres règles et systèmes d’écriture.
- **Richesse vs. complexité** :
  - Communication, traduction, préservation culturelle.
  - Méthodes informatiques et statistiques pour les traiter.

## Des systèmes d’écriture variés

### Typologies des systèmes d’écriture

| Type | Exemple | Caractéristiques |
|-|-|-|
| **Idéogrammes** | Chinois (*家*), Japonais (*漢字*) | Chaque symbole représente une idée ou un concept. |
| **Alphabets** | Latin, Cyrillique | Symboles pour les sons (phonèmes). |
| **Syllabaires** | Devanagari (Hindi : *नमस्ते*), Hiragana/Katakana (Japonais) | Chaque symbole représente une syllabe. |
| **Mélanges** | Japonais (Kanji + Kana) | Combinaison d’idéogrammes et de syllabaires. |
| **Abjads** | Arabe, Hébreu | Consonnes principalement, les voyelles sont implicites ou ajoutées via diacritiques. |

### Défis posés par les systèmes non latins

#### Langues sans espaces

- **Exemples** :
  - Chinois : *我喜欢学习* (« J’aime apprendre »)
  - Japonais : *私は学生です* (« Je suis étudiant »)
- **Problématiques** :
  - Segmentation ambiguë (ex. : *下雨天留客天留我不留* peut avoir plusieurs sens selon la segmentation).
  - Risques d’erreurs en traduction ou en recherche d’information.

#### Morphologie complexe

- **Agglutination** :
  - Turc : *evlerimizden* (« de nos maisons »)
  - Finnois : *talojamme* (« nos maisons »)
- **Particules** :
  - Japonais : *ね* pour valider une affirmation (*行きますね* : « Tu viens, n’est-ce pas ? »)
- **Flexions riches** :
  - Allemand : *Ich mag dieses Buch* (« J’aime ce livre »)
  - Hindi : *लड़का* (*ladka*, « garçon ») vs. *लड़कों* (*ladkon*, « garçons »)

Étudier ces systèmes permet de mieux modéliser les relations grammaticales.

## La variabilité linguistique

### La Variabilité lexicale

- **Synonymie :** *voiture* et *automobile*
- **Homonymie :** *maire* et *mère*
- **Polysémie :** *palais* (édifice ou organe)
- **Emprunts :** *weekend* en français, *brunch* (anglais → français)

Capturer la richesse des significations pour éviter les erreurs de compréhension

### Variabilité morphologique

- **Langues à morphologie riche** :
  - Finnois : *talossa* (« dans la maison »), *taloissa* (« dans les maisons »), *taloistani* (« de mes maisons »)
  - Arabe : racines consonantiques. Exemple : *ك-ت-ب* (« k-t-b ») pour l’idée de consigner ou mettre par écrit, comme dans *كَتَبَ* (« kataba ») ou *كِتاب* (« kitlab »).
- **Langues isolantes** :
  - Chinois : *我喜欢这本书* (*wǒ xǐhuān zhè běn shū*, « J’aime ce livre ») – pas de flexion, ordre des mots crucial.
- **Accords et déclinaisons** : allemand (*Ich mag dieses Buch*)

Comprendre cette variabilité aide à construire des outils multilingues efficaces

### Variabilité syntaxique

L’ordre des mots différent selon la langue :

- SVO : anglais (*I eat apples*)
- SOV : japonais (*私はリンゴを食べます*, *Watashi wa ringo o tabemasu*)
- VSO : arabe (*آكل التفاح*, *Ākulu al-tuffāḥa*)

### Variabilité sémantique et pragmatique

- **Ambiguïté :** *Je déteste les avocats.*
- **Influence culturelle sur le sens :**
  - *pain* pour désigner une pâtisserie dans certaines îles des Caraïbes
  - *déjeuner* pour désigner le repas du matin au Canada

Explorer ces nuances est crucial pour améliorer les interactions homme-machine

### Variabilité orthographique et phonétique

- **Alphabets différents ou usage des diacritiques** : ex. français (*é*, *è*, *ê*)
- **Influence des translittérations** : russe *борщ* translittéré en « borscht » ou *سلام* translittéré en « salam »

## Enjeux du multilinguisme en informatique

### Quels sont les défis actuels et les solutions ?

- Le numérique est **massivement multilingue** : plus de 7 000 langues dans le monde.
- Pourtant, la majorité des technologies NLP sont conçues pour un **petit nombre de langues dominantes** (anglais, chinois, espagnol).
- En TAL, le multilinguisme pose des **enjeux techniques, culturels et éthiques**.

### Les défis du multilinguisme

#### Traduction automatique

- Difficulté à gérer :
  - Les **différences grammaticales** (ordre des mots, flexion)
  - Les **ambiguïtés sémantiques**
  - Les **références culturelles**
- Les langues peu dotées disposent de **peu de données parallèles**.

**Exemple :**

- Google Traduction :
  - Le chinois : absence de segmentation explicite des mots
  - L’arabe : morphologie riche, voyelles souvent absentes à l’écrit

#### La recherche d’information multilingue

- Problème : trouver un document pertinent dans une langue différente de la requête.
- Exemple :
  - Requête en français → document pertinent en anglais ou en espagnol
- Nécessite :
  - Traduction automatique
  - Alignement sémantique entre les langues

#### Préservation des langues minoritaires

- Risque de **disparition numérique** :
  - Peu ou pas de ressources linguistiques
  - Absence dans les outils NLP courants
- Conséquence :
  - Exclusion des locuteurs des technologies numériques
  - Perte de patrimoine culturel

### Solutions technologiques

#### Unicode

- Standard universel de codage des caractères
- Permet de représenter :
  - Alphabet latin, arabe, chinois, etc.
- Indispensable pour le traitement multilingue moderne

#### Modèles de langue multilingues

- Exemples :
  - **mBERT (Multilingual BERT)**
  - XLM-R
- Avantages :
  - Un seul modèle pour plusieurs langues
  - Transfert de connaissances entre langues proches
- Limites :
  - Performances inégales selon les langues
  - Biais vers les langues les plus représentées

#### Outils de détection de langue

- *langdetect*, *fastText*
- Utilisations :
  - Identifier automatiquement la langue d’un texte
  - Rediriger vers le bon pipeline NLP
- Exemple :
  - Réseaux sociaux, moteurs de recherche, modération de contenu

## Enjeux sociétaux

#### Risques si la diversité linguistique est ignorée

- Renforcement des **inégalités numériques**
- Biais linguistiques dans les systèmes d’IA
- Invisibilisation de certaines communautés

#### Apports de l’IA et du TAL

- Création de ressources pour langues peu dotées
- Traduction automatique neuronale plus robuste
- Aide à la documentation et à la revitalisation linguistique

## Conclusion

- Les langues humaines posent des défis variés
- Les comprendre permet de développer des technologies inclusives et respectueuses
- Investir dans ces recherches contribue à la préservation des patrimoines linguistiques