# La détection de langue

Nous utilisons ici la librairie langid:
    
https://pypi.org/project/langid/

## Imports

In [9]:
import os
from collections import defaultdict

#langid : bon outil de détection des langues. On peut assigner les langues que l'on souhaite détecter pour éviter des ambiguïtés 
# (catalan-espagnol, ndls-afrikaans, etc.)

import langid
import pycountry

## Forcer l'algorithme à ne détecter que du Français et du Néerlandais

In [10]:
langid.set_languages(['fr', 'nl'])

## Lister tous les documents

In [11]:
root = "../data/txt/"
txts = os.listdir(root)
print(f"{len(txts)} TXT files found")

7938 TXT files found


## Détecter la langue pour tous les documents

Nous allons lire chaque fichier, détecter la langue, et incrémenter `lang_dict` lorsqu'une langue est détectée.

**Important** : pour détecter les langues sur tous les documents, mettez `limit = None` ci-dessous.

In [12]:
limit = 500
# limit = None

In [13]:
lang_dict = defaultdict(int)
txts = txts[:limit] if limit else texts

In [14]:
for i, txt in enumerate(sorted(txts)):
    if txt.endswith("txt"):
        if i % 50 == 0:
            print(f'{i} document(s) processed...')
        text = open(os.path.join(root, txt), "r", encoding="utf-8").read()
        text_length = len(text)
        if text_length > 20:
            lang, conf = langid.classify(text)
            lang_dict[lang] += 1
        else:
            print(f"{txt} contains only {text_length} characters, treating as unknown")
            lang_dict['n/a'] += 1
print("Done")

0 document(s) processed...
50 document(s) processed...
100 document(s) processed...
150 document(s) processed...
200 document(s) processed...
250 document(s) processed...
300 document(s) processed...
350 document(s) processed...
400 document(s) processed...
450 document(s) processed...
Done


## Afficher le nombre de documents par langue

In [15]:
for lang_code, nb_docs in lang_dict.items():
    language = pycountry.languages.get(alpha_2=lang_code)
    try:
        lang_name = language.name
    except AttributeError:
        lang_name = language
    print(f"{lang_name}\t{nb_docs}")

French	500


### Détecter la langue d'une phrase random

In [17]:
lang, conf = langid.classify("phrase aléatoire")
lang, conf

('fr', -57.67444467544556)