# La détection de langue

Nous utilisons ici la librairie langid:
    
https://pypi.org/project/langid/

## Imports

In [1]:
import os
from collections import defaultdict
from langid.langid import LanguageIdentifier, model
import pycountry

## Forcer l'algorithme à ne détecter que du Français et du Néerlandais

In [14]:
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)
#identifier.set_languages(["fr", "nl"])

## Test sur une phrase

In [15]:
lang, conf = identifier.classify("Je suis le cours de TAC à l'ULB.")
print(f"La langue détectée est '{lang}' avec une confiance de {round(conf*100,2)} %")

La langue détectée est 'fr' avec une confiance de 100.0 %


## Lister tous les documents

In [16]:
root = "../data/txt/"
txts = os.listdir(root)
print(f"{len(txts)} TXT files found")

7936 TXT files found


## Détecter la langue pour tous les documents

Nous allons lire chaque fichier, détecter la langue, et incrémenter `lang_dict` lorsqu'une langue est détectée.

**Important** : pour détecter la langues de tous les documents, mettez `limit = None` ci-dessous.

In [17]:
limit = 500
limit = None

In [18]:
lang_dict = defaultdict(int)
txts = sorted(txts)[:limit] if limit else txts

In [19]:
for i, txt in enumerate(sorted(txts)):
    if txt.endswith("txt"):
        if i % 50 == 0:
            print(f'{i} document(s) processed...')
        text = open(os.path.join(root, txt), "r", encoding="utf-8").read()
        text_length = len(text)
        if text_length > 20:
            lang, conf = identifier.classify(text)
            lang_dict[lang] += 1
        else:
            print(f"{txt} contains only {text_length} characters, treating as unknown")
            lang_dict['n/a'] += 1

print("Done")

0 document(s) processed...
KB_JB838_1887-12-23_01-00002.txt contains only 1 characters, treating as unknown
50 document(s) processed...
100 document(s) processed...
150 document(s) processed...
200 document(s) processed...
250 document(s) processed...
300 document(s) processed...
350 document(s) processed...
400 document(s) processed...
450 document(s) processed...
500 document(s) processed...
550 document(s) processed...
600 document(s) processed...
650 document(s) processed...
700 document(s) processed...
750 document(s) processed...
800 document(s) processed...
850 document(s) processed...
900 document(s) processed...
950 document(s) processed...
1000 document(s) processed...
1050 document(s) processed...
1100 document(s) processed...
1150 document(s) processed...
1200 document(s) processed...
1250 document(s) processed...
1300 document(s) processed...
1350 document(s) processed...
1400 document(s) processed...
1450 document(s) processed...
1500 document(s) processed...
1550 documen

## Afficher le nombre de documents par langue

In [20]:
for lang_code, nb_docs in lang_dict.items():
    language = pycountry.languages.get(alpha_2=lang_code)
    try:
        lang_name = language.name
    except AttributeError:
        lang_name = language
    print(f"{lang_name}\t{nb_docs}")

French	7914
None	4
Lao	1
Walloon	1
Luxembourgish	3
Maltese	1
Latin	4
Dutch	1
Swahili (macrolanguage)	1
Hebrew	1
Armenian	1
English	2
Quechua	1
Welsh	1
