# La détection de langue

Nous utilisons ici la librairie langid:
    
https://pypi.org/project/langid/

## Imports

In [None]:
import os
from collections import defaultdict
from langid.langid import LanguageIdentifier, model
import pycountry

## Forcer l'algorithme à ne détecter que du Français et du Néerlandais

In [None]:
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)
identifier.set_languages(["fr", "nl"])

## Test sur une phrase

In [None]:
lang, conf = identifier.classify("Je suis le cours de TAC à l'ULB.")
print(f"La langue détectée est '{lang}' avec une confiance de {round(conf*100,2)} %")

## Lister tous les documents

In [None]:
root = "../data/txt/"
txts = os.listdir(root)
print(f"{len(txts)} TXT files found")

## Détecter la langue pour tous les documents

Nous allons lire chaque fichier, détecter la langue, et incrémenter `lang_dict` lorsqu'une langue est détectée.

**Important** : pour détecter la langues de tous les documents, mettez `limit = None` ci-dessous.

In [None]:
limit = 500
limit = None

In [None]:
lang_dict = defaultdict(int)
txts = sorted(txts)[:limit] if limit else txts

In [None]:
for i, txt in enumerate(sorted(txts)):
    if txt.endswith("txt"):
        if i % 50 == 0:
            print(f'{i} document(s) processed...')
        text = open(os.path.join(root, txt), "r", encoding="utf-8").read()
        text_length = len(text)
        if text_length > 20:
            lang, conf = identifier.classify(text)
            lang_dict[lang] += 1
        else:
            print(f"{txt} contains only {text_length} characters, treating as unknown")
            lang_dict['n/a'] += 1

print("Done")

## Afficher le nombre de documents par langue

In [None]:
for lang_code, nb_docs in lang_dict.items():
    language = pycountry.languages.get(alpha_2=lang_code)
    try:
        lang_name = language.name
    except AttributeError:
        lang_name = language
    print(f"{lang_name}\t{nb_docs}")