# La détection de langue

Nous utilisons ici la librairie langid:
    
https://pypi.org/project/langid/

In [2]:
pip install langid

Collecting langid
  Using cached langid-1.1.6-py3-none-any.whl
Installing collected packages: langid
Successfully installed langid-1.1.6
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: C:\Users\aspng\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [4]:
pip install pycountry

Collecting pycountryNote: you may need to restart the kernel to use updated packages.

  Using cached pycountry-24.6.1-py3-none-any.whl.metadata (12 kB)
Using cached pycountry-24.6.1-py3-none-any.whl (6.3 MB)
Installing collected packages: pycountry
Successfully installed pycountry-24.6.1



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: C:\Users\aspng\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


## Imports

In [5]:
import os
from collections import defaultdict
from langid.langid import LanguageIdentifier, model
import pycountry

## Forcer l'algorithme à ne détecter que du Français et du Néerlandais

In [6]:
identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)
identifier.set_languages(["fr", "nl"])

## Test sur une phrase

In [7]:
lang, conf = identifier.classify("Je suis le cours de TAC à l'ULB.")
print(f"La langue détectée est '{lang}' avec une confiance de {round(conf*100,2)} %")

La langue détectée est 'fr' avec une confiance de 100.0 %


## Lister tous les documents

In [8]:
root = "../data/txt/"
txts = os.listdir(root)
print(f"{len(txts)} TXT files found")

7936 TXT files found


## Détecter la langue pour tous les documents

Nous allons lire chaque fichier, détecter la langue, et incrémenter `lang_dict` lorsqu'une langue est détectée.

**Important** : pour détecter la langues de tous les documents, mettez `limit = None` ci-dessous.

In [9]:
limit = 500
limit = None

In [10]:
lang_dict = defaultdict(int)
txts = sorted(txts)[:limit] if limit else txts

In [11]:
for i, txt in enumerate(sorted(txts)):
    if txt.endswith("txt"):
        if i % 50 == 0:
            print(f'{i} document(s) processed...')
        text = open(os.path.join(root, txt), "r", encoding="utf-8").read()
        text_length = len(text)
        if text_length > 20:
            lang, conf = identifier.classify(text)
            lang_dict[lang] += 1
        else:
            print(f"{txt} contains only {text_length} characters, treating as unknown")
            lang_dict['n/a'] += 1

print("Done")

0 document(s) processed...
KB_JB838_1887-12-23_01-00002.txt contains only 1 characters, treating as unknown
50 document(s) processed...
100 document(s) processed...
150 document(s) processed...
200 document(s) processed...
250 document(s) processed...
300 document(s) processed...
350 document(s) processed...
400 document(s) processed...
450 document(s) processed...
500 document(s) processed...
550 document(s) processed...
600 document(s) processed...
650 document(s) processed...
700 document(s) processed...
750 document(s) processed...
800 document(s) processed...
850 document(s) processed...
900 document(s) processed...
950 document(s) processed...
1000 document(s) processed...
1050 document(s) processed...
1100 document(s) processed...
1150 document(s) processed...
1200 document(s) processed...
1250 document(s) processed...
1300 document(s) processed...
1350 document(s) processed...
1400 document(s) processed...
1450 document(s) processed...
1500 document(s) processed...
1550 documen

## Afficher le nombre de documents par langue

In [12]:
for lang_code, nb_docs in lang_dict.items():
    language = pycountry.languages.get(alpha_2=lang_code)
    try:
        lang_name = language.name
    except AttributeError:
        lang_name = language
    print(f"{lang_name}\t{nb_docs}")

French	7930
None	4
Dutch	2


In [16]:
import pycountry

# Trouver le code officiel du néerlandais
dutch_lang = pycountry.languages.get(name="Dutch")
dutch_code = getattr(dutch_lang, 'alpha_2', None)

print(f"Code langue néerlandais identifié : {dutch_code}")

dutch_count = 0
dutch_documents = []

print("\nRecherche des documents en néerlandais...")
for lang_code, docs in lang_dict.items():
    if lang_code == dutch_code:
        
        # CAS 1 : docs = liste de documents
        if isinstance(docs, (list, tuple)):
            dutch_count = len(docs)
            dutch_documents = docs
            print(f" -> Trouvé {dutch_count} documents en néerlandais (liste) pour le code '{lang_code}'")

        # CAS 2 : docs = compteur (int)
        elif isinstance(docs, int):
            dutch_count = docs
            print(f" -> Trouvé {dutch_count} documents en néerlandais (compteur) pour le code '{lang_code}'")

        # CAS 3 : format inattendu
        else:
            print(f" -> Format inattendu pour '{lang_code}': {type(docs)}")

print("-" * 40)
print(f"Total documents néerlandais trouvés : {dutch_count}")


Code langue néerlandais identifié : nl

Recherche des documents en néerlandais...
 -> Trouvé 2 documents en néerlandais (compteur) pour le code 'nl'
----------------------------------------
Total documents néerlandais trouvés : 2


In [19]:
print(lang_dict["nl"])


['dataset/doc_001_nl.txt', 'dataset/doc_057_nl.txt']


In [20]:
lang_dict["nl"] = [
    "dataset/doc_001_nl.txt",
    "dataset/doc_057_nl.txt"
]


In [23]:
import os

print("Répertoire courant :", os.getcwd())
print("Contenu du dossier courant :", os.listdir("."))


Répertoire courant : c:\Users\aspng\ULB_TAC\tac\module5
Contenu du dossier courant : ['colab.png', 's1_language_detection.ipynb', 's2_machine_translation.ipynb', 's3_anonymization.ipynb']


In [25]:
import os

dutch_files = []

for root, dirs, files in os.walk(".", topdown=True):
    for f in files:
        if f.endswith("_nl.txt"):
            dutch_files.append(os.path.join(root, f))

print("Fichiers NL trouvés :")
for f in dutch_files:
    print(" -", f)


Fichiers NL trouvés :


In [26]:
# Récupérer la liste des documents néerlandais
dutch_docs = lang_dict.get("nl", [])

print("Documents néerlandais trouvés :", dutch_docs)

print("\n--- Lecture des documents néerlandais ---\n")

for path in dutch_docs:
    print(f"===== {path} =====")
    try:
        with open(path, "r", encoding="utf-8") as f:
            content = f.read()
            # Afficher les 500 premiers caractères (évite d'inonder la console)
            print(content[:500], "\n")
    except FileNotFoundError:
        print(f"ERREUR : fichier introuvable → {path}\n")


Documents néerlandais trouvés : ['dataset/doc_001_nl.txt', 'dataset/doc_057_nl.txt']

--- Lecture des documents néerlandais ---

===== dataset/doc_001_nl.txt =====
ERREUR : fichier introuvable → dataset/doc_001_nl.txt

===== dataset/doc_057_nl.txt =====
ERREUR : fichier introuvable → dataset/doc_057_nl.txt

