# Analyse de la distribution du vocabulaire

## Imports et dépendances

In [1]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout", 
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu"]
sw = set(sw)

print(f"{len(sw)} stopwords:\n {sorted(sw)}")





197 stopwords:
 ['ai', 'aie', 'aient', 'aies', 'ainsi', 'ait', 'après', 'as', 'au', 'aura', 'aurai', 'auraient', 'aurais', 'aurait', 'auras', 'aurez', 'auriez', 'aurions', 'aurons', 'auront', 'aussi', 'autre', 'autres', 'aux', 'avaient', 'avais', 'avait', 'avec', 'avez', 'aviez', 'avions', 'avoir', 'avons', 'ayant', 'ayante', 'ayantes', 'ayants', 'ayez', 'ayons', 'bien', 'c', 'ce', 'cela', 'celle', 'ces', 'cet', 'cette', 'comme', 'contre', 'd', 'dans', 'de', 'depuis', 'des', 'deux', 'dire', 'dit', 'doit', 'donc', 'dont', 'du', 'elle', 'en', 'encore', 'entre', 'es', 'est', 'et', 'eu', 'eue', 'eues', 'eurent', 'eus', 'eusse', 'eussent', 'eusses', 'eussiez', 'eussions', 'eut', 'eux', 'eûmes', 'eût', 'eûtes', 'faire', 'fait', 'faut', 'furent', 'fus', 'fusse', 'fussent', 'fusses', 'fussiez', 'fussions', 'fut', 'fûmes', 'fût', 'fûtes', 'het', 'il', 'ils', 'j', 'je', 'jusqu', 'l', 'la', 'le', 'les', 'leur', 'lui', 'm', 'ma', 'mais', 'me', 'mes', 'moi', 'moins', 'mon', 'même', 'n', 'ne', 'non'

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


## Créer une une liste de stopwords

## Tokeniser

In [2]:
# Récupération du contenu du fichier
path = "../../data/all.txt"
limit = 10**8

with open(path, 'r', encoding='utf-8') as f:
    text = f.read()[:limit]

In [3]:
# Tokenization
words = nltk.wordpunct_tokenize(text)
print(f"{len(words)} words found")

8237776 words found


## Calculer la taille du vocabulaire

In [4]:
# Eliminer les stopwords et les termes non alphabétiques
kept = [w.lower() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
voc = set(kept)
print(f"{len(kept)} words kept ({len(voc)} different word forms)")

3040929 words kept (256630 different word forms)


## Récupérer les mots les plus fréquents et en faire un plot

In [7]:
fdist = nltk.FreqDist(kept)
fdist.most_common(100)

[('pays', 8907),
 ('gouvernement', 8072),
 ('ministre', 6987),
 ('bruxelles', 5725),
 ('leurs', 5656),
 ('politique', 5480),
 ('président', 5207),
 ('belgique', 5185),
 ('très', 5011),
 ('prix', 4980),
 ('cours', 4862),
 ('guerre', 4630),
 ('ans', 4577),
 ('grande', 4507),
 ('général', 4505),
 ('peu', 4347),
 ('temps', 4141),
 ('grand', 4086),
 ('part', 4070),
 ('rue', 4040),
 ('premier', 4002),
 ('avant', 3932),
 ('belge', 3817),
 ('conseil', 3789),
 ('toute', 3789),
 ('mois', 3782),
 ('etat', 3732),
 ('millions', 3721),
 ('jour', 3669),
 ('france', 3628),
 ('quelques', 3572),
 ('paris', 3479),
 ('ceux', 3462),
 ('francs', 3389),
 ('heures', 3328),
 ('parti', 3313),
 ('point', 3269),
 ('situation', 3265),
 ('celui', 3265),
 ('question', 3262),
 ('etats', 3246),
 ('lieu', 3228),
 ('travail', 3177),
 ('soir', 3144),
 ('vie', 3106),
 ('déjà', 3088),
 ('vers', 3044),
 ('loi', 3039),
 ('monde', 2993),
 ('elles', 2977),
 ('économique', 2947),
 ('unis', 2879),
 ('fois', 2873),
 ('alors', 286

## Détecter les Hapax (mots qui n'apparaissent qu'une fois dans le corpus)

In [8]:
fdist.hapaxes()[:100]

['râpés',
 'btiède',
 'découvreuse',
 'donneuses',
 'conriture',
 'avilla',
 'ruckert',
 'tthland',
 'robeson',
 'chantoi',
 'beson',
 'courteru',
 'yperster',
 'matto',
 'prisonnicrs',
 'ilqsïïiglsollilqslilillliaesogl',
 'impolitesse',
 'brimait',
 'dérisoirement',
 'bouffarde',
 'déambulai',
 'fripé',
 'becken',
 'fug',
 'encourant',
 'duivels',
 'pcèle',
 'avnuêiis',
 'jleuron',
 'philantropiqucs',
 'célestine',
 'récupératrice',
 'stelleman',
 'quiche',
 'pépins',
 'survins',
 'pruduits',
 'crevaient',
 'animerait',
 'grinçants',
 'exubérants',
 'hélait',
 'fwent',
 'frrt',
 'niiec',
 'grassouillet',
 'componction',
 'clavicules',
 'détale',
 'enocker',
 'houtsiplou',
 'jandrin',
 'drenouille',
 'cristallisons',
 'pochas',
 'aigrelet',
 'stellemans',
 'épanuoi',
 'égosiller',
 'mauviette',
 'augmenterons',
 'jnorclicus',
 'arêté',
 'mfhj',
 'fciaby',
 'galeribs',
 'vaudcville',
 'vaudsv',
 'bsur',
 'lolits',
 'idemam',
 'cavalieria',
 'hamil',
 'aqlon',
 'varroy',
 'schauîen',
 'b

# Extraction mots clés et bigrammes sur le corpus "kept"

Ici permet une analyse décontextualisée des mots-clés

In [12]:
import yake
from collections import Counter

# 'kept' contient déjà ton corpus nettoyé (liste de mots)
# Exemple : kept = ['pays', 'gouvernement', 'ministre', ...]

# Convertir kept en texte pour YAKE (il attend une chaîne)
text_kept = " ".join(kept)

# Instancier l'extracteur de mots clés
kw_extractor = yake.KeywordExtractor(lan="fr", top=50)

# Extraire les mots clés depuis le texte reconstitué
keywords = kw_extractor.extract_keywords(text_kept)

# Compteur pour les mots clés
keyword_counter = Counter()

# Découper les mots clés multi-mots en mots individuels
for kw, score in keywords:
    words = kw.split()
    keyword_counter.update(words)

# Récupérer les 50 mots clés les plus fréquents
top_keywords = keyword_counter.most_common(100)

# Affichage des résultats
print(f"{sum(keyword_counter.values())} mots clés extraits ({len(keyword_counter)} mots uniques)")
print("Top 100 mots clés :")
for word, count in top_keywords:
    print(f"{word} : {count}")

150 mots clés extraits (68 mots uniques)
Top 100 mots clés :
ministre : 11
etats : 11
unis : 11
grande : 6
bretagne : 6
affaires : 5
pays : 5
président : 4
france : 4
bruxelles : 4
francs : 3
millions : 3
belgique : 3
commerce : 3
parti : 3
économique : 3
ans : 3
conseil : 3
étrangères : 2
économiques : 2
belges : 2
cours : 2
société : 2
générale : 2
chambre : 2
publique : 2
secrétaire : 2
défense : 1
nationale : 1
gouvernement : 1
milliards : 1
travaux : 1
publics : 1
dernières : 1
années : 1
voir : 1
suite : 1
page : 1
conférence : 1
presse : 1
communiste : 1
instruction : 1
rue : 1
royale : 1
point : 1
vue : 1
ambassadeur : 1
ministres : 1
extérieur : 1
marché : 1
commun : 1
situation : 1
bas : 1
cour : 1
appel : 1
général : 1
chef : 1
cabinet : 1
etat : 1
santé : 1
banque : 1
classes : 1
socialiste : 1
belge : 1
europe : 1
guerre : 1
commission : 1
administration : 1


Ici permet une analyse décontextualisée des bigrammes
attention, les mots dans le corpus kept sont ordonnées dans l'ordre dans lequel il apparaissent dans le texte, mais intgéralement nettoyé. Ce sont des des paires de mots suivi du nombre de fois où il apparaissent ensemble

In [11]:
from collections import Counter
from nltk import ngrams

# bigram_counter pour compter les paires de mots
bigram_counter = Counter()

# Générer tous les bigrammes de kept
bigrams = ngrams(kept, 2)  # paires de mots consécutifs

# Ajouter uniquement les bigrammes qui ne contiennent pas de stopwords
# (ici sw = set des stopwords français)
filtered_bigrams = [
    (w1, w2) for w1, w2 in bigrams if w1 not in sw and w2 not in sw
]

# Mettre à jour le compteur
bigram_counter.update(filtered_bigrams)

# Récupérer les 100 bigrammes les plus fréquents
top_100_bigrams = bigram_counter.most_common(100)

# Affichage
print("Top 100 bigrammes les plus fréquents dans le corpus :")
for (w1, w2), count in top_100_bigrams:
    print(f"{w1} {w2}: {count}")

Top 100 bigrammes les plus fréquents dans le corpus :
etats unis: 2646
aujourd hui: 2493
grande bretagne: 1479
premier ministre: 1351
affaires étrangères: 942
new york: 877
point vue: 775
nations unies: 606
pays bas: 604
ministre affaires: 597
projet loi: 573
ordre jour: 555
parti communiste: 471
millions francs: 471
chemins fer: 458
plan marshall: 443
avant guerre: 440
marché commun: 440
secrétaire général: 430
président conseil: 417
millions dollars: 411
assemblée générale: 403
classes moyennes: 400
porte parole: 388
quelques jours: 373
première fois: 368
vice président: 366
ministre finances: 366
dès lors: 360
banque nationale: 356
milliards francs: 354
millions livres: 351
commerce extérieur: 348
défense nationale: 347
affaires économiques: 345
main œuvre: 336
travaux publics: 325
beaux arts: 316
suite page: 312
grand nombre: 303
vis vis: 302
classe ouvrière: 298
quelque chose: 298
peu près: 294
certain nombre: 289
europe occidentale: 281
union soviétique: 278
instruction publique: