# Analalyse de la distribution du vocabulaire

## Imports et dépendances

In [None]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

## Créer une une liste de stopwords

In [None]:
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout", 
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu"]
sw = set(sw)

In [None]:
print(f"{len(sw)} stopwords:\n {sorted(sw)}")

## Tokeniser

In [None]:
# Récupération du contenu du fichier
path = "../data/all.txt"
limit = 10**8

with open(path) as f:
    text = f.read()[:limit]

In [None]:
# Tokenization
words = nltk.wordpunct_tokenize(text)
print(f"{len(words)} words found")

In [None]:
words[:10]

## Calculer la taille du vocabulaire

In [None]:
# Eliminer les stopwords et les termes non alphabétiques
kept = [w.lower() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
voc = set(kept)
print(f"{len(kept)} words kept ({len(voc)} different word forms)")

## Récupérer les mots les plus fréquents et en faire un plot

In [None]:
fdist = nltk.FreqDist(kept)
fdist.most_common(10)

In [None]:
# Plot: les n mots les plus fréquents
n = 10
fdist.plot(n, cumulative=True)

## Détecter les Hapax (mots qui n'apparaissent qu'une fois dans le corpus)

In [None]:
fdist.hapaxes()[:30]

## Trouver les mots les plus longs du corpus

In [None]:
n = 30
sorted(voc, key=len, reverse=True)[:n]