# Nuages de mots

## Imports et stopwords

In [68]:
from collections import Counter
from wordcloud import WordCloud
import os
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from IPython.display import Image

[nltk_data] Downloading package stopwords to /home/chloe/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [69]:
# Stopwords (Idem que dans s1)
sw = stopwords.words("french")
sw += ["les", "plus", "cette", "fait", "faire", "être", "deux", "comme", "dont", "tout",
       "ils", "bien", "sans", "peut", "tous", "après", "ainsi", "donc", "cet", "sous",
       "celle", "entre", "encore", "toutes", "pendant", "moins", "dire", "cela", "non",
       "faut", "trois", "aussi", "dit", "avoir", "doit", "contre", "depuis", "autres",
       "van", "het", "autre", "jusqu", "ville", "rossel", "dem"]
sw = set(sw)


## Créer un fichier contenant le texte de tous les journaux d'une année donnée

In [70]:
# Choisir une année
year = 1945

In [71]:
# Lister les fichiers de cette année
data_path = '../data'
txt_path = '../data/txt'
txts = [f for f in os.listdir(txt_path) if os.path.isfile(os.path.join(txt_path, f)) and str(year) in f]
len(txts)

100

In [72]:
# Stocker le contenu de ces fichiers dans une liste
content_list = []
for txt in txts:
    with open(os.path.join(txt_path, txt), 'r', encoding='utf-8') as f:
        content_list.append(f.read())

In [73]:
# Compter le nombre d'éléments (=fichiers) dans la liste
len(content_list)

100

In [74]:
# Imprimer les 200 premiers caractères du contenu du premier fichier
content_list[0][0:200]

"■ - s LE SOIR DIM. 10 JUIN 1945 NÉCROLOGIE On nous prie d’annoncer le décès de L'ttbbé Paul VAN UOOF, prison polit. Aumônier il l’Hèpltnl St-Pierre. Ancien conwnls,s. Routier» A la B.P,ILS.; Au- niéni"

In [75]:
# Ecrire tout le contenu dans un fichier temporaire
temp_path = '../data/tmp'
if not os.path.exists(temp_path):
    os.mkdir(temp_path)
with open(os.path.join(temp_path, f'{year}.txt'), 'w', encoding='utf-8') as f:
    f.write(' '.join(content_list))

In [76]:
# Imprimer le contenu du fichier et constater les "déchets"
with open(os.path.join(temp_path, f'{year}.txt'), 'r', encoding='utf-8') as f:
    before = f.read()

before[:500]

"■ - s LE SOIR DIM. 10 JUIN 1945 NÉCROLOGIE On nous prie d’annoncer le décès de L'ttbbé Paul VAN UOOF, prison polit. Aumônier il l’Hèpltnl St-Pierre. Ancien conwnls,s. Routier» A la B.P,ILS.; Au- niénier à la F.S.C., né le 30-7-1900. (14c. camp de Gross-Rozen fin déc. 44. Ser. .sol. s. cél. égl'. des Minimes, merc. 13 crt. à 11 h. Rue d. Faisans, 4. 6499 MONSIEUR - JEAN HËEION pieusem. décédé à Anderlecht, le 7 crt, à 80 ans. Le serv. funôb. sera célébré le lundi 11 crt, en l'église St-François- "

## Nettoyer le fichier à l'aide d'une fonction de nettoyage

### Créer la fonction de nettoyage (à adapter)

In [77]:
def clean_text(year, folder=None):
    if folder is None:
        input_path = f"{year}.txt"
        output_path = f"{year}_clean.txt"
    else:
        input_path = f"{folder}/{year}.txt"
        output_path = f"{folder}/{year}_clean.txt"
    output = open(output_path, "w", encoding='utf-8')
    with open(input_path, 'r', encoding='utf-8') as f:
        text = f.read()
        words = nltk.wordpunct_tokenize(text)
        kept = [w.upper() for w in words if len(w) > 2 and w.isalpha() and w.lower() not in sw]
        kept_string = " ".join(kept)
        output.write(kept_string)
    return f'Output has been written in {output_path}!'

### Appliquer la fonction sur le fichier complet de l'année

In [78]:
clean_text(year, folder=temp_path)

'Output has been written in ../data/tmp/1945_clean.txt!'

In [79]:
# Vérifier le résultat
with open(os.path.join(temp_path, f'{year}_clean.txt'), 'r', encoding='utf-8') as f:
    after = f.read()

after[:500]

'SOIR DIM JUIN NÉCROLOGIE PRIE ANNONCER DÉCÈS TTBBÉ PAUL UOOF PRISON POLIT AUMÔNIER HÈPLTNL PIERRE ANCIEN CONWNLS ROUTIER NIÉNIER CAMP GROSS ROZEN FIN DÉC SER SOL CÉL ÉGL MINIMES MERC CRT RUE FAISANS MONSIEUR JEAN HËEION PIEUSEM DÉCÉDÉ ANDERLECHT CRT ANS SERV FUNÔB CÉLÉBRÉ LUNDI CRT ÉGLISE FRANÇOIS XAVIER FLEURS COURONN RÉUN RÉVISION PRÉSENT AVIS TIENT LIEU FOIRE PART MONSIEUR JACQUES MARTIN LIÈGE BLESSÉ BOMBARDERA BERLIN DÉCÉDÉ MESSE SOLENNELLE LIEU LUNDI JUIN ÉGLISE SERVAIS HAECHT SCH MONSIEUR '

## Nuage de mots

### Afficher les termes les plus fréquents


In [80]:
frequencies = Counter(after.split())
print(frequencies.most_common(10))

[('RUE', 3316), ('BRUXELLES', 1918), ('TÉL', 1731), ('ECR', 1536), ('ECRIRE', 1215), ('BON', 1035), ('MAISON', 1013), ('BRUX', 946), ('GUERRE', 891), ('ANS', 888)]


### Créer, stocker et afficher le nuage de mots

In [82]:
from wordcloud import WordCloud
wc = WordCloud(width=800, height=400).generate("exemple de texte")
wc.to_image()


AttributeError: 'ImageDraw' object has no attribute 'textsize'

In [81]:
cloud = WordCloud(width=2000, height=1000, background_color='white').generate_from_frequencies(frequencies)


AttributeError: 'ImageDraw' object has no attribute 'textsize'

In [None]:
cloud.to_file(os.path.join(temp_path, f"{year}.png"))
Image(filename=os.path.join(temp_path, f"{year}.png"))