# Building a wordcloud based on one year of bulletins

## Créer un fichier contenant les bulletins d'une année donnée

In [1]:
# Choisir une année

YEAR = 1847

In [2]:
# Lister les fichiers de cette année

from os import listdir
from os.path import isfile, join

data_path = '../data'
txt_path = '../data/txt'
txts = [f for f in listdir(txt_path) if isfile(join(txt_path, f)) and str(YEAR) in f]
txts

['Bxl_1847_Tome_I1_Part_1.txt',
 'Bxl_1847_Tome_I1_Part_2.txt',
 'Bxl_1847_Tome_I1_Part_3.txt',
 'Bxl_1847_Tome_I1_Part_4.txt',
 'Bxl_1847_Tome_I1_Part_5.txt']

In [3]:
# Stocker le contenu de ces fichiers dans une liste

content_list = []
for txt in txts:
    with open(f'{txt_path}/{txt}', encoding='utf-8') as f:
        content_list.append(f.read())

In [4]:
# Vérifier le nombre de contenus collectés

len(content_list)

5

In [5]:
# Imprimer les 200 premiers caractères du contenu du premier fichier

content_list[0][:200]

'V I L L E DE\n\nBRUXELLES\n\nbulletin ires 8éanas\nDl!\n\nCONSEIL\n\nCOMMUNAL\n\nANNÉE\n\n1847.\n\n\x0cAU\n\n\x0cVILLE DE B R U X E L L E S .\n\nbulletin\n\nCONSEIL\n\nàes\n\nSéances\n\nCOMMUNAL.\n\nANNÉE\n\n1847.\n\nBRUXELLES,\nIMPRIMERIE\n'

In [9]:
# Ecrire tout le contenu dans un fichier

with open(f'{YEAR}.txt', 'w', encoding='utf-8') as f:
    f.write(' '.join(content_list))

## Enlever les stopwords, les mots courts et non alphabétiques et stocker le résultat dans un nouveau fichier

In [11]:
# Imprimer le contenu du fichier et constater les "déchets"

with open(f'{YEAR}.txt', 'r') as f:
    before = f.read()

before[:500]

UnicodeDecodeError: 'charmap' codec can't decode byte 0x8f in position 354: character maps to <undefined>

In [12]:
# Appliquer la fonction filtering (que vous pouvez customiser)

from filtering import filtering

filtering(YEAR, folder='tmp')

FileNotFoundError: [Errno 2] No such file or directory: 'tmp/1847_keywords.txt'

In [None]:
# Vérifier le résultat

with open(f'tmp/{YEAR}_keywords.txt', 'r') as f:
    after = f.read()

after[:500]

## Créer le word cloud

In [None]:
import subprocess

command = [
    'wordcloud_cli',
    '--text', f'tmp/{YEAR}_keywords.txt',
    '--imagefile', f'tmp/{YEAR}.png',
    '--width', '2000',
    '--height', '1000',
]

subprocess.run(command, capture_output=True)

## Afficher le word cloud

In [None]:
from IPython.display import Image

Image(filename=f'tmp/{YEAR}.png')