# Analyse des grèves ouvrières (1900-1950)

Notre travail final présente l'analyse d'un sous corpus portant sur sur la representation des **greves ouvriere dans la presse belge** entre les années **1900 et 1950**. L'objectif est d'appliquer l'ensemble des connaissances acquises lors des travaux precedents

## Imports

In [2]:
import os
import re
from collections import Counter

In [3]:
from pathlib import Path 

data_dir = Path("../data/camille_greve_txt")

data_dir


WindowsPath('../data/camille_greve_txt')

Verification et comptage des fichiers

In [4]:
# On verifie si le dossier existe
print("Dossier trouvé:", data_dir.exists())

# On récupère tous les fichiers .txt
txt_files = sorted(list(data_dir.glob("*.txt")))

# On affiche le nombre de fichiers présent
print("Nombre de fichier TXT trouvé:", len(txt_files))

# On affiche quelques un
txt_files[:5]

Dossier trouvé: True
Nombre de fichier TXT trouvé: 957


[WindowsPath('../data/camille_greve_txt/KB_JB773_1919-02-01_01-00002.txt'),
 WindowsPath('../data/camille_greve_txt/KB_JB773_1919-03-01_01-00002.txt'),
 WindowsPath('../data/camille_greve_txt/KB_JB773_1919-04-01_01-00001.txt'),
 WindowsPath('../data/camille_greve_txt/KB_JB773_1919-04-01_01-00003.txt'),
 WindowsPath('../data/camille_greve_txt/KB_JB773_1919-05-01_01-00002.txt')]

Extraction de l'année dans les noms des fichiers

In [5]:
annees = []

pattern = re.compile(r"(18|19|20)\d{2}")

for f in txt_files:
    m = pattern.search(f.name)
    if m:
        year = int(m.group(0))

        if 1800 <= year <= 2100:
            annees.append(year)
        else:
            print("Pas d'année trouvée dans:", f.name)
        
len(annees), annees[:10]

(957, [1919, 1919, 1919, 1919, 1919, 1919, 1919, 1919, 1919, 1919])

Comptage du nombre de fichiers par an

In [6]:
compte_par_annee = Counter(annees)

for annee in sorted(compte_par_annee):
    print(annee, ":", compte_par_annee[annee])

1900 : 10
1901 : 19
1902 : 13
1903 : 9
1904 : 7
1905 : 13
1906 : 12
1907 : 14
1908 : 9
1909 : 12
1910 : 15
1911 : 12
1912 : 25
1913 : 17
1914 : 16
1919 : 28
1920 : 43
1921 : 32
1922 : 32
1923 : 30
1924 : 26
1925 : 23
1926 : 32
1927 : 14
1928 : 15
1929 : 13
1930 : 6
1931 : 10
1932 : 25
1933 : 34
1934 : 34
1935 : 23
1936 : 41
1937 : 40
1938 : 25
1939 : 20
1940 : 4
1941 : 6
1942 : 4
1943 : 4
1944 : 1
1945 : 11
1946 : 28
1947 : 45
1948 : 38
1949 : 29
1950 : 38
