# Segmentation en phrases

## Imports

In [7]:
import os
import sys
import nltk
from nltk.tokenize import sent_tokenize
from collections import defaultdict
import spacy
from spacy.lang.fr.examples import sentences

In [5]:
nlp = spacy.load('fr_core_news_md')

## Fichiers d'inputs et d'outputs

In [17]:
# Lister les Fichiers
title = "Art_1880-1960"
txt_path = '../data/txt'
files = os.listdir(data_path)

In [5]:
ext = ["Bxl_188", "Bxl_196"]

In [10]:
# Enlever les fichiers qui ne contiennent pas RptAn
Art_files = [f for f in files if f.startswith(tuple(ext))]
len(bxl_files)

610

In [11]:
# Lister les fichiers RptAn
Art_files[:10]

['Bxl_1882_Tome_I2_Part_12.txt',
 'Bxl_1961_Tome_RptAn_Part_4.txt',
 'Bxl_1889_Tome_I2_Part_3.txt',
 'Bxl_1963_Tome_RptAn_Part_5.txt',
 'Bxl_1966_Tome_I2_Part_5.txt',
 'Bxl_1967_Tome_II2_Part_10.txt',
 'Bxl_1965_Tome_I_Part_8.txt',
 'Bxl_1966_Tome_II2_Part_11.txt',
 'Bxl_1963_Tome_II1_Part_6.txt',
 'Bxl_1967_Tome_I1_Part_7.txt']

In [14]:
# Stocker le contenu de ces fichiers dans une liste
content_list = []
for txt in Art_files:
    with open(os.path.join(txt_path, txt), 'r') as f:
        content_list.append(f.read())

In [15]:
# Compter le nombre d'éléments (=fichiers) dans la liste
len(content_list)

610

In [16]:
# Imprimer les 200 premiers caractères du contenu du premier fichier
content_list[0][:200]

'Art. 74. — Subside à VAthénée royal : 82,000 francs.\nCette somme représente la part incombant à ia Ville dans\nle traitement des professeurs, ainsi que le montant des\nmenues dépenses.\nLe budget présent'

In [20]:
# Ecrire tout le contenu dans un fichier temporaire
temp_path = '../data/tmp_tp4'
if not os.path.exists(temp_path):
    os.mkdir(temp_path)
with open(os.path.join(temp_path, f'{title}.txt'), 'w') as f:
    f.write(' '.join(content_list))

In [None]:
# Imprimer le contenu du fichier et constater les "déchets"
with open(os.path.join(temp_path, f'{title}.txt'), 'r') as f:
    before = f.read()

before[:500]

"Art. 74. — Subside à VAthénée royal : 82,000 francs.\nCette somme représente la part incombant à ia Ville dans\nle traitement des professeurs, ainsi que le montant des\nmenues dépenses.\nLe budget présenté par la Commission administrative\nainsi que le compte justifiant l'emploi de ces fonds, sont\nannuellement soumis à l'approbation du Conseil communal.\nArt. 75. — loyer de locaux, entretien, contributions et assurance :\n29,750 francs.\nLoyer des locaux de la section professionnelle de 1 Athénée, rue d"

In [22]:
infile = "../data/tmp_tp4/Art_1880-1960.txt"
outfile = "../data/tmp_tp4/sents_tp4.txt"

## Segmentation en phrases du corpus des années 1880 et 1960 et création d'un nouveau fichier

In [26]:
LIMIT = None

In [27]:
with open(outfile, 'w', encoding="utf-8") as output:
    with open(infile, encoding="utf-8", errors="backslashreplace") as f:
        content = f.readlines()
        content = content[:LIMIT] if LIMIT is not None else content
        n_lines = len(content)
        for i, line in enumerate(content):
            if i % 10000 == 0:
                print(f'processing line {i}/{n_lines}')
            sentences = sent_tokenize(line)
            for sent in sentences:
                output.write(sent + "\n")
print("Done")

processing line 0/4309812
processing line 10000/4309812
processing line 20000/4309812
processing line 30000/4309812
processing line 40000/4309812
processing line 50000/4309812
processing line 60000/4309812
processing line 70000/4309812
processing line 80000/4309812
processing line 90000/4309812
processing line 100000/4309812
processing line 110000/4309812
processing line 120000/4309812
processing line 130000/4309812
processing line 140000/4309812
processing line 150000/4309812
processing line 160000/4309812
processing line 170000/4309812
processing line 180000/4309812
processing line 190000/4309812
processing line 200000/4309812
processing line 210000/4309812
processing line 220000/4309812
processing line 230000/4309812
processing line 240000/4309812
processing line 250000/4309812
processing line 260000/4309812
processing line 270000/4309812
processing line 280000/4309812
processing line 290000/4309812
processing line 300000/4309812
processing line 310000/4309812
processing line 320000

## Le fichier ci-dessous n'a pas pu être traité car le texte est de longueur 97079259 et dépasse le maximum de 1000000. Les modèles d'analyseur et NER nécessitent environ 1 Go de mémoire temporaire pour 100 000 caractères dans l'entrée. Cela signifie que les textes longs peuvent provoquer des erreurs d'allocation de mémoire. Pour éviter cela une limite de 1000000 a été demandée.

In [1]:
infile = "../data/tmp_tp4/Art_1880-1960.txt"
outfile = "../data/tmp_tp4/sents2_tp4.txt"

In [2]:
LIMIT = 1000000

In [6]:
with open(outfile, 'w', encoding="utf-8") as output:
    with open(infile, encoding="utf-8", errors="backslashreplace") as f:
        content = f.readlines()
        content = content[:LIMIT] if LIMIT is not None else content
        n_lines = len(content)
        for i, line in enumerate(content):
            if i % 10000 == 0:
                print(f'processing line {i}/{n_lines}')
            sentences = sent_tokenize(line)
            for sent in sentences:
                output.write(sent + "\n")
print("Done")

processing line 0/1000000
processing line 10000/1000000
processing line 20000/1000000
processing line 30000/1000000
processing line 40000/1000000
processing line 50000/1000000
processing line 60000/1000000
processing line 70000/1000000
processing line 80000/1000000
processing line 90000/1000000
processing line 100000/1000000
processing line 110000/1000000
processing line 120000/1000000
processing line 130000/1000000
processing line 140000/1000000
processing line 150000/1000000
processing line 160000/1000000
processing line 170000/1000000
processing line 180000/1000000
processing line 190000/1000000
processing line 200000/1000000
processing line 210000/1000000
processing line 220000/1000000
processing line 230000/1000000
processing line 240000/1000000
processing line 250000/1000000
processing line 260000/1000000
processing line 270000/1000000
processing line 280000/1000000
processing line 290000/1000000
processing line 300000/1000000
processing line 310000/1000000
processing line 320000

# Reconnaissance d'entités nommées avec SpaCy

In [38]:
text = open("../data/sents2_tp4.txt", encoding='utf-8').read()

In [39]:
# Traiter le texte
doc = nlp(text)

In [40]:
# Compter les entités
people = defaultdict(int)
for ent in doc.ents:
    if ent.label_ == "PER" and len(ent.text) > 3:
        people[ent.text] += 1

In [41]:
# Trier et imprimer

sorted_people = sorted(people.items(), key=lambda kv: kv[1], reverse=True)

for person, freq in sorted_people[:50]:
    print(f"{person} apparait {freq} fois dans le corpus")

Montant apparait 11 fois dans le corpus
Subside apparait 10 fois dans le corpus
Loyer apparait 8 fois dans le corpus
Celte apparait 7 fois dans le corpus
Messieurs apparait 7 fois dans le corpus
Recettes apparait 6 fois dans le corpus
Fabrique apparait 5 fois dans le corpus
Jardin Zoologique apparait 4 fois dans le corpus
Gouverneur apparait 4 fois dans le corpus
Locations apparait 4 fois dans le corpus
Propriétés apparait 3 fois dans le corpus
lpar 250 apparait 3 fois dans le corpus
Relevé apparait 3 fois dans le corpus
Haeren apparait 3 fois dans le corpus
Mosnier apparait 3 fois dans le corpus
Recette apparait 3 fois dans le corpus
Charles-Quint apparait 3 fois dans le corpus
Eglise Saint-Josse apparait 3 fois dans le corpus
Receveur apparait 2 fois dans le corpus
Minque apparait 2 fois dans le corpus
Thisselt apparait 2 fois dans le corpus
Gudule apparait 2 fois dans le corpus
Constructions apparait 2 fois dans le corpus
M. Wauters apparait 2 fois dans le corpus
t. III apparait 2 f

# Segmentation en phrases pour la décennie 1880

In [8]:
infile = "../data/tmp_tp4/1880s.txt"
outfile = "../data/tmp_tp4/sents_1880_tp4.txt"

In [9]:
LIMIT = 1000000

In [10]:
with open(outfile, 'w', encoding="utf-8") as output:
    with open(infile, encoding="utf-8", errors="backslashreplace") as f:
        content = f.readlines()
        content = content[:LIMIT] if LIMIT is not None else content
        n_lines = len(content)
        for i, line in enumerate(content):
            if i % 10000 == 0:
                print(f'processing line {i}/{n_lines}')
            sentences = sent_tokenize(line)
            for sent in sentences:
                output.write(sent + "\n")
print("Done")

processing line 0/1000000
processing line 10000/1000000
processing line 20000/1000000
processing line 30000/1000000
processing line 40000/1000000
processing line 50000/1000000
processing line 60000/1000000
processing line 70000/1000000
processing line 80000/1000000
processing line 90000/1000000
processing line 100000/1000000
processing line 110000/1000000
processing line 120000/1000000
processing line 130000/1000000
processing line 140000/1000000
processing line 150000/1000000
processing line 160000/1000000
processing line 170000/1000000
processing line 180000/1000000
processing line 190000/1000000
processing line 200000/1000000
processing line 210000/1000000
processing line 220000/1000000
processing line 230000/1000000
processing line 240000/1000000
processing line 250000/1000000
processing line 260000/1000000
processing line 270000/1000000
processing line 280000/1000000
processing line 290000/1000000
processing line 300000/1000000
processing line 310000/1000000
processing line 320000

# Segmentation en phrases pour la décennie 1960

In [11]:
infile = "../data/tmp_tp4/1960s.txt"
outfile = "../data/tmp_tp4/sents_1960_tp4.txt"

In [12]:
LIMIT = 1000000

In [13]:
with open(outfile, 'w', encoding="utf-8") as output:
    with open(infile, encoding="utf-8", errors="backslashreplace") as f:
        content = f.readlines()
        content = content[:LIMIT] if LIMIT is not None else content
        n_lines = len(content)
        for i, line in enumerate(content):
            if i % 10000 == 0:
                print(f'processing line {i}/{n_lines}')
            sentences = sent_tokenize(line)
            for sent in sentences:
                output.write(sent + "\n")
print("Done")

processing line 0/1000000
processing line 10000/1000000
processing line 20000/1000000
processing line 30000/1000000
processing line 40000/1000000
processing line 50000/1000000
processing line 60000/1000000
processing line 70000/1000000
processing line 80000/1000000
processing line 90000/1000000
processing line 100000/1000000
processing line 110000/1000000
processing line 120000/1000000
processing line 130000/1000000
processing line 140000/1000000
processing line 150000/1000000
processing line 160000/1000000
processing line 170000/1000000
processing line 180000/1000000
processing line 190000/1000000
processing line 200000/1000000
processing line 210000/1000000
processing line 220000/1000000
processing line 230000/1000000
processing line 240000/1000000
processing line 250000/1000000
processing line 260000/1000000
processing line 270000/1000000
processing line 280000/1000000
processing line 290000/1000000
processing line 300000/1000000
processing line 310000/1000000
processing line 320000