In [34]:
# Importations

import numpy as np # Pour les calculs mathématiques
import matplotlib.pyplot as plt # Pour les graphiques
import pandas as pd # Pour la manipulation de tableaux de données
from spellchecker import SpellChecker # Pour vérifier que le dataset d'entraînement ne contient pas de fautes d'orthographe ni de noms propres
import time # Pour mesurer le temps d'exécution


# Nettoyage de la base de données

In [35]:
# Ouverture du fichier

number_char = 1000000000000
number_char = min(number_char, 304390477) 

#file_path = '/Users/quentingirard/Desktop/Ecole/2A_Ponts/S4/PRAMA/europarl-v6.fr-en.fr_toy'     #Chemin de la BDD jouet pour Quentin
file_path = '/Users/quentingirard/Desktop/Ecole/2A_Ponts/S4/PRAMA/europarl-v6.fr-en.fr_real'     #Chemin de la BDD complète pour Quentin

file = open(file_path, 'r', encoding='utf-8')
text = file.read(number_char)
file.close()

#print(text)

In [36]:
def remove_accents(text):
    text = text.replace('à', 'a')
    text = text.replace('â', 'a')
    text = text.replace('é', 'e')
    text = text.replace('è', 'e')
    text = text.replace('ê', 'e')
    text = text.replace('î', 'i')
    text = text.replace('ô', 'o')
    text = text.replace('ù', 'u')
    text = text.replace('û', 'u')
    text = text.replace('ç', 'c')
    return text

def remove_special_chars(text):
    text = text.replace('.', '')
    text = text.replace('!', ' ')
    text = text.replace('?', ' ')
    text = text.replace("' ", ' ')
    text = text.replace("'", ' ')
    text = text.replace('"', ' ')
    text = text.replace(',', '')
    text = text.replace(';', ' ')
    text = text.replace('(', '')
    text = text.replace(')','')
    return text

def remove_double_spaces(text):
    text = text.replace('  ', ' ')
    text = text.replace('   ', ' ')
    return text

def remove_numbers(text):
    text = ''.join([i for i in text if not i.isdigit()])
    return text

In [37]:
text = text.lower() # On met tout en minuscule - abandonné car on a besoin des majuscules pour identifier les noms propres.
#text = remove_accents(text) # On enlève les accents
text = remove_special_chars(text) # On remplace les caractères spéciaux par des espaces
text = remove_numbers(text) # On enlève les chiffres

In [38]:
## Vérification de la bonne orthographe des mots

spell = SpellChecker(language='fr')

words = text.split()
misspelled = spell.unknown(words)

list_misspelled = [word for word in misspelled if len(word) > 1]
print(list_misspelled)



In [39]:
# Vérification de la bonne identification des mots mal orthographiés et des noms propres
misspelled_examples = ['ponnambalam','kumar','mutagénèse','busquin','tchernobyl']   #Attention, cette liste n'est pertinente que pour le dataset complet, et pas pour l'exemple jouet.
for word in misspelled_examples:
    print(word in list_misspelled)

True
True
True
True
True


Alors, on a deux choix : on peut enlever les mots mal orthographiés ou on peut les remplacer par une version corrigée. 

In [40]:
percentage_misspelled = round(len(list_misspelled) / len(words) * 100,2)
print(f"Percentage of misspelled words: {percentage_misspelled:.2f}%")

Percentage of misspelled words: 0.19%


Le plus simple est de drop ces mots. On s'affranchit à la fois des noms propres et des mots mal orthographiés. Un modèle plus fin pourra être réalisé par la suite car supprimer les mots mal orthographiés nuit au sens des phrases.

On conserve les titres (ex :  M. Bonnefoi -> M est conservé).

In [41]:
# On supprime les mots mal orthographiés et les noms propres - LIMITANTE TEMPORELLEMENT

time_start = time.time()

print(f'Nouvelle longueur du texte: {len(text.split())} mots')
for word in words:
    if word in list_misspelled:
        text = text.replace(word, '')

time_end = time.time()
print(f'Temps d\'exécution: {time_end - time_start:.2f} s')

text = remove_double_spaces(text) # On enlève les doubles espaces dus à la suppression des mots et des caractères spéciaux

number_words = len(text.split())
print(f'Nouvelle longueur du texte: {number_words} mots')

Nouvelle longueur du texte: 49675830 mots


KeyboardInterrupt: 

In [None]:
# on exporte le texte nettoyé
file_path_clean = f'/Users/quentingirard/Desktop/Ecole/2A_Ponts/S4/PRAMA/europarl-v6.fr-en.fr_clean_{number_char}'
file = open(file_path_clean, 'w', encoding='utf-8')
file.write(text)
file.close()

# Création du dataset d'entraînement à partir de la base de données

In [None]:
# Ouverture du document

file = open(file_path_clean, 'r', encoding='utf-8')
text = file.read()
words = text.split()
file.close()

# Initialisation d'un dictionnaire
word_counts = {}

# Comptage des occurences des mots et remplissage du dictionnaire
for word in words:
    if word in word_counts:
        word_counts[word] += 1
    else:
        word_counts[word] = 1

# Conversion du dictionnaire en DataFrame
df = pd.DataFrame(list(word_counts.items()), columns=['mot', 'occurence'])
df.set_index('mot', inplace=True)
df['fréquence (%)'] = df['occurence'] / number_words * 100

print(word_counts)
df.head()

{'reprise': 2, 'de': 13, 'la': 4, 'session': 3, 'je': 4, 'déclare': 1, 'du': 1, 'parlement': 2, 'européen': 1, 'qui': 3, 'avait': 1, 'été': 4, 'interrompue': 1, 'le': 4, 'vendredi': 1, 'décembre': 1, 'dernier': 1, 'et': 2, 'vous': 7, 'renouvelle': 1, 'tous': 1, 'mes': 1, 'en': 3, 'espérant': 1, 'que': 2, 'avez': 4, 'passé': 1, 'bonnes': 1, 'vacances': 1, 'comme': 2, 'pu': 1, 'constater': 1, 'grand': 1, 'bogue': 1, 'l': 3, 'an': 1, 'ne': 1, 's': 1, 'est': 2, 'pas': 1, 'produit': 1, 'revanche': 1, 'les': 4, 'citoyens': 1, 'd': 1, 'un': 3, 'certain': 2, 'nombre': 2, 'nos': 1, 'pays': 2, 'ont': 4, 'victimes': 2, 'catastrophes': 1, 'naturelles': 1, 'vraiment': 1, 'terribles': 1, 'souhaité': 1, 'débat': 1, 'à': 2, 'ce': 1, 'sujet': 1, 'dans': 2, 'prochains': 1, 'jours': 1, 'au': 1, 'cours': 1, 'cette': 2, 'période': 1, 'attendant': 1, 'souhaiterais': 1, 'collègues': 1, 'me': 1, 'demandé': 1, 'nous': 1, 'observions': 1, 'une': 3, 'minute': 3, 'silence': 3, 'pour': 2, 'toutes': 1, 'des': 1, 't

Unnamed: 0_level_0,occurence,fréquence (%)
mot,Unnamed: 1_level_1,Unnamed: 2_level_1
reprise,2,1.176471
de,13,7.647059
la,4,2.352941
session,3,1.764706
je,4,2.352941


In [None]:
# Exportation du DataFrame en fichier csv

df.to_csv(f'/Users/quentingirard/Desktop/Ecole/2A_Ponts/S4/PRAMA/europarl-v6.fr-en.fr_clean_{number_char}_frequency.csv')