In [67]:
# Importation des modules

import pandas as pd
import nltk 
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords

from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer(language='french')

#Affichage de toutes les colonnes

pd.set_option('display.max_columns', 500)

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/lilianmarey/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/lilianmarey/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [68]:
#Importation des données

df = pd.read_csv('data/bdd_complete2.csv', sep = ',', encoding = 'latin-1')

In [69]:
# Echantillon de la base
print(df.shape)
df.sample(5)

(100, 26)


Unnamed: 0.1,Unnamed: 0,Orateur,Date,Nature.de.séance,Président.de.séance,Sujet.débattu,Réplique,Didascalie,Président.de.séance_propre,nom.famille,sexe,age,groupe.sigle,commissions,nb.mandats,cabcollab,duree.pol,clustRFSP,clustVEP,hautdip,naissance_an,majo,profsigni2,ID,Groupe,time_floor
442339,442340,sophie auconie,2019-12-11,Lutte contre le gaspillage et économie circulaire,Présidence de M. Sylvain Waserman,Discussion des articles,Avant de présenter lamendement dont Mme Main...,,Présidence de M. Sylvain Waserman,Auconie,F,54,LC,DvptDurable,0,False,9,2 - 2de carrière,2 - 2de carrière,PtEc,1963,True,cadsupprive,442340,Exp,2019-12-01
465948,465949,thierry benoit,2018-09-14,Équilibre dans le secteur agricole et alimentaire,Présidence de Mme Carole Bureau-Bonnard,Discussion des articles,Il y avait un double actif. Cétait une petite...,,Présidence de Mme Carole Bureau-Bonnard,Benoit,M,51,LC,affaires économiques,2,False,26,5 - Dép. sortant,5 - Dép. sortant,PAS D'INFO,1966,True,EmployeInter,465949,Exp,2018-09-01
332889,332890,maurice leroy,2017-07-25,Confiance dans la vie publique,Présidence de Mme Carole Bureau-Bonnard,Discussion des articles,Ce nest pas le verrou de Bercy cest le ver...,,Présidence de Mme Carole Bureau-Bonnard,Leroy,M,58,LC,Aff. Etrangeres,4,True,33,5 - Dép. sortant,5 - Dép. sortant,Master,1959,True,collab,332890,Exp,2017-07-01
334734,334735,michel castellani,2019-10-17,Projet de loi de finances pour 2020,Présidence de M. David Habib,,Je reviens sur lidée de pénaliser lusage de ...,,Présidence de M. David Habib,Castellani,M,72,NI,Finances,0,False,20,3 - Ancr. local,3 - Ancr. local,Doct,1945,False,cadsuppub,334735,Exp,2019-10-01
196193,196194,francois pupponi,2017-11-17,Projet de loi de finances pour 2018,Présidence de M. Hugues Renson,Seconde partie,Lamendement du Gouvernement me surprend beau...,,Présidence de M. Hugues Renson,Pupponi,M,55,NG,Finances,2,True,22,5 - Dép. sortant,5 - Dép. sortant,Master,1962,False,cadsuppub,196194,Exp,2017-11-01


In [71]:
# L'objectif est de nettoyer le texte dit par les intervenants. On s'intéresse donc à la colonne 'Réplique'

# Première approche : échantillon de 10 000 interventions

df_replique = df[['Réplique']]

In [72]:
df_replique.sample(10)

Unnamed: 0,Réplique
288026,Face à la crainte légitime que suscite le fait...
105289,Il est dommage que notre pays ne défende pas c...
221776,Nous sommes conscients que laccès aux soins e...
255708,Je défendrai moi aussi en même temps les deux...
124609,et applique les préconisations du Défenseur ...
6673,Cher collègue merci de respecter mon point d...
166329,Défendu.
208132,Votre proposition présente plusieurs inconvéni...
441000,Ce samedi 2 février nous avons connu lacte 1...
270780,En premier lieu vous souhaitez redéfinir le r...


In [73]:
# Première correction : les apostrophes sont codées par '\x92'. On les retire. 
# On supprime aussi les codes '<U+0080>' qui sont avant les points d'exclamation
# On remplace les tirets par des espaces
# On met tout en minuscule

df_replique['Réplique'] = df_replique.apply(
    lambda row: row.Réplique.replace('\x92', '').replace('<U+0080>', '').replace('-', ' ').lower(),
    axis = 1)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [74]:
# On tokenize les chaines de caractère

df_replique['tokenized'] = df_replique.apply(lambda row: nltk.word_tokenize(row.Réplique, language='french'), 
                                             axis = 1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [75]:
# On obtient bien des listes de mots

df_replique.head(10)

Unnamed: 0,Réplique,tokenized
285060,je ne vois pas lintérêt pratique de ce type da...,"[je, ne, vois, pas, lintérêt, pratique, de, ce..."
335215,deux mots pour soutenir lamendement de notre ...,"[deux, mots, pour, soutenir, lamendement, de, ..."
464125,très bien!,"[très, bien, !]"
172075,quel est lavis de la commission?,"[quel, est, lavis, de, la, commission, ?]"
440436,monsieur le ministre de lintérieur depuis pl...,"[monsieur, le, ministre, de, lintérieur, depui..."
366830,nous pouvons reconnaître des erreurs et les co...,"[nous, pouvons, reconnaître, des, erreurs, et,..."
411851,la parole est à mme christine pires beaune p...,"[la, parole, est, à, mme, christine, pires, be..."
172734,la parole est à m. laurent pietraszewski rap...,"[la, parole, est, à, m., laurent, pietraszewsk..."
90616,très bien!,"[très, bien, !]"
105657,votre responsabilité est donc,"[votre, responsabilité, est, donc]"


In [76]:
# On retire la ponctuation pour le moment

df_replique['tokenized'] = df_replique.apply(lambda row: [word for word in row.tokenized if word.isalpha()], 
                                             axis = 1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [77]:
# On retire les stopwords

stop_words = set(stopwords.words('french'))

df_replique['tokenized'] = df_replique.apply(lambda row: [word for word in row.tokenized if not word in stop_words], 
                                             axis = 1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [78]:
# Stemming

df_replique['stemmed'] = df_replique.apply(lambda row: [stemmer.stem(word) for word in row.tokenized], 
                                             axis = 1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [79]:
df_cleaned = df.copy()
df_cleaned['tokenized'] = df_replique['tokenized']
df_cleaned['stemmed'] = df_replique['stemmed']

In [84]:
df_cleaned.to_csv('data/data_cleaned_test.csv', sep = ',', encoding = 'latin-1')