In [14]:
# Importation des modules

import pandas as pd
from gensim.models import Word2Vec
import random
import matplotlib.pyplot as plt
import numpy as np
import plotly.express as px
import datetime

#Affichage de toutes les colonnes

pd.set_option('display.max_columns', 500)

In [15]:
w2v_model_all = Word2Vec.load('results/word2vec_all_300.model')

In [16]:
df0 = pd.read_csv("data/data_cleaned_NLP.csv", sep = ',', encoding = 'latin-1')

In [17]:
df = df0[['Date', 'Groupe', 'Orateur', 'tokenized_replique']].copy()

In [18]:
df['days'] = df.apply(lambda row : (datetime.date(int(row.Date[:4]),int(row.Date[5:7]),int(row.Date[8:])) - 
                    datetime.date(2017,6,28)).days, axis = 1)

In [19]:
def add_groupe(L, etiquette):
    return [i + etiquette for i in L]

In [11]:
def calcule_WMD_intervalle(d1, d2):
    print('JOURS : ', d1, ' ', d2)
    df1 = df[df['days'] >= d1]
    df1 = df1[df1['days'] < d2]
    
    df_Novice = df1[df1['Groupe'] == 'Novice']
    df_Exp = df1[df1['Groupe'] == 'Exp']
    
    #display(df_Novice)
    try:
        df_Novice = df1[df1['Groupe'] == 'Novice'].sample(50).dropna()
        df_Exp = df1[df1['Groupe'] == 'Exp'].sample(50).dropna()
        print(df_Exp.shape, df_Novice.shape)
    except:
        return np.nan
    
    phrases_Exp = [df_Exp.iloc[i]['tokenized_replique'].split(' ') for i in range(df_Exp.shape[0])]
    phrases_Novice = [df_Novice.iloc[i]['tokenized_replique'].split(' ') for i in range(df_Novice.shape[0])]
    
    WMD = []
    

    for i in phrases_Novice:
        value = np.mean([w2v_model_all.wv.wmdistance(add_groupe(i, '_Novice'), 
                                                     add_groupe(j, '_Exp')) for j in phrases_Exp])
        print(value)
        if str(value) == 'inf':
            print(i)
        WMD.append(value)
    
    px.line([np.mean(WMD[:i]) for i in range(1, len(WMD))]).show()
    
    return np.mean(WMD)

In [140]:
#calcule_WMD_intervalle(322, 336)

In [141]:
#L = [calcule_WMD_intervalle(i, i + 14) for i in range(0, 1094, 14)]
#px.line(y = L, x = [i for i in range(0, 1094, 14)])

values = list((pd.read_csv('results/WMDinter_temporel.csv')['0']))
dates = list((pd.read_csv('results/WMDinter_temporel.csv')['Unnamed: 0']))

In [142]:
#pd.DataFrame(L, [i for i in range(0, 1094, 14)]).to_csv('results/WMDinter_temporel0.csv')

In [143]:
px.line(y = values, x = dates)

In [158]:
date_label = [datetime.timedelta(days=i) + datetime.date(2017,6,28) for i in range(14, 1094, 14)]

In [159]:
px.line(y = [np.mean(values[:i]) for i in range(1,len(values))], x = date_label, 
        labels = {'x' : 'Dates', 'y' : 'Moyenne cumulée des distances'})

On observe la moyenne cumulée des distances en fonction du temps. On constate une moyenne forte en début d'exercice, puis une relaxation pour atteindre une valeur limite.
On peut interpréter cela comme : 
- un début d'exercice où les novices et les expérimentés parlent différemment, la distance entre les deux langages est raltivement grande.
- une période d'apprentissage (du 20 septembre 2017 au 16 mai 2018) où les différences entre novices et expérimentés tendent à s'estomper (mais dans quel sens ? on s'attend à ce que les novices s'adaptent aux expérimentés, et pas forcement l'inverse), la distance diminue.
- une période de différenciation (du 16 mai 2018 au 12 décembre 2018), où la distance augmente légerement : comme si un des deux camps voulait se différencier de l'autre.
- une période stable (du 12 décembre 2018 à la fin de l'exercice).

## Analyse personnalisée député par député

In [8]:
# Députés Novices parlant le plus (classement par nombre d'intervention)

dict(df0[df0['Groupe'] == 'Novice'].Orateur.value_counts())

{'laurent pietraszewski': 3435,
 'francois ruffin': 3125,
 'sabine rubin': 2189,
 'adrien taquet': 1781,
 'roland lescure': 1705,
 'laetitia avia': 1637,
 'emilie chalas': 1579,
 'cendra motin': 1557,
 'yael braun pivet': 1286,
 'catherine fabre': 1159,
 'coralie dubost': 1138,
 'christophe naegelen': 1134,
 'thomas mesnier': 1121,
 'jean baptiste djebbari': 1096,
 'nadia hai': 986,
 'marie christine verdier jouclas': 986,
 'bruno studer': 895,
 'sacha houlie': 880,
 'gilles le gendre': 836,
 'berangere couillard': 714,
 'veronique riotton': 675,
 'benedicte peyrol': 603,
 'alexandra louis': 603,
 'raphael gauvain': 598,
 'raphael gerard': 594,
 'mohamed laqhila': 586,
 'agnes thill': 568,
 'martine wonner': 542,
 'cecile rilhac': 527,
 'stephanie rist': 478,
 'zivka park': 469,
 'perrine goulet': 461,
 'vincent thiebaut': 446,
 'jean francois mbaye': 439,
 'alice thourot': 391,
 'alexandre holroyd': 361,
 'caroline abadie': 336,
 'annie chapelier': 326,
 'fiona lazaar': 322,
 'damien 

In [9]:
orateurs_novices = list(dict(df0[df0['Groupe'] == 'Novice'].Orateur.value_counts()).keys())

In [11]:
def calcule_WMD_intervalle_personnalise(orateur, d1, d2):
    print(orateur)
    print('JOURS : ', d1, ' ', d2)
    df1 = df[df['days'] >= d1]
    df1 = df1[df1['days'] < d2]
    
    df_Novice = df1[df1['Orateur'] == orateur]
    df_Exp = df1[df1['Groupe'] == 'Exp']
    
    #display(df_Novice)
    try:
        df_Novice = df1[df1['Groupe'] == 'Novice'].dropna().sample(50)
        df_Exp = df1[df1['Groupe'] == 'Exp'].dropna().sample(50)
    except:
        return np.nan
    
    phrases_Exp = [df_Exp.iloc[i]['tokenized_replique'].split(' ') for i in range(df_Exp.shape[0])]
    phrases_Novice = [df_Novice.iloc[i]['tokenized_replique'].split(' ') for i in range(df_Novice.shape[0])]
    
    WMD = []
    
    for i in phrases_Novice:
        if len(i)<3:
            continue
        values = []
        for j in phrases_Exp:
            d = w2v_model_all.wv.wmdistance(add_groupe(i, '_Novice'), 
                                                     add_groupe(j, '_Exp'))
            if str(d) != 'inf':
                values.append(d)
        value = np.mean(values)
        #print(value)
        WMD.append(value)
    
    #px.line([np.mean(WMD[:i]) for i in range(1, len(WMD))]).show()
    print(np.mean(WMD))
    
    return np.mean(WMD)

### 1) Pietraszewski

In [244]:
#L_pietraszewski = [calcule_WMD_intervalle_personnalise('laurent pietraszewski', i, i + 14) for i in range(0, 1094, 14)]
#pd.DataFrame(L_pietraszewski, [i for i in range(0, 1094, 14)]).to_csv('results/WMDinter_temporel_pietraszewski.csv')

In [242]:
px.line([np.mean(L_pietraszewski[:i]) for i in range(1,len(L_pietraszewski))])

### 2) Ruffin

In [266]:
#L_ruffin = [calcule_WMD_intervalle_personnalise('francois ruffin', i, i + 14) for i in range(0, 1094, 14)]
#pd.DataFrame(L_ruffin, [i for i in range(0, 1094, 14)]).to_csv('results/WMDinter_temporel_ruffin.csv')

In [265]:
px.line([np.mean(L_ruffin[:i]) for i in range(1,len(L_ruffin))])

In [245]:
for i in range(len(L_ruffin)):
    if str(L_ruffin[i]) == 'nan':
        L_ruffin[i] = L_ruffin[i-1]
    elif str(L_ruffin[i]) == 'inf':
        print(i, [(j, j+14) for j in range(0, 1094, 14)][i])

8 (112, 126)
27 (378, 392)
33 (462, 476)
42 (588, 602)
51 (714, 728)
73 (1022, 1036)


In [None]:
L_ruffin

#### Autres députés

In [29]:
orateurs_novices

['laurent pietraszewski',
 'francois ruffin',
 'sabine rubin',
 'adrien taquet',
 'roland lescure',
 'laetitia avia',
 'emilie chalas',
 'cendra motin',
 'yael braun pivet',
 'catherine fabre',
 'coralie dubost',
 'christophe naegelen',
 'thomas mesnier',
 'jean baptiste djebbari',
 'nadia hai',
 'marie christine verdier jouclas',
 'bruno studer',
 'sacha houlie',
 'gilles le gendre',
 'berangere couillard',
 'veronique riotton',
 'benedicte peyrol',
 'alexandra louis',
 'raphael gauvain',
 'raphael gerard',
 'mohamed laqhila',
 'agnes thill',
 'martine wonner',
 'cecile rilhac',
 'stephanie rist',
 'zivka park',
 'perrine goulet',
 'vincent thiebaut',
 'jean francois mbaye',
 'alice thourot',
 'alexandre holroyd',
 'caroline abadie',
 'annie chapelier',
 'fiona lazaar',
 'damien adam',
 'albane gaillot',
 'dominique david',
 'fannette charvier',
 'gregory besson moreau',
 'anne genetet',
 'typhanie degois',
 'joachim son forget',
 'audrey dufeu schubert',
 'sylvie charriere',
 'carole

In [None]:
for orateur in orateurs_novices[2:11]:
    T = [calcule_WMD_intervalle_personnalise(orateur, i, i + 14) for i in range(0, 1094, 14)]
    pd.DataFrame(T, [i for i in range(0, 1094, 14)]).to_csv('results/WMDinter_temporel_' + orateur + '.csv')


sabine rubin
JOURS :  0   14
1.5097795256273057
sabine rubin
JOURS :  14   28
1.5216195955797323
sabine rubin
JOURS :  28   42
1.504244272763923
sabine rubin
JOURS :  42   56


## Nombre de mots utilisés selon la période

In [None]:
def calcule_nb_mots_periode(d1, d2):
    print('JOURS : ', d1, ' ', d2)
    df1 = df[df['days'] >= d1]
    df1 = df1[df1['days'] < d2]
    
    df_Novice = df1[df1['Orateur'] == 'Novice']
    
    
    
    
    #display(df_Novice)
    try:
        df_Novice = df1[df1['Groupe'] == 'Novice'].dropna().sample(50)
        df_Exp = df1[df1['Groupe'] == 'Exp'].dropna().sample(50)
        print(df_Exp.shape, df_Novice.shape)
    except:
        return np.nan
    
    phrases_Exp = [df_Exp.iloc[i]['tokenized_replique'].split(' ') for i in range(df_Exp.shape[0])]
    phrases_Novice = [df_Novice.iloc[i]['tokenized_replique'].split(' ') for i in range(df_Novice.shape[0])]
    
    WMD = []
    

    for i in phrases_Novice:
        value = np.mean([w2v_model_all.wv.wmdistance(add_groupe(i, '_Novice'), 
                                                     add_groupe(j, '_Exp')) for j in phrases_Exp])
        print(value)
        if str(value) == 'inf':
            print(i)
        WMD.append(value)
    
    px.line([np.mean(WMD[:i]) for i in range(1, len(WMD))]).show()
    
    return np.mean(WMD)