# Données sur les prises de paroles exclues des CRI 

Le principe est de regarder en détail comment se caractérisent toutes les prises de paroles exclues pour justifier leur exclusion (qu'elles ne contiennent pas ou très peu de paroles proprement politiques)

In [13]:
# Ici on ouvre le fichier de base pour commencer
import pandas as pd

df = pd.read_csv(
   "/Users/matthiaslevalet/Desktop/Projet de recherche/CSS_République/Data/Interim/Data_AN_Fusion.csv" , low_memory=False, dtype={"ID_orateur": str}
)

df.shape

(1128128, 27)

## Étape 1 : les variables du "code_style"

il existe 4 modalités : 
- "NORMAL" qui correspond à des prises de paroles (91%/ 1027459)
- "Infos Italiques" qui correspondent à des didascalies hors du texte, rajouté avant ou après les interventions pour donner le contexte par le service du compte-rendu (9%/ 98800)
- "Signature droite" en fin de chaque CRI qui correspond à un texte comme "Le Directeur du service du compte rendu de la séance de l’Assemblée nationale" ou "La directrice" avec son nom (- 1%/1844)
- D'autres " (-1%)


In [None]:
# On commence par regarder les prises de paroles en italique

df = df[df["code_style"] == "Info Italiques"]
df.shape

(98800, 27)

In [None]:
# On peut aussi regarder les "signatures droites"
df = df[df["code_style"] == "Signature droite"] 
df.shape

(1844, 27)

## Étape 2 : observer le contenu des interventions de la présidence de l'AN 

### Aspects théoriques 

#### Dans la direction des débats : 

En ce qui concerne la présidence des séances publiques, c’est à la Présidente qu’il revient :

–    d’ouvrir, de lever ou de suspendre la séance ;

–    de mener les débats en tenant compte des décisions de la Conférence des présidents ;

–    de déterminer l’ordre des orateurs et de leur donner la parole ;

–    de décider la réserve ou la priorité de certains articles et amendements ;

–    de veiller au respect du Règlement ainsi que des dispositions constitutionnelles ou organiques ;

–    de veiller à la discipline dans l’hémicycle.
Dans ces fonctions, la Présidente peut se faire remplacer par un des six vice présidents de l’Assemblée nationale.

#### Autres fonctions

##### Le rôle de représentation de l’Assemblée nationale
Il entre dans la mission de la Présidente d’incarner la communauté des députés dans certaines circonstances.

C’est par exemple à ce titre qu’elle exprime, en séance publique, l’émotion de la représentation nationale face à certains événements d’une particulière gravité (attentats, catastrophes, disparition de personnalités, etc.)
==> En les enlevant on risque de perdre ces moments où elles s'exprime plus solennelement "au nom des députés de la Nation".


### Aspects empiriques 
Il existe en théorie une variable spécifique "role_debat" mais elle est trop lacunairement remplie avec 89% de valeurs manquantes et seulement 11% pour la présidence. 

Donc la meilleure option semble de renvoyer au "nom de l'orateur" dont les modalités donnent "M. le président" (17%) ou "Mme la présidente" (14%) ce qui fait déjà 31% soit 21% de plus que pour la variable role_debat.
Le Président de la République n'est pas compris la-dedans, puisqu'il renvoie à la modalité " Président de la République" dans la variable "qualité_orateur" et par son nom "Emmanuel Macron" pour "nom de l'orateur". 

Observations à la lecture conformes aux définitions de ses fonctions : 
- Essentiellement une distribution de la parole "La parole est à X" (majoritairement) "Quel est l'avis de X"
- Des réponses courtes formelles sur l'avancée "Je n'ai pas reçu d'ammendements", etc.
- Des rappels au réglement pour demander de finir plus vite, remercier la personne (intimer de finir plus poliement) 


In [15]:
# Pour récuperer, il suffit d'utiliser la même fonction sans le tilde qui exclut/prend la variable fausse.

df = df[df["nom_orateur"].str.strip().isin(["M. le président", "Mme la présidente"])]

df.shape

(343781, 27)

In [19]:
df.groupby("code_grammaire", dropna=False)["code_parole"].describe()

Unnamed: 0_level_0,count,unique,top,freq
code_grammaire,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
49_3_2_1,2,2,PRESIDE_DISCOURS_1_10,1
ADT_SORTS_DIRECT_1_10,0,0,,
ADT_SORTS_DIRECT_1_30,0,0,,
ANNONCE_CCATION_1_10,0,0,,
ANNONCE_CCATION_1_20,42,3,PRESIDE_DISCOURS_1_10,28
...,...,...,...,...
VOTE_ENS_PPR_S_2_110,1,1,PRESIDE_DISCOURS_1_10,1
VOTE_ENS_PPR_S_2_20,0,0,,
VOTE_ENS_PPR_S_2_40,0,0,,
VOTE_ENS_PPR_S_2_70,0,0,,


In [None]:
df.groupby("Code_parole", dropna=False)["len_dirtytext"].describe()

In [12]:
df.groupby("stime", dropna=False).describe()

Unnamed: 0_level_0,numSeance,numSeance,numSeance,numSeance,numSeance,numSeance,numSeance,numSeance,legislature,legislature,...,ID_paragraphe,ID_paragraphe,ordre_seance,ordre_seance,ordre_seance,ordre_seance,ordre_seance,ordre_seance,ordre_seance,ordre_seance
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
stime,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
37.88,1.0,179.000000,,179.0,179.0,179.0,179.0,179.0,1.0,16.000000,...,3050760.0,3050760.0,1.0,2.000000,,2.0,2.0,2.0,2.0,2.0
41.23,1.0,179.000000,,179.0,179.0,179.0,179.0,179.0,1.0,16.000000,...,3050765.0,3050765.0,1.0,7.000000,,7.0,7.0,7.0,7.0,7.0
49.14,1.0,46.000000,,46.0,46.0,46.0,46.0,46.0,1.0,16.000000,...,3285359.0,3285359.0,1.0,2.000000,,2.0,2.0,2.0,2.0,2.0
52.62,1.0,179.000000,,179.0,179.0,179.0,179.0,179.0,1.0,16.000000,...,3050767.0,3050767.0,1.0,9.000000,,9.0,9.0,9.0,9.0,9.0
52.70,1.0,46.000000,,46.0,46.0,46.0,46.0,46.0,1.0,16.000000,...,3285363.0,3285363.0,1.0,6.000000,,6.0,6.0,6.0,6.0,6.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30495.96,1.0,15.000000,,15.0,15.0,15.0,15.0,15.0,1.0,16.000000,...,2826276.0,2826276.0,1.0,1739.000000,,1739.0,1739.0,1739.0,1739.0,1739.0
30739.44,1.0,15.000000,,15.0,15.0,15.0,15.0,15.0,1.0,16.000000,...,2826352.0,2826352.0,1.0,1752.000000,,1752.0,1752.0,1752.0,1752.0,1752.0
30784.89,1.0,15.000000,,15.0,15.0,15.0,15.0,15.0,1.0,16.000000,...,2826354.0,2826354.0,1.0,1754.000000,,1754.0,1754.0,1754.0,1754.0,1754.0
30788.13,1.0,15.000000,,15.0,15.0,15.0,15.0,15.0,1.0,16.000000,...,2826358.0,2826358.0,1.0,1758.000000,,1758.0,1758.0,1758.0,1758.0,1758.0
