# 5 - Analyses statistiques 

In [7]:
import pandas as pd
import plotly.express as px

In [8]:
df = pd.read_csv(
    "/Users/matthiaslevalet/Desktop/Projet de recherche/CSS_République/Data/Interim/Data_AN_CSS_République_FDM.csv", low_memory=False, dtype={"ID_orateur": str}
)

## Analyses temporelles

In [9]:
import datetime
import locale

# Active la locale française
locale.setlocale(locale.LC_TIME, "fr_FR.UTF-8")

'fr_FR.UTF-8'

In [10]:
df["dateSeance_ts"] = pd.to_datetime(df["dateSeanceJour"], format="%A %d %B %Y")
df["dateSeance_day"] = df["dateSeance_ts"].dt.normalize()  

### Données corpus intégral

### Par jours

In [20]:
# aficher les 25 dates les plus fréquentes sous forme de tableau
table = df["dateSeance_day"].value_counts()[0:20].reset_index()
table = table.rename(columns={"count": "Nombre de mentions"})
table

Unnamed: 0,dateSeance_day,Nombre de mentions
0,2021-02-05,284
1,2021-02-12,136
2,2021-02-11,129
3,2018-07-12,126
4,2021-02-04,110
5,2021-02-01,108
6,2023-12-07,97
7,2020-12-03,93
8,2023-04-05,92
9,2021-02-03,84


**Remarques**

- 5 des 6 jours les plus saillants sont lors des deux semaines de discussion du projet de loi "Respect des principes de la République" et 9
- 12, 10 et 11 juillet 2018 (démocratie + représentative)
- 7 décembre 2023 : discussion de la proposition de loi constitutionnelle relative à la souveraineté de la France, à la nationalité, à l’immigration et à l’asile
- 3 décembre 2020 : Prééminence des lois de la République
- 12 janvier 2023 : Surtout le Port d’une tenue uniforme à l’école mais aussi Revivifier la représentation politique
- 20 novembre 2020 : loi sécurité globale
- 4 juillet 2023 : Mort de Nahel et violences urbaines 
- 24 juin 2019 : statut de la collectivité alsacienne (territoires)
- 18 novembre 2022 : Orientation et programmation du ministère de l’intérieur
- 3 avril 2019 : Débat sur la démocratie et la citoyenneté

In [None]:
# Graphique par jour (illisible)
fig_time = px.bar(df.resample("D", on="dateSeance_day").size())

fig_time.update_layout(
    title="Nombre de mentions de la notion de république",  # ajouter un titre
    xaxis_title="Date",
    yaxis_title="Nombre de mentions",  # renommer les étiquettes d'axes
    template="plotly_white",  # changer le style du graphique
    showlegend=False,
)  # masquer la légende

# Afficher le graphique
fig_time.show()

In [21]:
# aficher les 25 dates les plus fréquentes sous forme de tableau
table = (
    df.resample("W", on="dateSeance_day")
      .size()
      .sort_values(ascending=False)
      .head(20)
      .reset_index()
      .rename(columns={0: "Nombre de mentions", "dateSeance_day": "Semaine"})
)

table

Unnamed: 0,Semaine,Nombre de mentions
0,2021-02-07,625
1,2021-02-14,381
2,2018-07-15,359
3,2018-07-22,273
4,2021-07-04,269
5,2019-02-17,228
6,2018-04-22,196
7,2020-11-22,183
8,2017-07-30,144
9,2017-10-01,132


**Remarques**
- 3 des 5 semaines c'est loi « confortant le respect des principes de la République et la lutte contre le séparatisme » de 2021 
- 2 semaines mi-juillet c'est démocratie représentative 
regarder février 2019 et avril 2018.
- Novembre 2020 = loi sécurité globale

In [None]:
# Graphique par semaine
fig_time = px.bar(df.resample("W", on="dateSeance_day").size())

fig_time.update_layout(
    title="Nombre de mentions de la notion de république",  # ajouter un titre
    xaxis_title="Date",
    yaxis_title="Nombre de mentions",  # renommer les étiquettes d'axes
    template="plotly_white",  # changer le style du graphique
    showlegend=False,
)  # masquer la légende

# Afficher le graphique
fig_time.show()


#### Par an 

In [22]:
# Regrouper les occurrences par année
df_yearly = df.resample("Y", on="dateSeance_day").size().reset_index()
df_yearly["dateSeance_day"] = df_yearly["dateSeance_day"].dt.year  # garder juste l'année

# Tracer le graphique
fig_time = px.bar(
    df_yearly,
    x="dateSeance_day",
    y=0,
    title="Occurrence de l'idée de République (par année)",
    labels={"dateSeance_day": "Année", "0": "Occurrences"},
    template="plotly_white",
)

fig_time.update_layout(showlegend=False)  # masquer la légende

fig_time.show()



'Y' is deprecated and will be removed in a future version, please use 'YE' instead.



#### Sur corpus intégral, par mois

In [None]:
# Regrouper les occurrences par mois
df_monthly = df.resample("M", on="dateSeance_day").size().reset_index()
df_monthly["dateSeance_day"] = df_monthly["dateSeance_day"].dt.month  # garder juste le mois

# Tracer le graphique
fig_time = px.bar(
    df_monthly,
    x="dateSeance_day",
    y=0,
    title="Occurrence de l'idée de République (par mois)",
    labels={"dateSeance_day": "Mois", "0": "Occurrences"},
    template="plotly_white",
)

fig_time.update_layout(showlegend=False)  # masquer la légende

fig_time.show()


'Y' is deprecated and will be removed in a future version, please use 'YE' instead.



In [21]:
fig_time = px.bar(df.resample("M", on="dateSeance_day").size())

fig_time.update_layout(
    title="Occurrence de l'idée de République (famille de mot)",  # ajouter un titre
    xaxis_title="Date",
    yaxis_title="Occurrences",  # renommer les étiquettes d'axes
    template="plotly_white",  # changer le style du graphique
    showlegend=False,
)  # masquer la légende

# Afficher le graphique
fig_time.show()


'M' is deprecated and will be removed in a future version, please use 'ME' instead.



#### Sur corpus intégrale par semaine

In [25]:
fig_time = px.bar(df.resample("W", on="dateSeance_day").size())

fig_time.update_layout(
    title="Occurrence de l'idée de République (famille de mot)",  # ajouter un titre
    xaxis_title="Date",
    yaxis_title="Occurrences",  # renommer les étiquettes d'axes
    template="plotly_white",  # changer le style du graphique
    showlegend=False,
)  # masquer la légende

# Afficher le graphique
fig_time.show()

### Sur corpus par années

In [None]:
# Graphique par jour

# Choisir une année
annee = 2021

# Filtrer le DataFrame sur l'année choisie
df_annee = df[df["dateSeance_day"].dt.year == annee]

# Resampler par semaine uniquement pour cette année
df_daily = df_annee.resample("D", on="dateSeance_day").size().reset_index()

# Tracer le graphique
fig_daily = px.bar(
    df_daily,
    x="dateSeance_day",
    y=0,
    title=f"Occurrences de l'idée de République en {annee} (par semaine)",
    labels={"dateSeance_day": "Date", "0": "Occurrences"},
    template="plotly_white",
)

fig_daily.update_layout(showlegend=False)

fig_daily.show()

In [42]:
import plotly.express as px

# Choisir une année
annee = 2021

# Filtrer le DataFrame sur l'année choisie
df_annee = df[df["dateSeance_day"].dt.year == annee]

# Resampler par semaine uniquement pour cette année
df_weekly = df_annee.resample("W", on="dateSeance_day").size().reset_index()

# Tracer le graphique
fig_time = px.bar(
    df_weekly,
    x="dateSeance_day",
    y=0,
    title=f"Occurrences de l'idée de République en {annee} (par semaine)",
    labels={"dateSeance_day": "Date", "0": "Occurrences"},
    template="plotly_white",
)

fig_time.update_layout(showlegend=False)

fig_time.show()


Observation basique = pic d'occurrence tombe au moment des débats sur le projet de loi sur le respect des principes de la République

### Par groupes (nécessite d'avoir fait la fusion avec les données de DATAN)

### Par personnel politique / individuellement

#### Les principaux orateurs sur la période / par législature

In [50]:
df["nom_orateur"].value_counts()[0:20]

nom_orateur
M. Gérald Darmanin         472
M. Alexis Corbière         272
M. Sébastien Jumel         235
M. Jean-Luc Mélenchon      223
M. Jean-Michel Blanquer    180
M. Éric Coquerel           174
M. Éric Ciotti             174
M. Stéphane Peu            170
M. Benjamin Lucas          167
Mme Mathilde Panot         166
M. Ugo Bernalicis          155
M. Philippe Gosselin       154
Mme Danièle Obono          150
Mme Élisabeth Borne        138
M. Pierre Dharréville      130
M. Dominique Potier        129
Mme Marlène Schiappa       128
M. Éric Dupond-Moretti     119
M. Sébastien Lecornu       118
M. Bastien Lachaud         118
Name: count, dtype: int64

In [51]:
fig_top_orateurs = px.bar(
    df["nom_orateur"].value_counts()[0:10],
    # x=top_counts.index,
    # y=top_counts.values,
    labels={"value": "Nombre d'occurence", "Personnel politique": "Orateur"},
    title="Top 20 personnel politique par occurence de la République",
    template="plotly_white",
)
fig_top_orateurs.update_layout(
    xaxis_tickangle=-45,
    showlegend=False,
)
fig_top_orateurs.show()

In [53]:
df_16e = df [df["legislature"]== 16]
df_15e = df [df["legislature"]== 15]

In [55]:
df_16e["nom_orateur"].value_counts()[0:20]

nom_orateur
M. Benjamin Lucas          167
M. Gérald Darmanin         166
Mme Élisabeth Borne        130
M. Antoine Léaument        109
M. Gabriel Attal            63
M. Éric Dupond-Moretti      61
Mme Mathilde Panot          54
M. Sébastien Lecornu        43
Mme Aurore Bergé            38
Mme Sonia Backès            36
M. Boris Vallaud            35
M. Jean-Philippe Tanguy     34
M. Arthur Delaporte         33
M. Sébastien Jumel          32
M. Nicolas Sansu            31
Mme Cyrielle Chatelain      30
M. Pierre Dharréville       30
M. Alexis Corbière          30
M. Mathieu Lefèvre          30
M. Jérôme Guedj             28
Name: count, dtype: int64

In [54]:
df_15e["nom_orateur"].value_counts()[0:20]


nom_orateur
M. Gérald Darmanin            306
M. Alexis Corbière            242
M. Jean-Luc Mélenchon         223
M. Sébastien Jumel            203
M. Jean-Michel Blanquer       180
M. Éric Coquerel              155
M. Stéphane Peu               154
M. Éric Ciotti                154
Mme Danièle Obono             133
M. Ugo Bernalicis             130
Mme Marlène Schiappa          128
M. Philippe Gosselin          126
M. Jean-Christophe Lagarde    114
Mme Mathilde Panot            112
M. Dominique Potier           102
M. Pierre Dharréville         100
Mme Nicole Belloubet           99
M. Bastien Lachaud             98
M. Edouard Philippe            89
M. Raphaël Schellenberger      87
Name: count, dtype: int64

In [58]:
# 16e législature 
fig_top_orateurs = px.bar(
    df_16e["nom_orateur"].value_counts()[0:10],
    # x=top_counts.index,
    # y=top_counts.values,
    labels={"value": "Nombre d'occurence", "Personnel politique": "Orateur"},
    title="Top 20 personnel politique par occurence de la République lors de la 16e législature",
    template="plotly_white",
)
fig_top_orateurs.update_layout(
    xaxis_tickangle=-45,
    showlegend=False,
)
fig_top_orateurs.show()

#### Les principaux orateurs par années/semaines/séances

In [60]:
# Par année 
annee = 2021
df_annee = df_annee[df_annee["dateSeance_day"].dt.year == annee]

# Recompter les orateurs sur cette période
df_counts = df_annee["nom_orateur"].value_counts().head(10).reset_index()
df_counts.columns = ["nom_orateur", "occurrences"]

# Graphique
fig_top_orateurs_annee = px.bar(
    df_counts,
    x="nom_orateur",
    y="occurrences",
    title=f"Top 10 orateurs en {annee}",
    template="plotly_white",
)

fig_top_orateurs_annee.update_layout(xaxis_tickangle=-45, showlegend=False)
fig_top_orateurs_annee.show()


#### Regarder plus en détail les jours significatifs

In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

# Top 10 orateurs
top_orateurs = df["nom_orateur"].value_counts().index[:10].tolist()

# Grouper par semaine et orateur
df_orateur = df[df["nom_orateur"].isin(top_orateurs)]
df_grouped_orateur = (
    df_orateur.groupby([pd.Grouper(key="dateSeance_day", freq="MS"), "nom_orateur"])
    .size()
    .reset_index(name="mentions")
)

cols = 4
rows = (len(top_orateurs) + cols - 1) // cols
max_y = df_grouped_orateur["mentions"].max()

fig_orateurs_time = make_subplots(
    rows=rows, cols=cols, shared_xaxes=True, subplot_titles=top_orateurs
)

for idx, orateur in enumerate(top_orateurs):
    row = idx // cols + 1
    col = idx % cols + 1
    data_orateur = df_grouped_orateur[df_grouped_orateur["nom_orateur"] == orateur]
    fig_orateurs_time.add_trace(
        go.Bar(
            x=data_orateur["dateSeance_day"], y=data_orateur["mentions"], name=orateur
        ),
        row=row,
        col=col,
    )

fig_orateurs_time.update_layout(
    height=300 * rows,
    width=1200,
    title_text="Dynamique temporelle des mentions par orateur",
    showlegend=False,
    template="plotly_white",
)

for row in range(1, rows + 1):
    for col in range(1, cols + 1):
        fig_orateurs_time.update_yaxes(range=[0, max_y], row=row, col=col)

for col in range(1, cols + 1):
    fig_orateurs_time.update_xaxes(title_text="Date", row=rows, col=col)

for row in range(1, rows + 1):
    fig_orateurs_time.update_yaxes(title_text="Nombre de mentions", row=row, col=1)

fig_orateurs_time.show()


In [None]:
# Pour la 15e législature 

from plotly.subplots import make_subplots
import plotly.graph_objects as go

# Top 10 orateurs
top_orateurs = df_15e["nom_orateur"].value_counts().index[:4].tolist()

# Grouper par semaine et orateur
df_orateur_15e = df_15e[df_15e["nom_orateur"].isin(top_orateurs)]
df_grouped_orateur_15e = (
    df_orateur_15e.groupby([pd.Grouper(key="dateSeance_day", freq="MS"), "nom_orateur"])
    .size()
    .reset_index(name="mentions")
)

cols = 4
rows = (len(top_orateurs) + cols - 1) // cols
max_y = df_grouped_orateur_15e["mentions"].max()

fig_orateurs_time = make_subplots(
    rows=rows, cols=cols, shared_xaxes=True, subplot_titles=top_orateurs
)

for idx, orateur in enumerate(top_orateurs):
    row = idx // cols + 1
    col = idx % cols + 1
    data_orateur = df_grouped_orateur_15e[df_grouped_orateur_15e["nom_orateur"] == orateur]
    fig_orateurs_time.add_trace(
        go.Bar(
            x=data_orateur["dateSeance_day"], y=data_orateur["mentions"], name=orateur
        ),
        row=row,
        col=col,
    )

fig_orateurs_time.update_layout(
    height=300 * rows,
    width=1200,
    title_text="Dynamique temporelle des mentions par orateur",
    showlegend=False,
    template="plotly_white",
)

for row in range(1, rows + 1):
    for col in range(1, cols + 1):
        fig_orateurs_time.update_yaxes(range=[0, max_y], row=row, col=col)

for col in range(1, cols + 1):
    fig_orateurs_time.update_xaxes(title_text="Date", row=rows, col=col)

for row in range(1, rows + 1):
    fig_orateurs_time.update_yaxes(title_text="Nombre de mentions", row=row, col=1)

fig_orateurs_time.show()


### Genre (nécessite d'avoir fait la fusion)

In [None]:
df["civ"] = df["civ"].replace({"M.": "Homme", "Mme": "Femme"})

In [None]:
fig = px.bar(df["civ"].value_counts())
fig.update_layout(
    title="Répartition des genres (civ)", template="plotly_white", showlegend=False
)
fig.show()