# StatApp : Premières statistiques descriptives

In [None]:
# Importation des modules

import pandas as pd
import plotly.express as px
import datetime

#Affichage de toutes les colonnes

pd.set_option('display.max_columns', 500)

In [None]:
#Importation des données

df = pd.read_csv('/Users/lilianmarey/Desktop/bdd_complete2.csv', sep = ',', encoding = 'latin-1')

In [None]:
# Echantillon de la base

df.sample(5)

## 1. Variables socio-démographiques

In [None]:
# Genre des intervenants

fig = px.histogram(
                    df.drop_duplicates(subset = ['Orateur', 'sexe'], keep = 'first'), 
                    x = 'sexe'
                  )
fig.show()

In [None]:
# Age des intervenants (tranches de 5 ans)

px.histogram(
            df.drop_duplicates(subset = ['Orateur', 'age', 'sexe'], keep = 'first'), 
            x = 'age', 
            nbins = 12
            )

On a une distribution des ages qui pourrait être qualifiée de Gaussienne

In [None]:
# Niveau d'étude des intervenants

px.histogram(
                df.drop_duplicates(subset = ['Orateur', 'hautdip', 'Groupe'], keep = 'first'), 
                x = 'hautdip', 
                category_orders = {'hautdip' : [
                                                 '''PAS D'INFO''', 'Bac_ou_inf', 'Pro', 
                                                 'Licence', 'Master', 'PtEc', 'GdEc', 'Doct', 
                                                 'ScPoProv', 'ScPo', 'ENA'
                                             ]
                                   },
            )

In [None]:
# Répartition

px.histogram(df.drop_duplicates(subset = ['Orateur', 'hautdip', 'Groupe'], keep='first'), 
             x = 'hautdip', 
             category_orders = {'hautdip' : [
                 '''PAS D'INFO''', 'Bac_ou_inf', 'Pro', 
                 'Licence', 'Master', 'PtEc', 'GdEc', 'Doct', 
                 'ScPoProv', 'ScPo', 'ENA'
                                             ]
                               },
             color = 'Groupe', barnorm = 'percent')

Les personnes ayant faites un master sont surreprensétées. Aussi, peu des élus ont un faible niveau d'études supérieures (bac ou moins et license). De plus on remarque que les novices sont beaucoup plus présent parmis ceux qui ont fait des grandes/petites école et Science Po Paris par rapport aux autres catégories. On peut aussi noter qu'aucun  élu novice est énarque ou a un n'a pas fait d'études supérérieures.

## 2. Variables de carrière politique

In [None]:
# Partis politiques des intervenants

fig = px.histogram(
                    df.drop_duplicates(subset = ['Orateur', 'groupe.sigle'], keep = 'first'), 
                    x = 'groupe.sigle'
                    )
fig.show()

L'immense majorité des intervenants font partie de La République en Marche

In [None]:
# Proportion de novices dans l'ensemble des intervenants

df1 = df.drop_duplicates(subset = ['Orateur', 'Groupe'], keep = 'first')
print(
        '''Proportion de novices dans l'ensemble des intervenants : ''', 
        int(100 * df1[df1['Groupe'] == 'Novice'].shape[0] / df1.shape[0]),
        ' %'
    )

In [None]:
# Proportion de novices dans les partis

px.histogram(
                df.drop_duplicates(subset = ['Orateur', 'Groupe', 'groupe.sigle'], keep = 'first'), 
                x = 'groupe.sigle', 
                color = 'Groupe',
                barnorm = "percent"
            )
             
            

Les novices sont relativement très représentés dans le groupe LREM (groupe qui est majoritaire à l'Assemblé Nationale). On compte aussi 2 novices dans le groupe LFI, 1 au Modem et 1 et à LC.

In [None]:
# Nombre de mandats effectués

px.histogram(
                df.drop_duplicates(subset = ['Orateur', 'nb.mandats'], keep = 'first'), 
                x = 'nb.mandats'
            )

Une grande majorité des députés (402) en sont à leur premier mandat.

In [None]:
# Origine politique des intervenants

px.histogram(
                df.drop_duplicates(subset = ['Orateur', 'clustVEP', 'groupe.sigle'], keep = 'first'), 
                x = 'clustVEP', 
                category_orders = {'clustVEP' : [
                                                 '1 - Novice', '2 - 2de carrière', '3 - Ancr. local', 
                                                 '4 - Entourage', '5 - Dép. sortant'
                                                 ]
                                   },
            )

Les députés sortants sont toutefois les plus nombreux parmis les non novices (et même parmis les 6 catégories).

## 3. Activité Parlemetaire

In [None]:
# Fonction de conversion et d'affichage des jours de la semaine

def toweekday(date):
    
    dic = {
            0 : "Lundi", 
            1 : "Mardi",
            2 : "Mercredi",
            3 : "Jeudi",
            4 : "Vendredi",
            5 : "Samedi",
            6 : "Dimanche"
            }
    
    date1 = datetime.datetime.strptime(date, '%Y-%m-%d')
    num = date1.weekday()
    
    return(dic[num])

df['Jour'] = df["Date"].apply(toweekday)

In [None]:
# Jour des interventions

px.histogram(
                df.drop_duplicates(subset = ['ID', 'Jour', 'Groupe'], keep = 'first'), 
                x = 'Jour', 
                category_orders = {'Jour' : ['Lundi','Mardi','Mercredi','Jeudi','Vendredi','Samedi','Dimanche']}
            )
                       

C'est Mardi, Mercredi et Jeudi qu'il y a le plus d'intervention. On peut supposer donc que ce sont ces jours de la semaine où il y a le plus de députés présents et que ce sont les plus importants de la semaine pour l'activité parlementaire.

In [None]:
# Proportion des interventions faites par des novices selon le jour de la semaine

px.histogram(
                df.drop_duplicates(subset = ['ID', 'Jour', 'Groupe'], keep = 'first'), 
                x = 'Jour', 
                category_orders = {'Jour' : ['Lundi','Mardi','Mercredi','Jeudi','Vendredi','Samedi','Dimanche']}, 
                color = 'Groupe', 
                barnorm = 'percent'
            )

Les députés novices comptent tout au long de la semaine pour 10% des interventions environ (sauf samedi et dimanche) des interventions parlementaires. Pourtant, ils représentent 20% des députés. Ils interviennent beaucoup moins que ceux qui ont de l'expérience en politique.

In [None]:
print('''Nombre d'intervention moyen pour les hommes : ''', int(df[df['sexe'] == 'M'].shape[0] / 328))
print('''Nombre d'intervention moyen pour les femmes : ''', int(df[df['sexe'] == 'F'].shape[0] / 221))

De même on remarque que les femmes interviennent beaucoup moins que les hommes (presque 2 fois moins). 

In [None]:
#  Thèmes abordés

px.histogram(
                df.drop_duplicates(subset = ['ID', 'commissions', 'Groupe'], keep='first'), 
                x = 'commissions'
            )
              

Les 4 sujets  les plus discutés sont les Finances, les Lois, les Affaires sociales et économiques.

In [None]:
# Proportion des interventions de novices selon le thème

px.histogram(
                df.drop_duplicates(subset = ['ID', 'commissions', 'Groupe'], keep = 'first'), 
                x = 'commissions', 
                color = 'Groupe', 
                barnorm = 'percent'
            )

Sur les questions de Finances, de Défense, les novices s'expriment peu comparés aux autres sujets ( 6,8% et 2% des interventions respectivement). Les sujets sur lesquels ils s'exprimment le plus sont les Affaires sociales et les Affaires Culturelles & Educatives (16,2% et 20,2% des interventions respectivement).
Cela parrait cohérent dans la mesure où la finance et la défense sont des domaines assez techniques.