# Objectif
Le but de ce notebook est d'unifier les données des premiers tours des éléctions présidentielles en France de 1995 à 2022.

## Setup

In [63]:
# %pip install matplotlib seaborn pandas numpy

In [64]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import glob

## Chargement des données

In [65]:
csv_files = glob.glob('../extract/csv/*')

df_1995 = pd.read_csv("../extract/csv/1995_tour_1.csv")
df_2002 = pd.read_csv("../extract/csv/2002_tour_1.csv")
df_2007 = pd.read_csv("../extract/csv/2007_tour_1.csv")
df_2012 = pd.read_csv("../extract/csv/2012_tour_1.csv")
df_2017 = pd.read_csv("../extract/csv/2017_tour_1.csv")
df_2022 = pd.read_csv("../extract/csv/2022_tour_1.csv")

df_all = [df_1995, df_2002, df_2007, df_2012, df_2017, df_2022]

# empty dataframe
df_final = pd.DataFrame()

  df_1995 = pd.read_csv("../extract/csv/1995_tour_1.csv")
  df_2002 = pd.read_csv("../extract/csv/2002_tour_1.csv")
  df_2007 = pd.read_csv("../extract/csv/2007_tour_1.csv")
  df_2012 = pd.read_csv("../extract/csv/2012_tour_1.csv")
  df_2017 = pd.read_csv("../extract/csv/2017_tour_1.csv")
  df_2022 = pd.read_csv("../extract/csv/2022_tour_1.csv")


## Affichage des dataframes

In [66]:
def custom_range(start, end, first_step, other_step):
    yield start
    while start + first_step < end:
        start += first_step
        yield start
        first_step = other_step

In [67]:
for df, i in zip(df_all, custom_range(1995, 2023, 7, 5)):
    print("Premier tour année :", i)

    # print all columns names and the type
    for col in df.columns:
        print(col, df[col].dtype)
    
    print("\n\n")

Premier tour année : 1995
Code du département object
Libellé du département object
Code de la commune int64
Libellé de la commune object
Inscrits int64
Abstentions int64
% Abs/Ins float64
Votants int64
% Vot/Ins float64
Blancs et nuls int64
% BlNuls/Ins float64
% BlNuls/Vot float64
Exprimés int64
% Exp/Ins float64
% Exp/Vot float64
Sexe object
Nom object
Prénom object
Voix int64
% Voix/Ins float64
% Voix/Exp float64
Sexe.1 object
Nom.1 object
Prénom.1 object
Voix.1 int64
% Voix/Ins.1 float64
% Voix/Exp.1 float64
Sexe.2 object
Nom.2 object
Prénom.2 object
Voix.2 int64
% Voix/Ins.2 float64
% Voix/Exp.2 float64
Sexe.3 object
Nom.3 object
Prénom.3 object
Voix.3 int64
% Voix/Ins.3 float64
% Voix/Exp.3 float64
Sexe.4 object
Nom.4 object
Prénom.4 object
Voix.4 int64
% Voix/Ins.4 float64
% Voix/Exp.4 float64
Sexe.5 object
Nom.5 object
Prénom.5 object
Voix.5 int64
% Voix/Ins.5 float64
% Voix/Exp.5 float64
Sexe.6 object
Nom.6 object
Prénom.6 object
Voix.6 int64
% Voix/Ins.6 float64
% Voix/Exp.6 

## Nettoyage des données

## Commun

In [68]:
df_1995['Année'] = 1995
df_2002['Année'] = 2002
df_2007['Année'] = 2007
df_2012['Année'] = 2012
df_2017['Année'] = 2017
df_2022['Année'] = 2022

## Gironde

In [69]:
df_1995['Code du département'] = df_1995['Code du département'].astype(str)
df_2002['Code du département'] = df_2002['Code du département'].astype(str)
df_2007['Code du département'] = df_2007['Code du département'].astype(str)
df_2012['Code du département'] = df_2012['Code du département'].astype(str)
df_2017['Code du département'] = df_2017['Code du département'].astype(str)
df_2022['Code du département'] = df_2022['Code du département'].astype(str)

In [70]:
df_1995_gironde = df_1995[df_1995['Code du département'] == '33']
df_2002_gironde = df_2002[df_2002['Code du département'] == '33']
df_2007_gironde = df_2007[df_2007['Code du département'] == '33']
df_2012_gironde = df_2012[df_2012['Code du département'] == '33']
df_2017_gironde = df_2017[df_2017['Code du département'] == '33']
df_2022_gironde = df_2022[df_2022['Code du département'] == '33']

In [71]:
# Pour l'année 1995
noms_candidats_1995 = df_1995_gironde[['Nom', 'Prénom', 'Nom.1', 'Prénom.1', 'Nom.2', 'Prénom.2', 'Nom.3', 'Prénom.3', 'Nom.4', 'Prénom.4', 'Nom.5', 'Prénom.5', 'Nom.6', 'Prénom.6', 'Nom.7', 'Prénom.7', 'Nom.8', 'Prénom.8']]

# Pour l'année 2002
noms_candidats_2002 = df_2002_gironde[['Nom', 'Prénom', 'Nom.1', 'Prénom.1', 'Nom.2', 'Prénom.2', 'Nom.3', 'Prénom.3', 'Nom.4', 'Prénom.4', 'Nom.5', 'Prénom.5', 'Nom.6', 'Prénom.6', 'Nom.7', 'Prénom.7', 'Nom.8', 'Prénom.8', 'Nom.9', 'Prénom.9', 'Nom.10', 'Prénom.10', 'Nom.11', 'Prénom.11', 'Nom.12', 'Prénom.12', 'Nom.13', 'Prénom.13', 'Nom.14', 'Prénom.14', 'Nom.15', 'Prénom.15']]

# Pour l'année 2007
noms_candidats_2007 = df_2007_gironde[['Nom', 'Prénom', 'Nom.1', 'Prénom.1', 'Nom.2', 'Prénom.2', 'Nom.3', 'Prénom.3', 'Nom.4', 'Prénom.4', 'Nom.5', 'Prénom.5', 'Nom.6', 'Prénom.6', 'Nom.7', 'Prénom.7', 'Nom.8', 'Prénom.8', 'Nom.9', 'Prénom.9', 'Nom.10', 'Prénom.10', 'Nom.11', 'Prénom.11']]

# Pour l'année 2012
noms_candidats_2012 = df_2012_gironde[['Nom', 'Prénom', 'Nom.1', 'Prénom.1', 'Nom.2', 'Prénom.2', 'Nom.3', 'Prénom.3', 'Nom.4', 'Prénom.4', 'Nom.5', 'Prénom.5', 'Nom.6', 'Prénom.6', 'Nom.7', 'Prénom.7', 'Nom.8', 'Prénom.8', 'Nom.9', 'Prénom.9']]

# Pour l'année 2017
noms_candidats_2017 = df_2017_gironde[['Nom', 'Prénom', 'Nom.1', 'Prénom.1', 'Nom.2', 'Prénom.2', 'Nom.3', 'Prénom.3', 'Nom.4', 'Prénom.4', 'Nom.5', 'Prénom.5', 'Nom.6', 'Prénom.6', 'Nom.7', 'Prénom.7', 'Nom.8', 'Prénom.8', 'Nom.9', 'Prénom.9', 'Nom.10', 'Prénom.10']]

# Pour l'année 2022
noms_candidats_2022 = df_2022_gironde[['Nom', 'Prénom', 'Nom.1', 'Prénom.1', 'Nom.2', 'Prénom.2', 'Nom.3', 'Prénom.3', 'Nom.4', 'Prénom.4', 'Nom.5', 'Prénom.5', 'Nom.6', 'Prénom.6', 'Nom.7', 'Prénom.7', 'Nom.8', 'Prénom.8', 'Nom.9', 'Prénom.9', 'Nom.10', 'Prénom.10', 'Nom.11', 'Prénom.11']]


## Noms et affilations des candidats

In [72]:
unique_names_1995 = pd.concat([noms_candidats_1995['Nom'], noms_candidats_1995['Prénom'],
                               noms_candidats_1995['Nom.1'], noms_candidats_1995['Prénom.1'],
                               noms_candidats_1995['Nom.2'], noms_candidats_1995['Prénom.2'],
                               noms_candidats_1995['Nom.3'], noms_candidats_1995['Prénom.3'],
                               noms_candidats_1995['Nom.4'], noms_candidats_1995['Prénom.4'],
                               noms_candidats_1995['Nom.5'], noms_candidats_1995['Prénom.5'],
                               noms_candidats_1995['Nom.6'], noms_candidats_1995['Prénom.6'],
                               noms_candidats_1995['Nom.7'], noms_candidats_1995['Prénom.7'],
                               noms_candidats_1995['Nom.8'], noms_candidats_1995['Prénom.8']]).unique()

unique_names_2002 = pd.concat([noms_candidats_2002[col] for col in noms_candidats_2002.columns]).unique()

unique_names_2007 = pd.concat([noms_candidats_2007[col] for col in noms_candidats_2007.columns]).unique()

unique_names_2012 = pd.concat([noms_candidats_2012[col] for col in noms_candidats_2012.columns]).unique()

unique_names_2017 = pd.concat([noms_candidats_2017[col] for col in noms_candidats_2017.columns]).unique()

unique_names_2022 = pd.concat([noms_candidats_2022[col] for col in noms_candidats_2022.columns]).unique()

In [73]:
all_unique_names = np.concatenate([unique_names_1995, unique_names_2002, unique_names_2007, unique_names_2012, unique_names_2017, unique_names_2022])
all_unique_names

array(['VILLIERS DE', 'PHILIPPE', 'LE PEN', 'J.MARIE', 'CHIRAC',
       'JACQUES', 'LAGUILLER', 'ARLETTE', 'CHEMINADE', 'JOSPIN', 'LIONEL',
       'VOYNET', 'DOMINIQUE', 'BALLADUR', 'EDOUARD', 'HUE', 'ROBERT',
       'MEGRET', 'BRUNO', 'LEPAGE', 'CORINNE', 'GLUCKSTEIN', 'DANIEL',
       'BAYROU', 'FRANCOIS', 'CHIRAC', 'JACQUES', 'LE PEN', 'JEAN-MARIE',
       'TAUBIRA', 'CHRISTIANE', 'SAINT-JOSSE', 'JEAN', 'MAMERE', 'NOEL',
       'JOSPIN', 'LIONEL', 'BOUTIN', 'CHRISTINE', 'HUE', 'ROBERT',
       'CHEVENEMENT', 'JEAN-PIERRE', 'MADELIN', 'ALAIN', 'LAGUILLER',
       'ARLETTE', 'BESANCENOT', 'OLIVIER', 'BESANCENOT', 'Olivier',
       'BUFFET', 'Marie-George', 'SCHIVARDI', 'Gérard', 'BAYROU',
       'François', 'BOVÉ', 'José', 'VOYNET', 'Dominique', 'de VILLIERS',
       'Philippe', 'ROYAL', 'Ségolène', 'NIHOUS', 'Frédéric', 'LE PEN',
       'Jean-Marie', 'LAGUILLER', 'Arlette', 'SARKOZY', 'Nicolas', 'JOLY',
       'Eva', 'LE PEN', 'Marine', 'SARKOZY', 'Nicolas', 'MÉLENCHON',
       'Jean

In [74]:
affiliations_politiques = {
    'VILLIERS': 'Conservateur',
    'LE PEN': 'Extrême droite',
    'CHIRAC': 'Centre-droit',
    'LAGUILLER': 'Extrême gauche',
    'CHEMINADE': 'Extrême gauche',
    'JOSPIN': 'Centre-gauche',
    'VOYNET': 'Verts',
    'BALLADUR': 'Centre-droit',
    'HUE': 'Communiste',
    'MEGRET': 'Extrême droite',
    'LEPAGE': 'Centre',
    'GLUCKSTEIN': 'Trotskyiste',
    'BAYROU': 'Centre',
    'TAUBIRA': 'Centre-gauche',
    'SAINT-JOSSE': 'Centre-droit',
    'MAMERE': 'Verts',
    'BOUTIN': 'Droite religieuse',
    'CHEVENEMENT': 'Gaulliste',
    'MADELIN': 'Libéral',
    'BESANCENOT': 'Trotskyiste',
    'BUFFET': 'Communiste',
    'SCHIVARDI': 'Trotskyiste',
    'BOVÉ': 'Verts',
    'HAMON': 'Centre-gauche',
    'DUPONT-AIGNAN': 'Droite souverainiste',
    'MACRON': 'Centriste',
    'MÉLENCHON': 'Gauche radicale',
    'FILLON': 'Droite conservatrice',
    'ZEMMOUR': 'Extrême droite',
    'HIDALGO': 'Centre-gauche',
    'JADOT': 'Verts',
    'PÉCRESSE': 'Droite',
    'ASSELINEAU': 'Droite souverainiste',
    'ROUSSEL': 'Communiste',
}


In [78]:
def map_affiliation(nom_candidat):
    return affiliations_politiques.get(nom_candidat, 'Inconnu')

df_1995_gironde['Affiliation Politique'] = df_1995_gironde['Nom'].apply(map_affiliation)

df_2002_gironde['Affiliation Politique'] = df_2002_gironde['Nom'].apply(map_affiliation)

df_2007_gironde['Affiliation Politique'] = df_2007_gironde['Nom'].apply(map_affiliation)

df_2012_gironde['Affiliation Politique'] = df_2012_gironde['Nom'].apply(map_affiliation)

df_2017_gironde['Affiliation Politique'] = df_2017_gironde['Nom'].apply(map_affiliation)

df_2022_gironde['Affiliation Politique'] = df_2022_gironde['Nom'].apply(map_affiliation)

AttributeError: 'Series' object has no attribute 'strip'

In [77]:
df_1995_gironde['Nom']

12926    VILLIERS DE
12927    VILLIERS DE
12928    VILLIERS DE
12929    VILLIERS DE
12930    VILLIERS DE
            ...     
13463    VILLIERS DE
13464    VILLIERS DE
13465    VILLIERS DE
13466    VILLIERS DE
13467    VILLIERS DE
Name: Nom, Length: 542, dtype: object