# Nétoyage des données de résultat du 1er et 2ème tour

In [93]:
import pandas as pd
import re

base_path = '../data_brut/result'
first_tour_dataframes = []
second_tour_dataframes = []


# Liste des noms de fichiers jusqu'en 2012
file_names_old_format = [
    'cdsp_presi1965t1_circ.csv', 'cdsp_presi1965t2_circ.csv',
    'cdsp_presi1969t1_circ.csv', 'cdsp_presi1969t2_circ.csv',
    'cdsp_presi1974t1_circ.csv', 'cdsp_presi1974t2_circ.csv',
    'cdsp_presi1981t1_circ.csv', 'cdsp_presi1981t2_circ.csv',
    'cdsp_presi1988t1_circ.csv', 'cdsp_presi1988t2_circ.csv',
    'cdsp_presi1995t1_circ.csv', 'cdsp_presi1995t2_circ.csv',
    'cdsp_presi2002t1_circ.csv', 'cdsp_presi2002t2_circ.csv',
    'cdsp_presi2007t1_circ.csv', 'cdsp_presi2007t2_circ.csv',
    'cdsp_presi2012t1_circ.csv', 'cdsp_presi2012t2_circ.csv',
]

# Liste des noms de fichiers de 2017 à 2022
file_names_new_format = [
    'cdsp_presi2017t1_circ.csv', 'cdsp_presi2017t2_circ.csv',
    'cdsp_presi2022t1_circ.csv', 'cdsp_presi2022t2_circ.csv',
]

for file_name in file_names_old_format + file_names_new_format:
    # Construire le chemin complet vers le fichier CSV
    csv_file_path = f"{base_path}/{file_name}"
    
    # Lire le fichier CSV dans un DataFrame
    df = pd.read_csv(csv_file_path, encoding='UTF-8-sig', sep=',')


    # Utiliser une expression régulière pour trouver une année plausible dans le nom de fichier
    match = re.search(r'(\d{4})t\d', file_name)
    if match:
        year = int(match.group(1))  # Convertir l'année trouvée en entier
        df['Année'] = year
    else:
        year = None
    
    if 't1' in file_name:
        tour_dataframes = first_tour_dataframes
    elif 't2' in file_name:
        tour_dataframes = second_tour_dataframes
    else:
        continue


    if file_name in file_names_new_format:
        # Rename columns 
        df.rename(columns={
            'Code du département': 'Code département',
            'Code de la circonscription': 'circonscription',
            'Libellé du département': 'département',
        }, inplace=True)
        # Upper columns Libellé du département


    # Convertir 'Code département' en entier de manière sûre
    df['Code département'] = pd.to_numeric(df['Code département'], errors='coerce').fillna(0).astype(int)
    # Convertir 'circonscription' en entier de manière sûre
    df['circonscription'] = pd.to_numeric(df['circonscription'], errors='coerce').fillna(0).astype(int)
    
    if year < 1986:
        circons_to_include = [1, 2]
    else:
        circons_to_include = [1, 2, 3]

    # Filtrer sur le département 34 et sur les circonscriptions 1 et 2
    if file_name in file_names_old_format:
        df_montpellier = df[(df['Code département'] == 34) & (df['circonscription'].isin(circons_to_include))]
    else:
        df_montpellier = df[(df['Code département'] == 34) & (df['circonscription'].isin(circons_to_include))]

    # Ajouter le DataFrame filtré à la liste
    tour_dataframes.append(df_montpellier)

# Concatenate and save data for each tour
first_tour_data = pd.concat(first_tour_dataframes, ignore_index=True)
second_tour_data = pd.concat(second_tour_dataframes, ignore_index=True)

# regroup data by year
first_tour_data = first_tour_data.groupby('Année').sum().reset_index()
second_tour_data = second_tour_data.groupby('Année').sum().reset_index()

# Change content of column "département" to "Hérault"
first_tour_data['département'] = 'Hérault'
second_tour_data['département'] = 'Hérault'

print(first_tour_data.head())  # Preview first tour data
print(second_tour_data.head())  # Preview second tour data

first_tour_data.to_csv('../dataset/first_tour_data.csv', index=False)
second_tour_data.to_csv('../dataset/second_tour_data.csv', index=False)
# to parquet
first_tour_data.to_parquet('../dataset/first_tour_data.parquet', index=False)
second_tour_data.to_parquet('../dataset/second_tour_data.parquet', index=False)




   Année  Code département département  circonscription  Inscrits  Votants  \
0   1965                68     Hérault                3    146031   124249   
1   1969                68     Hérault                3    155779   118757   
2   1974                68     Hérault                3    152386   128752   
3   1981                68     Hérault                3    237560   190813   
4   1988               102     Hérault                6    188857   152823   

   Exprimés  Blancs et nuls  MITTERRAND (CIR)  LECANUET (MRP)  ...  \
0    123242            1007           44685.0         16867.0  ...   
1    117539            1218               0.0             0.0  ...   
2    127713            1039               0.0             0.0  ...   
3    188045            2768               0.0             0.0  ...   
4    150626            2197               0.0             0.0  ...   

   Jean LASSALLE  Philippe POUTOU  François ASSELINEAU  Nathalie ARTHAUD  \
0            0.0              0.0 

# Affectation d'une étiquette à chaque candidat

In [94]:

# Dictionnaire des candidats et leur orientation politique
candidate_to_orientation = {
    'Extrême gauche': [
        'KRIVINE (LCR)', 'LAGUILLER (LO)', 'BESANCENOT (LCR)', 'ARLETTY (LO)', 'DUCLOS (PCF)', 'BUFFET (PC)',
        'HUE (PCF)', 'LAJOINIE (PCF)', 'MARCHAIS (PCF)', 'MGBADA (AEI)', 'Nathalie ARTHAUD (LO)', 'Philippe POUTOU (NPA)',
        'Jean-Luc MELENCHON (FG)', 'Fabien ROUSSEL', 'BARBU (DIV)', 'DUCATEL (DIV)', 'MULLER (MDSR)',
        'BOUCHARDEAU (PSU)', 'SEBAG (DIV)', 'BOUSSEL (MPT)', 'JUQUIN ( )', 'WAECHTER (V)', 'BARRE (UDF)',
        'GLUCKSTEIN (PT)', 'Philippe POUTOU', 'Jacques CHEMINADE', 'Nathalie ARTHAUD', 'Philippe POUTOU', 'François ASSELINEAU','CHEMINADE (POE)','Jacques CHEMINADE (SP)','SCHIVARDI (PT)','GLUCKSTEIN (PT)','BOVE','Jean-Luc MELANCHON'
    ],
    'Gauche': [
        'MITTERRAND (CIR)', 'ROCARD (PSU)', 'MITTERRAND (PS)', 'JOSPIN (PS)', 'HOLLANDE (PS)', 'ROYAL (PS)',
        'Hamon (PS)', 'Anne HIDALGO', 'DEFFERRE (SFIO)', 'CREPEAU (MRG)', 'LALONDE (ECO)', 'TAUBIRA (PRG)',
        'CHEVENEMENT (P. REP)', 'MAMERE (VERTS)', 'VOYNET (VERTS)', 'Eva JOLY (EELV)', 'François HOLLANDE (PS)',
        'Yannick JADOT', 'Benoît HAMON', 'DUMONT (ECO)'
    ],
    'Droite': [
        'DE GAULLE (UNR)', 'POMPIDOU (UDR)', 'CHABAN-DELMAS (UDR)', 'GISCARD D\'ESTAING (RI)', 'CHIRAC (RPR)',
        'BALLADUR (UDF)', 'SARKOZY (UMP)', 'François FILLON', 'Nicolas DUPONT-AIGNAN', 'Valérie PECRESSE', 'LECANUET (MRP)',
        'POHER (CD)', 'GISCARD D\'ESTAING (UDF)', 'DEBRE (DVD)', 'GARAUD (DVD)', 'DE VILLIERS (MPF)',
        'LEPAGE (CAP 21)', 'BAYROU (UDF)', 'MADELIN (DL)', 'CHIRAC (UMP)', 'François BAYROU (MODEM)', 'Nicolas SARKOZY (UMP)',
        'Nicolas DUPONT-AIGNAN (DLR)', 'Valérie PÉCRESSE', 'Jean LASSALLE','RENOUVIN (NAR)','Emmanuel MACRON','DE VILLIERS MPF)','NIHOUS (CNPT)'
    ],  
    'Extrême droite': [
        'TIXIER-VIGNANCOUR (EXD)', 'LE PEN (FN)', 'MEGRET (MNR)', 'Marine LE PEN', 'MARCILHACY (DVD)',
        'ROYER (DVD)', 'HERAUD (DIV)', 'BOUTIN (UDF DISS.)', 'SAINT-JOSSE (CNPT)', 'Marine LE PEN (FN)', 'éric ZEMMOUR',
    ],
}



# Transformation de chaque candidat en 1 partie politique

In [95]:
#chargement du parquet 
df = pd.read_csv('../dataset/first_tour_data.csv',encoding='utf-8-sig')
start_col_index = df.columns.get_loc('circonscription') + 1  # Début après 'circonscription'

# Vérifier et convertir les colonnes
for col in df.columns[start_col_index:]:
    try:
        print(f"Traitement de {col}, type actuel: {df[col].dtype}")
        df[col] = pd.to_numeric(df[col], errors='coerce').astype('Int64')
    except Exception as e:
        print(f"Erreur lors de la conversion de {col}: {str(e)}")

# Initialisation des colonnes de regroupement politique
df['Extrême gauche'] = 0
df['Gauche'] = 0
df['Droite'] = 0
df['Extrême droite'] = 0

# Regrouper les résultats des candidats sous les nouvelles colonnes politiques
for orientation, candidates in candidate_to_orientation.items():
    for candidate in candidates:
        if candidate in df.columns:
            df[orientation] += df[candidate]
            df.drop(columns=[candidate], inplace=True)


# Sauvegarder le nouveau DataFrame
df.to_csv("../dataset/dataframe_politique.csv", index=False,encoding='utf-8-sig')

Traitement de Inscrits, type actuel: int64
Traitement de Votants, type actuel: int64
Traitement de Exprimés, type actuel: int64
Traitement de Blancs et nuls, type actuel: int64
Traitement de MITTERRAND (CIR), type actuel: float64
Traitement de LECANUET (MRP), type actuel: float64
Traitement de DE GAULLE (UNR), type actuel: float64
Traitement de MARCILHACY (DVD), type actuel: float64
Traitement de TIXIER-VIGNANCOUR (EXD), type actuel: float64
Traitement de BARBU (DIV), type actuel: float64
Traitement de KRIVINE (LCR), type actuel: float64
Traitement de ROCARD (PSU), type actuel: float64
Traitement de DUCLOS (PCF), type actuel: float64
Traitement de DEFFERRE (SFIO), type actuel: float64
Traitement de POMPIDOU (UDR), type actuel: float64
Traitement de POHER (CD), type actuel: float64
Traitement de DUCATEL (DIV), type actuel: float64
Traitement de LAGUILLER (LO), type actuel: float64
Traitement de MITTERRAND (PS), type actuel: float64
Traitement de MULLER (MDSR), type actuel: float64
Trait

# Ajout des données sur le pouvoir d'achat

In [96]:
# Charger le dataset du premier tour
df = pd.read_csv('../dataset/dataframe_politique.csv',encoding='utf-8-sig')

# Charger le fichier CSV du pouvoir d'achat
pouvoir_achat = pd.read_csv('../data_brut/pouvoir_Achat1960_2022.csv', delimiter=';', usecols=['Année', "Pouvoir d'achat par unité de consommation", "Pouvoir d’achat du revenu disponible brut"])

# Nettoyer les données pour éliminer les lignes contenant trop de points-virgules ou de champs vides
pouvoir_achat = pouvoir_achat.dropna(how='all')

# Conversion des types de données pour 'Année' en int pour une fusion correcte
pouvoir_achat['Année'] = pouvoir_achat['Année'].astype(int)

# Fusionner les données de pouvoir d'achat avec le DataFrame politique
df = pd.read_csv('../dataset/dataframe_politique.csv',encoding='utf-8-sig')
df = df.merge(pouvoir_achat, on='Année', how='left')

# Sauvegarder le nouveau DataFrame
df.to_csv("../dataset/dataframe_politique_pouvoir_achat.csv", index=False,encoding='utf-8-sig')


# Ajout des données sur le chomage

In [107]:
# Charger le dataset du premier tour
df = pd.read_csv('../dataset/dataframe_politique_pouvoir_achat.csv',encoding='utf-8-sig')

# Charger le fichier CSV sur le taux de chômage
taux_chomage = pd.read_csv('../data_brut/chomage1975_2023.csv', delimiter=';')

# Conversion des types de données pour 'Année' en int pour une fusion correcte
taux_chomage['Année'] = taux_chomage['Année'].astype(int)

# Supprimer les espaces des noms de colonnes
taux_chomage.columns = taux_chomage.columns.str.strip()

# Assurez-vous d'utiliser le nom de colonne correct après avoir vérifié avec la commande précédente
taux_chomage['Ensemble'] = taux_chomage['Ensemble'].str.replace(',', '.').astype(float)

# Filtrer pour ne garder que les données des années présidentielles si nécessaire
annees_presidentielles = [1965, 1969, 1974, 1981, 1988, 1995, 2002, 2007, 2012, 2017, 2022]  # Mettre à jour cette liste selon les années pertinentes
taux_chomage = taux_chomage[taux_chomage['Année'].isin(annees_presidentielles)]

# Grouper par année et calculer la moyenne pour chaque groupe
taux_chomage = taux_chomage.groupby('Année')['Ensemble'].mean().reset_index()
taux_chomage.columns = ['Année', 'Chomage']



# Supposons que first_tour_data est votre DataFrame d'élection
df = pd.merge(df, taux_chomage, on='Année', how='left')

# remplacer les valeur manquante par la mediane
df['Chomage'] = df['Chomage'].fillna(df['Chomage'].median())

# Calculer les pourcentages des voix pour chaque parti politique
parties = ['Extrême gauche', 'Gauche', 'Droite', 'Extrême droite']

for parti in parties:
    # Créer une nouvelle colonne pour les pourcentages
    df[parti + '_Pct'] = (df[parti] / df['Exprimés']) * 100

# Maintenant, data contient les pourcentages des voix pour chaque parti politique

# Sauvegarder le nouveau DataFrame
df.to_csv("../dataset/dataframe_politique_pouvoir_achat_chomage.csv", index=False,encoding='utf-8-sig')
df.to_parquet("../dataset/dataframe_politique_pouvoir_achat_chomage.parquet", index=False)






# Création d'un pourcentage de réussite pour chaque partie politique par année en fonction de leur nombre de voix