GOAL2: Use the cleaned dataset with Pandas to perform EDA 

In [3]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import scipy as sp
from pyspark.sql import SparkSession
import warnings
warnings.filterwarnings('ignore')

For the EDA part of the project we will use Pandas to handle the already cleaned dataset

In [4]:
# Import the csv file
df = pd.read_csv("../Clean_Data/2024/clean_dataset_legislative_2024.csv", sep=";")

In [18]:
# Show top 5 rows
df.head(5)

Unnamed: 0,Code_département,Libellé_département,Code_commune,Libellé_commune,Inscrits,Votants,Pourcentage_Votants,Abstentions,Pourcentage_Abstentions,Exprimés,...,Numéro_de_panneau_18,Nuance_candidat_18,Nom_candidat_18,Prénom_candidat_18,Sexe_candidat_18,Voix_18,Pourcentage_Voix/inscrits_18,Pourcentage_Voix/exprimés_18,Elu_18,Nombre_candidats
0,1,Ain,1001,L'Abergement-Clémenciat,662,494,74.62,168,25.38,476,...,,,,,,,,,False,2
1,1,Ain,1002,L'Abergement-de-Varey,228,187,82.02,41,17.98,166,...,,,,,,,,,False,2
2,1,Ain,1004,Ambérieu-en-Bugey,8745,5887,67.32,2858,32.68,5348,...,,,,,,,,,False,2
3,1,Ain,1005,Ambérieux-en-Dombes,1337,979,73.22,358,26.78,926,...,,,,,,,,,False,2
4,1,Ain,1006,Ambléon,98,65,66.33,33,33.67,59,...,,,,,,,,,False,2


In [17]:
# Shape of the dataset
df.shape

(31392, 181)

The dataset has 181 different columns with unique and repeated informations for different candidates:
Unique columns:
- Code_département
- Libellé_département
- Code_commune
- Libellé_commune
- Inscrits
- Votants
- Pourcentage_Votants
- Abstentions
- Pourcentage_Abstentions
- Exprimés
- Pourcentage_Exprimés/inscrits
- Pourcentage_Exprimés/votants
- Blancs
- Pourcentage_Blancs/inscrits
- Pourcentage_Blancs/votants
- Nuls
- Pourcentage_Nuls/inscrits
- Pourcentage_Nuls/votants
- Nombre_candidats

Repeated columns (X being a value between 1 and 18):

- Numéro_de_panneau X
- Nuance_candidat X
- Nom_candidat X
- Prénom_candidat X
- Sexe_candidat X
- Voix_X
- Pourcentage_Voix/inscrits X
- Pourcentage_Voix/exprimés X
- Elu_X

In [8]:
# Perform data check
list_null_columns = [col for col in df.columns if df[col].isna().any()]

In [9]:
list_null_columns

['Numéro_de_panneau_2',
 'Nuance_candidat_2',
 'Nom_candidat_2',
 'Prénom_candidat_2',
 'Sexe_candidat_2',
 'Voix_2',
 'Pourcentage_Voix/inscrits_2',
 'Pourcentage_Voix/exprimés_2',
 'Numéro_de_panneau_3',
 'Nuance_candidat_3',
 'Nom_candidat_3',
 'Prénom_candidat_3',
 'Sexe_candidat_3',
 'Voix_3',
 'Pourcentage_Voix/inscrits_3',
 'Pourcentage_Voix/exprimés_3',
 'Numéro_de_panneau_4',
 'Nuance_candidat_4',
 'Nom_candidat_4',
 'Prénom_candidat_4',
 'Sexe_candidat_4',
 'Voix_4',
 'Pourcentage_Voix/inscrits_4',
 'Pourcentage_Voix/exprimés_4',
 'Numéro_de_panneau_5',
 'Nuance_candidat_5',
 'Nom_candidat_5',
 'Prénom_candidat_5',
 'Sexe_candidat_5',
 'Voix_5',
 'Pourcentage_Voix/inscrits_5',
 'Pourcentage_Voix/exprimés_5',
 'Numéro_de_panneau_6',
 'Nuance_candidat_6',
 'Nom_candidat_6',
 'Prénom_candidat_6',
 'Sexe_candidat_6',
 'Voix_6',
 'Pourcentage_Voix/inscrits_6',
 'Pourcentage_Voix/exprimés_6',
 'Numéro_de_panneau_7',
 'Nuance_candidat_7',
 'Nom_candidat_7',
 'Prénom_candidat_7',
 'S

The NULL values don't represent missing data but the fact the smaller cities dont have as much candidates as others

In [11]:
# reset_index: Converts the result (which is currently a Series with "Nombre_candidats" as the index) back into a DataFrame
count_by_candidates = df.groupby("Nombre_candidats").size().reset_index(name="Number of Cities")

In [12]:
count_by_candidates

Unnamed: 0,Nombre_candidats,Number of Cities
0,1,14
1,2,28026
2,3,3132
3,4,174
4,5,22
5,6,8
6,7,1
7,8,8
8,9,1
9,10,1


In [15]:
# Check duplicates
df.duplicated().sum()

np.int64(0)

In [19]:
#Check data types
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31392 entries, 0 to 31391
Columns: 181 entries, Code_département to Nombre_candidats
dtypes: bool(18), float64(78), int64(9), object(76)
memory usage: 39.6+ MB


In [20]:
# Check number of unique values
df.nunique()

Code_département                  109
Libellé_département               106
Code_commune                    31392
Libellé_commune                 29461
Inscrits                         4941
                                ...  
Voix_18                             1
Pourcentage_Voix/inscrits_18        1
Pourcentage_Voix/exprimés_18        1
Elu_18                              1
Nombre_candidats                   14
Length: 181, dtype: int64

In [21]:
df.describe()

Unnamed: 0,Inscrits,Votants,Pourcentage_Votants,Abstentions,Pourcentage_Abstentions,Exprimés,Pourcentage_Exprimés/inscrits,Pourcentage_Exprimés/votants,Blancs,Pourcentage_Blancs/inscrits,...,Pourcentage_Voix/exprimés_16,Numéro_de_panneau_17,Voix_17,Pourcentage_Voix/inscrits_17,Pourcentage_Voix/exprimés_17,Numéro_de_panneau_18,Voix_18,Pourcentage_Voix/inscrits_18,Pourcentage_Voix/exprimés_18,Nombre_candidats
count,31392.0,31392.0,31392.0,31392.0,31392.0,31392.0,31392.0,31392.0,31392.0,31392.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,31392.0
mean,1380.240443,919.589673,72.605132,460.650771,27.394905,869.002071,68.256304,94.006233,38.069859,3.215389,...,5.11,11.0,10039.0,1.46,2.3,12.0,21784.0,3.17,5.0,2.117482
std,6682.696414,4331.296619,7.253418,2445.147631,7.253402,4114.293203,7.324949,3.952343,181.590414,2.377227,...,,,,,,,,,,0.391799
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,5.11,11.0,10039.0,1.46,2.3,12.0,21784.0,3.17,5.0,1.0
25%,169.0,125.0,69.13,42.0,23.29,117.0,64.54,92.15,4.0,1.66,...,5.11,11.0,10039.0,1.46,2.3,12.0,21784.0,3.17,5.0,2.0
50%,376.0,272.0,72.94,100.0,27.06,255.0,68.515,94.83,11.0,2.7,...,5.11,11.0,10039.0,1.46,2.3,12.0,21784.0,3.17,5.0,2.0
75%,935.0,666.25,76.71,263.25,30.87,628.0,72.47,96.61,28.0,4.27,...,5.11,11.0,10039.0,1.46,2.3,12.0,21784.0,3.17,5.0,2.0
max,687417.0,459856.0,100.0,227561.0,100.0,435557.0,100.0,100.0,18628.0,46.15,...,5.11,11.0,10039.0,1.46,2.3,12.0,21784.0,3.17,5.0,18.0


In [39]:
df[df["Libellé_commune"].str.startswith("Marse")].head()

Unnamed: 0,Code_département,Libellé_département,Code_commune,Libellé_commune,Inscrits,Votants,Pourcentage_Votants,Abstentions,Pourcentage_Abstentions,Exprimés,...,Numéro_de_panneau_18,Nuance_candidat_18,Nom_candidat_18,Prénom_candidat_18,Sexe_candidat_18,Voix_18,Pourcentage_Voix/inscrits_18,Pourcentage_Voix/exprimés_18,Elu_18,Nombre_candidats
2616,11,Aude,11220,Marseillette,507,376,74.16,131,25.84,329,...,,,,,,,,,False,2
3167,13,Bouches-du-Rhône,13055,Marseille,400366,258783,64.64,141583,35.36,242247,...,,,,,,,,,False,10
4964,18,Cher,18139,Marseilles-lès-Aubigny,435,313,71.95,122,28.05,281,...,,,,,,,,,False,2
10850,32,Gers,32238,Marseillan,77,65,84.42,12,15.58,57,...,,,,,,,,,False,2
20466,60,Oise,60387,Marseille-en-Beauvaisis,912,526,57.68,386,42.32,495,...,,,,,,,,,False,2
