# Exploration — Élections

Exploration du fichier de résultats électoraux :
- **Candidats** : `candidats_results.txt` (2.3 GB)

**Attention** : le fichier est très volumineux. On charge uniquement les premières lignes pour explorer la structure.

In [7]:
import pandas as pd
import os

DATA_DIR = os.path.join(os.path.dirname(os.getcwd()), '')  # dossier parent = elections/
FILE = os.path.join(DATA_DIR, 'candidats_results.txt')
print(f"Fichier : {FILE}")
print(f"Taille : {os.path.getsize(FILE) / 1e9:.2f} GB")

Fichier : /Users/cedricsanchez/Documents/MSPR/MSPR_1/data/input/elections/candidats_results.txt
Taille : 2.31 GB


## 1. Structure du fichier

In [8]:
# Lire les 5 premières lignes brutes
with open(FILE, 'r', encoding='utf-8') as f:
    for i, line in enumerate(f):
        if i < 5:
            print(repr(line[:200]))
        if i >= 5:
            break

'id_election;id_brut_miom;Code du département;Code de la commune;Code du b.vote;N°Panneau;Libellé Abrégé Liste;Libellé Etendu Liste;Nom Tête de Liste;Voix;% Voix/Ins;% Voix/Exp;Sexe;Nom;Prénom;Nuance;B'
'2019_euro_t1;01001_0001;01;001;0001;1;La France Insoumise;La France Insoumise;AUBRY Manon;13;2.16;4.14;;;;;;\n'
'2019_euro_t1;01002_0001;01;002;0001;1;La France Insoumise;La France Insoumise;AUBRY Manon;6;2.86;4.44;;;;;;\n'
'2019_euro_t1;01004_0001;01;004;0001;1;La France Insoumise;La France Insoumise;AUBRY Manon;39;3.71;8.23;;;;;;\n'
'2019_euro_t1;01004_0002;01;004;0002;1;La France Insoumise;La France Insoumise;AUBRY Manon;42;3.8;7.78;;;;;;\n'


In [9]:
# Charger un échantillon (premières 10 000 lignes)
df = pd.read_csv(FILE, sep=';', encoding='utf-8', nrows=10000, low_memory=False)
print(f"Shape (échantillon) : {df.shape}")
print(f"Colonnes ({len(df.columns)}) :")
for c in df.columns:
    print(f"  - {c}")
df.head()

Shape (échantillon) : (10000, 18)
Colonnes (18) :
  - id_election
  - id_brut_miom
  - Code du département
  - Code de la commune
  - Code du b.vote
  - N°Panneau
  - Libellé Abrégé Liste
  - Libellé Etendu Liste
  - Nom Tête de Liste
  - Voix
  - % Voix/Ins
  - % Voix/Exp
  - Sexe
  - Nom
  - Prénom
  - Nuance
  - Binôme
  - Liste


Unnamed: 0,id_election,id_brut_miom,Code du département,Code de la commune,Code du b.vote,N°Panneau,Libellé Abrégé Liste,Libellé Etendu Liste,Nom Tête de Liste,Voix,% Voix/Ins,% Voix/Exp,Sexe,Nom,Prénom,Nuance,Binôme,Liste
0,2019_euro_t1,01001_0001,1,1,1.0,1,La France Insoumise,La France Insoumise,AUBRY Manon,13,2.16,4.14,,,,,,
1,2019_euro_t1,01002_0001,1,2,1.0,1,La France Insoumise,La France Insoumise,AUBRY Manon,6,2.86,4.44,,,,,,
2,2019_euro_t1,01004_0001,1,4,1.0,1,La France Insoumise,La France Insoumise,AUBRY Manon,39,3.71,8.23,,,,,,
3,2019_euro_t1,01004_0002,1,4,2.0,1,La France Insoumise,La France Insoumise,AUBRY Manon,42,3.8,7.78,,,,,,
4,2019_euro_t1,01004_0003,1,4,3.0,1,La France Insoumise,La France Insoumise,AUBRY Manon,31,2.93,5.63,,,,,,


In [10]:
df.info()
print()
df.describe(include='all')

<class 'pandas.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_election           10000 non-null  str    
 1   id_brut_miom          10000 non-null  str    
 2   Code du département   10000 non-null  int64  
 3   Code de la commune    10000 non-null  int64  
 4   Code du b.vote        10000 non-null  float64
 5   N°Panneau             10000 non-null  int64  
 6   Libellé Abrégé Liste  10000 non-null  str    
 7   Libellé Etendu Liste  10000 non-null  str    
 8   Nom Tête de Liste     10000 non-null  str    
 9   Voix                  10000 non-null  int64  
 10  % Voix/Ins            10000 non-null  float64
 11  % Voix/Exp            10000 non-null  float64
 12  Sexe                  0 non-null      float64
 13  Nom                   0 non-null      float64
 14  Prénom                0 non-null      float64
 15  Nuance                0 non-nul

Unnamed: 0,id_election,id_brut_miom,Code du département,Code de la commune,Code du b.vote,N°Panneau,Libellé Abrégé Liste,Libellé Etendu Liste,Nom Tête de Liste,Voix,% Voix/Ins,% Voix/Exp,Sexe,Nom,Prénom,Nuance,Binôme,Liste
count,10000,10000,10000.0,10000.0,10000.0,10000.0,10000,10000,10000,10000.0,10000.0,10000.0,0.0,0.0,0.0,0.0,0.0,0.0
unique,1,10000,,,,,1,1,1,,,,,,,,,
top,2019_euro_t1,01001_0001,,,,,La France Insoumise,La France Insoumise,AUBRY Manon,,,,,,,,,
freq,10000,1,,,,,10000,10000,10000,,,,,,,,,
mean,,,9.1808,198.8552,64.90343,1.0,,,,18.4441,3.356727,6.564028,,,,,,
std,,,4.920095,176.516519,237.894979,0.0,,,,15.109596,2.156518,4.079504,,,,,,
min,,,1.0,1.0,1.0,1.0,,,,0.0,0.0,0.0,,,,,,
25%,,,6.0,62.0,1.0,1.0,,,,6.0,2.02,3.92,,,,,,
50%,,,10.0,146.0,1.0,1.0,,,,15.0,3.01,5.94,,,,,,
75%,,,13.0,290.0,5.0,1.0,,,,28.0,4.25,8.33,,,,,,


## 2. Valeurs uniques (sur l'échantillon)

In [11]:
# Colonnes catégorielles : valeurs uniques
for col in df.select_dtypes(include=['object', 'str']).columns:
    n_unique = df[col].nunique()
    print(f"{col} : {n_unique} valeurs uniques")
    if n_unique <= 20:
        print(f"  → {df[col].unique().tolist()}")

id_election : 1 valeurs uniques
  → ['2019_euro_t1']
id_brut_miom : 10000 valeurs uniques
Libellé Abrégé Liste : 1 valeurs uniques
  → ['La France Insoumise']
Libellé Etendu Liste : 1 valeurs uniques
  → ['La France Insoumise']
Nom Tête de Liste : 1 valeurs uniques
  → ['AUBRY Manon']


## 3. Qualité des données

In [12]:
nulls = df.isnull().sum()
total = nulls.sum()
print(f"Valeurs manquantes : {total} sur {df.shape[0] * df.shape[1]}")
if total > 0:
    for col, n in nulls[nulls > 0].items():
        print(f"  {col}: {n} ({100*n/len(df):.1f}%)")

Valeurs manquantes : 60000 sur 180000
  Sexe: 10000 (100.0%)
  Nom: 10000 (100.0%)
  Prénom: 10000 (100.0%)
  Nuance: 10000 (100.0%)
  Binôme: 10000 (100.0%)
  Liste: 10000 (100.0%)
