In [5]:
import requests, zipfile, io
import pandas as pd

# 1) Acquisition des données

## Récupération des données socio-économiques 

Disponibles sur le site de l'INSEE.

In [6]:
url = 'https://www.insee.fr/fr/statistiques/fichier/5359146/dossier_complet.zip'

In [7]:
r = requests.get(url)
z = zipfile.ZipFile(io.BytesIO(r.content))
z.extractall("INSEE/")

## Récupération des données des élections municipales de 2020

Disponibles sur le site data.gouv. Méthode choisie à cause de problèmes majeurs d'encodage des caractères accentués.

In [8]:
!curl -O https://static.data.gouv.fr/resources/elections-municipales-2020-resultats/20200525-123727/2020-05-18-resultats-par-niveau-burvot-t1-france-entiere.xlsx

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 34.7M  100 34.7M    0     0  14.8M      0  0:00:02  0:00:02 --:--:-- 14.8M


In [9]:
# Attention, l'éxécution de cette cellule peut prendre beaucoup de temps
municipales_2020 = pd.read_excel('2020-05-18-resultats-par-niveau-burvot-t1-france-entiere.xlsx')

## Récupération des données des élections municipales de 2014

Disponibles sur le site Regards citoyens. Méthode choisie à cause de problèmes majeurs d'encodage des caractères accentués.

In [10]:
!curl -O https://data.regardscitoyens.org/elections/2014_municipales/municipales-2014-résultats-bureaux_vote-tour1.csv
!curl -O https://data.regardscitoyens.org/elections/2014_municipales/municipales-2014-résultats-bureaux_vote-tour2.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 35.2M  100 35.2M    0     0  15.5M      0  0:00:02  0:00:02 --:--:-- 15.5M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 7213k  100 7213k    0     0  13.8M      0 --:--:-- --:--:-- --:--:-- 13.4M --:--:-- --:--:-- --:--:-- 13.8M


In [11]:
municipales_t1 = pd.read_csv(filepath_or_buffer='municipales-2014-résultats-bureaux_vote-tour1.csv', encoding='l5', sep=';', error_bad_lines=False)
municipales_t2 = pd.read_csv(filepath_or_buffer='municipales-2014-résultats-bureaux_vote-tour2.csv', encoding='l5', sep=';', error_bad_lines=False)



  exec(code_obj, self.user_global_ns, self.user_ns)
  exec(code_obj, self.user_global_ns, self.user_ns)


## Récupération des données des élections municipales de 2008

Disponibles sur le site Regards citoyens. Méthode choisie à cause de problèmes majeurs d'encodage des caractères accentués.

In [12]:
!curl -O https://data.regardscitoyens.org/elections/2008_municipales/municipales-2008-résultats-bureaux_vote-tour1.csv
!curl -O https://data.regardscitoyens.org/elections/2008_municipales/municipales-2008-résultats-bureaux_vote-tour2.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 10.9M  100 10.9M    0     0  14.7M      0 --:--:-- --:--:-- --:--:-- 14.7M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 3723k  100 3723k    0     0  11.8M      0 --:--:-- --:--:-- --:--:-- 11.8M


# 2) Nettoyage des données

## Elections municipales de 2008:

In [13]:
#La taille des colonnes n'est pas la même pour chaque ligne, nécessitant un traitement supplémentaire
def max_colonnes(données):
    delimiter = ','
    max_colonnes = 0
    
    with open(données, 'r') as temp_f:
        lines = temp_f.readlines()

        for l in lines:
            # Nombre de colonnes de la ligne actuelle
            colonnes_cpt = len(l.split(delimiter)) + 1

            # Mise à jour du maximum
            max_colonnes = colonnes_cpt if max_colonnes < colonnes_cpt else max_colonnes

    column_names = [i for i in range(0, max_colonnes)]
    df = pd.read_csv(données, header=None, delimiter=delimiter, names=column_names)
    return df

In [14]:
muni = "municipales-2008-résultats-bureaux_vote-tour1.csv"
municipales_2008_t1 = max_colonnes(muni)

muni = "municipales-2008-résultats-bureaux_vote-tour2.csv"
municipales_2008_t2 = max_colonnes(muni)

  municipales_2008_t1 = max_colonnes(muni)
  municipales_2008_t2 = max_colonnes(muni)


In [15]:
#Renommer les colonnes (attention code non idem-potent)
municipales_2008_t1.columns = municipales_2008_t1.iloc[0].replace(pd.NA, 'Espace requis')
municipales_2008_t1.drop(labels=0, axis=0, inplace=True)

municipales_2008_t2.columns = municipales_2008_t2.iloc[0].replace(pd.NA, 'Espace requis')
municipales_2008_t2.drop(labels=0, axis=0, inplace=True)

## Elections municipales de 2014:

In [16]:
noms = ['Numéro tour', 'Code département', 'Code commune', 'Nom de la commune', 'Numéro de bureau de vote', 'Inscrits', 'Votants', 'Exprimés', 'Numéro de dépôt de la liste', 'Nom du candidat tête de liste', 'Prénom du candidat tête de liste', 'Code nuance de la liste', 'Nombre de voix']
municipales_t1.columns = noms
municipales_t2.columns = noms

In [17]:
def problème_FR(phrase):
    return phrase.replace('Ã©', 'é').replace('Ã«', 'ë').replace('Ã¨', 'è').replace('Ã\x89', 'É').replace('Ã´', 'ô').replace('Ã§', 'ç').replace('Ã®', 'î').replace('Ã\x8b', 'Ë').replace('Ã\x88', 'È').replace('Ã¯', 'ï')

In [18]:
cols = ['Nom de la commune', 'Nom du candidat tête de liste', 'Prénom du candidat tête de liste']
for colonne in cols:
    municipales_t1[colonne] = municipales_t1[colonne].apply(lambda row: problème_FR(row))
    municipales_t2[colonne] = municipales_t2[colonne].apply(lambda row: problème_FR(row))

On observe une singularité pour les communes de moins de 1 000 habitants.
Pour ces communes, l'élection des conseillers municipaux se déroule au scrutin majoritaire plurinominal à deux tours, avec panachage. La somme des voix de tous les candidats peut donc être supérieure au nombre de votants.

Nous allons donc ne pas pouvoir analyser ces communes.

# 3) Détermination des maires

In [19]:
res = municipales_t2.loc[municipales_t2['Votants']>1000].groupby(by=['Nom de la commune', 'Nom du candidat tête de liste'])['Nombre de voix'].sum()

In [74]:
res

Nom de la commune  Nom du candidat tête de liste
Agde               D'ETTORE                         488
                   LEBAUBE                          135
                   MUR                              433
Agny               AVRONSART                        152
                   DUTOIT                           393
                                                   ... 
Warmeriville       MOUSEL                           598
Wignehies          BAUDIN                           642
                   CESAR                            802
Wittelsheim        GOEPFERT                         506
                   RIESEMANN                        519
Name: Nombre de voix, Length: 674, dtype: int64

In [76]:
maires = {}
ville_actuelle = res.keys()[0][0]
résultats_ville = {}
for i in range(len(res.keys())):
    if res.keys()[i][0] == ville_actuelle:
        résultats_ville[res.keys()[i][1]] = res[i]
    else:
        max_voix = max(résultats_ville)
        maires[ville_actuelle] = [max_voix, résultats_ville[max_voix]]
        ville_actuelle = res.keys()[i][0]
        résultats_ville = {}
        résultats_ville[res.keys()[i][1]] = res[i]

In [80]:
maires

{'Agde': ['MUR', 433],
 'Agny': ['THUILOT', 531],
 'Ahetze': ['ELISSALDE', 587],
 'Ajaccio': ['RENUCCI', 365],
 'Albertville': ['BERTHET', 508],
 'Alignan-du-Vent': ['VIDAL', 1047],
 'Allauch': ['ROBINEAU-CHAILAN', 138],
 'Andrézieux-Bouthéon': ['SCHALK', 457],
 'Arcangues': ['MUTIO', 345],
 'Arles': ['SCHIAVETTI', 3351],
 'Arue': ['TUHEIAVA', 237],
 'Assas': ['GRAU', 593],
 'Avesnes-le-Comte': ['DESAULTY', 340],
 'Banyuls-sur-Mer': ['SOLÉ', 995],
 'Bastia': ['ZUCCARELLI', 1975],
 'Beaucaire': ['SANCHEZ', 543],
 'Bischwiller': ['THOMAS NÉE SCHULER', 486],
 'Bora-Bora': ['YE-ON', 733],
 'Boulouparis': ['VITTORI', 479],
 'Bourg-lès-Valence': ['PAILHES', 462],
 'Brassac-les-Mines': ['TAPISSIER', 293],
 'Briançon': ['GRYZKA', 1392],
 'Brives-Charensac': ['VALENTIN', 407],
 'Camaret-sur-Aigues': ['THIBAUD', 335],
 "Castelnau-d'Estrétefonds": ['RECOBRE', 285],
 'Castelnau-le-Lez': ['VENDRELL', 100],
 'Castelsarrasin': ['DAGEN', 1637],
 'Castillon-du-Gard': ['NAVATEL', 413],
 'Castries': ['PO

In [81]:
len(maires)

164

In [82]:
len(res)

674