In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import re
import matplotlib.pyplot as plt
%matplotlib inline

pd.set_option('display.max_columns', 500)

from utils import normalize

In [2]:
path = 'name_geographic_information.csv'

df = pd.read_csv(path)



In [4]:
df.head()
print(df.shape)

(36840, 14)


## Suppression des colonnes inutiles

In [4]:
df.columns

Index(['EU_circo', 'code_région', 'nom_région', 'chef.lieu_région',
       'numéro_département', 'nom_département', 'préfecture',
       'numéro_circonscription', 'nom_commune', 'codes_postaux', 'code_insee',
       'latitude', 'longitude', 'éloignement'],
      dtype='object')

In [5]:
cols_to_drop = [
    'EU_circo', 
#     'code_région', 
#     'nom_région',
    'chef.lieu_région', 
    'nom_département',
    'préfecture',
    'numéro_circonscription',
    'codes_postaux',
    'éloignement'
]

In [6]:
df = df[[c for c in df.columns if c not in cols_to_drop]]
df.head()

Unnamed: 0,code_région,nom_région,numéro_département,nom_commune,code_insee,latitude,longitude
0,82,Rhône-Alpes,1,Attignat,1024,46.283333,5.166667
1,82,Rhône-Alpes,1,Beaupont,1029,46.4,5.266667
2,82,Rhône-Alpes,1,Bény,1038,46.333333,5.283333
3,82,Rhône-Alpes,1,Béreyziat,1040,46.366667,5.05
4,82,Rhône-Alpes,1,Bohas-Meyriat-Rignat,1245,46.133333,5.4


In [7]:
df.columns = [normalize(c) for c in df.columns]
df.head()

Unnamed: 0,code_region,nom_region,numero_departement,nom_commune,code_insee,latitude,longitude
0,82,Rhône-Alpes,1,Attignat,1024,46.283333,5.166667
1,82,Rhône-Alpes,1,Beaupont,1029,46.4,5.266667
2,82,Rhône-Alpes,1,Bény,1038,46.333333,5.283333
3,82,Rhône-Alpes,1,Béreyziat,1040,46.366667,5.05
4,82,Rhône-Alpes,1,Bohas-Meyriat-Rignat,1245,46.133333,5.4


## Exclusion de la Corse

In [8]:
print(df.shape)
df = df[df['numero_departement'].astype(str).apply(lambda x: ('A' not in x) and ('B' not in x))]
print(df.shape)

(36840, 7)
(36480, 7)


In [9]:
df.loc[:, 'code_insee'] = df.loc[:, 'code_insee'].astype(int)
df.loc[:, 'numero_departement'] = df.loc[:, 'numero_departement'].astype(int)

## Exclusion des DOM TOM

In [10]:
print(df.shape)
df = df[df['code_insee'] < 96000]
print(df.shape)

df.head()

(36480, 7)
(36348, 7)


Unnamed: 0,code_region,nom_region,numero_departement,nom_commune,code_insee,latitude,longitude
0,82,Rhône-Alpes,1,Attignat,1024,46.283333,5.166667
1,82,Rhône-Alpes,1,Beaupont,1029,46.4,5.266667
2,82,Rhône-Alpes,1,Bény,1038,46.333333,5.283333
3,82,Rhône-Alpes,1,Béreyziat,1040,46.366667,5.05
4,82,Rhône-Alpes,1,Bohas-Meyriat-Rignat,1245,46.133333,5.4


## Gestion des villes avec arrondissement

In [11]:
df[df['nom_commune'].isin(['Paris', 'Lyon', 'Marseille', 'Nice'])]

Unnamed: 0,code_region,nom_region,numero_departement,nom_commune,code_insee,latitude,longitude
2292,93,Provence-Alpes-Côte d'Azur,6,Nice,6088,43.7,7.25
2293,93,Provence-Alpes-Côte d'Azur,6,Nice,6088,43.7,7.25
2296,93,Provence-Alpes-Côte d'Azur,6,Nice,6088,43.7,7.25
2361,93,Provence-Alpes-Côte d'Azur,6,Nice,6088,43.7,7.25
4770,93,Provence-Alpes-Côte d'Azur,13,Marseille,13055,43.3,5.4
4771,93,Provence-Alpes-Côte d'Azur,13,Marseille,13055,43.3,5.4
4772,93,Provence-Alpes-Côte d'Azur,13,Marseille,13055,43.3,5.4
4773,93,Provence-Alpes-Côte d'Azur,13,Marseille,13055,43.3,5.4
4774,93,Provence-Alpes-Côte d'Azur,13,Marseille,13055,43.3,5.4
4775,93,Provence-Alpes-Côte d'Azur,13,Marseille,13055,43.3,5.4


In [12]:
df = df.groupby(['numero_departement', 'nom_commune']).first().reset_index()

In [13]:
df[df['nom_commune'].isin(['Paris', 'Lyon', 'Marseille', 'Nice'])]


Unnamed: 0,numero_departement,nom_commune,code_region,nom_region,code_insee,latitude,longitude
2028,6,Nice,93,Provence-Alpes-Côte d'Azur,6088,43.7,7.25
4466,13,Marseille,93,Provence-Alpes-Côte d'Azur,13055,43.3,5.4
28180,69,Lyon,82,Rhône-Alpes,69123,45.75,4.85
30431,75,Paris,11,Île-de-France,75056,48.866667,2.333333


In [14]:
df.loc[df['nom_commune'] == 'Paris', 'code_insee'] = 75000
df.loc[df['nom_commune'] == 'Marseille', 'code_insee'] = 13000
df.loc[df['nom_commune'] == 'Lyon', 'code_insee'] = 69000

In [15]:
df.head()

Unnamed: 0,numero_departement,nom_commune,code_region,nom_region,code_insee,latitude,longitude
0,1,Ambléon,82,Rhône-Alpes,1006,45.75,5.6
1,1,Ambronay,82,Rhône-Alpes,1007,46.0,5.35
2,1,Ambutrix,82,Rhône-Alpes,1008,45.933333,5.333333
3,1,Ambérieu-en-Bugey,82,Rhône-Alpes,1004,45.95,5.35
4,1,Ambérieux-en-Dombes,82,Rhône-Alpes,1005,46.0,4.9


## Traitement des latitudes/longitudes

In [16]:
df['latitude'] = df['latitude'].astype(str).str.replace(',', '.')
df['longitude'] = df['longitude'].astype(str).str.replace(',', '.')

In [17]:
df['latitude'] = df['latitude'].astype(float)

In [18]:
# on ne peut pas convertir toutes les longitudes
# df['longitude'] = df['longitude'].astype(float)

In [18]:
df[df['longitude'] == '-']

Unnamed: 0,numero_departement,nom_commune,code_region,nom_region,code_insee,latitude,longitude
4772,14,Gerrots,25,Basse-Normandie,14300,49.200000,-
4795,14,Heuland,25,Basse-Normandie,14329,49.266667,-
5128,14,Saint-Vaast-en-Auge,25,Basse-Normandie,14660,49.283333,-
5198,14,Vaudeloges,25,Basse-Normandie,14729,48.950000,-
5220,14,Villers-sur-Mer,25,Basse-Normandie,14754,49.316667,-
...,...,...,...,...,...,...,...
32085,79,Les Alleuds,54,Poitou-Charentes,79006,46.150000,-
32114,79,Melleran,54,Poitou-Charentes,79175,46.133333,-
34192,86,Chalandray,54,Poitou-Charentes,86050,46.666667,-
34382,86,Saix,54,Poitou-Charentes,86250,47.133333,-


In [19]:
df[df['longitude'] == '-']['numero_departement'].value_counts()

65    16
33     9
16     9
61     7
14     5
32     4
47     3
86     3
79     3
72     3
40     1
64     1
Name: numero_departement, dtype: int64

In [21]:
# dans un premier temps, on va supprimer les lignes manquantes

In [20]:
df = df[df['longitude'] != '-']

In [21]:
df['longitude'] = df['longitude'].astype(float)

## Gestion des NAs

In [22]:
df.isna().sum()

numero_departement       0
nom_commune              0
code_region              0
nom_region               0
code_insee               0
latitude              2743
longitude             2658
dtype: int64

In [23]:
# on va supprimer les valeurs manquantes pour l'instant
df = df.dropna()

In [24]:
df = df.rename(columns={'code_insee': 'codgeo'})

In [25]:
df.to_csv('clean_data/geography_clean.csv', index=False)