# Nettoyage et préparation des données

Objectif : produire des jeux de données propres et cohérents
pour l’analyse métier.


In [1]:
import pandas as pd
import numpy as np

In [5]:
#Création des chemins vers les sous dossiers data 'Raw' et 'Clean'
RAW_PATH = "/content/drive/MyDrive/Projet Data/projet_1_diagnostic_territorial/data/raw/"
CLEAN_PATH = "/content/drive/MyDrive/Projet Data/projet_1_diagnostic_territorial/data/clean/"

In [6]:
#Importation des données
pop = pd.read_excel(RAW_PATH + "POPULATION_MUNICIPALE_COMMUNES_FRANCE.xlsx")
rev = pd.read_csv(RAW_PATH + "revenu-des-francais-a-la-commune-1765372688826.csv", sep=";")

  rev = pd.read_csv(RAW_PATH + "revenu-des-francais-a-la-commune-1765372688826.csv", sep=";")


In [7]:
pop_clean = pop[["dep","codgeo", "libgeo", "p21_pop"]].copy() #création de la dataset seulement avec la population de 2021
pop_clean.rename(columns={"p21_pop": "population"}, inplace=True) #renomme la colonne "P21_POP" en "population" pour un meilleur manipulation

pop_clean.head()


Unnamed: 0,dep,codgeo,libgeo,population
0,85,85062,Châteauneuf,1134.0
1,58,58300,Urzy,1742.0
2,70,70137,Chassey-lès-Montbozon,225.0
3,51,51649,Vitry-le-François,11454.0
4,78,78638,Vaux-sur-Seine,5083.0


In [8]:
pop_clean.isna().sum()

Unnamed: 0,0
dep,0
codgeo,0
libgeo,0
population,26


In [9]:
pop_clean.describe()

Unnamed: 0,population
count,34969.0
mean,1927.597701
std,8737.679677
min,0.0
25%,197.0
50%,458.0
75%,1167.0
max,504078.0


In [10]:
#Nettoyage de la dataset des revenues
rev_clean = rev[[
    "Code géographique",
    "Libellé géographique",
    "[DISP] Médiane (€)"
]].copy()

#Renommer les colonnes pour une meilleur jointure des données
rev_clean.rename(columns={
    "Code géographique": "codgeo",
    "Libellé géographique": "libgeo",
    "[DISP] Médiane (€)": "revenu_median"
}, inplace=True)

rev_clean.head()


Unnamed: 0,codgeo,libgeo,revenu_median
0,1001,L'Abergement-Clémenciat,25820.0
1,1002,L'Abergement-de-Varey,24480.0
2,1004,Ambérieu-en-Bugey,21660.0
3,1005,Ambérieux-en-Dombes,24610.0
4,1006,Ambléon,24210.0


In [11]:
rev_clean.isna().sum()

Unnamed: 0,0
codgeo,0
libgeo,0
revenu_median,3604


Le revenue médian posséde des valeurs manquantes qui sont minimisables par rapport à au nombre de lignes du dataset

In [12]:
rev_clean.describe()

Unnamed: 0,revenu_median
count,31322.0
mean,23244.47034
std,3173.70195
min,12260.0
25%,21270.0
50%,22810.0
75%,24710.0
max,55340.0


On remarque que la moyenne de revenue médian en France est de 23 244 € avec un écart type de 3173 € , dont le minimum est de 12 260 € et et le maximum de 55340 €, donc les datasets sont prête pour la joointure

In [13]:
#Contrôle qualité
pop_clean.info()
rev_clean.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34995 entries, 0 to 34994
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   dep         34995 non-null  object 
 1   codgeo      34995 non-null  object 
 2   libgeo      34995 non-null  object 
 3   population  34969 non-null  float64
dtypes: float64(1), object(3)
memory usage: 1.1+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34926 entries, 0 to 34925
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   codgeo         34926 non-null  object 
 1   libgeo         34926 non-null  object 
 2   revenu_median  31322 non-null  float64
dtypes: float64(1), object(2)
memory usage: 818.7+ KB


Les données sont bien nettoyées, maintenant prêtes à l'Analyse

In [15]:
#Sauvegarde des datasets propres
pop_clean.to_csv(CLEAN_PATH + "population_clean.csv", index=False)
rev_clean.to_csv(CLEAN_PATH + "revenus_clean.csv", index=False)

Les datasets nettoyés sont prêts pour l’analyse métier
et peuvent être réutilisés dans d’autres projets.