# Exploration des données

Objectif : comprendre la structure, la qualité et les limites des données
(population et revenus) avant tout traitement ou analyse.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
base_path = "/content/drive/MyDrive/Projet Data"


In [None]:
import os

project_name = "projet_1_diagnostic_territorial"
project_path = os.path.join(base_path, project_name)

folders = [
    "data/raw",
    "data/clean",
    "notebooks",
    "dashboard",
    "outputs"
]

for folder in folders:
    os.makedirs(os.path.join(project_path, folder), exist_ok=True)

project_path


'/content/drive/MyDrive/Projet Data/projet_1_diagnostic_territorial'

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from scipy import stats

In [None]:

pop = pd.read_excel('/content/drive/MyDrive/Projet Data/projet_1_diagnostic_territorial/data/raw/POPULATION_MUNICIPALE_COMMUNES_FRANCE.xlsx')
rev = pd.read_csv('/content/drive/MyDrive/Projet Data/projet_1_diagnostic_territorial/data/raw/revenu-des-francais-a-la-commune-1765372688826.csv', sep= ';')

pop.head()


  rev = pd.read_csv('/content/drive/MyDrive/Projet Data/projet_1_diagnostic_territorial/data/raw/revenu-des-francais-a-la-commune-1765372688826.csv', sep= ';')


Unnamed: 0,objectid,reg,dep,cv,codgeo,libgeo,p13_pop,p14_pop,p15_pop,p16_pop,p17_pop,p18_pop,p19_pop,p20_pop,p21_pop
0,115658,52,85,8502,85062,Châteauneuf,968.0,993.0,1013.0,1027.0,1056,1085.0,1114.0,1118.0,1134.0
1,115659,26,58,5808,58300,Urzy,1839.0,1835.0,1828.0,1802.0,1775,1749.0,1746.0,1747.0,1742.0
2,115660,43,70,7012,70137,Chassey-lès-Montbozon,218.0,217.0,216.0,215.0,217,215.0,215.0,220.0,225.0
3,115661,21,51,5123,51649,Vitry-le-François,13174.0,13144.0,12805.0,12552.0,12133,11743.0,11376.0,11458.0,11454.0
4,115662,11,78,7811,78638,Vaux-sur-Seine,4749.0,4715.0,4788.0,4857.0,4927,4929.0,5010.0,5020.0,5083.0


In [None]:
pop.shape

(34995, 15)

In [None]:
pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34995 entries, 0 to 34994
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   objectid  34995 non-null  int64  
 1   reg       34995 non-null  int64  
 2   dep       34995 non-null  object 
 3   cv        34995 non-null  object 
 4   codgeo    34995 non-null  object 
 5   libgeo    34995 non-null  object 
 6   p13_pop   34994 non-null  float64
 7   p14_pop   34994 non-null  float64
 8   p15_pop   34994 non-null  float64
 9   p16_pop   34994 non-null  float64
 10  p17_pop   34995 non-null  int64  
 11  p18_pop   34992 non-null  float64
 12  p19_pop   34988 non-null  float64
 13  p20_pop   34978 non-null  float64
 14  p21_pop   34969 non-null  float64
dtypes: float64(8), int64(3), object(4)
memory usage: 4.0+ MB


Les types de données de la dataset population sont cohérentes

In [None]:
pop.describe()

Unnamed: 0,objectid,reg,p13_pop,p14_pop,p15_pop,p16_pop,p17_pop,p18_pop,p19_pop,p20_pop,p21_pop
count,34995.0,34995.0,34994.0,34994.0,34994.0,34994.0,34995.0,34992.0,34988.0,34978.0,34969.0
mean,127666.0,49.700471,1846.004887,1868.220095,1884.148111,1889.817912,1900.966967,1907.025206,1914.505773,1920.021242,1927.597701
std,10102.330672,25.592607,8415.276974,8478.89995,8534.926272,8551.638978,8583.400244,8627.491811,8678.183247,8698.041355,8737.679677
min,110169.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,118917.5,25.0,199.0,199.0,199.0,199.0,199.0,198.0,198.0,197.0,197.0
50%,127666.0,43.0,449.0,452.0,454.0,455.0,457.0,457.0,457.0,458.0,458.0
75%,136414.5,73.0,1120.0,1136.0,1147.0,1152.0,1159.0,1160.0,1162.0,1164.0,1167.0
max,145163.0,94.0,458298.0,466297.0,471941.0,475438.0,479553.0,486828.0,493465.0,498003.0,504078.0


On peut remarquer que la médianne de la population en 2021 par région est de 458, ce qui est très éloigné de la mooyenne avec un écart type de 8738, nous pouvons aussi remarquer des anomalies sur les valeurs extrêmes comme le minimum de 0 sur une ou plusieurs régions de la population enregistré

In [None]:
pop.duplicated().sum() #Vérifier s'il y a des doublons dans la dataframe

np.int64(0)

La dataset ne présente pas de doublons

In [None]:
pop.isna().sum().sort_values(ascending=False).head(10) #Trouver les valeurs manquantes de chaque colonnes

Unnamed: 0,0
p21_pop,26
p20_pop,17
p19_pop,7
p18_pop,3
p13_pop,1
p16_pop,1
p15_pop,1
p14_pop,1
codgeo,0
libgeo,0


La colonne de la population de 2021 présente des valeurs manquantes, mais comme il ne présente à peine 1% donc l'analyse n'en sera pas affecté

Le dataframe de la population a été explorée et vérifiée et il prêt pour le nettoyage, maintenant nous pouvons passer à celle des revenues.

In [None]:
rev.head(10)

Unnamed: 0,Nom géographique GMS,Code géographique,Libellé géographique,[DISP] Nbre de ménages fiscaux,[DISP] Nbre de personnes dans les ménages fiscaux,[DISP] Nbre d'unités de consommation dans les ménages fiscaux,[DISP] 1ᵉʳ quartile (€),[DISP] Médiane (€),[DISP] 3ᵉ quartile (€),[DISP] Écart interquartile (€),...,[DEC] 9ᵉ décile (€),[DEC] Rapport interdécile D9/D1,[DEC] S80/S20,[DEC] Iice de Gini,[DEC] Part des revenus d’activité (%),[DEC] dont part des salaires et traitements (%),[DEC] dont part des iemnités de chômage (%),[DEC] dont part des revenus des activités non salariées (%),"[DEC] Part des pensions, retraites et rentes (%)",[DEC] Part des autres revenus (%)
0,L'Abergement-Clémenciat,1001,L'Abergement-Clémenciat,346.0,895.0,590.8,,25820.0,,,...,,,,,,,,,,
1,L'Abergement-de-Varey,1002,L'Abergement-de-Varey,115.0,266.0,181.0,,24480.0,,,...,,,,,,,,,,
2,Ambérieu-en-Bugey,1004,Ambérieu-en-Bugey,6855.0,15092.0,10398.2,15800.0,21660.0,28430.0,12630.0,...,39380.0,56.0,8.1,0.368,67.9,61.5,3.2,3.2,24.4,7.7
3,Ambérieux-en-Dombes,1005,Ambérieux-en-Dombes,800.0,2028.0,1329.7,20010.0,24610.0,31180.0,11170.0,...,43610.0,32.0,4.4,0.298,73.2,67.2,2.2,3.8,19.7,7.1
4,Ambléon,1006,Ambléon,51.0,107.0,76.6,,24210.0,,,...,,,,,,,,,,
5,Ambronay,1007,Ambronay,1184.0,2874.0,1915.7,19490.0,24860.0,31530.0,12030.0,...,42260.0,35.0,4.1,0.26,70.9,66.6,2.4,1.9,24.7,4.4
6,Ambutrix,1008,Ambutrix,326.0,753.0,516.3,,26300.0,,,...,,,,,,,,,,
7,Andert-et-Condon,1009,Aert-et-Coon,157.0,380.0,256.8,,24810.0,,,...,,,,,,,,,,
8,Anglefort,1010,Anglefort,481.0,1122.0,760.1,,24700.0,,,...,,,,,,,,,,
9,Apremont,1011,Apremont,161.0,405.0,265.9,,24530.0,,,...,,,,,,,,,,


In [None]:
rev.shape

(34926, 57)

In [None]:
rev.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34926 entries, 0 to 34925
Data columns (total 57 columns):
 #   Column                                                         Non-Null Count  Dtype  
---  ------                                                         --------------  -----  
 0   Nom géographique GMS                                           34926 non-null  object 
 1   Code géographique                                              34926 non-null  object 
 2   Libellé géographique                                           34926 non-null  object 
 3   [DISP] Nbre de ménages fiscaux                                 31322 non-null  float64
 4   [DISP] Nbre de personnes dans les ménages fiscaux              31322 non-null  float64
 5   [DISP] Nbre d'unités de consommation dans les ménages fiscaux  31322 non-null  float64
 6   [DISP] 1ᵉʳ quartile (€)                                        5343 non-null   float64
 7   [DISP] Médiane (€)                                        

Les types de données sont cohérentes des revenues sont cohérentes

In [None]:
rev.duplicated().sum() #Vérifier s'il y a des doublons dans la dataframe

np.int64(0)

Le dataframe ne présente aucun doublon.

In [None]:
rev.isna().sum().sort_values(ascending=False).head(10) #Trouver les valeurs manquantes de chaque colonnes

Unnamed: 0,0
[DISP] 3ᵉ quartile (€),29583
[DISP] 1ᵉʳ quartile (€),29583
[DISP] 7ᵉ décile (€),29583
[DISP] 6ᵉ décile (€),29583
[DISP] 4ᵉ décile (€),29583
[DISP]3ᵉ décile (€),29583
[DISP] 2ᵉ décile (€),29583
[DISP] 1ᵉʳ décile (€),29583
[DISP] Écart interquartile (€),29583
[DISP] 9ᵉ décile (€),29583


Il y'a une quantité significative de valeurs manquantes de communes avec des revenue non enregistré, ce qui va poser problème lors de l'analyse, mais nous allons maintenant se concentrer sur les valeurs existantes pour faire l'analyse notament la colonne du revenue médian

## Observations clés
- Le code INSEE est présent dans les deux datasets
- Le revenu médian est manquant pour certaines communes (secret statistique)
- Les ordres de grandeur sont cohérents
- Les datasets sont prêts pouur le nettoyage et l'analyse
