Contexte : L'INSEE est l'institut officiel français qui collecte des données de tous types sur le territoire français. Elles peuvent être démographiques (Naissances, Décès, Densité de la population...), économiques (Salaires, Entreprises par activité
/ taille...) et plus encore.


Ces données peuvent être d'une grande aide pour observer et mesurer les inégalités au sein de la population française.

Objectifs :
Comparer les inégalités en France :
● Entreprises en fonction de leur localisation, de leur taille.
● Population en fonction du salaire et de la localisation.
● Focus sur une grande ville

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

FICHIER 1 : base_etablissement_par_tranche_effectif.csv = Informations sur le nombre d'entreprises dans chaque ville française classées par taille.

CODGEO : ID géographique de la ville
LIBGEO : nom de la ville
REG : numéro de région
DEP : numéro de département
E14TST : nombre total d'entreprises dans la ville
E14TS0ND : nombre d'entreprises de taille inconnue ou nulle dans la
ville
E14TS1 : nombre d'entreprises de 1 à 5 employés dans la ville
E14TS6 : nombre d'entreprises de 6 à 9 employés dans la ville
E14TS10 : nombre d'entreprises de 10 à 19 employés dans la ville
E14TS20 : nombre d'entreprises de 20 à 49 employés dans la ville
E14TS50 : nombre d'entreprises de 50 à 99 employés dans la ville
E14TS100 : nombre d'entreprises de 100 à 199 employés dans la ville
E14TS200 : nombre d'entreprises de 200 à 499 employés dans la ville
E14TS500 : nombre d'entreprises de plus de 500 employés dans la ville

In [19]:
base_etablissement = pd.read_csv('../data/base_etablissement_par_tranche_effectif.csv', sep =',', index_col = 0)
display(base_etablissement)

Unnamed: 0_level_0,LIBGEO,REG,DEP,E14TST,E14TS0ND,E14TS1,E14TS6,E14TS10,E14TS20,E14TS50,E14TS100,E14TS200,E14TS500
CODGEO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
01001,L'Abergement-Clémenciat,82,01,25,22,1,2,0,0,0,0,0,0
01002,L'Abergement-de-Varey,82,01,10,9,1,0,0,0,0,0,0,0
01004,Ambérieu-en-Bugey,82,01,996,577,272,63,46,24,9,3,2,0
01005,Ambérieux-en-Dombes,82,01,99,73,20,3,1,2,0,0,0,0
01006,Ambléon,82,01,4,4,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
97613,M'Tsangamouji,6,976,169,169,0,0,0,0,0,0,0,0
97614,Ouangani,6,976,230,230,0,0,0,0,0,0,0,0
97615,Pamandzi,6,976,569,569,0,0,0,0,0,0,0,0
97616,Sada,6,976,345,345,0,0,0,0,0,0,0,0


In [4]:
base_etablissement.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36681 entries, L'Abergement-Clémenciat to Tsingoni
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   CODGEO    36681 non-null  object
 1   REG       36681 non-null  int64 
 2   DEP       36681 non-null  object
 3   E14TST    36681 non-null  int64 
 4   E14TS0ND  36681 non-null  int64 
 5   E14TS1    36681 non-null  int64 
 6   E14TS6    36681 non-null  int64 
 7   E14TS10   36681 non-null  int64 
 8   E14TS20   36681 non-null  int64 
 9   E14TS50   36681 non-null  int64 
 10  E14TS100  36681 non-null  int64 
 11  E14TS200  36681 non-null  int64 
 12  E14TS500  36681 non-null  int64 
dtypes: int64(11), object(2)
memory usage: 3.9+ MB


Analyse des types de données de base_etablissement

 - REG est de type int64, il devrait être de type  object comme un code postal par exemple

In [14]:
if isinstance(base_etablissement['LIBGEO'], str):
    print("La donnée est une chaîne de caractères (str).")
else:
    print("La donnée n'est pas une chaîne de caractères.")

La donnée n'est pas une chaîne de caractères.


In [3]:
#Calcul du nombre de Nan
nan_counts = base_etablissement.isna().sum()

print("Nombre de NaN par colonne :")
print(nan_counts)

Nombre de NaN par colonne :
LIBGEO      0
REG         0
DEP         0
E14TST      0
E14TS0ND    0
E14TS1      0
E14TS6      0
E14TS10     0
E14TS20     0
E14TS50     0
E14TS100    0
E14TS200    0
E14TS500    0
dtype: int64


FICHIER 2 : name_geographic_information.csv : Données géographiques sur les villes françaises (principalement la latitude et la longitude, mais aussi les codes et les noms des régions/départements)

In [15]:
name_geographic_info = pd.read_csv('../data/name_geographic_information.csv', sep =',', index_col = 0)
display(name_geographic_info)

Unnamed: 0_level_0,code_région,nom_région,chef.lieu_région,numéro_département,nom_département,préfecture,numéro_circonscription,nom_commune,codes_postaux,code_insee,latitude,longitude,éloignement
EU_circo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Sud-Est,82,Rhône-Alpes,Lyon,01,Ain,Bourg-en-Bresse,1,Attignat,01340,1024,46.283333,5.166667,1.21
Sud-Est,82,Rhône-Alpes,Lyon,01,Ain,Bourg-en-Bresse,1,Beaupont,01270,1029,46.400000,5.266667,1.91
Sud-Est,82,Rhône-Alpes,Lyon,01,Ain,Bourg-en-Bresse,1,Bény,01370,1038,46.333333,5.283333,1.51
Sud-Est,82,Rhône-Alpes,Lyon,01,Ain,Bourg-en-Bresse,1,Béreyziat,01340,1040,46.366667,5.05,1.71
Sud-Est,82,Rhône-Alpes,Lyon,01,Ain,Bourg-en-Bresse,1,Bohas-Meyriat-Rignat,01250,1245,46.133333,5.4,1.01
...,...,...,...,...,...,...,...,...,...,...,...,...,...
Outre-Mer,5,Mayotte,Mamoudzou,976,Mayotte,Mamoudzou,1,M'TSANGAMOUJI,97600,97613,,,
Outre-Mer,5,Mayotte,Mamoudzou,976,Mayotte,Mamoudzou,1,OUANGANI,97600,97614,,,
Outre-Mer,5,Mayotte,Mamoudzou,976,Mayotte,Mamoudzou,1,PAMANDZI,97610,97615,,,
Outre-Mer,5,Mayotte,Mamoudzou,976,Mayotte,Mamoudzou,1,SADA,97640,97616,,,


In [5]:
name_geographic_info.info()

<class 'pandas.core.frame.DataFrame'>
Index: 36840 entries, Sud-Est to Outre-Mer
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   code_région             36840 non-null  int64  
 1   nom_région              36840 non-null  object 
 2   chef.lieu_région        36840 non-null  object 
 3   numéro_département      36840 non-null  object 
 4   nom_département         36840 non-null  object 
 5   préfecture              36840 non-null  object 
 6   numéro_circonscription  36840 non-null  int64  
 7   nom_commune             36840 non-null  object 
 8   codes_postaux           36840 non-null  object 
 9   code_insee              36840 non-null  int64  
 10  latitude                33911 non-null  float64
 11  longitude               33999 non-null  object 
 12  éloignement             33878 non-null  float64
dtypes: float64(2), int64(3), object(8)
memory usage: 3.9+ MB


Analyse des types de données de name_geographic_info

 - code_région est au format int64 et devrait être au format object

 - numéro_département est au format object, OK mais il être à 2 chiffres

 - nom_commune est au bon type mais les noms sont en CAP ou pas
 
 -  numéro_circonscription  est de type int64, il devrait être au format object/ à creuser, il semblerait que la colonne soit remplie de "1"

 - codes_postaux, ils ne sont pas tous à 5 chiffres (ex : ceux commençant par un "0")

 - nom_commune : attention il y a parfois des CAP et parfois pas

 - code_insee est en int64, il devrait être au format object à l'instar des codes postaux
 
 - latitude est en float64 mais longitude est de type object, longitude devrait passer en float64. 
 
 - latitude et longitude devraient comporter le même nombre de décimales, soit 2 (par exemple)


In [6]:
#Calcul du nombre de Nan
nan_counts = name_geographic_info.isna().sum()

print("Nombre de NaN par colonne :")
print(nan_counts)

Nombre de NaN par colonne :
code_région                  0
nom_région                   0
chef.lieu_région             0
numéro_département           0
nom_département              0
préfecture                   0
numéro_circonscription       0
nom_commune                  0
codes_postaux                0
code_insee                   0
latitude                  2929
longitude                 2841
éloignement               2962
dtype: int64


In [6]:
#Beaucoup de Nan'sur les variables latitudes, longitudes et éloignement

In [11]:
nombre_total_de_valeurs_latitude = name_geographic_info['latitude'].count()
nombre_na_latitude = name_geographic_info['latitude'].isna().sum()
taux_de_na = (nombre_na_latitude / nombre_total_de_valeurs_latitude) * 100
print("Le taux de valeurs manquantes dans la colonne latitude est de {:.2f}%".format(taux_de_na))

nombre_total_de_valeurs_longitude = name_geographic_info['longitude'].count()
nombre_na_latitude = name_geographic_info['longitude'].isna().sum()
taux_de_na = (nombre_na_latitude / nombre_total_de_valeurs_latitude) * 100
print("Le taux de valeurs manquantes dans la colonne longitude est de {:.2f}%".format(taux_de_na))

nombre_total_de_valeurs_eloignement = name_geographic_info['éloignement'].count()
nombre_na_latitude = name_geographic_info['éloignement'].isna().sum()
taux_de_na = (nombre_na_latitude / nombre_total_de_valeurs_latitude) * 100
print("Le taux de valeurs manquantes dans la colonne éloignement est de {:.2f}%".format(taux_de_na))


Le taux de valeurs manquantes dans la colonne latitude est de 8.64%
Le taux de valeurs manquantes dans la colonne longitude est de 8.38%
Le taux de valeurs manquantes dans la colonne éloignement est de 8.73%


In [21]:
if isinstance(name_geographic_info['nom_région'], str):
    print("La donnée 'nom_région' est une chaîne de caractères (str).")
else:
    print("La donnée nom_région' n'est pas une chaîne de caractères.")
    
    
    
    
    
    

La donnée nom_région' n'est pas une chaîne de caractères.


FICHIER 3 - net_salary_per_town.csv : Salaires par villes française par catégories d'emploi, âge et sexe

CODGEO : ID géographique de la ville
LIBGEO : nom de la ville
SNHM14 : salaire net moyen
SNHMC14 : salaire net moyen par heure pour les cadres
SNHMP14 : salaire net moyen par heure pour un cadre moyen
SNHME14 : salaire net moyen par heure pour l'employé
SNHMO14 : salaire net moyen par heure pour le travailleur
SNHMF14 : salaire net moyen pour les femmes
SNHMFC14 : salaire net moyen par heure pour les cadres féminins
SNHMFP14 : salaire net moyen par heure pour les cadres moyens féminins
SNHMFE14 : salaire net moyen par heure pour une employée
SNHMFO14 : salaire net moyen par heure pour une travailleuse
SNHMH14 : salaire net moyen pour un homme
SNHMHC14 : salaire net moyen par heure pour un cadre masculin
SNHMHP14 : salaire net moyen par heure pour les cadres moyens masculins
SNHMHE14 : salaire net moyen par heure pour un employé masculin
SNHMHO14 : salaire net moyen par heure pour un travailleur masculin
SNHM1814 : salaire net moyen par heure pour les 18-25 ans
SNHM2614 : salaire net moyen par heure pour les 26-50 ans
SNHM5014 : salaire net moyen par heure pour les >50 ans
SNHMF1814 : salaire net moyen par heure pour les femmes âgées de 18 à 25 ans
SNHMF2614 : salaire net moyen par heure pour les femmes âgées de 26 à 50 ans
SNHMF5014 : salaire net moyen par heure pour les femmes de plus de 50 ans
SNHMH1814 : salaire net moyen par heure pour les hommes âgés de 18 à 25 ans
SNHMH2614 : salaire net moyen par heure pour les hommes âgés de 26 à 50 ans
SNHMH5014 : salaire net moyen par heure pour les hommes de plus de 50 ans


In [10]:
net_salary_per_town = pd.read_csv('../data/net_salary_per_town_categories.csv', sep =',', index_col = 0)
display(net_salary_per_town)

Unnamed: 0_level_0,LIBGEO,SNHM14,SNHMC14,SNHMP14,SNHME14,SNHMO14,SNHMF14,SNHMFC14,SNHMFP14,SNHMFE14,...,SNHMHO14,SNHM1814,SNHM2614,SNHM5014,SNHMF1814,SNHMF2614,SNHMF5014,SNHMH1814,SNHMH2614,SNHMH5014
CODGEO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
01004,Ambérieu-en-Bugey,13.7,24.2,15.5,10.3,11.2,11.6,19.1,13.2,10.1,...,11.6,10.5,13.7,16.1,9.7,11.8,12.5,11.0,14.9,18.6
01007,Ambronay,13.5,22.1,14.7,10.7,11.4,11.9,19.0,13.3,10.6,...,11.7,9.8,13.8,14.6,9.2,12.2,12.5,10.2,14.9,16.4
01014,Arbent,13.5,27.6,15.6,11.1,11.1,10.9,19.5,11.7,10.8,...,11.8,9.3,13.3,16.0,8.9,10.6,12.5,9.6,15.1,18.6
01024,Attignat,12.9,21.8,14.1,11.0,11.3,11.4,19.0,13.0,10.3,...,11.6,9.6,12.9,14.2,9.3,11.4,12.2,9.7,13.8,15.9
01025,Bâgé-la-Ville,13.0,22.8,14.1,10.5,11.1,11.6,19.4,13.6,10.2,...,11.4,9.4,12.8,15.2,9.0,11.8,12.3,9.7,13.4,16.9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
97420,Sainte-Suzanne,12.9,24.5,15.4,10.9,10.9,12.4,21.6,14.7,10.8,...,11.1,9.2,12.8,15.4,9.3,12.3,14.7,9.2,13.1,15.8
97421,Salazie,10.4,17.3,13.8,9.6,9.8,9.8,13.2,11.4,9.6,...,10.0,9.0,10.6,11.4,8.9,9.9,10.5,9.0,11.0,11.7
97422,Le Tampon,12.0,23.3,14.7,10.3,10.5,11.5,21.3,14.1,10.2,...,10.6,8.9,11.9,14.9,8.9,11.4,13.9,9.0,12.1,15.4
97423,Les Trois-Bassins,11.4,22.6,13.4,10.1,10.5,10.8,15.9,12.4,10.1,...,10.5,8.9,11.5,13.1,8.9,11.1,11.4,9.0,11.8,13.7


In [19]:
net_salary_per_town.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5136 entries, 1004 to 97424
Data columns (total 25 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   LIBGEO     5136 non-null   object 
 1   SNHM14     5136 non-null   float64
 2   SNHMC14    5136 non-null   float64
 3   SNHMP14    5136 non-null   float64
 4   SNHME14    5136 non-null   float64
 5   SNHMO14    5136 non-null   float64
 6   SNHMF14    5136 non-null   float64
 7   SNHMFC14   5136 non-null   float64
 8   SNHMFP14   5136 non-null   float64
 9   SNHMFE14   5136 non-null   float64
 10  SNHMFO14   5136 non-null   float64
 11  SNHMH14    5136 non-null   float64
 12  SNHMHC14   5136 non-null   float64
 13  SNHMHP14   5136 non-null   float64
 14  SNHMHE14   5136 non-null   float64
 15  SNHMHO14   5136 non-null   float64
 16  SNHM1814   5136 non-null   float64
 17  SNHM2614   5136 non-null   float64
 18  SNHM5014   5136 non-null   float64
 19  SNHMF1814  5136 non-null   float64
 20  SNHMF2614

Analyse des types de données de net_salary_per_town

RAS sur les types

In [11]:
#Calcul du nombre de Nan
nan_counts = net_salary_per_town.isna().sum()

print("Nombre de NaN par colonne :")
print(nan_counts)

Nombre de NaN par colonne :
LIBGEO       0
SNHM14       0
SNHMC14      0
SNHMP14      0
SNHME14      0
SNHMO14      0
SNHMF14      0
SNHMFC14     0
SNHMFP14     0
SNHMFE14     0
SNHMFO14     0
SNHMH14      0
SNHMHC14     0
SNHMHP14     0
SNHMHE14     0
SNHMHO14     0
SNHM1814     0
SNHM2614     0
SNHM5014     0
SNHMF1814    0
SNHMF2614    0
SNHMF5014    0
SNHMH1814    0
SNHMH2614    0
SNHMH5014    0
dtype: int64


FICHIER 3 : population.csv : Informations démographiques par ville, âge, sexe et mode de vie

NIVGEO : geographic level (arrondissement, communes…)

CODGEO : unique code for the town

LIBGEO : name of the town

MOCO : mode de cohabitation :
    ■ 11 = enfants vivant avec deux parents
    ■ 12 = enfants vivant avec un seul parent
    ■ 21 = adultes vivant en couple sans enfant
    ■ 22 = adultes vivant en couple avec enfants
    ■ 23 = adultes vivant seuls avec enfants
    ■ 31 = personnes étrangères à la famille vivant au foyer
    ■ 32 = personnes vivant seulesAGE80_17 : catégorie d'âge (tranche de 5 ans) | ex : 0 -> personnes âgées de 0 à 4 ans

SEXE : sexe, 1 pour homme | 2 pour femme

NB : Nombre de personnes dans la catégorie

In [12]:
population = pd.read_csv('../data/population.csv', sep =',', index_col = 0)
display(population)

  population = pd.read_csv('../data/population.csv', sep =',', index_col = 0)


Unnamed: 0_level_0,CODGEO,LIBGEO,MOCO,AGEQ80_17,SEXE,NB
NIVGEO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
COM,1001,L'Abergement-Clémenciat,11,0,1,15
COM,1001,L'Abergement-Clémenciat,11,0,2,15
COM,1001,L'Abergement-Clémenciat,11,5,1,20
COM,1001,L'Abergement-Clémenciat,11,5,2,20
COM,1001,L'Abergement-Clémenciat,11,10,1,20
...,...,...,...,...,...,...
COM,97424,Cilaos,32,70,2,34
COM,97424,Cilaos,32,75,1,8
COM,97424,Cilaos,32,75,2,42
COM,97424,Cilaos,32,80,1,0


In [20]:
population.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8536584 entries, COM to COM
Data columns (total 6 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   CODGEO     object
 1   LIBGEO     object
 2   MOCO       int64 
 3   AGEQ80_17  int64 
 4   SEXE       int64 
 5   NB         int64 
dtypes: int64(4), object(2)
memory usage: 455.9+ MB


Analyse des types de données de population

 - MOCO est en int64 et devrait être de type object
 - SEXE est en int64 et devrait être de type object
 - que signifie AGEQ80_17 ?
