# Description du projet : 

Contexte :  L'INSEE est l'institut officiel français qui collecte des données de tous types sur le territoire français. Elles peuvent être démographiques (Naissances, Décès, Densité de la population...), économiques (Salaires, Entreprises par activité / taille...) et plus encore.
Ces données peuvent être d'une grande aide pour observer et mesurer les inégalités au sein de la population française.

## Objectif : Comparer les inégalités en France : 

* Entreprises en fonction de leur localisation, de leur taille. 
* Population en fonction du salaire et de la localisation.
* Focus sur une grande ville 

## Ressources à consulter : 
* Données : https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/power_bi/power_bi_datasets_projet/french_industry.zip


### Informations sur le nombre d'entreprises dans chaque ville française classées par taille.
<u>base_etablissement_par_tranche_effectif.csv :</u>

* CODGEO : ID géographique de la ville
* LIBGEO : nom de la ville
* REG : numéro de région
* DEP : numéro de département
* E14TST : nombre total d'entreprises dans la ville
* E14TS0ND : nombre d'entreprises de taille inconnue ou nulle dans la ville
* E14TS1 : nombre d'entreprises de 1 à 5 employés dans la ville
* E14TS6 : nombre d'entreprises de 6 à 9 employés dans la ville
* E14TS10 : nombre d'entreprises de 10 à 19 employés dans la ville
* E14TS20 : nombre d'entreprises de 20 à 49 employés dans la ville
* E14TS50 : nombre d'entreprises de 50 à 99 employés dans la ville
* E14TS100 :  nombre d'entreprises de 100 à 199 employés dans la ville
* E14TS200 : nombre d'entreprises de 200 à 499 employés dans la ville
* E14TS500 : nombre d'entreprises de plus de 500 employés dans la ville

In [141]:
import warnings
warnings.filterwarnings('ignore')

In [162]:
import pandas as pd

df1 = pd.read_csv('base_etablissement_par_tranche_effectif.csv')
df1.head()
df1['NB_ENTR'] = df1['E14TS1']+df1['E14TS6']+df1['E14TS10']+df1['E14TS20']+df1['E14TS50']+df1['E14TS100']+df1['E14TS200']+df1['E14TS500']
df1
entr_region = df1.groupby(['REG','DEP'])['E14TST','E14TS0ND','NB_ENTR'].sum().reset_index()
entr_region['diff'] = entr_region['E14TST']-entr_region['E14TS0ND']
print((entr_region['diff'] - entr_region['NB_ENTR']).sum())
entr_region

0


Unnamed: 0,REG,DEP,E14TST,E14TS0ND,NB_ENTR,diff
0,1,971,47515,38456,9059,9059
1,2,972,38596,30356,8240,8240
2,3,973,14499,10971,3528,3528
3,4,974,53455,38162,15293,15293
4,6,976,8953,8953,0,0
...,...,...,...,...,...,...
96,93,13,164883,115300,49583,49583
97,93,83,95074,68405,26669,26669
98,93,84,48567,33590,14977,14977
99,94,2A,17040,11912,5128,5128


### Données géographiques sur les villes françaises (principalement la latitude et la longitude, mais aussi les codes et les noms des régions/départements).
<u>name_geographic_information.csv : </u>

* code_région
* nom_région
* chef.lieu_région
* numéro_département
* nom_département
* préfecture
* numéro_circonscription
* nom_commune
* codes_postaux
* code_insee
* latitude
* longitude
* éloignement

In [30]:
df2 = pd.read_csv('name_geographic_information.csv')
df2.head()
# NaN
# latitude                  2929/36840
# longitude                 2841/36840
# éloignement               2962/36840

Unnamed: 0,EU_circo,code_région,nom_région,chef.lieu_région,numéro_département,nom_département,préfecture,numéro_circonscription,nom_commune,codes_postaux,code_insee,latitude,longitude,éloignement
0,Sud-Est,82,Rhône-Alpes,Lyon,1,Ain,Bourg-en-Bresse,1,Attignat,1340,1024,46.283333,5.166667,1.21
1,Sud-Est,82,Rhône-Alpes,Lyon,1,Ain,Bourg-en-Bresse,1,Beaupont,1270,1029,46.4,5.266667,1.91
2,Sud-Est,82,Rhône-Alpes,Lyon,1,Ain,Bourg-en-Bresse,1,Bény,1370,1038,46.333333,5.283333,1.51
3,Sud-Est,82,Rhône-Alpes,Lyon,1,Ain,Bourg-en-Bresse,1,Béreyziat,1340,1040,46.366667,5.05,1.71
4,Sud-Est,82,Rhône-Alpes,Lyon,1,Ain,Bourg-en-Bresse,1,Bohas-Meyriat-Rignat,1250,1245,46.133333,5.4,1.01


### Salaires par villes française par catégories d'emploi, âge et sexe

<u>net_salary_per_town_categories.csv :</u> 

* CODGEO : ID géographique de la ville
* LIBGEO : nom de la ville
* SNHM14 : salaire net moyen
* SNHMC14 : salaire net moyen par heure pour les cadres
* SNHMP14 : salaire net moyen par heure pour un cadre moyen
* SNHME14 : salaire net moyen par heure pour l'employé
* SNHMO14 :  salaire net moyen par heure pour le travailleur
* SNHMF14 : salaire net moyen pour les femmes
* SNHMFC14 : salaire net moyen par heure pour les cadres féminins
* SNHMFP14 : salaire net moyen par heure pour les cadres moyens féminins
* SNHMFE14 : salaire net moyen par heure pour une employée 
* SNHMFO14 : salaire net moyen par heure pour une travailleuse 
* SNHMH14 : salaire net moyen pour un homme
* SNHMHC14 : salaire net moyen par heure pour un cadre masculin
* SNHMHP14 : salaire net moyen par heure pour les cadres moyens masculins
* SNHMHE14 : salaire net moyen par heure pour un employé masculin
* SNHMHO14 : salaire net moyen par heure pour un travailleur masculin
* SNHM1814 : salaire net moyen par heure pour les 18-25 ans
* SNHM2614 : salaire net moyen par heure pour les 26-50 ans
* SNHM5014 : salaire net moyen par heure pour les >50 ans
* SNHMF1814 : salaire net moyen par heure pour les femmes âgées de 18 à 25 ans
* SNHMF2614 : salaire net moyen par heure pour les femmes âgées de 26 à 50 ans
* SNHMF5014 : salaire net moyen par heure pour les femmes de plus de 50 ans
* SNHMH1814 : salaire net moyen par heure pour les hommes âgés de 18 à 25 ans
* SNHMH2614 : salaire net moyen par heure pour les hommes âgés de 26 à 50 ans
* SNHMH5014 : salaire net moyen par heure pour les hommes de plus de 50 ans

<mark>Il faut ajouter la région et le département, faire un merge avec df2 selon nom de commune et département ou extraire de df1 CODGEO, LIBGEO , REG et DEP et merger avec df3 selon CODGEO et LIBGEO</mark>


In [31]:
df3 = pd.read_csv('net_salary_per_town_categories.csv')
df3.head()

Unnamed: 0,CODGEO,LIBGEO,SNHM14,SNHMC14,SNHMP14,SNHME14,SNHMO14,SNHMF14,SNHMFC14,SNHMFP14,...,SNHMHO14,SNHM1814,SNHM2614,SNHM5014,SNHMF1814,SNHMF2614,SNHMF5014,SNHMH1814,SNHMH2614,SNHMH5014
0,1004,Ambérieu-en-Bugey,13.7,24.2,15.5,10.3,11.2,11.6,19.1,13.2,...,11.6,10.5,13.7,16.1,9.7,11.8,12.5,11.0,14.9,18.6
1,1007,Ambronay,13.5,22.1,14.7,10.7,11.4,11.9,19.0,13.3,...,11.7,9.8,13.8,14.6,9.2,12.2,12.5,10.2,14.9,16.4
2,1014,Arbent,13.5,27.6,15.6,11.1,11.1,10.9,19.5,11.7,...,11.8,9.3,13.3,16.0,8.9,10.6,12.5,9.6,15.1,18.6
3,1024,Attignat,12.9,21.8,14.1,11.0,11.3,11.4,19.0,13.0,...,11.6,9.6,12.9,14.2,9.3,11.4,12.2,9.7,13.8,15.9
4,1025,Bâgé-la-Ville,13.0,22.8,14.1,10.5,11.1,11.6,19.4,13.6,...,11.4,9.4,12.8,15.2,9.0,11.8,12.3,9.7,13.4,16.9


### Informations démographiques par ville, âge, sexe et mode de vie

<u>population.csv : </u>

* NIVGEO : geographic level (arrondissement, communes…)
* CODGEO : unique code for the town
* LIBGEO : name of the town
* MOCO : mode de cohabitation :
    * 11 = enfants vivant avec deux parents
    * 12 = enfants vivant avec un seul parent
    * 21 = adultes vivant en couple sans enfant
    * 22 = adultes vivant en couple avec enfants
    * 23 = adultes vivant seuls avec enfants
    * 31 = personnes étrangères à la famille vivant au foyer
    * 32 = personnes vivant seules
* AGE80_17 : catégorie d'âge (tranche de 5 ans) | ex : 0 -> personnes âgées de 0 à 4 ans
* SEXE : sexe, 1 pour homme | 2 pour femme
* NB : Nombre de personnes dans la catégorie

In [169]:
df4 = pd.read_csv('population.csv',low_memory=False)
df4.groupby(['NIVGEO','CODGEO','LIBGEO'])['NB'].sum()

NIVGEO  CODGEO  LIBGEO                 
COM     01001   L'Abergement-Clémenciat      765
        01002   L'Abergement-de-Varey        227
        01004   Ambérieu-en-Bugey          13460
        01005   Ambérieux-en-Dombes         1595
        01006   Ambléon                       84
                                           ...  
        97420   Sainte-Suzanne             22235
        97421   Salazie                     7122
        97422   Le Tampon                  76330
        97423   Les Trois-Bassins           7140
        97424   Cilaos                      5215
Name: NB, Length: 35868, dtype: int64

### Meta dossier complet INSEE

<u>meta_dossier_complet.csv</u>

* COD_VAR : code de la variable
* LIB_VAR : libellé de la variable
* LIB_VAR_LONG : libellé long de la variable
* COD_MOD : Modalité des prises par les variables
* LIB_MOD : Libellé des modalités
* TYPE_VAR : Type de variables
* LONG_VAR : longueur des variables
* THEME : Thème associé à la variable
* SOURCE : Source utilisée pour la variable

In [17]:
df5 = pd.read_csv('meta_dossier_complet.csv',sep=';',low_memory=False)
df5.head()

Unnamed: 0,COD_VAR,LIB_VAR,LIB_VAR_LONG,COD_MOD,LIB_MOD,TYPE_VAR,LONG_VAR,THEME,SOURCE
0,P19_POP,Population en 2019 (princ),Population en 2019,,,NUM,7.0,Évolution et structure de la population,"Insee, RP2008, RP2013 et RP2019, géographie au..."
1,P19_POP0014,Pop 0-14 ans en 2019 (princ),Nombre de personnes de 0 à 14 ans en 2019,,,NUM,17.0,Évolution et structure de la population,"Insee, RP2008, RP2013 et RP2019, géographie au..."
2,P19_POP1529,Pop 15-29 ans en 2019 (princ),Nombre de personnes de 15 à 29 ans en 2019,,,NUM,17.0,Évolution et structure de la population,"Insee, RP2008, RP2013 et RP2019, géographie au..."
3,P19_POP3044,Pop 30-44 ans en 2019 (princ),Nombre de personnes de 30 à 44 ans en 2019,,,NUM,17.0,Évolution et structure de la population,"Insee, RP2008, RP2013 et RP2019, géographie au..."
4,P19_POP4559,Pop 45-59 ans en 2019 (princ),Nombre de personnes de 45 à 59 ans en 2019,,,NUM,17.0,Évolution et structure de la population,"Insee, RP2008, RP2013 et RP2019, géographie au..."


In [122]:
df5.THEME.value_counts()

Caractéristiques de l'emploi au sens du recensement            345
Évolution et structure de la population                        331
Logement                                                       268
Couples - Familles - Ménages                                   239
Diplômes - Formation                                           189
Population active, emploi et chômage au sens du recensement    167
Démographie des entreprises                                    158
Caractéristiques des établissements                             94
Tourisme                                                        51
Revenus et pauvreté des ménages                                 27
Salaires et revenus d'activité                                  24
Naissances et décès domiciliés                                  16
Name: THEME, dtype: int64

In [119]:
df5.loc[df5['THEME']=='Revenus et pauvreté des ménages']['COD_VAR'].value_counts()
theme_var=df5.groupby(['THEME','COD_VAR','LIB_VAR'])['LIB_VAR_LONG'].size().T.fillna(0)
theme_var = pd.DataFrame(theme_var.reset_index())
theme_var1 = theme_var.loc[theme_var['THEME']== "Salaires et revenus d'activité"]
theme_var1

Unnamed: 0,THEME,COD_VAR,LIB_VAR,LIB_VAR_LONG
1503,Salaires et revenus d'activité,SNHM1820,Salaire net horaire moyen 18 à 25 ans en 2020 (€),1
1504,Salaires et revenus d'activité,SNHM20,Salaire net horaire moyen en 2020 (€),1
1505,Salaires et revenus d'activité,SNHM2620,Salaire net horaire moyen 26 à 50 ans en 2020 (€),1
1506,Salaires et revenus d'activité,SNHM5020,Salaire net horaire moyen plus de 50 ans en 20...,1
1507,Salaires et revenus d'activité,SNHMC20,Salaire net hor. Moy. Cadres sup. en 2020 (€),1
1508,Salaires et revenus d'activité,SNHME20,Salaire net hor. moy. employés en 2020 (€),1
1509,Salaires et revenus d'activité,SNHMF1820,Salaire net horaire moyen F 18 à 25 ans en 202...,1
1510,Salaires et revenus d'activité,SNHMF20,Salaire net horaire moyen F en 2020 (€),1
1511,Salaires et revenus d'activité,SNHMF2620,Salaire net horaire moyen F 26 à 50 ans en 202...,1
1512,Salaires et revenus d'activité,SNHMF5020,Salaire net horaire moyen F plus de 50 ans en ...,1


### dossier complet INSEE

<u>dossier_complet.csv</u>


In [18]:
df6 = pd.read_csv('dossier_complet.csv',sep=';',low_memory=False)
df6.head()

Unnamed: 0,CODGEO,P19_POP,P19_POP0014,P19_POP1529,P19_POP3044,P19_POP4559,P19_POP6074,P19_POP7589,P19_POP90P,P19_POPH,...,CPGEO523,VV23,VVUH23,VVLIT23,RT23,RTUH23,RTLIT23,AJCS23,AJCSUH23,AJCSLIT23
0,1001,779.0,158.508629,102.468339,131.523972,194.112147,131.050309,56.014471,5.322133,397.885214,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1002,256.0,58.646351,29.609476,74.028483,38.684019,35.381928,17.58202,2.067723,129.517516,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1004,14134.0,2642.167045,3076.783602,2730.398468,2391.347109,2054.139468,1044.007592,195.156716,6790.643609,...,0.0,0.0,0.0,0.0,1.0,16.0,16.0,0.0,0.0,0.0
3,1005,1751.0,346.859147,268.250842,362.580808,380.267677,272.181257,111.034231,9.826038,877.465208,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,1006,112.0,12.218182,16.290909,15.272727,29.527273,27.490909,10.181818,1.018182,63.127273,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [20]:
df6.columns

Index(['CODGEO', 'P19_POP', 'P19_POP0014', 'P19_POP1529', 'P19_POP3044',
       'P19_POP4559', 'P19_POP6074', 'P19_POP7589', 'P19_POP90P', 'P19_POPH',
       ...
       'CPGEO523', 'VV23', 'VVUH23', 'VVLIT23', 'RT23', 'RTUH23', 'RTLIT23',
       'AJCS23', 'AJCSUH23', 'AJCSLIT23'],
      dtype='object', length=1910)