# Indice de fragilité numérique : construction des différentes variables (TX_60+, TX_MENSEUL, TX_FAMMONO, TX_DEMANDEURS_EMPLOI et TX_NSCOL15+)

L'indice de fragilité numérique se compose de quatre piliers qui sont eux-mêmes composés de différentes variables. Ici, nous allons détailler les étapes de constructions de différentes variables à partir de différents datasets récupérés sur le site de l'INSEE (https://www.insee.fr/fr/accueil).

In [1]:
# importation des librairies nécessaires à la création de nos variables

import pandas as pd
import numpy as np

## 1. Taux de plus de 60 ans, taux de ménages d'une personne et taux de familles monoparentales

In [2]:
# Création de pathfile à modifier en fonction de l'organisation de notre dossier

pathfile_raw = '/Users/cecil/Documents/IFN_Mednum/raw'
pathfile_interim = '/Users/cecil/Documents/IFN_Mednum/interim'

In [3]:
# Chargement des données démographiques issus du site de l'INSEE

compo_menage = pd.read_csv(f'{pathfile_raw}/base-cc-coupl-fam-men-2017.CSV', sep=';')
compo_menage_2 = pd.read_csv(f'{pathfile_raw}/base-cc-coupl-fam-men-2017-COM.CSV', sep=";")
compo_menage = compo_menage.append(compo_menage_2).reset_index()
compo_menage.head()

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


Unnamed: 0,index,CODGEO,C17_MEN,C17_MENPSEUL,C17_MENHSEUL,C17_MENFSEUL,C17_MENSFAM,C17_MENFAM,C17_MENCOUPSENF,C17_MENCOUPAENF,...,C07_COUPAENF,C07_FAMMONO,C07_HMONO,C07_FMONO,C07_COUPSENF,C07_NE24F0,C07_NE24F1,C07_NE24F2,C07_NE24F3,C07_NE24F4P
0,0,1001,315.154412,71.929625,35.964813,35.964813,5.100362,238.124424,112.207972,110.689754,...,119.009904,27.768978,19.834984,7.933994,91.240927,99.17492,55.537955,63.471949,15.867987,3.966997
1,1,1002,107.160494,30.617284,25.514403,5.102881,0.0,76.54321,35.720165,35.720165,...,31.462073,3.932759,3.932759,0.0,23.596555,31.462073,11.798277,15.731036,0.0,0.0
2,2,1004,6405.910326,2659.428492,1207.832644,1451.595848,92.821886,3653.659948,1490.158562,1509.068222,...,1431.949014,512.331482,69.374672,442.95681,1489.617182,1632.483842,776.942502,630.333691,295.807389,98.330254
3,3,1005,636.197591,134.086315,80.451789,53.634526,5.298234,496.813042,201.26846,253.542925,...,252.71156,42.832468,17.132987,25.699481,145.630391,179.896365,77.098442,119.93091,55.682208,8.566494
4,4,1006,55.5,20.181818,5.045455,15.136364,0.0,35.318182,20.181818,10.090909,...,16.718787,0.0,0.0,0.0,16.718787,16.718787,8.359393,4.179697,4.179697,0.0


In [4]:
compo_menage.shape

(35000, 238)

In [5]:
# On sélectionne les colonnes nécessaires à la construction des variables en lien avec notre indice

compo_menage = compo_menage[['CODGEO','C17_MEN', 'C17_MENPSEUL', 'C17_MENFAMMONO', 'P17_POP15P','P17_POP6579', 'P17_POP80P', 'P17_POP1519', 'P17_POP2024']]

In [6]:
# On crée la variable 'TX_MENSEUL' correspondant aux pourcentages de ménages de une personne
# Pour cela, on divise le nombre de ménages composés d'une personne par le nombre de ménage totale

compo_menage['TX_MENSEUL'] = (compo_menage['C17_MENPSEUL'] / compo_menage['C17_MEN']) * 100

In [7]:
# On crée la variable 'TX_FAMMONO' correspondant aux pourcentages de familles monoparentales
# Pour cela, on divise le nombre de familles monoparentales par le nombre de ménage totale

compo_menage['TX_FAMMONO'] = (compo_menage['C17_MENFAMMONO'] / compo_menage['C17_MEN']) * 100

In [8]:
# On crée la variable 'TX_65ETPLUS' correspondant aux pourcentages de personnes de plus de 65 ans
# On additionne les populations de la tranche d'âge '65-79' et '80 et +' que l'on divise par le nombre d'individus de plus de 15 ans

compo_menage['TX_65ETPLUS'] = ((compo_menage['P17_POP6579'] + compo_menage['P17_POP80P']) / compo_menage['P17_POP15P']) * 100

In [9]:
# On crée la variable 'TX_25ETMOINS' correspondant aux pourcentages de personnes de moins de 25 ans
# On additionne les populations de la tranche d'âge '15-19' et '20-24' que l'on divise par le nombre d'individus de plus de 15 ans

compo_menage['TX_25ETMOINS']= ((compo_menage['P17_POP1519'] + compo_menage['P17_POP2024']) / compo_menage['P17_POP15P']) * 100

In [10]:
# On observe que nos colonnes se sont bien créées

compo_menage.head()

Unnamed: 0,CODGEO,C17_MEN,C17_MENPSEUL,C17_MENFAMMONO,P17_POP15P,P17_POP6579,P17_POP80P,P17_POP1519,P17_POP2024,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS
0,1001,315.154412,71.929625,15.226698,614.445217,113.392959,32.717419,51.313236,18.176249,22.823614,4.831504,23.779236,11.309305
1,1002,107.160494,30.617284,5.102881,191.868313,33.679012,11.226337,11.226337,4.082305,28.571429,4.761905,23.404255,7.978723
2,1004,6405.910326,2659.428492,654.433164,11309.467304,1586.176459,758.71884,1036.882405,842.752556,41.515231,10.216084,20.733915,16.620013
3,1005,636.197591,134.086315,42.001657,1344.987086,200.447239,61.669791,99.149469,87.186728,21.076206,6.601983,19.488442,13.854125
4,1006,55.5,20.181818,5.045455,98.890909,18.163636,8.072727,3.027273,7.063636,36.363636,9.090909,26.530612,10.204082


## 2. Demandeurs d'emplois

Les fichiers utilisés ici proviennent du site de l'INSEE. Le nombre de demandeurs d'emplois est celui que l'on avait au 31 décembre 2019. Pour calculer le taux de demandeur d'emplois, on utilise le nombre de personnes comptabilisé dans la population active. Le nombre de personnes actives (entre 15 et 64 ans) provient du site de l'INSEE (chiffres de 2016).

In [11]:
# Chargement des données sur les demandeurs d'emplois et la population active

demandeur_emplois = pd.read_csv(f'{pathfile_raw}/data_DEFM2019_com.csv', sep=";")
pop_active = pd.read_csv(f'{pathfile_raw}/base-cc-emploi-pop-active-2016.CSV', sep=";")
pop_active2 = pd.read_csv(f'{pathfile_raw}/base-cc-emploi-pop-active-2016-COM.CSV', sep=";")

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [12]:
# Création d'un df unique avec la population active de toutes les communes (Mayotte inclus)

pop_active = pop_active.append(pop_active2).reset_index()

La population active est composée de deux fichiers : un fichier avec les chiffres de la France (sans Mayotte) et un fichier contenant les informations de Mayotte.

In [13]:
# Conservation des données de population active entre 15 et 64 ans pour l'année 2016

pop_active = pop_active[['CODGEO', 'P16_ACT1564']]
pop_active.head()

Unnamed: 0,CODGEO,P16_ACT1564
0,1001,376.0
1,1002,123.0
2,1004,6697.333122
3,1005,864.845592
4,1006,58.0


On conserve donc le CODGEO (code INSEE de chaque commune) et le nombre de personnes actives âgés de 15 à 64 ans. 

Concernant le total de demandeurs d'emplois, on conserve les valeurs associées au CODGEO (code INSEE de la commune), des demandeurs d'emplois de catégorie A, B et C dans les tranches d'âge suivants : moins de 25 ans, entre 26 et 49 ans et les plus de 50 ans. Pour le calcul du taux de demandeurs d'emplois, on additionne ces valeurs que l'on divisera par le nombre de personnes dans la population active. 

In [14]:
# Conservation des données sur les demandeurs d'emplois de catégorie A, B et C. 

demandeur_emplois = demandeur_emplois[['CODGEO', 'ABC_25', 'ABC_2649', 'ABC_50']]

In [15]:
# On calcule le nombre total de demandeurs d'emplois en additionnant les valeurs des tranches '25 et -', '26-49' et '50 et +'

demandeur_emplois['ABC_TOT'] = demandeur_emplois['ABC_25'] + demandeur_emplois['ABC_2649'] + demandeur_emplois['ABC_50']
demandeur_emplois = demandeur_emplois.sort_values('CODGEO')
demandeur_emplois.head()

Unnamed: 0,CODGEO,ABC_25,ABC_2649,ABC_50,ABC_TOT
0,1004,256.0,869.0,332.0,1457.0
1,1031,68.0,234.0,73.0,375.0
2,1033,210.0,903.0,357.0,1470.0
3,1034,147.0,444.0,193.0,784.0
4,1053,678.0,2441.0,1029.0,4148.0


## 3. Personnes peu ou pas diplômés

Les données utilisées proviennent du site de l'INSEE (https://www.insee.fr/fr/statistiques/4516086?sommaire=4516089). Les données proviennent de 2017 avec le découpage en vigueur au 1er janvier 2020.

In [16]:
# Chargement des données en lien avec la scolarité dans toutes les communes
scol = pd.read_csv(f'{pathfile_raw}/base-cc-diplomes-formation-2017.CSV', sep=";")
scol2 = pd.read_csv(f'{pathfile_raw}/base-cc-diplomes-formation-2017-COM.CSV', sep=";")

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [17]:
# Création d'un df unique avec les données de Mayotte incluses
scol = scol.append(scol2).reset_index()

Le taux de personnes non scolarisés peu ou pas diplômés est calculé sur le nombre de personnes de plus de 15 ans non scolarisés avec un diplôme minimum divisé par la population totale de plus de 15 ans. 

In [18]:
# On sélectionne les colonnes nécessaires à la suite de notre calcul
scol = scol[['CODGEO', 'P17_POP1517', 'P17_POP1824', 'P17_POP2529', 'P17_POP30P', 'P17_NSCOL15P', 'P17_NSCOL15P_DIPLMIN','P17_NSCOL15P_BEPC','P17_NSCOL15P_CAPBEP' ,'P17_NSCOL15P_BAC']]

In [19]:
# On calcule la population totale des individus de 15 ans et plus
# On additionne les tranches d'âges '15-17', '18-24', '25-29' et '30 et +'

scol['TOT_POP15P'] = scol['P17_POP1517'] + scol['P17_POP1824'] + scol['P17_POP2529'] + scol['P17_POP30P']

In [20]:
# On calcule ensuite la population totale d'individus de plus de 15 ans non-scolarisés
# On additionne les individus de plus de 15 ans et + non-scolarisés avec un diplôme minimum ou un BEPC ou un CAP/BEP

scol['TOT_NSCOL15P'] = scol['P17_NSCOL15P_DIPLMIN'] + scol['P17_NSCOL15P_BEPC'] + scol['P17_NSCOL15P_CAPBEP']

In [21]:
# On calcule le taux de personnes non-scolarisés peu ou pas diplômés
# On divise le nombre total de non-scolarisés par le nombre total de personnes de plus de 15 ans

scol['TX_NSCOL15P'] = (scol['TOT_NSCOL15P']/scol['TOT_POP15P']) * 100

In [22]:
scol.head()

Unnamed: 0,CODGEO,P17_POP1517,P17_POP1824,P17_POP2529,P17_POP30P,P17_NSCOL15P,P17_NSCOL15P_DIPLMIN,P17_NSCOL15P_BEPC,P17_NSCOL15P_CAPBEP,P17_NSCOL15P_BAC,TOT_POP15P,TOT_NSCOL15P,TX_NSCOL15P
0,1001,33.181349,36.308136,33.410552,511.54518,558.105307,107.16865,26.381412,186.909421,95.095609,614.445217,320.459483,52.154281
1,1002,7.144033,8.164609,13.26749,163.292181,178.600823,22.452675,7.144033,47.967078,38.781893,191.868313,77.563786,40.425532
2,1004,593.927796,1285.707165,1108.451063,8321.38128,10149.026196,2207.010696,588.550154,2799.751384,1938.190106,11309.467304,5595.312233,49.474587
3,1005,59.940064,126.396133,73.152717,1085.498171,1234.359736,294.111609,55.410401,371.050484,221.492025,1344.987086,720.572494,53.574678
4,1006,3.027273,7.063636,6.054545,82.745455,95.863636,17.154545,4.036364,31.281818,30.272727,98.890909,52.472727,53.061224


## 4. Assemblage des fichiers

On effectue une jointure entre le fichier contenant les informations démographiques et celles des demandeurs d'emplois en utilisant le "CODGEO" de chacune de nos tables. 

In [23]:
# On effectue une jointure entre deux de nos dataframes

df1 = pd.merge(compo_menage, demandeur_emplois, on = ['CODGEO'], how='outer')
df1.head()

Unnamed: 0,CODGEO,C17_MEN,C17_MENPSEUL,C17_MENFAMMONO,P17_POP15P,P17_POP6579,P17_POP80P,P17_POP1519,P17_POP2024,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,ABC_25,ABC_2649,ABC_50,ABC_TOT
0,1001,315.154412,71.929625,15.226698,614.445217,113.392959,32.717419,51.313236,18.176249,22.823614,4.831504,23.779236,11.309305,,,,
1,1002,107.160494,30.617284,5.102881,191.868313,33.679012,11.226337,11.226337,4.082305,28.571429,4.761905,23.404255,7.978723,,,,
2,1004,6405.910326,2659.428492,654.433164,11309.467304,1586.176459,758.71884,1036.882405,842.752556,41.515231,10.216084,20.733915,16.620013,,,,
3,1005,636.197591,134.086315,42.001657,1344.987086,200.447239,61.669791,99.149469,87.186728,21.076206,6.601983,19.488442,13.854125,,,,
4,1006,55.5,20.181818,5.045455,98.890909,18.163636,8.072727,3.027273,7.063636,36.363636,9.090909,26.530612,10.204082,,,,


In [24]:
# On supprime les colonnes qui ont servi à construire les variables

df1 = df1.drop(columns=['C17_MEN', 'C17_MENPSEUL', 'C17_MENFAMMONO', 'P17_POP15P','P17_POP6579', 'P17_POP80P','ABC_25', 'ABC_2649', 'ABC_50', 'P17_POP1519', 'P17_POP2024'])
df1.head()

Unnamed: 0,CODGEO,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,ABC_TOT
0,1001,22.823614,4.831504,23.779236,11.309305,
1,1002,28.571429,4.761905,23.404255,7.978723,
2,1004,41.515231,10.216084,20.733915,16.620013,
3,1005,21.076206,6.601983,19.488442,13.854125,
4,1006,36.363636,9.090909,26.530612,10.204082,


In [25]:
# On supprime les dataframes que l'on a joint

del compo_menage
del demandeur_emplois

On effectue une jointure entre le fichier contenant les informations sur la population non scolarisés et celles de la population active en utilisant le "CODGEO" de chacune de nos tables. 

In [26]:
# On effectue une deuxième jointure avec les deux dataframes restants

df2 = pd.merge(scol, pop_active, on = 'CODGEO', how='outer')
df2.head()

Unnamed: 0,CODGEO,P17_POP1517,P17_POP1824,P17_POP2529,P17_POP30P,P17_NSCOL15P,P17_NSCOL15P_DIPLMIN,P17_NSCOL15P_BEPC,P17_NSCOL15P_CAPBEP,P17_NSCOL15P_BAC,TOT_POP15P,TOT_NSCOL15P,TX_NSCOL15P,P16_ACT1564
0,1001,33.181349,36.308136,33.410552,511.54518,558.105307,107.16865,26.381412,186.909421,95.095609,614.445217,320.459483,52.154281,376.0
1,1002,7.144033,8.164609,13.26749,163.292181,178.600823,22.452675,7.144033,47.967078,38.781893,191.868313,77.563786,40.425532,123.0
2,1004,593.927796,1285.707165,1108.451063,8321.38128,10149.026196,2207.010696,588.550154,2799.751384,1938.190106,11309.467304,5595.312233,49.474587,6697.333122
3,1005,59.940064,126.396133,73.152717,1085.498171,1234.359736,294.111609,55.410401,371.050484,221.492025,1344.987086,720.572494,53.574678,864.845592
4,1006,3.027273,7.063636,6.054545,82.745455,95.863636,17.154545,4.036364,31.281818,30.272727,98.890909,52.472727,53.061224,58.0


In [27]:
# On supprime les colonnes qui ont servi à construire les différentes variables

df2 = df2.drop(columns=['P17_POP1517', 'P17_POP1824', 'P17_POP2529','P17_POP30P', 'P17_NSCOL15P_BEPC', 'P17_NSCOL15P_CAPBEP', 'P17_NSCOL15P_BAC'])
df2.head()

Unnamed: 0,CODGEO,P17_NSCOL15P,P17_NSCOL15P_DIPLMIN,TOT_POP15P,TOT_NSCOL15P,TX_NSCOL15P,P16_ACT1564
0,1001,558.105307,107.16865,614.445217,320.459483,52.154281,376.0
1,1002,178.600823,22.452675,191.868313,77.563786,40.425532,123.0
2,1004,10149.026196,2207.010696,11309.467304,5595.312233,49.474587,6697.333122
3,1005,1234.359736,294.111609,1344.987086,720.572494,53.574678,864.845592
4,1006,95.863636,17.154545,98.890909,52.472727,53.061224,58.0


In [28]:
# On effectue une jointure entre les deux dataframes crées précédemment

df2 = df2.merge(df1, on='CODGEO', how='outer')
df2.head()

Unnamed: 0,CODGEO,P17_NSCOL15P,P17_NSCOL15P_DIPLMIN,TOT_POP15P,TOT_NSCOL15P,TX_NSCOL15P,P16_ACT1564,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,ABC_TOT
0,1001,558.105307,107.16865,614.445217,320.459483,52.154281,376.0,22.823614,4.831504,23.779236,11.309305,
1,1002,178.600823,22.452675,191.868313,77.563786,40.425532,123.0,28.571429,4.761905,23.404255,7.978723,
2,1004,10149.026196,2207.010696,11309.467304,5595.312233,49.474587,6697.333122,41.515231,10.216084,20.733915,16.620013,
3,1005,1234.359736,294.111609,1344.987086,720.572494,53.574678,864.845592,21.076206,6.601983,19.488442,13.854125,
4,1006,95.863636,17.154545,98.890909,52.472727,53.061224,58.0,36.363636,9.090909,26.530612,10.204082,


In [29]:
# On supprime les colonnes restantes qui ont servis à la construction des variables de notre indice

df2 = df2.drop(columns = ['P17_NSCOL15P','P17_NSCOL15P_DIPLMIN', 'TOT_POP15P', 'TOT_NSCOL15P'])
df2.head()

Unnamed: 0,CODGEO,TX_NSCOL15P,P16_ACT1564,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,ABC_TOT
0,1001,52.154281,376.0,22.823614,4.831504,23.779236,11.309305,
1,1002,40.425532,123.0,28.571429,4.761905,23.404255,7.978723,
2,1004,49.474587,6697.333122,41.515231,10.216084,20.733915,16.620013,
3,1005,53.574678,864.845592,21.076206,6.601983,19.488442,13.854125,
4,1006,53.061224,58.0,36.363636,9.090909,26.530612,10.204082,


In [30]:
# On supprime les dataframes crée au début

del scol
del pop_active

## Dataset final

In [31]:
# On effectue une copie du dataframe de la précédente étape

data = df2.copy()


In [32]:
# On crée la variable 'TX_DEMANDEURS_EMPLOI' 
# A l'aide du nombre total de demandeurs d'emplois divisié par le nombre total de personnes actives

data['TX_DEMANDEURS_EMPLOI'] = (data['ABC_TOT']/data['P16_ACT1564'])*100

In [33]:
# On supprimme les colonnes qui nous ont servi à construire notre dernière variable

data = data.drop(columns=['ABC_TOT', 'P16_ACT1564'])
data.head()

Unnamed: 0,CODGEO,TX_NSCOL15P,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,TX_DEMANDEURS_EMPLOI
0,1001,52.154281,22.823614,4.831504,23.779236,11.309305,
1,1002,40.425532,28.571429,4.761905,23.404255,7.978723,
2,1004,49.474587,41.515231,10.216084,20.733915,16.620013,
3,1005,53.574678,21.076206,6.601983,19.488442,13.854125,
4,1006,53.061224,36.363636,9.090909,26.530612,10.204082,


In [34]:
# On crée une boucle pour ajouter un 0 au début des codes insee de 4 chiffres
# On renomme la colonne obtenue en CODE_INSEE

codgeo = []
for value in data["CODGEO"]:
    value = str(value)
    codgeo.append(value.zfill(5))
len(codgeo)
data["CODE_INSEE"] = codgeo

In [35]:
data.drop("CODGEO", axis = 1, inplace = True)

In [36]:
# On réorganise les variables

data = data[['CODE_INSEE', 'TX_NSCOL15P', 'TX_MENSEUL', 'TX_FAMMONO', 'TX_65ETPLUS', 'TX_25ETMOINS','TX_DEMANDEURS_EMPLOI']]
data.head()

Unnamed: 0,CODE_INSEE,TX_NSCOL15P,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,TX_DEMANDEURS_EMPLOI
0,1001,52.154281,22.823614,4.831504,23.779236,11.309305,
1,1002,40.425532,28.571429,4.761905,23.404255,7.978723,
2,1004,49.474587,41.515231,10.216084,20.733915,16.620013,
3,1005,53.574678,21.076206,6.601983,19.488442,13.854125,
4,1006,53.061224,36.363636,9.090909,26.530612,10.204082,


In [37]:
code_insee = pd.read_csv(f'{pathfile_interim}/table_insee_libcom_dep.csv', sep=',')

In [38]:
code_insee.head()

Unnamed: 0.1,Unnamed: 0,CODE_INSEE,LIBCOM,DEP
0,0,1001,L'Abergement-Clémenciat,1
1,1,1002,L'Abergement-de-Varey,1
2,2,1004,Ambérieu-en-Bugey,1
3,6,1005,Ambérieux-en-Dombes,1
4,7,1006,Ambléon,1


In [39]:
code_insee = code_insee.drop(columns=['Unnamed: 0'], axis=1)

In [40]:
data = pd.merge(data, code_insee, on='CODE_INSEE')
data = data[['CODE_INSEE', 'LIBCOM', 'DEP', 'TX_NSCOL15P', 'TX_MENSEUL', 'TX_FAMMONO', 'TX_65ETPLUS', 'TX_25ETMOINS', 'TX_DEMANDEURS_EMPLOI']]

In [41]:
data.head()

Unnamed: 0,CODE_INSEE,LIBCOM,DEP,TX_NSCOL15P,TX_MENSEUL,TX_FAMMONO,TX_65ETPLUS,TX_25ETMOINS,TX_DEMANDEURS_EMPLOI
0,1001,L'Abergement-Clémenciat,1,52.154281,22.823614,4.831504,23.779236,11.309305,
1,1002,L'Abergement-de-Varey,1,40.425532,28.571429,4.761905,23.404255,7.978723,
2,1004,Ambérieu-en-Bugey,1,49.474587,41.515231,10.216084,20.733915,16.620013,
3,1004,Ambérieu-en-Bugey,1,,,,,,
4,1005,Ambérieux-en-Dombes,1,53.574678,21.076206,6.601983,19.488442,13.854125,


In [42]:
# On crée un fichier csv qui servira à être mergé avec les autres variables de notre indice

data.to_csv(f'{pathfile_interim}/data_scol_menage_demandeurEmplois.csv')