In [23]:
# Import librairies

import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LinearRegression

import plotly.express as px
import plotly.graph_objects as go

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) # to avoid deprecation warnings

In [24]:
# URL of the CSV file of INSEE data
insee_url = 'https://medical-deserts-project.s3.eu-north-1.amazonaws.com/insee_clean.csv'

# Read the CSV file from the URL into a DataFrame
insee_df_original = pd.read_csv(insee_url, sep = ',', encoding='utf-8')

In [25]:
insee_df = insee_df_original.copy()

In [26]:
pd.set_option("display.max_columns", None)

In [27]:
# Remove useless columns
insee_df = insee_df.drop(["APL aux médecins généralistes de 65 ans et moins", "APL aux médecins généralistes de 62 ans et moins"], axis=1)

# APL column at the end of dataset
APL_column = insee_df.pop("APL aux médecins généralistes (sans borne d'âge)")
insee_df["APL aux médecins généralistes (sans borne d'âge)"] = APL_column

# Rename APL column
insee_df.rename(columns={"APL aux médecins généralistes (sans borne d'âge)": "APL"}, inplace=True)


In [28]:
print('Number of rows :', insee_df.shape[0])
print('Number of columns :', insee_df.shape[1])
print()

# Show first rows of the dataset
print('First rows of the dataset :')
display(insee_df.head())
print()

# Dataset statistics
print('Basics statistics :')
summary_stats_all = insee_df.describe(include='all')
display(summary_stats_all)
print()

# Missing values percentage
missing_percentages = (insee_df.isna().mean() * 100).round(2)
print('Percentage of missing values: ')
print(missing_percentages)

Number of rows : 38590
Number of columns : 88

First rows of the dataset :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Urbanité Ruralité,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,latitude,longitude,Catégorie commune dans aire d'attraction des villes 2020,Tranche détaillée d'aire d'attraction des villes 2020,Libellé degré de densité,Population en 2014 (princ),Pop 0-14 ans en 2014 (princ),Pop 15-29 ans en 2014 (princ),Pop 30-44 ans en 2014 (princ),Pop 45-59 ans en 2014 (princ),Pop 60-74 ans en 2014 (princ),Pop 75-89 ans en 2014 (princ),Pop 15 ans ou plus en 2014 (compl),Pop 15 ans ou plus Agriculteurs exploitants en 2014 (compl),"Pop 15 ans ou plus Artisans, Comm., Chefs entr. en 2014 (compl)","Pop 15 ans ou plus Cadres, Prof. intel. sup. en 2014 (compl)",Pop 15 ans ou plus Prof. intermédiaires en 2014 (compl),Pop 15 ans ou plus Employés en 2014 (compl),Pop 15 ans ou plus Ouvriers en 2014 (compl),Pop 15 ans ou plus Retraités en 2014 (compl),Pop 15 ans ou plus Autres en 2014 (compl),taux chômage(15-64 ans),APL
0,57.0,23.0,114,en croissance démographique,9,14,7,7,0.09286,4,44.19769,247,248,196,289,32,9,728,7.0,11.0,2.0,2.0,4.0,0.0,2.0,1.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,32.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,67,-1,117,11483.5,3.0,1.0,0.0,9364,9350,3372,15105,173681,0.01585,Bassin Industriel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,46.153721,4.92585,Commune de la couronne,Aire de moins de 10 000 habitants,Rural à habitat dispersé,767.0,161.0,102.0,132.0,189.0,125.0,53.0,605.0,15.0,20.0,75.0,95.0,100.0,125.0,145.0,30.0,8.776596,2.293
1,45.0,4.0,143,en croissance démographique,31,36,18,18,0.099229,4,10.18071,67,67,61,142,71,4,168,4.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,71.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,42,0,110,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.00173,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,46.009606,5.428088,Commune hors attraction des pôles,Commune hors attraction des villes,Rural à habitat dispersé,239.0,54.0,28.0,69.0,36.0,33.0,17.0,192.0,0.0,20.0,15.0,25.0,39.0,10.0,64.0,20.0,8.130081,2.6
2,634.0,828.0,366,en croissance démographique,31,36,18,18,0.099229,4,696.92134,4640,4635,1968,5184,135,414,11015,342.0,301.0,58.0,108.0,83.0,4.0,14.0,27.0,38.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com < 50 m habts,135.0,2.0,52.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,37,-55,250,11483.5,113.0,41.0,118.0,9364,9350,3372,15105,173681,0.38471,Bassin Résidentiel en croissance démographique,Pop Mobile,Fiscalité moyenne,Dynamique Economique,Bonne Dynamique Entreprise Serv et Com,45.961049,5.372275,Commune-centre,Aire de 30 000 à moins de 50 000 habitants,Centres urbains intermédiaires,14022.0,2778.0,2958.0,2642.0,2603.0,1853.0,1045.0,11228.0,3.0,334.0,743.0,1777.0,1918.0,1818.0,2878.0,1757.0,15.859777,4.079
3,113.0,62.0,132,en croissance démographique,12,12,6,6,1.0,1,85.774,473,473,344,505,14,18,1406,22.0,26.0,17.0,10.0,6.0,0.0,4.0,2.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,14.0,2.0,17.0,1.0,72.0,Grande Ville,68,-3,127,11483.5,5.0,2.0,7.0,9364,9350,3372,15105,173681,0.02824,Bassin Urbain en croissance démographique,Pop Mobile,Fiscalité moyenne,Moyenne dynamique,Faible Dynamique Serv et Com,45.996164,4.911967,Commune de la couronne,Aire de 1 000 000 d’habitants ou plus (hors Pa...,Bourgs ruraux,1627.0,336.0,251.0,323.0,376.0,232.0,99.0,1337.0,5.0,60.0,106.0,231.0,241.0,231.0,312.0,151.0,7.875895,4.378
4,42.0,1.0,121,en croissance démographique,26,21,10,10,0.100905,3,5.24276,41,41,28,57,13,3,86,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,13.0,0.0,0.0,0.0,0.0,3.Accroissement par excédent migratoire,49,0,109,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.0,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,45.749886,5.594585,Commune de la couronne,Aire de 20 000 à moins de 30 000 habitants,Rural à habitat dispersé,109.0,12.0,16.0,15.0,29.0,27.0,10.0,89.0,0.0,0.0,5.0,25.0,15.0,15.0,25.0,5.0,13.793103,1.069



Basics statistics :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Urbanité Ruralité,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,latitude,longitude,Catégorie commune dans aire d'attraction des villes 2020,Tranche détaillée d'aire d'attraction des villes 2020,Libellé degré de densité,Population en 2014 (princ),Pop 0-14 ans en 2014 (princ),Pop 15-29 ans en 2014 (princ),Pop 30-44 ans en 2014 (princ),Pop 45-59 ans en 2014 (princ),Pop 60-74 ans en 2014 (princ),Pop 75-89 ans en 2014 (princ),Pop 15 ans ou plus en 2014 (compl),Pop 15 ans ou plus Agriculteurs exploitants en 2014 (compl),"Pop 15 ans ou plus Artisans, Comm., Chefs entr. en 2014 (compl)","Pop 15 ans ou plus Cadres, Prof. intel. sup. en 2014 (compl)",Pop 15 ans ou plus Prof. intermédiaires en 2014 (compl),Pop 15 ans ou plus Employés en 2014 (compl),Pop 15 ans ou plus Ouvriers en 2014 (compl),Pop 15 ans ou plus Retraités en 2014 (compl),Pop 15 ans ou plus Autres en 2014 (compl),taux chômage(15-64 ans),APL
count,38590.0,38590.0,38590.0,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590,38590,38590,38590,38590,38590.0,38590.0,38590,38590,38590,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0,38590.0
unique,,,,2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,6,,,,,,7,,,,,,,,,,,,,,7,2,3,3,3,,,5,17,7,,,,,,,,,,,,,,,,,,
top,,,,en croissance démographique,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Com rurale < 2 000 m habts,,,,,,Grande Ville,,,,,,,,,,,,,,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,,,Commune de la couronne,Commune hors attraction des villes,Rural à habitat dispersé,,,,,,,,,,,,,,,,,,
freq,,,,38579,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,30651,,,,,,9137,,,,,,,,,,,,,,17697,30448,30182,30481,32296,,,26427,9904,19922,,,,,,,,,,,,,,,,,,
mean,122.059031,131.970614,107.723218,,16.670951,16.542187,8.038248,8.038248,0.313389,2.527961,130.105343,887.09575,886.984789,457.078751,1074.334672,110.603265,76.74623,2080.99816,53.855895,48.923944,12.886033,17.892459,11.400985,0.693807,1.876315,2.931718,5.899145,10349.030319,10253.58681,10.996303,21.204149,12.464435,8.662656,9.053691,11.167877,21.281051,12.519946,8.686405,9.115599,41731.992599,,110.553537,0.672687,23.236927,0.278984,34.060767,,57.411791,-7.4383,8.614615,10301.308564,14.450998,4.66398,15.330707,3259.704172,4630.877611,1881.694195,8076.407126,81328.806841,0.045904,,,,,,46.974702,2.774471,,,,2403.482197,430.765924,453.174216,458.560041,467.76893,363.083519,202.945996,1972.782716,15.344312,67.002047,170.923555,275.980254,324.198575,253.273128,533.623063,332.432547,10.820448,3.292126
std,632.82766,948.912967,230.556624,,12.968793,14.425287,6.929272,6.929272,0.383459,1.320803,706.006127,5452.654165,5442.792045,2018.634015,6353.290844,683.544659,632.693386,11205.841451,388.455819,351.468468,62.453891,100.035842,82.514154,3.719735,13.865073,19.891236,46.36077,1564.368493,1086.882824,0.949628,0.807518,0.377483,0.244586,0.399395,0.750011,0.592066,0.298912,0.204727,0.295514,46193.354235,,683.459612,4.141992,209.61803,1.204422,246.912501,,15.61373,65.947977,2267.481665,1052.613147,112.080711,30.743394,113.227901,2586.215602,5041.672809,3397.38884,6993.429302,89322.777725,0.319206,,,,,,2.206645,2.69044,,,,12563.813825,2028.827534,3402.185602,2486.489904,2120.364937,1621.59859,983.293809,10559.841653,29.968274,310.565795,1410.3288,1566.104206,1708.012664,1065.921715,2372.100805,2401.530829,4.840921,1.279848
min,1.0,0.0,13.0,,1.0,0.0,0.0,0.0,0.032518,0.0,0.06096,1.0,1.0,0.0,2.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6282.0,7748.0,9.8625,19.75,11.74,8.261905,8.3,10.57451,20.509549,12.17538,8.453394,8.725,3021.411002,,0.0,0.0,0.0,0.0,0.0,,0.0,-1929.0,-140594.0,7664.0,0.0,0.0,0.0,30.0,342.0,187.0,828.0,6358.0,0.0,,,,,,41.435023,-5.086014,,,,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,20.0,6.0,52.0,,9.0,8.0,4.0,4.0,0.083808,1.0,11.58284,74.0,74.0,58.0,103.0,9.0,5.0,189.0,3.0,2.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,9523.0,9716.0,10.4,20.686207,12.220833,8.51875,8.790698,10.679167,21.017098,12.339819,8.569608,8.915652,20389.52153,,9.0,0.0,0.0,0.0,0.0,,48.0,-1.0,72.0,9643.0,0.0,0.0,0.0,1935.0,2425.0,776.0,4406.0,40484.0,0.0,,,,,,45.182952,0.669468,,,,214.0,37.0,27.0,39.0,47.0,37.0,17.0,175.0,0.0,5.0,5.0,20.0,25.0,25.0,52.0,20.0,7.636364,2.507
50%,33.0,13.0,72.0,,12.0,12.0,6.0,6.0,0.104593,3.0,26.39669,166.0,166.0,127.0,219.0,23.0,13.0,428.0,6.0,5.0,4.0,3.0,2.0,0.0,0.0,0.0,1.0,10159.0,10458.0,10.708276,21.0525,12.437931,8.622581,9.038462,10.992609,21.101282,12.435217,8.634906,9.082927,30848.56372,,23.0,0.0,0.0,0.0,0.0,,59.0,0.0,81.0,10304.5,0.0,0.0,0.0,2576.0,3333.0,925.0,6903.0,55218.0,0.00346,,,,,,47.400393,2.683102,,,,507.5,94.0,68.0,97.0,110.0,84.0,39.0,410.0,8.0,17.0,20.0,53.0,65.0,63.0,119.0,48.0,10.090842,3.229
75%,75.0,46.0,105.0,,19.0,19.0,9.0,9.0,0.180691,4.0,68.03396,427.0,428.0,310.0,533.0,56.0,32.0,1094.0,20.0,16.0,9.0,10.0,5.0,0.0,1.0,1.0,2.0,11072.0,11150.0,11.321212,21.695833,12.640404,8.767647,9.2925,11.295855,21.640496,12.673103,8.783164,9.239535,38930.86531,,56.0,0.0,0.0,0.0,0.0,,69.0,0.0,96.0,10942.5,4.0,2.0,5.0,3268.0,4858.0,1552.0,8683.0,79920.0,0.01931,,,,,,48.82634,4.958665,,,,1339.0,253.0,187.0,255.0,286.0,222.0,111.0,1084.0,18.0,46.0,61.0,149.75,176.0,161.0,324.0,133.0,13.303515,4.009



Percentage of missing values: 
Dynamique Entrepreneuriale                        0.0
Dynamique Entrepreneuriale Service et Commerce    0.0
Synergie Médicale COMMUNE                         0.0
SEG Croissance POP                                0.0
Nb Omnipraticiens BV                              0.0
                                                 ... 
Pop 15 ans ou plus Ouvriers en 2014 (compl)       0.0
Pop 15 ans ou plus Retraités  en 2014 (compl)     0.0
Pop 15 ans ou plus Autres en 2014 (compl)         0.0
taux chômage(15-64 ans)                           0.0
APL                                               0.0
Length: 88, dtype: float64


## Baseline model

In [29]:
# Separate target variable Y from features X
print("Separating labels from features...")
features_list = ["Pop 60-74 ans en 2014 (princ)"]
target_variable = "APL"

X = insee_df.loc[:,features_list]
Y = insee_df.loc[:,target_variable]

print("...Done.")
print()

print('Y : ')
print(Y.head())
print()
print('X :')
print(X.head())

Separating labels from features...
...Done.

Y : 
0    2.293
1    2.600
2    4.079
3    4.378
4    1.069
Name: APL, dtype: float64

X :
   Pop 60-74 ans en 2014 (princ)
0                          125.0
1                           33.0
2                         1853.0
3                          232.0
4                           27.0


In [30]:
#Train-test splitting

print("Dividing into train and test sets...")
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
print("...Done.")
print()

Dividing into train and test sets...
...Done.



In [31]:
print("Preprocessing X_train...")
print(X_train.head())
print()
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
print("...Done!")
print(X_train[0:5,:]) # X_train is now a numpy array

print("Preprocessing X_test...")
print(X_test.head())
print()
X_test = scaler.transform(X_test) # don't fit again !
print("...Done!")
print(X_test[0:5,:]) # X_train is now a numpy array

Preprocessing X_train...
       Pop 60-74 ans en 2014 (princ)
19078                           78.0
7714                            74.0
3753                             8.0
10173                          111.0
26517                          316.0

...Done!
[[-0.18149761]
 [-0.18408344]
 [-0.22674955]
 [-0.16016456]
 [-0.02764103]]
Preprocessing X_test...
       Pop 60-74 ans en 2014 (princ)
32508                          488.0
6252                            42.0
29268                          284.0
217                             30.0
15576                          116.0

...Done!
[[ 0.08354944]
 [-0.20477004]
 [-0.04832763]
 [-0.21252751]
 [-0.15693227]]


In [32]:
# Train model
model = LinearRegression() # or LniearRegression pour regression lineaire par exemple
print("Training model...")
model.fit(X_train, Y_train)  # Training is always done on train set !!
print("...Done.")

Training model...
...Done.


In [33]:
# Print R^2 scores
print("R2 score on training set : ", model.score(X_train, Y_train))
print("R2 score on test set : ", model.score(X_test, Y_test))

R2 score on training set :  0.02391666410027038
R2 score on test set :  0.017773226632083805


In [34]:
# Predictions on training set
print("Predictions on training set...")
Y_train_pred = model.predict(X_train)
print("...Done.")
print(Y_train_pred)
print()

# Predictions on test set
print("Predictions on test set...")
Y_test_pred = model.predict(X_test)
print("...Done.")
print(Y_test_pred)
print()

Predictions on training set...
...Done.
[3.25538492 3.25487378 3.2464399  ... 3.37230917 3.7123479  3.26790796]

Predictions on test set...
...Done.
[3.30777721 3.25078463 3.28170885 ... 3.2537237  3.25014569 3.25167913]



In [35]:
# Visualize the model
# Visualize predictions on training Set
fig = px.scatter(x = X_train.flatten().tolist(), y = Y_train, title = "training set")
fig.add_trace(go.Scatter(x = X_train.flatten().tolist(), y = Y_train_pred, name = "linear regression"))
fig.show()

# Visualize predictions on test Set
fig = px.scatter(x = X_test.flatten().tolist(), y = Y_test, title = "test set")
fig.add_trace(go.Scatter(x = X_test.flatten().tolist(), y = Y_test_pred, name = "linear regression"))
fig.show()

## Multivariate model

In [36]:
# Separate target variable Y from features X
print("Separating labels from features...")
target_variable = "APL"

X = insee_df.drop(target_variable, axis = 1)
Y = insee_df.loc[:,target_variable]

print("...Done.")
print()

print('Y : ')
print(Y.head())
print()
print('X :')
X.head()

Separating labels from features...
...Done.

Y : 
0    2.293
1    2.600
2    4.079
3    4.378
4    1.069
Name: APL, dtype: float64

X :


Unnamed: 0,Dynamique Entrepreneuriale,Dynamique Entrepreneuriale Service et Commerce,Synergie Médicale COMMUNE,SEG Croissance POP,Nb Omnipraticiens BV,Nb Infirmiers Libéraux BV,Nb dentistes Libéraux BV,Nb pharmaciens Libéraux BV,Densité Médicale BV,Score équipement de santé BV,Indice Démographique,Nb Ménages,Nb Résidences Principales,Nb propriétaire,Nb Logement,Nb Résidences Secondaires,Nb Log Vacants,Nb Occupants Résidence Principale,Nb Entreprises Secteur Services,Nb Entreprises Secteur Commerce,Nb Entreprises Secteur Construction,Nb Entreprises Secteur Industrie,Nb Création Enteprises,Nb Création Industrielles,Nb Création Construction,Nb Création Commerces,Nb Création Services,Moyenne Revenus Fiscaux Départementaux,Moyenne Revenus Fiscaux Régionaux,Dep Moyenne Salaires Horaires,Dep Moyenne Salaires Cadre Horaires,Dep Moyenne Salaires Prof Intermédiaire Horaires,Dep Moyenne Salaires Employé Horaires,Dep Moyenne Salaires Ouvrié Horaires,Reg Moyenne Salaires Horaires,Reg Moyenne Salaires Cadre Horaires,Reg Moyenne Salaires Prof Intermédiaire Horaires,Reg Moyenne Salaires Employé Horaires,Reg Moyenne Salaires Ouvrié Horaires,Valeur ajoutée régionale,Urbanité Ruralité,Nb Logement Secondaire et Occasionnel,Nb Hotel,Capacité Hotel,Nb Camping,Capacité Camping,Dynamique Démographique BV,Taux Propriété,Dynamique Démographique INSEE,Capacité Fisc,Moyenne Revnus fiscaux,"Nb Education, santé, action sociale",Nb Services personnels et domestiques,"Nb Santé, action sociale",Nb Industries des biens intermédiaires,Nb de Commerce,Nb de Services aux particuliers,"Nb institution de Education, santé, action sociale, administration",PIB Régionnal,Score Croissance Entrepreneuriale,Environnement Démographique,Fidélité,Seg Cap Fiscale,Seg Dyn Entre,DYN SetC,latitude,longitude,Catégorie commune dans aire d'attraction des villes 2020,Tranche détaillée d'aire d'attraction des villes 2020,Libellé degré de densité,Population en 2014 (princ),Pop 0-14 ans en 2014 (princ),Pop 15-29 ans en 2014 (princ),Pop 30-44 ans en 2014 (princ),Pop 45-59 ans en 2014 (princ),Pop 60-74 ans en 2014 (princ),Pop 75-89 ans en 2014 (princ),Pop 15 ans ou plus en 2014 (compl),Pop 15 ans ou plus Agriculteurs exploitants en 2014 (compl),"Pop 15 ans ou plus Artisans, Comm., Chefs entr. en 2014 (compl)","Pop 15 ans ou plus Cadres, Prof. intel. sup. en 2014 (compl)",Pop 15 ans ou plus Prof. intermédiaires en 2014 (compl),Pop 15 ans ou plus Employés en 2014 (compl),Pop 15 ans ou plus Ouvriers en 2014 (compl),Pop 15 ans ou plus Retraités en 2014 (compl),Pop 15 ans ou plus Autres en 2014 (compl),taux chômage(15-64 ans)
0,57.0,23.0,114,en croissance démographique,9,14,7,7,0.09286,4,44.19769,247,248,196,289,32,9,728,7.0,11.0,2.0,2.0,4.0,0.0,2.0,1.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,32.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,67,-1,117,11483.5,3.0,1.0,0.0,9364,9350,3372,15105,173681,0.01585,Bassin Industriel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,46.153721,4.92585,Commune de la couronne,Aire de moins de 10 000 habitants,Rural à habitat dispersé,767.0,161.0,102.0,132.0,189.0,125.0,53.0,605.0,15.0,20.0,75.0,95.0,100.0,125.0,145.0,30.0,8.776596
1,45.0,4.0,143,en croissance démographique,31,36,18,18,0.099229,4,10.18071,67,67,61,142,71,4,168,4.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,71.0,0.0,0.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,42,0,110,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.00173,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,46.009606,5.428088,Commune hors attraction des pôles,Commune hors attraction des villes,Rural à habitat dispersé,239.0,54.0,28.0,69.0,36.0,33.0,17.0,192.0,0.0,20.0,15.0,25.0,39.0,10.0,64.0,20.0,8.130081
2,634.0,828.0,366,en croissance démographique,31,36,18,18,0.099229,4,696.92134,4640,4635,1968,5184,135,414,11015,342.0,301.0,58.0,108.0,83.0,4.0,14.0,27.0,38.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com < 50 m habts,135.0,2.0,52.0,0.0,0.0,1.Accroissement par excédent naturel et migrat...,37,-55,250,11483.5,113.0,41.0,118.0,9364,9350,3372,15105,173681,0.38471,Bassin Résidentiel en croissance démographique,Pop Mobile,Fiscalité moyenne,Dynamique Economique,Bonne Dynamique Entreprise Serv et Com,45.961049,5.372275,Commune-centre,Aire de 30 000 à moins de 50 000 habitants,Centres urbains intermédiaires,14022.0,2778.0,2958.0,2642.0,2603.0,1853.0,1045.0,11228.0,3.0,334.0,743.0,1777.0,1918.0,1818.0,2878.0,1757.0,15.859777
3,113.0,62.0,132,en croissance démographique,12,12,6,6,1.0,1,85.774,473,473,344,505,14,18,1406,22.0,26.0,17.0,10.0,6.0,0.0,4.0,2.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,14.0,2.0,17.0,1.0,72.0,Grande Ville,68,-3,127,11483.5,5.0,2.0,7.0,9364,9350,3372,15105,173681,0.02824,Bassin Urbain en croissance démographique,Pop Mobile,Fiscalité moyenne,Moyenne dynamique,Faible Dynamique Serv et Com,45.996164,4.911967,Commune de la couronne,Aire de 1 000 000 d’habitants ou plus (hors Pa...,Bourgs ruraux,1627.0,336.0,251.0,323.0,376.0,232.0,99.0,1337.0,5.0,60.0,106.0,231.0,241.0,231.0,312.0,151.0,7.875895
4,42.0,1.0,121,en croissance démographique,26,21,10,10,0.100905,3,5.24276,41,41,28,57,13,3,86,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12509,10458,11.410345,21.963793,12.558621,8.743103,9.268966,11.873022,21.78783,12.704057,8.783164,9.30142,86957.45836,Com rurale < 2 000 m habts,13.0,0.0,0.0,0.0,0.0,3.Accroissement par excédent migratoire,49,0,109,11483.5,0.0,0.0,0.0,9364,9350,3372,15105,173681,0.0,Bassin Résidentiel en croissance démographique,Pop Sédentaire,Fiscalité moyenne,Faible dynamique,Faible Dynamique Serv et Com,45.749886,5.594585,Commune de la couronne,Aire de 20 000 à moins de 30 000 habitants,Rural à habitat dispersé,109.0,12.0,16.0,15.0,29.0,27.0,10.0,89.0,0.0,0.0,5.0,25.0,15.0,15.0,25.0,5.0,13.793103


In [37]:
# Divide dataset Train set & Test set 
print("Dividing into train and test sets...")
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
print("...Done.")
print()

Dividing into train and test sets...
...Done.



In [38]:
# Automatically detect names of numeric/categorical columns
numeric_features = []
categorical_features = []
for i, t in X.dtypes.items():
    if ('float' in str(t)) or ('int' in str(t)):
        numeric_features.append(i)
    else:
        categorical_features.append(i)
print('Found numeric features ', numeric_features)
print('Found categorical features ', categorical_features)

Found numeric features  ['Dynamique Entrepreneuriale', 'Dynamique Entrepreneuriale Service et Commerce', 'Synergie Médicale COMMUNE', 'Nb Omnipraticiens BV', 'Nb Infirmiers Libéraux BV', 'Nb dentistes Libéraux BV', 'Nb pharmaciens Libéraux BV', 'Densité Médicale BV', 'Score équipement de santé BV', 'Indice Démographique', 'Nb Ménages', 'Nb Résidences Principales', 'Nb propriétaire', 'Nb Logement', 'Nb Résidences Secondaires', 'Nb Log Vacants', 'Nb Occupants Résidence Principale', 'Nb Entreprises Secteur Services', 'Nb Entreprises Secteur Commerce', 'Nb Entreprises Secteur Construction', 'Nb Entreprises Secteur Industrie', 'Nb Création Enteprises', 'Nb Création Industrielles', 'Nb Création Construction', 'Nb Création Commerces', 'Nb Création Services', 'Moyenne Revenus Fiscaux Départementaux', 'Moyenne Revenus Fiscaux Régionaux', 'Dep Moyenne Salaires Horaires', 'Dep Moyenne Salaires Cadre Horaires', 'Dep Moyenne Salaires Prof Intermédiaire Horaires', 'Dep Moyenne Salaires Employé Horai

In [39]:
#Multiple Transformations preprocessing

# Create pipeline for numeric features
numeric_transformer = Pipeline(steps=[
    ('scaler', StandardScaler())
])

# Create pipeline for categorical features
categorical_transformer = Pipeline(
    steps=[
    ('encoder', OneHotEncoder(drop='first', handle_unknown='ignore')) # first column will be dropped to avoid creating correlations between features
    ])

# Use ColumnTransformer to make a preprocessor object that describes all the treatments to be done
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ]
)

In [40]:
# Preprocessings on train set
print("Performing preprocessings on train set...")
print(X_train.head())
X_train = preprocessor.fit_transform(X_train)
print('...Done.')
print(X_train[0:5,:])
print()

# Preprocessings on test set
print("Performing preprocessings on test set...")
print(X_test.head())
X_test = preprocessor.transform(X_test) # Don't fit again !!
print('...Done.')
print(X_test[0:5,:])
print()

Performing preprocessings on train set...
       Dynamique Entrepreneuriale  \
19078                        41.0   
7714                         40.0   
3753                         11.0   
10173                        63.0   
26517                        70.0   

       Dynamique Entrepreneuriale Service et Commerce  \
19078                                            16.0   
7714                                             14.0   
3753                                              1.0   
10173                                            10.0   
26517                                            55.0   

       Synergie Médicale COMMUNE           SEG Croissance POP  \
19078                         77  en croissance démographique   
7714                          46  en croissance démographique   
3753                          33  en croissance démographique   
10173                         97  en croissance démographique   
26517                         99  en croissance démographique   

 

In [41]:
# Train model
model = LinearRegression() # or LniearRegression pour regression lineaire par exemple
print("Training model...")
model.fit(X_train, Y_train)  # Training is always done on train set !!
print("...Done.")

Training model...
...Done.


In [42]:
# Print R^2 scores
print("R2 score on training set : ", model.score(X_train, Y_train))
print("R2 score on test set : ", model.score(X_test, Y_test))

R2 score on training set :  0.2409690103939559
R2 score on test set :  0.24180466141172086


In [43]:
# Predictions on training set
print("Predictions on training set...")
Y_train_pred = model.predict(X_train)
print("...Done.")
print(Y_train_pred)
print()

# Predictions on test set
print("Predictions on test set...")
Y_test_pred = model.predict(X_test)
print("...Done.")
print(Y_test_pred)
print()

Predictions on training set...
...Done.
[3.13455945 2.522033   2.32842792 ... 3.94241159 4.28724899 3.50833594]

Predictions on test set...
...Done.
[3.70642183 2.71470225 3.99322807 ... 3.52085077 2.73243294 3.17509212]



In [44]:
column_names = []
for name, pipeline, features_list in preprocessor.transformers_: # loop over pipelines
    if name == 'num': # if pipeline is for numeric variables
        features = features_list # just get the names of columns to which it has been applied
    else: # if pipeline is for categorical variables
        features = pipeline.named_steps['encoder'].get_feature_names_out() # get output columns names from OneHotEncoder
    column_names.extend(features) # concatenate features names
        
print("Names of columns corresponding to each coefficient: ", column_names)

# Create a pandas DataFrame
coefs = pd.DataFrame(index = column_names, data = model.coef_.transpose(), columns=["coefficients"])
coefs

# Compute abs() and sort values
feature_importance = abs(coefs).sort_values(by = 'coefficients')
feature_importance

# Plot coefficients
fig = px.bar(feature_importance, orientation = 'h')
fig.update_layout(showlegend = False, 
                  margin = {'l': 120} # to avoid cropping of column names
                 )

fig.update_layout(height=2400, width=1600)

fig.show()

Names of columns corresponding to each coefficient:  ['Dynamique Entrepreneuriale', 'Dynamique Entrepreneuriale Service et Commerce', 'Synergie Médicale COMMUNE', 'Nb Omnipraticiens BV', 'Nb Infirmiers Libéraux BV', 'Nb dentistes Libéraux BV', 'Nb pharmaciens Libéraux BV', 'Densité Médicale BV', 'Score équipement de santé BV', 'Indice Démographique', 'Nb Ménages', 'Nb Résidences Principales', 'Nb propriétaire', 'Nb Logement', 'Nb Résidences Secondaires', 'Nb Log Vacants', 'Nb Occupants Résidence Principale', 'Nb Entreprises Secteur Services', 'Nb Entreprises Secteur Commerce', 'Nb Entreprises Secteur Construction', 'Nb Entreprises Secteur Industrie', 'Nb Création Enteprises', 'Nb Création Industrielles', 'Nb Création Construction', 'Nb Création Commerces', 'Nb Création Services', 'Moyenne Revenus Fiscaux Départementaux', 'Moyenne Revenus Fiscaux Régionaux', 'Dep Moyenne Salaires Horaires', 'Dep Moyenne Salaires Cadre Horaires', 'Dep Moyenne Salaires Prof Intermédiaire Horaires', 'Dep M