# Chapitre 3 - Modélisation statistique et économétrique des données départementales

In [None]:
# Paramètre(s) du notebook

# VERBOSE=True
VERBOSE=False

OPTIONS=""
if not VERBOSE:
    OPTIONS="--quiet"


In [None]:
from IPython.display import Image
import warnings

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

import scipy.stats as stats
from statsmodels.formula.api import ols
import sklearn
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import (Lasso,LassoCV)
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR

In [None]:
%store -r donnees_2018_hab
%store -r donnees_2018
%store -r X_cluster

In [None]:
donnees_2018_hab=donnees_2018_hab.drop(columns=['REG', 'Libellé','Crim_Del_PN_GN','Crim_Del_GN_hab','Crim_Del_PN_hab'])



# 1 - Approche économétrique

Dans une première approché économétrique, nous essayons de prédire le nombre de crimes à partir uniquement du nombre de boucherie, puis en rajoutant des variables de contrôles

## 1-A Régression linéaire simple

In [None]:
print("*"*100)
print(""*100)
print("Une régression simple sur l'ensemble des données non transformées :")
print("-"*100)

In [None]:
# Code from https://towardsdatascience.com/simulating-replicating-r-regression-plot-in-python-using-sklearn-4ee48a15b67

lm = LinearRegression()

X=donnees_2018_hab[[ 'Nb_Boucherie_dep_hab']]
Y=donnees_2018_hab[['Crim_Del_PN_GN_hab']]

lm.fit(X, Y)


# # for predictions
predictions = lm.predict(X)

beta_hat = [lm.intercept_.tolist()] + lm.coef_.tolist()
print("coefficients : ",beta_hat)
print("score :", lm.score(X,Y))
plt.scatter(X, Y)
plt.xlabel("Nb_Boucherie_dep_hab")
plt.ylabel("Crim_Del_PN_GN_hab")
plt.title('Nb_Boucherie_dep_hab*Crim_Del_PN_GN_hab')

In [None]:
reg_with_statsmodels = ols(" Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab", data = donnees_2018_hab).fit()
print(reg_with_statsmodels.summary())

In [None]:
print(" "*100)
print(" ----- INTERPRETATION : le modèle est invalide par la F-statistique et la non significativité du coefficient associé à Nb_Boucherie_dep_hab   (R² quasi nul) ")
print(" ----- INTERPRETATION : le R² est quasi nul, suggérant la non-corrélation des deux variables, et ainsi un faible pouvoir prédictif ")
print(" ----- INTERPRETATION : on tente de rajouter des régresseurs supplémentaires pour gagner en prédictivité.")

## 1-B Régression linéaire multiple

In [None]:
print("*"*100)
print(" "*100)
print("Une régression multiple sur l'ensemble des données non transformées :")
print("-"*100)

In [None]:
# Code from https://towardsdatascience.com/simulating-replicating-r-regression-plot-in-python-using-sklearn-4ee48a15b67
lm = LinearRegression()

X=donnees_2018_hab[['MED18', 'TP6018', 'D118', 'D918', 'RD18', 'T1_2018',
       'Nb_PN_GN_dep_100k_hab', 'Nb_Boucherie_dep_hab']]
Y=donnees_2018_hab[['Crim_Del_PN_GN_hab']]

lm.fit(X, Y)



# # for predictions
predictions = lm.predict(X)
print("variables explicatives",['MED18', 'TP6018', 'D118', 'D918', 'RD18', 'T1_2018',
       'Nb_PN_GN_dep_100k_hab', 'Nb_Boucherie_dep_hab'])
print("coefficients",lm.coef_)
print("constante",lm.intercept_)

print("R² :",lm.score(X, Y))
print(" "*100)
print(" ----- INTERPRETATION : nous obtenons un meilleur pouvoir prédictif par le modèle, notamment liée à la forte corrélation entre le ratio interdécile et la variable à expliquer  ")
print(" ----- INTERPRETATION : nous regarderons ultérieurement les résidus  ")


In [None]:
print("*"*100)
print(" "*100)
print("Une régression multiple sur l'ensemble des données non transformées part statsmodel :")
print(" Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab")
print("-"*100)

formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab"
reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab).fit()
print(reg_with_statsmodels.summary())


print(" "*100)
print(" ----- INTERPRETATION : on obtient de nouveau le même R² et les mêmes coefficients  ")
print(" ----- INTERPRETATION : Toutes les coefficients sont significatifs sauf Nb_Boucherie_dep_hab et Nb_PN_GN_dep_100k_hab ")
print(" ----- INTERPRETATION : On peut déjà esquisser l'hypothèse qu'il sera difficile de montrer un usage du nombre de boucherie sur le nombre des crimes")
print(" ----- INTERPRETATION : La note [2] nous suggère un problème de multicollinéarité (potentiellement résoluble par une régression PLS)  ou un problème avec les variables numériques")



In [None]:
print("*"*100)
print(" "*100)
print("Retour sur les résidus :")
print("-"*100)

sns.residplot(predictions.reshape(-1),'Crim_Del_PN_GN_hab', data=donnees_2018_hab,lowess=True,
                                  line_kws={'color': 'red', 'lw': 1, 'alpha': 1})
plt.xlabel("Fitted values")
plt.title('Residual plot')

print(" ----- INTERPRETATION : pour deux départements quasi-similaires en termes socio-économiques, on peut constater un important écart de prédiction de 4000 crimes et délits  ")
print(" ----- INTERPRETATION : l'amplitude d'un résidu est de +/-2000 crimes et délits, sachant que la médiane parmi les départements est aux alentours de 4000 ")

In [None]:
residuals = donnees_2018_hab["Crim_Del_PN_GN_hab"] - predictions.reshape(-1)
residuals

plt.figure(figsize=(7,7))
stats.probplot(residuals, dist="norm", plot=plt)
plt.title("Normal Q-Q Plot")

print(" ----- INTERPRETATION : La normalité des résidus peut être conjecturée si l'on ne considère pas les points atypiques")

In [None]:
model_norm_residuals_abs_sqrt=np.sqrt(np.abs(residuals))

plt.figure(figsize=(7,7))
sns.regplot(predictions.reshape(-1), model_norm_residuals_abs_sqrt,
              scatter=True,
              lowess=True,
              line_kws={'color': 'red', 'lw': 1, 'alpha': 0.8})
plt.ylabel("Standarized residuals")
plt.xlabel("Fitted value")


print(" ----- INTERPRETATION : L'hypothèse d'homoscédasticité ne peut être faite ici.")
print(" ----- INTERPRETATION : En présence d'hétéroscédasticité, l'ouvrage du Woolridge nous suggère d'utiliser le log (ou log(1+y)) pour : ")
print(" ----- INTERPRETATION : * les variables de population ")
print(" ----- INTERPRETATION : * les variables monétaires ")
print(" ----- INTERPRETATION : * les pourcentages")

In [None]:
print("*"*100)
print(" "*100)
print("Une régression multiple en cross validation avec des données non transformées")
print("-"*100)

scores = cross_val_score(lm, X, Y, scoring='r2', cv=5)
print("R² obtenu en cross validation",scores)

print(" "*100)
print(" ----- INTERPRETATION : En utilisant la validation croisée, nous obtenons plusieurs R² très différents, de quasi-nulle à 0.72")
print(" ----- INTERPRETATION : La forte variabilité du R², compte tenu du faible nombre d'invidividus dans l'échantillon, montre la sensibilité aux outliers")
print(" ----- INTERPRETATION : Ceci présage également la présence de différents groupes hétérogènes comme dans le clustering dans le chapitre 2")
# R² can be negative with small datasets and cv fold https://stackoverflow.com/questions/23036866/scikit-learn-is-returning-coefficient-of-determination-r2-values-less-than-1

## 1-C Régression linéaire multiple avec transformation log

In [None]:
print("*"*100)
print(" "*100)
print("Une régression multiple sur l'ensemble des données log-transformées")
print("-"*100)

new_donnees_2018_hab=donnees_2018_hab.copy()
new_donnees_2018_hab['Crim_Del_PN_GN_hab'] = np.log(new_donnees_2018_hab['Crim_Del_PN_GN_hab'])
new_donnees_2018_hab['RD18'] = np.log(new_donnees_2018_hab['RD18'])
new_donnees_2018_hab['D918'] = np.log(new_donnees_2018_hab['D918'])
new_donnees_2018_hab['D118'] = np.log(new_donnees_2018_hab['D118'])
new_donnees_2018_hab['TP6018'] = np.log(new_donnees_2018_hab['TP6018'])
new_donnees_2018_hab['MED18'] = np.log(new_donnees_2018_hab['MED18'])
new_donnees_2018_hab['Nb_Boucherie_dep_hab'] = np.log(new_donnees_2018_hab['Nb_Boucherie_dep_hab'])
new_donnees_2018_hab['Nb_PN_GN_dep_100k_hab'] = np.log(new_donnees_2018_hab['Nb_PN_GN_dep_100k_hab'])
new_donnees_2018_hab['T1_2018'] = np.log(new_donnees_2018_hab['T1_2018'])


formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab"
#formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018   + T1_2018 +    Nb_PN_GN_dep_100k_hab"

reg_with_statsmodels = ols( formula_reg, data = new_donnees_2018_hab).fit()
print(reg_with_statsmodels.summary())


print(" "*100)
print(" ----- INTERPRETATION : En passant au log, nous avons perdu en pouvoir prédictif R²=0.678")
print(" ----- INTERPRETATION : Beaucoup de coefficients ne sont plus significatifs à 5% par rapport à la modélisation précédente")

In [None]:
# formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab    + TP6018 + D118 + D918 + RD18 +Nb_PN_GN_dep_100k_hab"
# reg_with_statsmodels = ols( formula_reg, data = new_donnees_2018_hab).fit()
# print(reg_with_statsmodels.summary())

## 1-D Régression linéaire multiple avec transformation log et sans les outliers

In [None]:
print("*"*100)
print(" "*100)
print("Une régression multiple sur l'ensemble des données log-transformées sans les outliers pour la variable Crim_Del_PN_GN_hab")
print("-"*100)
new_donnees_2018_hab=donnees_2018_hab[donnees_2018_hab['Crim_Del_PN_GN_hab']<6700].copy()
new_donnees_2018_hab['Crim_Del_PN_GN_hab'] = np.log(new_donnees_2018_hab['Crim_Del_PN_GN_hab'])
new_donnees_2018_hab['RD18'] = np.log(new_donnees_2018_hab['RD18'])
new_donnees_2018_hab['D918'] = np.log(new_donnees_2018_hab['D918'])
new_donnees_2018_hab['D118'] = np.log(new_donnees_2018_hab['D118'])
new_donnees_2018_hab['TP6018'] = np.log(new_donnees_2018_hab['TP6018'])
new_donnees_2018_hab['MED18'] = np.log(new_donnees_2018_hab['MED18'])
new_donnees_2018_hab['Nb_Boucherie_dep_hab'] = np.log(new_donnees_2018_hab['Nb_Boucherie_dep_hab'])
new_donnees_2018_hab['Nb_PN_GN_dep_100k_hab'] = np.log(new_donnees_2018_hab['Nb_PN_GN_dep_100k_hab'])
new_donnees_2018_hab['T1_2018'] = np.log(new_donnees_2018_hab['T1_2018'])

formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab"

# formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018   + T1_2018 +    Nb_PN_GN_dep_100k_hab"
#formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + Nb_PN_GN_dep_100k_hab  +T1_2018 + TP6018    "
reg_with_statsmodels = ols( formula_reg, data = new_donnees_2018_hab).fit()
print(reg_with_statsmodels.summary())


print(" "*100)
print(" ----- INTERPRETATION : En passant au log et sans les outliers, nous avons perdu en pouvoir prédictif R²=0.592")
print(" ----- INTERPRETATION : Beaucoup de coefficients ne sont plus significatifs à 5% par rapport à la modélisation précédente")

## 1-E Régression linéaire multiple avec clusterisation

In [None]:
donnees_2018_hab_clusterisees=donnees_2018_hab.merge(X_cluster,how="inner",left_index=True,right_index=True)
donnees_2018_hab_clusterisees=pd.get_dummies(donnees_2018_hab_clusterisees, columns=['Cluster'])

formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab + Cluster_0 + Cluster_1"
reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab_clusterisees).fit()
print(reg_with_statsmodels.summary())


print(" "*100)
print(" ----- INTERPRETATION : En clusterisant, nous obtenons un meilleur pouvoir prédictif R²=0.788")
print(" ----- INTERPRETATION : Le coefficient du nombre de boucherie n'est pas toujours pas significatif")

In [None]:
donnees_2018_hab_clusterisees_log=donnees_2018_hab_clusterisees.copy()
donnees_2018_hab_clusterisees_log['Crim_Del_PN_GN_hab'] = np.log(donnees_2018_hab_clusterisees_log['Crim_Del_PN_GN_hab'])
donnees_2018_hab_clusterisees_log['RD18'] = np.log(donnees_2018_hab_clusterisees_log['RD18'])
donnees_2018_hab_clusterisees_log['D918'] = np.log(donnees_2018_hab_clusterisees_log['D918'])
donnees_2018_hab_clusterisees_log['D118'] = np.log(donnees_2018_hab_clusterisees_log['D118'])
donnees_2018_hab_clusterisees_log['TP6018'] = np.log(donnees_2018_hab_clusterisees_log['TP6018'])
donnees_2018_hab_clusterisees_log['MED18'] = np.log(donnees_2018_hab_clusterisees_log['MED18'])
donnees_2018_hab_clusterisees_log['Nb_Boucherie_dep_hab'] = np.log(donnees_2018_hab_clusterisees_log['Nb_Boucherie_dep_hab'])
donnees_2018_hab_clusterisees_log['Nb_PN_GN_dep_100k_hab'] = np.log(donnees_2018_hab_clusterisees_log['Nb_PN_GN_dep_100k_hab'])
donnees_2018_hab_clusterisees_log['T1_2018'] = np.log(donnees_2018_hab_clusterisees_log['T1_2018'])

formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab + Cluster_0 + Cluster_1"
reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab_clusterisees_log).fit()
print(reg_with_statsmodels.summary())

print(" "*100)
print(" ----- INTERPRETATION : Le passage au log pour les variables hors dummies n'améliore pas le modèle")

In [None]:
donnees_2018_hab_cluster_0=donnees_2018_hab_clusterisees[donnees_2018_hab_clusterisees.Cluster_0==1]
donnees_2018_hab_cluster_1=donnees_2018_hab_clusterisees[donnees_2018_hab_clusterisees.Cluster_1==1]
donnees_2018_hab_cluster_2=donnees_2018_hab_clusterisees[donnees_2018_hab_clusterisees.Cluster_2==1]


formula_reg= " Crim_Del_PN_GN_hab ~  Nb_Boucherie_dep_hab + MED18 + TP6018 + D118 + D918 + RD18  + T1_2018+    Nb_PN_GN_dep_100k_hab"


# le numero peut changer entre deux exécutions différentes
if not "75" in donnees_2018_hab_cluster_0.index:
    reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab_cluster_0).fit()
    print(reg_with_statsmodels.summary())

    
if not "75" in donnees_2018_hab_cluster_1.index:    
    reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab_cluster_1).fit()
    print(reg_with_statsmodels.summary())

if not "75" in donnees_2018_hab_cluster_2.index:
    reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab_cluster_2).fit()
    print(reg_with_statsmodels.summary())


print(" "*100)
print(" ----- INTERPRETATION : une régression différente par cluster permet d'affiner l'analyse et la prédictibilité des modèles")
print(" ----- INTERPRETATION : Impossible de faire une regression sur le dernier cluster car il y a un unique point : Paris")
# reg_with_statsmodels = ols( formula_reg, data = donnees_2018_hab_cluster_2).fit()
# print(reg_with_statsmodels.summary())

# 2 - Approche Machine learning

In [None]:
# https://scikit-learn.org/stable/auto_examples/preprocessing/plot_all_scaling.html
# Both StandardScaler and MinMaxScaler are very sensitive to the presence of outliers.
# MaxAbsScaler therefore also suffers from the presence of large outliers.

display(Image("https://scikit-learn.org/stable/_static/ml_map.png"))
print(" ----- ML : nous disposons d'une échantillon de taille >50 et <100K où le nombre de variables explicatives est faible, nous nous orientons vers une régression LASSO pour prédire le nombre de crimes")

In [None]:
warnings.filterwarnings('ignore')

print(" ----- ML : avec l'algorithme LASSO, plus le coefficient est grand et plus il va couter dans le modèle. Le modèle choisira à moindre coût les meilleurs variables prédictives")

for i in range(10):
    print(" !!!!! Simulation {}".format(i))
    df_train, df_test = train_test_split(donnees_2018_hab, 
                                         train_size = 0.7, 
                                         test_size = 0.3
                                        )

    X_train=df_train[['MED18', 'TP6018', 'D118', 'D918', 'RD18', 'T1_2018',
           'Nb_PN_GN_dep_100k_hab', 'Nb_Boucherie_dep_hab']].values.reshape(-1,8)
    y_train=df_train['Crim_Del_PN_GN_hab'].values.reshape(-1,1)

    X_test=df_test[['MED18', 'TP6018', 'D118', 'D918', 'RD18', 'T1_2018',
           'Nb_PN_GN_dep_100k_hab', 'Nb_Boucherie_dep_hab']].values.reshape(-1,8)
    y_test=df_test['Crim_Del_PN_GN_hab'].values.reshape(-1,1)


    pipeline= Pipeline(
        [('scaler',RobustScaler()),
         ('model',Lasso())
        ])


    search=GridSearchCV(pipeline,
                        {'model__alpha':np.arange(0.1,4,0.1),
                        },
                        cv=5,
                        scoring='r2',
                        verbose=0
                       )

    search.fit(X_train, y_train)

    display(search.best_params_)
    print(['MED18', 'TP6018', 'D118', 'D918', 'RD18', 'T1_2018',
           'Nb_PN_GN_dep_100k_hab', 'Nb_Boucherie_dep_hab'])
    print("Coefficients : ", search.best_estimator_[1].coef_)
    Y_pred=search.predict(X_test)
    print("Données prédites :",Y_pred)
    print("Données observées :",y_test)

    print("R² sur les données d'entrainement :",search.score(X_train, y_train))
    print("R² sur les données de test :",search.score(X_test, y_test))