# Régression Logistique

## Import des librairies

In [1]:
import pandas as pd 
import numpy as np 

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.model_selection import GridSearchCV
from sklearn import linear_model

## Import de la table data_accident issue de notre pré-processing

In [2]:
%store -r accident_share

data_accident = accident_share.copy()

## Split de la table data_accident en $X$ pour nos données et en $y$ pour notre target

In [3]:
y = data_accident.loc[:,['grave_ou_decede']]
X = data_accident.drop(['grave_ou_decede'], axis=1).copy()

## Liste des variables issues du proccessus : feature selection 

In [4]:
var_selec = ['reg_IDF',
 'route_departementale',
 'agg',
 'circ_bidirectionnelle',
 'vehic_voiture',
 'obsm_vehicule',
 'Sens_Circu_Identique',
 'vehic_2roues',
 'senior_plus',
 'choc_avant']

## Grid Search

### Optimisation des hyperparamètres de notre Régression Logistique avec Grid Search

Souvent, les effets des hyperparamètres sur un modèle sont connus, mais comment définir au mieux un hyperparamètre et des combinaisons d'hyperparamètres qui sont en interaction pour un jeu de données. Il existe souvent des heuristiques générales ou des règles empiriques pour configurer les hyperparamètres.

Une bonne approche consiste à rechercher différentes valeurs pour les hyperparamètres du modèle et choisir un sous-ensemble qui atteint les meilleures performances sur un ensemble de données, c'est ce qu'on appelle l' optimisation des hyperparamètres. Le résultat d'une optimisation d'hyperparamètres est un ensemble unique d'hyperparamètres performants que nous pouvons utiliser pour configurer notre modèle.

Nous évaluerons les configurations du modèle à l'aide d' une validation croisée stratifiée répétée à k-fold avec trois répétitions et 10 splits.

Ensuite, nous pouvons définir l'espace de recherche de nos hyperparamètres :

La régression logistique nécessite trois paramètres « C », « pénalité » et « solver » qui seront optimisés par GridSearchCV. Nous avons donc défini ces trois paramètres sous forme de liste de valeurs dont GridSearchCV sélectionnera la meilleure valeur de paramètre.

In [15]:
# define models and parameters
model = LogisticRegression()
solvers = ['newton-cg', 'lbfgs', 'liblinear']
penalty = ['l2']
c_values = [100, 10, 1.0, 0.1, 0.01,0.001, 0.0001]

# define grid search
grid = dict(solver=solvers,penalty=penalty,C=c_values)
cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)
grid_search = GridSearchCV(estimator=model, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy',error_score=0)

grid_result = grid_search.fit(X[var_selec].to_numpy(), y.to_numpy().ravel())

# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']
for mean, stdev, param in zip(means, stds, params):
    print("%f (%f) with: %r" % (mean, stdev, param))

  y = column_or_1d(y, warn=True)


Best: 0.744630 using {'C': 0.01, 'penalty': 'l2', 'solver': 'liblinear'}
0.744023 (0.005416) with: {'C': 100, 'penalty': 'l2', 'solver': 'newton-cg'}
0.744012 (0.005402) with: {'C': 100, 'penalty': 'l2', 'solver': 'lbfgs'}
0.744023 (0.005400) with: {'C': 100, 'penalty': 'l2', 'solver': 'liblinear'}
0.744018 (0.005421) with: {'C': 10, 'penalty': 'l2', 'solver': 'newton-cg'}
0.744012 (0.005402) with: {'C': 10, 'penalty': 'l2', 'solver': 'lbfgs'}
0.744035 (0.005414) with: {'C': 10, 'penalty': 'l2', 'solver': 'liblinear'}
0.744040 (0.005410) with: {'C': 1.0, 'penalty': 'l2', 'solver': 'newton-cg'}
0.744035 (0.005418) with: {'C': 1.0, 'penalty': 'l2', 'solver': 'lbfgs'}
0.744023 (0.005424) with: {'C': 1.0, 'penalty': 'l2', 'solver': 'liblinear'}
0.744369 (0.005475) with: {'C': 0.1, 'penalty': 'l2', 'solver': 'newton-cg'}
0.744363 (0.005471) with: {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}
0.744380 (0.005336) with: {'C': 0.1, 'penalty': 'l2', 'solver': 'liblinear'}
0.744550 (0.005290) wi

À la fin du grid search, le meilleur score et la configuration d'hyperparamètres ayant obtenu les meilleures performances sont retournés. Nous pouvons voir que la meilleure configuration atteint une précision d'environ $74%$, pour des valeurs spécifiques du solveur égale à $liblniear$, pour une pénalité $l2$ et pour un $C = 0.01$. C'est avec ce tunning des hyperparamètre que l'on atteint le score optimal.

## Initialisons notre $Régression$ $Logistique$ avec les hyperparamètres calculés précédemment

In [6]:
modele_logit = LogisticRegression(C= grid_result.best_params_['C'], 
                                  penalty=grid_result.best_params_['penalty'],
                                  solver=grid_result.best_params_['solver'])
modele_logit.fit(X[var_selec].to_numpy(),y.to_numpy().ravel())

LogisticRegression(C=0.01, solver='liblinear')

## Les coéfficients de la $Régression$ $Logistique$

In [7]:
# Nous avons multiplié par 100 la valeur des coéfficients pour faciliter leur interprétation
df_coef = pd.DataFrame(np.concatenate([modele_logit.intercept_.reshape(-1,1),
                             modele_logit.coef_],axis=1),
                       index = ["coef"],
                       columns = ["constante"]+list(X[var_selec].columns)).T
df_coef

Unnamed: 0,coef
constante,0.32463
reg_IDF,-1.362718
route_departementale,0.711668
agg,-0.952351
circ_bidirectionnelle,0.436616
vehic_voiture,-0.277939
obsm_vehicule,-0.434875
Sens_Circu_Identique,-0.385391
vehic_2roues,0.259477
senior_plus,0.346856


#### Analyse des coéfficients de la régression logistique

### $Logit[P(GraveOuDecede_{i} = 1 | RegIDF, RouteDepartementale, Agg , CircBidirectionnelle, ...)]$ <br> <br>$ = \beta_{0} + \beta_{1}\times RegIDF	 + \beta_{2}\times RouteDepartementale + \beta_{3}\times Agg + \beta_{4}\times CircBidirectionnelle + ...$ <br>
$\hat\beta_{1} = -1.362718$ <br>
$\hat\beta_{2} = 0.711668$ <br>
$\hat\beta_{3} = -0.952351$ <br>
$\hat\beta_{4} = 0.436616 $ <br>
$\hat\beta_{5} = ...$ <br>

#### Passons les coéfficients à l'exponentielle pour améliorer leur interprêtation

In [8]:
df_coef.reset_index(drop = False, inplace = True)
df_coef.rename(columns={"index": "name"}, inplace = True)
df_coef['coef'] = np.exp(df_coef['coef'])
df_coef

Unnamed: 0,name,coef
0,constante,1.383518
1,reg_IDF,0.255964
2,route_departementale,2.037388
3,agg,0.385833
4,circ_bidirectionnelle,1.547462
5,vehic_voiture,0.757343
6,obsm_vehicule,0.647346
7,Sens_Circu_Identique,0.680185
8,vehic_2roues,1.296253
9,senior_plus,1.414614


regardons l'Odds ratio ou Rapport des cotes ($RC$) : <br>
- $RC_{1} = e^{\beta_{1}} = 0.256 < 1$ Si reg_IDF (region île de france, variable binaire) prend la valeur 1, la probabilité  d'être blésser gravement ou de décédé baisse <br> <br>
- $RC_{2} = e^{\beta_{2}} = 2.037 > 1$ Si route_departementale (route departementale, variable discrète) augmente d'une unité, la probabilité  d'être blésser gravement ou de décédé augmente <br> <br>
- $RC_{3} = e^{\beta_{3}} = 0.386 < 1$ Si agg (agglomération, variable binaire) prend la valeur 1, la probabilité  d'être blésser gravement ou de décédé baisse <br> <br>
- $RC_{4} = e^{\beta_{4}} = 1.547 > 1$ Si circ_bidirectionnelle (circulation bidirectionnelle, variable binaire) prend la valeur 1, la probabilité  d'être blésser gravement ou de décédé augmente <br> <br>
- $...$



## Conclusion

Au regard des résultats de la régression logistique, les accidents aux conséquences les plus lourdes : être gravement bléssé ou décédé, concerne des accidents qui ont lieux en dehors des agglomérations sur des routes départementales là où la vitesse est plus élevée qu'en ville.

Les rapports des cotes des coéfficients $reg$_$IDF$ et $agg$ nous indique qu'il y a moins d'accident grave en agglomération et en île de France, pourtant c'est là où la densité de la population est le plus élevé. Cela peut s'expliquer par le fait que la vitesse est moins élevé en ville ; ce qui cause moins d'accident grave. 

Les individus qui conduisent des deux roues ressortent des accidents avec des blessure plus grave que ceux qui conduisent des véhicules. Les personnes âgés sont plus sensibles aux chocs et ressortent des accidents avec des bléssure plus importantes. 

