# Régression Logistique appliquée au jeu de données Titanic

En **apprentissage supervisé**, on distingue les modèles de **régression** (où la variable cible à prédire - *Target* - est continue) des modèles de **classification** (où la variable cible est discrète). Les techniques de classification sont largement utilisées en apprentissage supervisé.

Après avoir vu en détail le modèle de régression linéaire (simple et multivarié), nous allons nous intéresser ici au **modèle de régression logistique** qui fait partie des modèles de classification. 

La régression logistique est une technique prédictive. Elle vise à construire un modèle permettant de prédire / expliquer les valeurs prises par une variable cible (*target noté Y*) qualitative (le plus souvent binaire, on parle alors de régression logistique binaire ; si elle possède plus de 2 modalités, on parle de régression logistique polytomique) à partir d’un ensemble de variables explicatives quantitatives ou qualitatives. 

La régression logistique est une technique très répandu dans de nombreux domaines (ex : marketing, épidémiologie). On peut citer en exemple la prédiction de la survenue d'une maladie (Y = 0 si sain ou 1 si malade) pour un individu en fonction de ses caractéristiques (*features*) (ex: Age, Antécédents médicaux, Surpoids, Tabac,..)


Avec les régressions linéaires, nous avons vu que notre prédicteur était la droite la plus proche possible de notre nuage de points. Dans un modèle logistique binaire, l'objectif est de trouver une ligne (frontière de décision) séparant au mieux les deux classes Y = 0 et Y = 1. Dans l'illustration ci-dessous, on voit qu'une ligne en "S" (fonction Sigmoide) permettait de mieux prédire la probabilité d'appartenance à l'une des 2 classes, contrairement à une droite.

![linear_vs_logistic_regression_edxw03.webp](attachment:linear_vs_logistic_regression_edxw03.webp)

Dans ce notebook, nous allons appliquer le modèle logistique au jeu de données *TITANIC*. On cherche donc à prédire la probabilité de survie (variable cible "Survival") en fonction des caractéristiques des passagers.



### 1. Import des libraries utiles

In [1]:
#Analyse exploratoire des données et Preprocessing
import numpy as np 
import pandas as pd 
from sklearn import preprocessing
import matplotlib.pyplot as plt 
import seaborn as sns
sns.set(style="white") #white background style for seaborn plots
sns.set(style="whitegrid", color_codes=True)

### 2. Description du dataset
1. Charger le dataset et afficher sa dimension

2. Afficher les 10 premières lignes de la table

3. Afficher la liste des variables et leurs types


 ### 2. Analyse des valeurs manquantes
1. Afficher le nombre ainsi que le pourcentage de valeurs manquantes par variable

2. Utiliser `seaborn.heatmap` pour visualiser les lignes présentant des valeurs manquantes


### 3. Traitement des valeurs manquantes
1. Afficher la moyenne et la médiane de la variable `Age`. Commenter les résultats

2. Afficher le `countplot` de la variable `Embarked`. Commenter 

3. A ce stade, nous décidons de remplacer les valeurs manquantes :
    - de la variable `Age` par la valeur médiane
    - de la variable `Embarked` par la modalité `'S'`

**La variable `Cabin`est ignorée car présentant trop de valeurs manquantes**

Afficher l'histogramme de la variable `Age` avant et après traitement. Commenter

4. Appliquer les traitements (et supression) proposés à la question précédente. Vérifier l'absence de valeurs manquantes après traitement.


 ### 4. Analyse exploratoire - Liaisons entre les variables
 
 1. Afficher le `pairplot`des variables Age et Fare. 
    Analyser la liaison entre ces 2 variables
    Analyser la liaison entre chacune des 2 variables et la variable `Survived`
   
    
 2. Afficher le `cartplot`de la variable `Pclass` en fonction de la variable `Survived`. Commenter les résultats.
 
 3. Afficher les `cartplot`de la variable `Sexe` en fonction de la variable `Survived` et de la variable `Pclass`. Commenter les résultats.
 
 4. **Bonus :** Afficher la HeatMap des corrélations entre toutes les variables du DataFrame à l'aide de la fonction `nominal.associations`du package ` dython`. Commenter les résultats. 

 ### 5. Traitement des données avant modélisation

1. Créer la variable `'TravelAlone` qui regroupe les modalités des variables `SibSp`et `Parch`

2. Encoder les variables `Pclass`,`Sex`,`Embarked` (création de dummies à l'aide de la fonction `get_dummies()`)


 ### 6. Data splitting

 1. Conserver les variables suivantes :
      ["Survived","Age","Fare","TravelAlone","Pclass_1","Pclass_2","Embarked_C","Embarked_S","Sex_male"] 

    **On constate que pour les variables catégorielles, l'une des modalités (généralement celle la plus représentée) est exclue.** 
   
 
 2. Définir le DataFrame X contenant uniquement les variables explicatives et le DataFrame y contenant la variable "Survived"
 
 Générer les échantillons d'apprentissage (training) et de test à l'aide de `sklearn.model_selection.train_test_split` en fixant le test_size à 0.3 et random_state à 1 et stratify = y 
    
 Quelle est la signification de ces trois paramètres?
    
 3. Àfficher le tableau de fréquence de la variable `Survived` (en nombre et pourcentage) pour les 2 échantillons générés. Commenter 

 ### 7. Modélisation et Performances

Nous allons à cette stade entraîner notre modèle Logistique en utilisant la fonction `sklearn.linear_model.LogisticRegression`

**Questions théoriques**
1. Que cherche t-on à modéliser?

2. Quelle fonction mathématique est utilisée pour estimer la probabilité de survivre sachant X $p(Y = 1|X)$? 

3. Définir l'Odds (ou la côte)

4. On a vu dans le modèle de régression linéaire simple que le modèle s'écrivait comme suite : 
$Y = \theta_0 + \theta_1 X + \epsilon$ où Y est une variable continue

  En utilisant ce modèle, comment s'écrit Y en fonction de $p(Y = 1|X)$?
  

5. **Bonus** :
    Supposons que nous disposons d'un échantillon de N individus indépendants et pour chaque individu i on a 
    la probabilité d'appartenance à la classe $y_i$ : $P(Y = y_i|X= x_i)$. Quelle est la vraisemblance du modèle?
    Comment sont estimés les paramètres du modèle?

**Questions pratiques**

1. Afficher la DocString de cette fonction avec la commande :
`LogisticRegression.__doc__`

Quel algorithme d'optimisation est utilisé par défaut?

2. **Bonus** : Par défaut, dans LogisticRegression, une pénalité "l2" est utilisée. Quelle est sa signification et quel est son intérêt?




3. Instancier un LogisticRegression classifieur (fonction `LogisticRegression()`) et appliquer le (fonction `.fit()`) sur votre échantillon d'apprentissage
4. Afficher les paramètres du modèle(`.fit().coef_, .fit().intercept_`). Commenter

5. Faire une prédiction (fonction `.predict()`) de la variable Y sur l'échantillon de test. 

6. Définir une matrice de confusion
   Afficher la `heatmap` de la matrice de confusion (fonction `sklearn.metrics.confusion_matrix`). Commenter

7. Faire une prédiction de la probabilité p(Y = 1) à l'aide de la fonction `.predict_proba()`

8. Définir les métriques suivantes : l'Accuracy du modèle, l'AUC, la sensibilité, la spécifité 
    
   Afficher l'Accuracy du modele (`metrics.accuracy_score`)
   Afficher l'AUC
   Afficher la precision et le recall
   Commenter les résultats
   
 9. Définir la courbe ROC
    Afficher la courbe ROC. Interpréter

10. **Bonus**: On repart du DataFrame avant data-splitting. Relancer les calculs précédents en procédant par cross-validation (fonction `cross_val_score()`avec CV = 10). Comparer l'AUC à celui calculé à la question 8. Commenter  

11. **Bonus - Amélioration du modèle** Nous avons pour le moment conserver toutes les variables dans notre modèle. Or certaines peuvent présenter un pouvoir explicatif faible et induire du bruit. A cette étape, on propose de faire relancer les calculs précédents (en entrée: le DataFrame avant datasplitting) en utilisant une méthode récursive de sélection de variable et une cross-validation (fonction `sklearn.feature_selection.RFECV()`). A l'issu de cette étape, on dispose d'une liste de variables sélectionnées et on relance le fitting du modèle et le calcul des performances respectivement sur les bases d'apprentissage et de test.

Comparer vos résultats (en terme de métriques) à ceux sans sélection préalable des variables
