# Régression logistique ou modèle logit


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Chargement des donnés:

Les donnés d'entraînements sont situés dans le fichier `data/train.csv`

| PassengerId | Survived | Pclass | Name                                               | Sex    | Age | SibSp | Parch | Ticket           | Fare     | Cabin | Embarked |
|------------|---------|--------|------------------------------------------------|--------|-----|------|------|-----------------|---------|-------|----------|
| 1          | 0       | 3      | Braund, Mr. Owen Harris                      | male   | 22  | 1    | 0    | A/5 21171       | 7.25    |       | S        |
| 2          | 1       | 1      | Cumings, Mrs. John Bradley (Florence Briggs Thayer) | female | 38  | 1    | 0    | PC 17599        | 71.2833 | C85   | C        |
| 3          | 1       | 3      | Heikkinen, Miss. Laina                        | female | 26  | 0    | 0    | STON/O2. 3101282 | 7.925   |       | S        |
| ...        | ...     | ...    | ...                                           | ... | ...  | ...    | ...    | ... | ...   | ...    | ...        |

### Rappel du modèle:

$$ \vec{z} = X \cdot \vec{w} + b $$
$$ f_{\vec{w},b}(\vec{x}^{(i)}) = g(\vec{z}) = \frac{1}{1 + e^{-z}} = \frac{1}{1 + e^{-(X \cdot \vec{w} + b)}} $$

### Fonction de coût:

$$ J(\vec{w},b) = \frac{1}{m} \sum_{i=1}^{m} loss(f_{\vec{w},b}(\vec{x}^{(i)}) - y^{(i)}) $$
$$ loss(f_{\vec{w},b}(\vec{x}^{(i)}) - y^{(i)}) = -y^{(i)}log(f_{\vec{w},b}(\vec{x}^{(i)})) - (1-y^{(i)})log(1-f_{\vec{w},b}(\vec{x}^{(i)})) $$

### Descente de gradient:
$$ 
\begin{align*}
\text{repeat until converge:}
\begin{cases}
\vec{w} = \vec{w} - \alpha \frac{\partial}{\partial \vec{w}} J(\vec{w}, b) \\
b = b - \alpha \frac{\partial}{\partial b} J(\vec{w}, b) \\ 
\end{cases} \\
\text{Update $ \vec{w} $ and b simultaneously}
\end{align*}
$$

In [5]:
# load the data:
dataset = pd.read_csv('data/train.csv')
print(dataset.shape)
dataset.head()

(891, 12)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


La difficulté est maintenant le **feature engineering**. 

Il faut savoir quelles caractéristiques sont capables de nous aider à faire une prédiction correctement. Par exemple, on est persuadé que le <em>nom</em>, <em>le port d'embarquement</em> et le <em>passengerId</em> n'ont pas de relation avec la survie d'un passager. 

Mais il est fort probable que la classe du ticket, le sexe, l'âge, le nombre de parents, le nombre de famille proche, le numéro de ticket, le prix du ticket et le numéro de cabine aient une relation forte par rapport à la survie du passager. 

In [7]:
datatrain = dataset[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin']].copy()
datatrain.head()

Unnamed: 0,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin
0,3,male,22.0,1,0,A/5 21171,7.25,
1,1,female,38.0,1,0,PC 17599,71.2833,C85
2,3,female,26.0,0,0,STON/O2. 3101282,7.925,
3,1,female,35.0,1,0,113803,53.1,C123
4,3,male,35.0,0,0,373450,8.05,


Il existe plusieurs manières d'encoder des lettres, comme par exemple le numéro de ticket ou bien le numéro de cabine. 

Je cite, par exemple, ces techniques : 

- Encodage one-hot 
- Encodage par étiquette 
- Encodage par fréquence 
- Encodage par hash 
- Encodage par groupe

Mais pour notre dataset, il est préférable d'utiliser l'encodage par fréquence pour retenir au moins la fréquence d'une cabine, ou bien la fréquence d'un ticket, qui a potentiellement une relation par rapport à la survie du passager.

In [9]:
sex_map = { 'male': 1, 'female': 0 }
datatrain['Sex'] = datatrain['Sex'].map(sex_map)

ticket_freq_map = datatrain['Ticket'].value_counts().to_dict()
datatrain['Ticket'] = datatrain['Ticket'].map(ticket_freq_map)

cabin_freq_map = datatrain['Cabin'].value_counts().to_dict()
datatrain['Cabin'] = datatrain['Cabin'].map(cabin_freq_map)

datatrain = datatrain.fillna(0)

Maintenant, nous pouvons définir les données d'entraînement `X_train` et `Y_train`. 

In [11]:
X_train = datatrain.to_numpy()
print(X_train.shape)
print(X_train[:5])

Y_train = dataset['Survived'].to_numpy()
print(Y_train[:5])

(891, 8)
[[ 3.      1.     22.      1.      0.      1.      7.25    0.    ]
 [ 1.      0.     38.      1.      0.      1.     71.2833  1.    ]
 [ 3.      0.     26.      0.      0.      1.      7.925   0.    ]
 [ 1.      0.     35.      1.      0.      2.     53.1     2.    ]
 [ 3.      1.     35.      0.      0.      1.      8.05    0.    ]]
[0 1 1 1 0]


Pour nous faciliter la vie, on va définir quelques fonctions. 

- La première est la fonction sigmoïde. 
- La seconde est la fonction de perte. 
- La troisième est la fonction de coup. 

In [26]:
def sigmoid(w, b, X):
    """
    Computes the sigmoïde function
 
    Args:
      X (ndarray (m,n): Data, m examples with n features
      w (ndarray (n,)): model parameters  
      b (scalar)      : model parameter
    Returns 
      r (ndarray (n,)) : The results of the sigmoïde function 
    """
    return 1 / (1 + np.exp(-1*(np.dot(X, w) + b)))

def loss(f_wb, y):
    """
    Computes the loss function
 
    Args:
      f_wb (ndarray (n,)) : Predicted values m examples
      y    (ndarray (n,)) : Actual values
    Returns 
      r    (ndarray (n,)) : The losses amount 
    """
    return -1*(np.dot(y, np.log(f_wb)) + np.dot(1-y, np.log(1-f_wb)))

def compute_cost(f_wb, y):
    """
    Computes the cost function
 
    Args:
      f_wb (ndarray (n,)) : Predicted values, m examples
      y    (ndarray (n,)) : Actual values
    Returns 
      r    (ndarray (n,)) : The losses amounts 
    """
    m = y.shape[0]
    costs = np.sum(loss(f_wb, y))
    return costs / m

Afin de faire la descente de gradient, on va d'abort chercher les dérivés partielles $\frac{\partial}{\partial \vec{w}} J(\vec{w},b)$ et $\frac{\partial}{\partial b} J(\vec{w},b)$

- Par définition, la dérivé première d'une fonction sigmoïde $ \sigma(x) $ est: $ \sigma'(x) = \sigma(x) (1-\sigma(x)) $

$$
\begin{align}
J(\vec{w}, b) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)}\log{f_{\vec{w}, b}(\vec{x}^{(i)})} + (1-y^{(i)})\log{(1-f_{\vec{w}, b}(\vec{x}^{(i)}))} \right]
\left\{
\begin{array}{ll}
& \text{Soit } \vec{z} = X \cdot \vec{w} + b \\
& \text{Soit } F_{x} = f_{\vec{w}, b}(\vec{x}^{(i)}) \text{ la fonction sigmoïde} \\
& \text{Soit } u = y^{(i)}\log{F_{x}} + (1-y^{(i)})\log(1-F_{x}) \\
\end{array}
\right.
\end{align}
$$

$$ 
\begin{align}
\frac{\partial u}{\partial F_{x}} & = \frac{y^{(i)}}{F_{x}} - \frac{1-y^{(i)}}{1-F_{x}} \\
\frac{\partial F_{x}}{\partial x} & = F_{x}(1-F_{x}) \\
\frac{\partial z}{\partial w_{j}} & = x_{j} \\
\frac{\partial z}{\partial b} & = 1 \\
\end{align}
$$

$$ \text{En appliquant la règle de dérivation par chaîne on obtient: } $$

$$
\begin{align}
\frac{\partial u}{\partial w_{j}} & = \frac{\partial u}{\partial F_{x}} \cdot \frac{\partial F_{x}}{\partial x} \cdot \frac{\partial z}{\partial w_{j}} \\
\frac{\partial u}{\partial b} & = \frac{\partial u}{\partial F_{x}} \cdot \frac{\partial F_{x}}{\partial x} \cdot \frac{\partial z}{\partial b} \\
\end{align}
$$

$$
\begin{align}
\frac{\partial u}{\partial w_{j}} & = (\frac{y^{(i)}}{F_{x}} - \frac{1-y^{(i)}}{1-\log{F_{x}}}) \cdot F_{x}(1-F_{x}) \cdot x_{j} \\
& = (\frac{(1-F_{x})y^{(i)} - F_{x}(1-y^{(i)})} {F_{x}(1-F_{x})}) \cdot F_{x}(1-F_{x}) \cdot x_{j} \\
& = ((1-F_{x})y^{(i)} - F_{x}(1-y^{(i)})) \cdot x_{j} \\
& = (y^{(i)}-y^{(i)}F_{x} - F_{x} + F_{x}y^{(i)}) \cdot x_{j} \\
\frac{\partial u}{\partial w_{j}} & = (y^{(i)} - F_{x}) \cdot x_{j} \\
\end{align}
$$

$$ 
\begin{align}
\frac{\partial u}{\partial b} & = (\frac{y^{(i)}}{F_{x}} - \frac{1-y^{(i)}}{1-\log{F_{x}}}) \cdot F_{x}(1-F_{x}) \\
& = (\frac{(1-F_{x})y^{(i)} - F_{x}(1-y^{(i)})} {F_{x}(1-F_{x})}) \cdot F_{x}(1-F_{x}) \cdot x_{j} \\
& = ((1-F_{x})y^{(i)} - F_{x}(1-y^{(i)})) \\
& = (y^{(i)}-y^{(i)}F_{x} - F_{x} + F_{x}y^{(i)}) \cdot x_{j} \\
\frac{\partial u}{\partial b} & = (y^{(i)} - F_{x}) \\
\end{align}
$$

$$ \text{On substitue: }$$

$$ 
\begin{align}
\frac{\partial}{\partial \vec{w}}J(\vec{w},b) & = -\frac{1}{m} \sum_{i=1}^{m} \frac{\partial u}{\partial w_{j}} = -\frac{1}{m} \sum_{i=1}^{m} (y^{(i)} - F_{x}) \cdot x_{j} = \frac{1}{m} \sum_{i=1}^{m} (F_{x} - y^{(i)}) \cdot x_{j} = \frac{1}{m} \sum_{i=1}^{m} (f_{\vec{w}, b}(x_{j}^{(i)}) - y^{(i)}) \cdot x_{j} \\
\frac{\partial}{\partial b}J(\vec{w},b) & = -\frac{1}{m} \sum_{i=1}^{m} \frac{\partial u}{\partial b} = -\frac{1}{m} \sum_{i=1}^{m} (y^{(i)} - F_{x}) = \frac{1}{m} \sum_{i=1}^{m} (F_{x} - y^{(i)}) = \frac{1}{m} \sum_{i=1}^{m} (f_{\vec{w}, b}(x_{j}^{(i)}) - y^{(i)}) \\
\end{align}
$$

$$ \text{On obtient: }$$

$$ 
\begin{align}
\frac{\partial}{\partial \vec{w}}J(\vec{w},b) & = \frac{1}{m} \sum_{i=1}^{m} (f_{\vec{w}, b}(x^{(i)}) - y^{(i)}) \cdot \vec{x} \\
\frac{\partial}{\partial b}J(\vec{w},b) & = \frac{1}{m} \sum_{i=1}^{m} (f_{\vec{w}, b}(x^{(i)}) - y^{(i)}) \\
\end{align}
$$

On peut désormais définir la fonction de gradient, puis l'algorigthme de descente de gradient.