## Cours sur la Régression Logistique

### 1. **Introduction à la Régression Logistique**

La régression logistique est une technique de machine learning supervisé utilisée pour la classification binaire, c'est-à-dire pour prédire l'appartenance d'une observation à l'une de deux classes. Contrairement à la régression linéaire, qui prédit des valeurs continues, la régression logistique prédit une probabilité qui peut ensuite être convertie en une classe.

### 2. **Concepts Clés**

#### **2.1. Fonction Logistique (Sigmoïde)**

La régression logistique repose sur la fonction logistique, aussi appelée fonction sigmoïde, qui est définie comme suit :

\[
\sigma(z) = \frac{1}{1 + e^{-z}}
\]

où :
- \( z \) est une combinaison linéaire des caractéristiques d'entrée,
- \( \sigma(z) \) renvoie une valeur comprise entre 0 et 1, représentant une probabilité.

#### **2.2. Modèle de Régression Logistique**

Le modèle de régression logistique prend la forme suivante :

\[
p(y=1|X) = \sigma(\beta_0 + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n)
\]

où :
- \( p(y=1|X) \) est la probabilité que la variable cible \( y \) soit égale à 1,
- \( \beta_0 \) est l'intercept (ordonnée à l'origine),
- \( \beta_1, \beta_2, \dots, \beta_n \) sont les coefficients des caractéristiques \( x_1, x_2, \dots, x_n \),
- \( X \) est le vecteur des caractéristiques.

### 3. **Interprétation des Résultats**

#### **3.1. Probabilité et Prédiction**

La sortie du modèle est une probabilité, et pour faire une prédiction de classe (0 ou 1), un seuil est appliqué. Par défaut, le seuil est de 0,5 :

- Si \( p(y=1|X) \geq 0.5 \), alors \( \hat{y} = 1 \) (classe positive).
- Si \( p(y=1|X) < 0.5 \), alors \( \hat{y} = 0 \) (classe négative).

#### **3.2. Coefficients (β)**

Les coefficients \( \beta \) dans un modèle de régression logistique sont interprétés en termes de changement logarithmique des cotes (odds). Le logarithme des cotes est linéairement lié aux caractéristiques.

\[
\text{logit}(p) = \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_nx_n
\]

Les cotes représentent le rapport des probabilités d'un événement se produisant par rapport à l'événement inverse.

### 4. **Entraînement du Modèle**

#### **4.1. Fonction de Coût (Log-Loss)**

La fonction de coût pour la régression logistique est la log-vraisemblance négative (ou log-loss), qui mesure la divergence entre les prédictions du modèle et les étiquettes réelles.

\[
\text{Cost} = -\frac{1}{m} \sum_{i=1}^{m} \left[ y_i \log(p_i) + (1-y_i) \log(1-p_i) \right]
\]

où :
- \( m \) est le nombre d'observations,
- \( y_i \) est la valeur réelle de la classe,
- \( p_i \) est la probabilité prédite par le modèle.

#### **4.2. Optimisation**

Le modèle de régression logistique est ajusté en minimisant la fonction de coût à l'aide de techniques d'optimisation telles que la descente de gradient.

### 5. **Exemple Concret avec `scikit-learn`**

#### **Étape 1 : Importation des Bibliothèques**

```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
```

#### **Étape 2 : Chargement et Préparation des Données**

Nous utiliserons ici un dataset fictif sur l'admission à l'université basé sur les scores des tests d'admission :

```python
# Exemple de dataset
data = {
    'score_test1': [34, 78, 67, 89, 45, 56, 72, 83, 91, 67],
    'score_test2': [78, 85, 95, 65, 50, 70, 88, 60, 62, 55],
    'admission': [0, 1, 1, 1, 0, 0, 1, 0, 1, 0]
}

df = pd.DataFrame(data)
X = df[['score_test1', 'score_test2']]
y = df['admission']
```

#### **Étape 3 : Division des Données en Ensembles d'Entraînement et de Test**

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```

#### **Étape 4 : Entraînement du Modèle**

```python
model = LogisticRegression()
model.fit(X_train, y_train)
```

#### **Étape 5 : Prédictions et Évaluation**

```python
y_pred = model.predict(X_test)

# Évaluation
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print("Accuracy:", accuracy)
print("Confusion Matrix:\n", conf_matrix)
print("Classification Report:\n", class_report)
```

### 6. **Métriques d'Évaluation**

#### **Accuracy**
Proportion de prédictions correctes sur l'ensemble des prédictions.

#### **Matrice de Confusion**
Tableau qui montre les prédictions correctes et incorrectes pour chaque classe.

#### **Rapport de Classification**
Il fournit des informations détaillées sur la précision (precision), le rappel (recall), et le F1-score pour chaque classe.

### 7. **Avantages et Limitations de la Régression Logistique**

#### **Avantages :**
- **Simplicité** : Facile à interpréter et à implémenter.
- **Efficacité** : Fonctionne bien avec des datasets de petite à moyenne taille.
- **Probabilités** : Fournit des probabilités, ce qui est utile dans des applications sensibles au risque.

#### **Limitations :**
- **Linéarité** : Suppose une relation linéaire entre les caractéristiques et le logit, ce qui peut être limitatif pour les relations complexes.
- **Classification Binaire** : Conçu pour la classification binaire, bien qu'il puisse être étendu à la classification multiclasse (par exemple, avec l'approche "one-vs-rest").

### 8. **Conclusion**

La régression logistique est un outil puissant pour les problèmes de classification binaire. Sa simplicité et son efficacité en font un choix privilégié pour de nombreux problèmes de machine learning, en particulier lorsque les relations entre les variables sont approximativement linéaires. Pour des relations plus complexes, des techniques supplémentaires telles que la régularisation, la transformation des caractéristiques ou l'utilisation d'autres algorithmes de classification peuvent être nécessaires.