# Chapitre 3 : Comprendre la régression linéaire et logistique avec scikit-learn 📊🧠

Dans ce cours, nous allons explorer les concepts fondamentaux de la régression linéaire et logistique en utilisant la bibliothèque scikit-learn. Nous verrons comment ces modèles peuvent être appliqués à des problèmes de prédiction et de classification.

N'hésite pas à lire ces ressources ✅

- [Documentation officielle de scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Guide de démarrage rapide scikit-learn](https://scikit-learn.org/stable/getting_started.html)
- [Tutoriel sur la régression linéaire](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares)
- [Tutoriel sur la régression logistique](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)

Si tu as des questions ! 🙌🏼 Lance-toi !

Durant cette masterclasse et en prenant en compte les différents retours des masterclasses précédentes, nous allons travailler de la sorte:

- Découverte des concepts de régression linéaire et logistique
- Utilisation de scikit-learn pour implémenter ces modèles
- Application sur des jeux de données réels
- Visualisation des résultats avec Matplotlib et Seaborn

## 1. Le machine learning ? Kesako ? 🤔

Dans cette partie je vais vous expliquer ce que c'est le machine learning et comment ça fonctionne.
Le but étant de vous faire comprendre les concepts de base de ce domaine de l'intelligence artificielle.
- C'est quoi un modèle ?
- Comment l'entraîner ?
- Comment l'utiliser ?
- Comment évaluer la performance d'un modèle ?



### 1.1. Qu'est-ce qu'un modèle ? 🧮

Un modèle est un ensemble d'algorithmes qui permettent de faire des prédictions.

C'est tout !

Parmi des modèles célèbres, on peut citer :
 1. GPT (Generative Pretrained Transformer) 🤖
- **Description** : Modèle génératif basé sur les transformer, utilisé pour prédire le prochain mot dans une séquence et générer du texte.
- **Créateur** : OpenAI.
- **Lien** : [GPT-3 paper](https://arxiv.org/abs/2005.14165)

2. BERT (Bidirectional Encoder Representations from Transformers) 📖
- **Description** : Modèle de langage bidirectionnel pour comprendre le contexte des mots dans un texte, utilisé pour des tâches comme la compréhension de texte.
- **Créateur** : Google.
- **Lien** : [BERT paper](https://arxiv.org/abs/1810.04805)

3. Regression Linéaire 📈
- **Description** : Modèle de **régression** simple qui trouve la meilleure ligne droite pour prédire une variable continue à partir d’une ou plusieurs variables indépendantes.
- **Usage** : Utilisé pour des tâches de prédiction comme les ventes, le prix des maisons, etc.

4. Regression Logistique 🔢
- **Description** : Modèle de **classification** qui prédit des probabilités et classe les données dans deux catégories (binaire) ou plusieurs catégories (multinomial).
- **Usage** : Utilisé pour des tâches de classification comme la détection de spam, le diagnostic médical.

5. ResNet (Residual Networks) 🖼️
- **Description** : Réseau de neurones profond conçu pour la classification d'images, avec des connexions résiduelles pour faciliter l'entraînement.
- **Créateur** : Microsoft Research.
- **Lien** : [ResNet paper](https://arxiv.org/abs/1512.03385)

Dans les faits, c'est une **fonction** mathématique qui prend une **<span style="color: blue;">entrée</span>** et retourne une **<span style="color: red;">Sortie</span>**:

<div style="text-align: center;">
<img src="./image/basic.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>

On appelle **entrée** les caractéristiques (**<span style="color: blue;">features</span>**) 📊 et **sortie** la cible (**<span style="color: red;">Target</span>**). 🎯


Dans d'autres termes les entrées sont les données que l'on va utiliser pour effectuer une prédiction  et possédant les mêmes carectiristiques que les données avec lesquelles nous avons <span style="color: green;">**construit (train)**</span> notre modèle et la sortie est le retour de la fonction avec nos données entrées.

Prenons l'éxemple du titanic que nous avons vu dans le cours 2.


<div style="text-align: center;">
<img src="./image/titanic_predict.png" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>

Dans le cas du titanic, l'entrée est constituée des caractéristiques de la personne (âge, sexe, classe, etc...) et la sortie est la classe (probabilité) qui determine si la personne ai survécu.

Dans cet éxemple, notre **modèle**  serait cette fonction mathématique, <span style="color: green;">construite</span> avec les données que nous avons dans le dataset du titanic, c'est à dire nos données d'entrainement alias **<span style="color: blue;">features</span>** et nos sortie alias **<span style="color: red;">target</span>**.

De manière générale on nomme nos features **<span style="color: blue;">X</span>** et notre target **<span style="color: red;">y</span>**.



Dans cette introduction nous avons vu trois élèments très importants :
- **<span style="color: blue;">features</span>** >> Qui représente nos données avec lesquelles nous allons construire notre modèle.
- **<span style="color: red;">target</span>** >> Qui représente la sortie que nous souhaitons prédire.
- **<span style="color: green;">modèle</span>** >> Qui représente la fonction mathématique que nous allons construire avec les <span style="color: blue;">features</span> et la <span style="color: red;">target</span>.



### 1.2 Construire un modèle, supérvisé ? non supervisé ? 🧱

<!-- Dans les faits, la construction d'un modèle se fait en 3 étapes :
- **<span style="color: green;">Entrainement</span>** >> Qui consiste à construire le modèle en utilisant les features et le target.
- **<span style="color: purple;">Validation</span>** >> Qui consiste à évaluer la performance du modèle sur des données qui n'ont pas été utilisées pour l'entrainement.
- **<span style="color: brown;">Test</span>** >> Qui consiste à évaluer la performance du modèle sur des données qui n'ont pas été utilisées pour l'entrainement et la validation. -->
Pour construire un modèle, nous devons lui permettre d'apprendre quelques chose. Nous appelons cette phase la phase d'**<span style="color: green;">apprentissage</span>**.

Avant d'aller plus, loin. J'aimerais vous parler des deux grandes familles de modèles que vous rencontrez dans le machine learning. Les modèles **supervisés** et les modèles **non supervisés**.

Je vous ai parlé dans la partie precedente de la **<span style="color: red;">target</span>** . La **<span style="color: red;">target</span>** 🎯 est la valeur que nous souhaitons prédire. 

Prenons le schéma suivant: 
<div style="text-align: center;">
<img src="./image/basic_plus.png" width="800" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>


1. Nous donnons à notre modèle des **<span style="color: blue;">features</span>** 📊. && Nous donnons à notre modèle une **<span style="color: red;">target</span>** 🎯.

2. Notre modèle va essayer d'apprendre la relation entre les **<span style="color: blue;">features</span>** 📊 et la **<span style="color: red;">target</span>** 🎯.

3. Notre modèle peut être utilisé pour faire des prédictions.

⚠️
```Je vous ai menti, il arrive que nous ne connaissions pas cette target 🤷🏽‍♂️. ```

Il éxiste deux grandes catégories de modèles :
- Les modèles **supervisés**
- Les modèles **non supervisés**
  
Un petit éxemple de cette différence :

<div style="text-align: center;">
<img src="./image/supvsunsup.png" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>

Dans le cas du Titanic, nous avons une **<span style="color: red;">classe, une étiquette, une target 🎯, un y</span>** (j'ai plus de synonymes 😅). 
Vous-vous rappelez de la partie 2 ? Avec les données du titanic, nous avions un dataset avec des features et finalement une target. 
<div style="text-align: center;">
<img src="./image/survived.png" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
<figcaption>Supervised vs Unsupervised</figcaption>
</div>

**<span style="color: red;">Elle représente notre classe, celle qui indique si la personne a survécu au naufrage du Titanic ou non.</span>**

Si je souhaite prédire la probabilité que la personne ai survécu, je vais utiliser un modèle supervisé. Sachant que mes données sont déja étiquetté. 

Voila à quoi ressemble une phase d'entrainement d'un modèle **supérvisé** ici une regression logistique: 

<div style="text-align: center;">
<img src="./image/logistic.gif" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
<figcaption>Entrainement d'un modèle supervisé</figcaption>
</div>

Il faut souligner plusieurs points dans ce graphique:
- Le modèle essai de comprendre quelque chose 
- Il essai de séparer les données en deux catégories
- Il essai de trouver la meilleure ligne  pour séparer les deux catégories
- Il y a des **<span style="color: orange;">epochs</span>** ? 
- Il y a un **<span style="color: wheat;">cost</span>** ? 

```On y reviendra très rapidement.```

Les modèles non supérvisés permettent de façon general d'effectuer des tâches de classification exploratoire. Par exemple une segmentation des données ou alors des groupements. 

Il faut retenir que ce type de modèle ne sont pas **<span style="color: green;">entrainés</span>** avec une **<span style="color: red;">target</span>** 🎯. Il cherche à trouver des similarités entre les données. 

<div style="text-align: center;">
<img src="./image/k_means.gif" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
<figcaption>Kmeans</figcaption>
</div>

Dans l'éxemple précedent, on peut voir que le modèle essai de regrouper les données en fonction de leur ressemblance. Le Kmeans va de façon générale regrouper les données en fonction de leur distance.
C'est un algorithme non supervisé. Il cherche à classifier les données en fonction de leur similarité. Car il ne connait pas les **<span style="color: red;">étiquettes (y) de ces données. 🎯</span>**

Ci dessous un tableau récapitulatif de la différence entre les modèles supervisés et non supervisés :


| Type d'apprentissage    | Cas d'utilisation préférés                              | Exemples d'algorithmes                   |
|-------------------------|--------------------------------------------------------|------------------------------------------|
| **Supervisé**            | - Prédiction de valeurs numériques (régression)        | Régression linéaire, Réseaux de neurones |
|                         | - Classification des emails (spam/non-spam)            | SVM, KNN, Régression logistique          |
|                         | - Prédiction de la maladie d'un patient                | Arbres de décision, Forêts aléatoires    |
|                         | - Reconnaissance faciale                               | Réseaux de neurones convolutionnels (CNN)|
|                         | - Détection de fraudes bancaires                       | Forêts aléatoires, SVM                   |
|                         | - Analyse des sentiments (positif/négatif)             | Réseaux de neurones, SVM                 |
|                         | - Prédiction de la demande de stock                    | Régression linéaire, Régression Ridge    |
| **Non supervisé**        | - Segmentation de clients en groupes                   | K-Means, DBSCAN                          |
|                         | - Détection d'anomalies dans les données               | Isolation Forest, Algorithmes de clustering |
|                         | - Réduction de la dimensionnalité des données          | PCA (Analyse en Composantes Principales) |
|                         | - Groupement des documents par thème                   | Modèles de clustering (K-Means)          |
|                         | - Compression d'image                                  | Autoencodeurs                            |
|                         | - Analyse de la structure d'une base de données        | Algorithmes de clustering, K-Means       |
|                         | - Identification de caractéristiques latentes          | Autoencodeurs, Réseaux de neurones       |



