# Chapitre 3 : Comprendre la r√©gression lin√©aire et logistique avec scikit-learn üìäüß†

Dans ce cours, nous allons explorer les concepts fondamentaux de la r√©gression lin√©aire et logistique en utilisant la biblioth√®que scikit-learn. Nous verrons comment ces mod√®les peuvent √™tre appliqu√©s √† des probl√®mes de pr√©diction et de classification.

N'h√©site pas √† lire ces ressources ‚úÖ

- [Documentation officielle de scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Guide de d√©marrage rapide scikit-learn](https://scikit-learn.org/stable/getting_started.html)
- [Tutoriel sur la r√©gression lin√©aire](https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares)
- [Tutoriel sur la r√©gression logistique](https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression)

Si tu as des questions ! üôåüèº Lance-toi !

Durant cette masterclasse et en prenant en compte les diff√©rents retours des masterclasses pr√©c√©dentes, nous allons travailler de la sorte:

- D√©couverte des concepts de r√©gression lin√©aire et logistique
- Utilisation de scikit-learn pour impl√©menter ces mod√®les
- Application sur des jeux de donn√©es r√©els
- Visualisation des r√©sultats avec Matplotlib et Seaborn

## 1. Le machine learning ? Kesako ? ü§î

Dans cette partie je vais vous expliquer ce que c'est le machine learning et comment √ßa fonctionne.
Le but √©tant de vous faire comprendre les concepts de base de ce domaine de l'intelligence artificielle.
- C'est quoi un mod√®le ?
- Comment l'entra√Æner ?
- Comment l'utiliser ?
- Comment √©valuer la performance d'un mod√®le ?



### 1.1. Qu'est-ce qu'un mod√®le ? üßÆ

Un mod√®le est un ensemble d'algorithmes qui permettent de faire des pr√©dictions.

C'est tout !

Parmi des mod√®les c√©l√®bres, on peut citer :
 1. GPT (Generative Pretrained Transformer) ü§ñ
- **Description** : Mod√®le g√©n√©ratif bas√© sur les transformer, utilis√© pour pr√©dire le prochain mot dans une s√©quence et g√©n√©rer du texte.
- **Cr√©ateur** : OpenAI.
- **Lien** : [GPT-3 paper](https://arxiv.org/abs/2005.14165)

2. BERT (Bidirectional Encoder Representations from Transformers) üìñ
- **Description** : Mod√®le de langage bidirectionnel pour comprendre le contexte des mots dans un texte, utilis√© pour des t√¢ches comme la compr√©hension de texte.
- **Cr√©ateur** : Google.
- **Lien** : [BERT paper](https://arxiv.org/abs/1810.04805)

3. Regression Lin√©aire üìà
- **Description** : Mod√®le de **r√©gression** simple qui trouve la meilleure ligne droite pour pr√©dire une variable continue √† partir d‚Äôune ou plusieurs variables ind√©pendantes.
- **Usage** : Utilis√© pour des t√¢ches de pr√©diction comme les ventes, le prix des maisons, etc.

4. Regression Logistique üî¢
- **Description** : Mod√®le de **classification** qui pr√©dit des probabilit√©s et classe les donn√©es dans deux cat√©gories (binaire) ou plusieurs cat√©gories (multinomial).
- **Usage** : Utilis√© pour des t√¢ches de classification comme la d√©tection de spam, le diagnostic m√©dical.

5. ResNet (Residual Networks) üñºÔ∏è
- **Description** : R√©seau de neurones profond con√ßu pour la classification d'images, avec des connexions r√©siduelles pour faciliter l'entra√Ænement.
- **Cr√©ateur** : Microsoft Research.
- **Lien** : [ResNet paper](https://arxiv.org/abs/1512.03385)

Dans les faits, c'est une **fonction** math√©matique qui prend une **<span style="color: blue;">entr√©e</span>** et retourne une **<span style="color: red;">Sortie</span>**:

<div style="text-align: center;">
<img src="./image/basic.png" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>

On appelle **entr√©e** les caract√©ristiques (**<span style="color: blue;">features</span>**) üìä et **sortie** la cible (**<span style="color: red;">Target</span>**). üéØ


Dans d'autres termes les entr√©es sont les donn√©es que l'on va utiliser pour effectuer une pr√©diction  et poss√©dant les m√™mes carectiristiques que les donn√©es avec lesquelles nous avons <span style="color: green;">**construit (train)**</span> notre mod√®le et la sortie est le retour de la fonction avec nos donn√©es entr√©es.

Prenons l'√©xemple du titanic que nous avons vu dans le cours 2.


<div style="text-align: center;">
<img src="./image/titanic_predict.png" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>

Dans le cas du titanic, l'entr√©e est constitu√©e des caract√©ristiques de la personne (√¢ge, sexe, classe, etc...) et la sortie est la classe (probabilit√©) qui determine si la personne ai surv√©cu.

Dans cet √©xemple, notre **mod√®le**  serait cette fonction math√©matique, <span style="color: green;">construite</span> avec les donn√©es que nous avons dans le dataset du titanic, c'est √† dire nos donn√©es d'entrainement alias **<span style="color: blue;">features</span>** et nos sortie alias **<span style="color: red;">target</span>**.

De mani√®re g√©n√©rale on nomme nos features **<span style="color: blue;">X</span>** et notre target **<span style="color: red;">y</span>**.



Dans cette introduction nous avons vu trois √©l√®ments tr√®s importants :
- **<span style="color: blue;">features</span>** >> Qui repr√©sente nos donn√©es avec lesquelles nous allons construire notre mod√®le.
- **<span style="color: red;">target</span>** >> Qui repr√©sente la sortie que nous souhaitons pr√©dire.
- **<span style="color: green;">mod√®le</span>** >> Qui repr√©sente la fonction math√©matique que nous allons construire avec les <span style="color: blue;">features</span> et la <span style="color: red;">target</span>.



### 1.2 Construire un mod√®le, sup√©rvis√© ? non supervis√© ? üß±

<!-- Dans les faits, la construction d'un mod√®le se fait en 3 √©tapes :
- **<span style="color: green;">Entrainement</span>** >> Qui consiste √† construire le mod√®le en utilisant les features et le target.
- **<span style="color: purple;">Validation</span>** >> Qui consiste √† √©valuer la performance du mod√®le sur des donn√©es qui n'ont pas √©t√© utilis√©es pour l'entrainement.
- **<span style="color: brown;">Test</span>** >> Qui consiste √† √©valuer la performance du mod√®le sur des donn√©es qui n'ont pas √©t√© utilis√©es pour l'entrainement et la validation. -->
Pour construire un mod√®le, nous devons lui permettre d'apprendre quelques chose. Nous appelons cette phase la phase d'**<span style="color: green;">apprentissage</span>**.

Avant d'aller plus, loin. J'aimerais vous parler des deux grandes familles de mod√®les que vous rencontrez dans le machine learning. Les mod√®les **supervis√©s** et les mod√®les **non supervis√©s**.

Je vous ai parl√© dans la partie precedente de la **<span style="color: red;">target</span>** . La **<span style="color: red;">target</span>** üéØ est la valeur que nous souhaitons pr√©dire. 

Prenons le sch√©ma suivant: 
<div style="text-align: center;">
<img src="./image/basic_plus.png" width="800" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>


1. Nous donnons √† notre mod√®le des **<span style="color: blue;">features</span>** üìä. && Nous donnons √† notre mod√®le une **<span style="color: red;">target</span>** üéØ.

2. Notre mod√®le va essayer d'apprendre la relation entre les **<span style="color: blue;">features</span>** üìä et la **<span style="color: red;">target</span>** üéØ.

3. Notre mod√®le peut √™tre utilis√© pour faire des pr√©dictions.

‚ö†Ô∏è
```Je vous ai menti, il arrive que nous ne connaissions pas cette target ü§∑üèΩ‚Äç‚ôÇÔ∏è. ```

Il √©xiste deux grandes cat√©gories de mod√®les :
- Les mod√®les **supervis√©s**
- Les mod√®les **non supervis√©s**
  
Un petit √©xemple de cette diff√©rence :

<div style="text-align: center;">
<img src="./image/supvsunsup.png" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
</div>

Dans le cas du Titanic, nous avons une **<span style="color: red;">classe, une √©tiquette, une target üéØ, un y</span>** (j'ai plus de synonymes üòÖ). 
Vous-vous rappelez de la partie 2 ? Avec les donn√©es du titanic, nous avions un dataset avec des features et finalement une target. 
<div style="text-align: center;">
<img src="./image/survived.png" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
<figcaption>Supervised vs Unsupervised</figcaption>
</div>

**<span style="color: red;">Elle repr√©sente notre classe, celle qui indique si la personne a surv√©cu au naufrage du Titanic ou non.</span>**

Si je souhaite pr√©dire la probabilit√© que la personne ai surv√©cu, je vais utiliser un mod√®le supervis√©. Sachant que mes donn√©es sont d√©ja √©tiquett√©. 

Voila √† quoi ressemble une phase d'entrainement d'un mod√®le **sup√©rvis√©** ici une regression logistique: 

<div style="text-align: center;">
<img src="./image/logistic.gif" width="600" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
<figcaption>Entrainement d'un mod√®le supervis√©</figcaption>
</div>

Il faut souligner plusieurs points dans ce graphique:
- Le mod√®le essai de comprendre quelque chose 
- Il essai de s√©parer les donn√©es en deux cat√©gories
- Il essai de trouver la meilleure ligne  pour s√©parer les deux cat√©gories
- Il y a des **<span style="color: orange;">epochs</span>** ? 
- Il y a un **<span style="color: wheat;">cost</span>** ? 

```On y reviendra tr√®s rapidement.```

Les mod√®les non sup√©rvis√©s permettent de fa√ßon general d'effectuer des t√¢ches de classification exploratoire. Par exemple une segmentation des donn√©es ou alors des groupements. 

Il faut retenir que ce type de mod√®le ne sont pas **<span style="color: green;">entrain√©s</span>** avec une **<span style="color: red;">target</span>** üéØ. Il cherche √† trouver des similarit√©s entre les donn√©es. 

<div style="text-align: center;">
<img src="./image/k_means.gif" width="500" style="box-shadow: 2px 2px 5px rgba(0, 0, 0, 0.3);border-radius: 10px;"/>
<figcaption>Kmeans</figcaption>
</div>

Dans l'√©xemple pr√©cedent, on peut voir que le mod√®le essai de regrouper les donn√©es en fonction de leur ressemblance. Le Kmeans va de fa√ßon g√©n√©rale regrouper les donn√©es en fonction de leur distance.
C'est un algorithme non supervis√©. Il cherche √† classifier les donn√©es en fonction de leur similarit√©. Car il ne connait pas les **<span style="color: red;">√©tiquettes (y) de ces donn√©es. üéØ</span>**

Ci dessous un tableau r√©capitulatif de la diff√©rence entre les mod√®les supervis√©s et non supervis√©s :


| Type d'apprentissage    | Cas d'utilisation pr√©f√©r√©s                              | Exemples d'algorithmes                   |
|-------------------------|--------------------------------------------------------|------------------------------------------|
| **Supervis√©**            | - Pr√©diction de valeurs num√©riques (r√©gression)        | R√©gression lin√©aire, R√©seaux de neurones |
|                         | - Classification des emails (spam/non-spam)            | SVM, KNN, R√©gression logistique          |
|                         | - Pr√©diction de la maladie d'un patient                | Arbres de d√©cision, For√™ts al√©atoires    |
|                         | - Reconnaissance faciale                               | R√©seaux de neurones convolutionnels (CNN)|
|                         | - D√©tection de fraudes bancaires                       | For√™ts al√©atoires, SVM                   |
|                         | - Analyse des sentiments (positif/n√©gatif)             | R√©seaux de neurones, SVM                 |
|                         | - Pr√©diction de la demande de stock                    | R√©gression lin√©aire, R√©gression Ridge    |
| **Non supervis√©**        | - Segmentation de clients en groupes                   | K-Means, DBSCAN                          |
|                         | - D√©tection d'anomalies dans les donn√©es               | Isolation Forest, Algorithmes de clustering |
|                         | - R√©duction de la dimensionnalit√© des donn√©es          | PCA (Analyse en Composantes Principales) |
|                         | - Groupement des documents par th√®me                   | Mod√®les de clustering (K-Means)          |
|                         | - Compression d'image                                  | Autoencodeurs                            |
|                         | - Analyse de la structure d'une base de donn√©es        | Algorithmes de clustering, K-Means       |
|                         | - Identification de caract√©ristiques latentes          | Autoencodeurs, R√©seaux de neurones       |



