# ML - Régression linéaire simple (univariée)

Le **Machine Learning**. Vous entendez ces mots partout. Ils semblent aussi mystérieux que prometteurs. "C'est l'avenir !" entend-on partout.



## Objectifs

- Comprendre ce qu'est le Machine Learning
- Comprendre le concept de régression linéaire
- Effectuer une régression linéaire en utilisant Seaborn et Scikit Learn.

## Quelle école la machine fréquente-t-elle ?


![image.png](attachment:image.png)

L'**apprentissage automatique** est en fait une famille d'algorithmes qui apprennent à partir d'exemples. Ces algorithmes "apprennent" en extrayant des caractéristiques des données qui leur ont été fournies afin d'effectuer une tâche spécifique.

Il existe de nombreux types d'algorithmes différents. Ils se répartissent généralement en quatre catégories différentes. Les algorithmes peuvent donc être classés comme suit :

- Régression : utilisée pour trouver un nombre sur une dimension continue
- Classification : utilisée pour trouver une catégorie
- Supervisé : contient des données qui ont été annotées (étiquetées) afin que l'algorithme sache ce qu'il doit rechercher.
- Non-supervisé : contient des données qui ne sont pas annotées, et l'algorithme essaie de trouver des similitudes ou des différences pour faire ses propres regroupements dans les données.

> Tu pourrais te dire : je vais faire une classification sur des nombres ? Techniquement c'est possible. La bonne question à se poser est : que se passe-t-il si mon modèle répond "presque" bien.

> - Par exemple, j'essaye d'estimer le poids du métal de la tour Eiffel. J'utilise une régression, et mon algorithme indique 7302 tonnes au lieu de 7300 tonnes. C'est faux, et pourtant je suis très satisfait du résultat, car très proche de la réalité. Nous sommes bien sur une donnée "continue et ordonnée", et donc un problème de régression.
> - Si j'essaye de deviner si un mail est un spam (1) ou un e-mail normal (0), et que mon algorithme indique 1,2, je ne suis pas satisfait. L'e-mail est-il un spam ou non ? Ce n'est pas une donnée "continue et ordonnée". Il ne peut pas y avoir de réponse "proche". Nous sommes sur un problème de classification.

Petite ressource vidéo pour aider à comprendre

(Il n'est PAS NÉCESSAIRE de comprendre les algorithmes utilisés mais cette vidéo est surtout destinée à donner un bref aperçu de ce qui est possible !)

https://www.youtube.com/watch?v=ukzFI9rgwfU

## Evolution ou régression ?

![image.png](attachment:image.png)

Pour l'instant, concentrons-nous sur les **régressions** :



> "En statistiques, en économétrie et en apprentissage automatique, un modèle de régression linéaire est un modèle de régression qui cherche à établir une relation linéaire entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives."

[source Wikipedia](https://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire)

**Plus simplement, la régression linéaire prend 2 listes de nombres (listes python, colonnes SQL, tableaux Numpy, séries Pandas), et suppose qu'il existe une relation linéaire entre elles. C'est-à-dire que si l'une augmente, l'autre augmente, et vice versa, un peu comme si vous aviez des données sur les "prix des loyers" et les "mètres carrés de logement"..**

![image.png](attachment:image.png)

**Avertissement** il ne s'agit pas d'une causalité, mais seulement d'une corrélation. Un modèle de régression linéaire, et plus largement de Machine Learning, **ne doit jamais** empêcher le data analyst de prendre un recul métier, de faire une analyse des données, décider quels éléments sont les plus importants, ou répondre à la question principale : corrélation ou causalité ? Sinon, les résultats du modèle seront considérés comme aberrants.

L'objectif de l'algorithme est de trouver la **ligne de régression**. Cette ligne peut être représentée mathématiquement par : `Y=β1+ε`. Je vous assure que vous n'aurez pas à faire de maths ou à la résoudre. L'algorithme fera tout pour vous.

## SciKit-Learn

![image.png](attachment:image.png)

A partir de maintenant, pour faire fonctionner le machine learning, nous utiliserons toujours la bibliothèque **SciKit-Learn**. C'est une bibliothèque très puissante avec une syntaxe simple et standardisée.

Voyons cela :

In [None]:
from sklearn.linear_model import LinearRegression
X = df[['variable_column']]
y = df['target_column']

# We train a "model" with "fit" function. This model will store coefficients after training.
model = LinearRegression().fit(X, y)

# We can print coefficients :
print("coefficient :",model.coef_)
print("intercept :", model.intercept_)

# Or use "predict" function to predict a new value from the variable column:
print(model.predict([[10]]))

Tu découvriras cette syntaxe en détail dans le challenge.



## Ressources :

#### L'intuition derrière la régression linéaire - Ajuster une ligne à vos données

Cette courte vidéo de 10 minutes donne un exemple de base de ce que vous essayez d'accomplir en effectuant une régression linéaire et fournit de belles illustrations de ce que vous essayez de minimiser dans l'algorithme.

https://www.youtube.com/watch?v=PaFPbb66DxQ

## Ressources supplémentaires / facultatives : 

#### Tutoriel sur l'apprentissage automatique - Qu'est-ce que l'apprentissage automatique ? Pourquoi est-ce important ?

Cette vidéo d'une heure présente une introduction à l'utilisation de l'apprentissage automatique. Plus précisément, elle explique ce qu'est l'apprentissage automatique, pourquoi il est utilisé, les différents types d'apprentissage automatique et donne un exemple d'algorithmes d'apprentissage automatique de base utilisés quotidiennement. Pour cette quête spécifique, une introduction est donnée dans les 15 premières minutes tandis que la régression linéaire (qui est l'algorithme couvert dans ce challenge) est couverte **en détail entre 16:50 et 25:43**

https://www.youtube.com/watch?v=DWsJc1xnOZo

#### Détails mathématiques de la régression linéaire - Une plongée plus profonde

Êtes-vous intéressé par les mathématiques de la régression linéaire ? Vous voulez savoir exactement quelle fonction de perte est optimisée ? Êtes-vous intéressé par tout le jargon de l'apprentissage automatique couramment utilisé ? Consultez ce tutoriel si vous voulez une version plus détaillée !

https://towardsdatascience.com/the-complete-guide-to-linear-regression-analysis-38a421a89dc2

# Challenge

## Effectuer une régression linéaire avec Seaborn et Scikit-Learn


Dans ce défi, vous devrez accomplir une série de missions pour apprendre à utiliser les régressions linéaires univariées, et apprendre la syntaxe de Scikit-Learn.

Créez une copie de [Challenge ML - Régression linéaire simple (univariée)](https://drive.google.com/file/d/1cHcEag8IlRVw_u4HvVwXr2B6DHXtlkZd/view?usp=drive_link) et relevez le défi.
