# Intro ML Regression

## La Régression Linéaire

La régression linéaire cherche à ajuster une droite qui représente au mieux la relation entre une variable explicative ($x$) et une variable cible ($y$) :  
$y = ax + b$

Où :
- $a$ est la pente de la droite
- $b$ est l'ordonnée à l'origine

L'objectif est de minimiser l'erreur entre les valeurs prédites par le modèle et les valeurs réelles observées.


👉 Voici une visualisation interactive pour mieux comprendre comment la droite de régression est ajustée :  
[Visualisation dynamique](https://setosa.io/ev/ordinary-least-squares-regression/)


## Comment faire la cross validation

### Dataset `posts`

In [7]:
import pandas as pd
posts = pd.read_csv('data/posts.csv.bz', compression='bz2')

# Garder seulement le dernier message
posts = posts.sort_values(by='ts', ascending=True).drop_duplicates('id', keep='last')

#### Méthode Apprentissage-test

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

#Train-test split
posts_train, posts_test = train_test_split(posts, test_size=0.2)

#Création de X et y train et test
X_train = posts_train[['followers']]
X_test = posts_test[['followers']]

y_train = posts_train['likes']
y_test = posts_test['likes']

reg = LinearRegression()
reg.fit(X_train, y_train)

reg.score(X_test, y_test)

0.278832995645803

👆 Executez cette cellule plusieurs fois pour voir que le score change

#### Méthode cross-validate

Sans mélanger la base de données

In [13]:
from sklearn.model_selection import cross_validate

# Je crée X et y
X = posts[['followers']]
y = posts['likes']

# J'instancie le modèle
model = LinearRegression()


# Je cross valide le modèle
scores = cross_validate(model, X, y, cv = 5)
scores['test_score'].mean()

0.24825946185346143

👆 Le score reste le meme

En shufflant la base de données

In [27]:
# ici je prends un sample de 100% de la donnée mais mélangée
posts = posts.sample(frac = 1)


X = posts[['followers']]
y = posts['likes']

model = LinearRegression()

scores = cross_validate(model, X, y, cv = 5)

scores['test_score'].mean()

0.24777284243143954

👆 Le score changera un peu mais reste stable