# Régression linéaire avec Scikit-Learn

Il existe une librairie open-source, appelée [scikit-learn](https://scikit-learn.org/stable/index.html), qui nous permet de travailler plus efficacement dans le domaine du machine learning.


## Buts

Dans ce TP, vous allez : 
- Utiliser scikit-learn pour implémenter une régression linéaire en utilisant la descente de gradient.


## Outils
- scikit-learn
- matplotlib
- numpy

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
from lab_utils_multi import  load_house_data
from lab_utils_common import dlc
np.set_printoptions(precision=2)
plt.style.use('./deeplearning.mplstyle')

# Descente de Gradient
Scikit-learn dispose d'un modèle de régression par descente de gradient [sklearn.linear_model.SGDRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html#examples-using-sklearn-linear-model-sgdregressor). Comme votre précédente implémentation de la descente de gradient, ce modèle fonctionne mieux avec des entrées normalisées. [sklearn.preprocessing.StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler) effectuera une normalisation de score z comme dans un TP précédent. Ici, il est appelé 'score standard'.

### Charger les données

In [None]:
X_train, y_train = load_house_data()
X_features = ['size(sqft)','bedrooms','floors','age']

### Normaliser les données d’entraînement.

In [None]:
scaler = StandardScaler()
X_norm = scaler.fit_transform(X_train)
print(f"Plage de pic à pic par colonne dans les X initiaux :{np.ptp(X_train,axis=0)}")   
print(f"Plage de pic à pic par colonne dans les X normalisés:{np.ptp(X_norm,axis=0)}")

### Créer et fit le modèle de régression

In [None]:
sgdr = SGDRegressor(max_iter=1000)
sgdr.fit(X_norm, y_train)
print(sgdr)
print(f"Nombre d'itérations complétées: {sgdr.n_iter_}, Nombres de mise-à-jour des poids: {sgdr.t_}")

### Voir les paramètres
Notez que les paramètres sont associés aux données d'entrée *normalisées*. Les paramètres d'ajustement sont très proches de ceux trouvés dans le TP précédent avec ces données.

In [None]:
b_norm = sgdr.intercept_
w_norm = sgdr.coef_
print(f"Paramètres du modèle:                   w: {w_norm}, b:{b_norm}")
print( "Paramètre du modèle du TP précédent: w: [110.56 -21.27 -32.71 -37.97], b: 363.16")

### Faire les prédictions
Prédisez les cibles sur les données d'entraînement. Utilisez la fonction `predict` ainsi que $w$ et $b$.


In [None]:
# faire une prédiction avec sgdr.predict()
y_pred_sgd = sgdr.predict(X_norm)

# faire une prédiction avec w,b.
y_pred = np.dot(X_norm, w_norm) + b_norm  
print(f"Prédiction avec np.dot() et sgdr.predict : {(y_pred == y_pred_sgd).all()}")

print(f"Prédiction sur les données d'entrainement:\n{y_pred[:4]}" )
print(f"Valeurs cibles \n{y_train[:4]}")

### Graphiques des résultats
Il ne nous reste plus qu'à faire des graphiques des prédictions VS les valeurs cibles.

In [None]:
fig,ax=plt.subplots(1,4,figsize=(12,3),sharey=True)
for i in range(len(ax)):
    ax[i].scatter(X_train[:,i],y_train, label = 'target')
    ax[i].set_xlabel(X_features[i])
    ax[i].scatter(X_train[:,i],y_pred,color=dlc["dlorange"], label = 'predict')
ax[0].set_ylabel("Price"); ax[0].legend();
fig.suptitle("target versus prediction using z-score normalized model")
plt.show()

## Félicitations
Dans ce TP, vous avez : 
- utilisé un framework open-source de machine learning, scikit-learn
- Implémenté une régression linéaire par descente de gradient ainsi que normalisation en utilisant ce framework. 
