# Normalisation des données avec Sklearn

Dans ce notebook, on va apprendre à normaliser les données avec sklearn.

# Importation des packages

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

Fonction de la régression linéaire coder à la main.

In [None]:
class linear_regression():
  def __init__(self, x, seed=None):
    m, n = x.shape
    np.random.seed(seed)
    self._w = np.random.rand(n+1,1)

  def predict(self, x):
    m, n = x.shape
    x_1 = np.hstack((np.ones((m, 1)), x))
    return np.dot(x_1, self._w)

  def compute_cost(self, y, y_hat):

    m, _ = y.shape

    return 1/(2*m) * np.dot((y-y_hat).T, (y-y_hat))

  def fit(self, x, y, learning_rate=0.001, num_iters=200):
    m, n = x.shape
    x_1 = np.hstack((np.ones((m, 1)), x))
    J_history = np.zeros(num_iters)

    for i in range(0, num_iters):

      self._w = self._w - (learning_rate/m) * np.dot(x_1.T, (self.predict(x)-y))

      J_history[i] = self.compute_cost(self.predict(x), y)

    return J_history

# Importation des données

Ajoutez un raccourci de ce dossier à votre google drive :

https://drive.google.com/drive/folders/1ghsB3WdBlyLRzvfede0KWDqf9P16KyHl?usp=sharing

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

In [None]:
multivariate_regression = np.genfromtxt('/content/drive/MyDrive/Turnover_prediction/multivariate_regression.txt', delimiter=',')

In [None]:
print("Dimension du jeu de données : "+str(multivariate_regression.shape))

# Etude des variables

## Population de la ville

In [None]:
multivariate_regression[:, 0]

Afficher la moyenne et le standard deviation de la variable 0.

In [None]:
print(None)
print(None)

## Note de la ville

Afficher la moyenne et le standard deviation de la variable 1.

In [None]:
multivariate_regression[:, 1]

In [None]:
print(None)
print(None)

## Variable cible : chiffre d'affaire

Afficher la moyenne et le standard deviation de la variable 2.

In [None]:
multivariate_regression[:, 2]

In [None]:
print(None)
print(None)

# Préparation des données

In [None]:
x = multivariate_regression[:, :2]
y = multivariate_regression[:, 2].reshape((multivariate_regression.shape[0], 1))

Utilisez la fonction Sklearn *train_test_split* pour diviser votre ensemble de données en deux ensembles aléatoires.

Utilisez un random_state de 123 et utilisez 10% de votre jeu de données pour l'ensemble de test.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).


In [None]:
x_train, x_test, y_train, y_test = None

In [None]:
print("Dimension train : "+str(x_train.shape))
print("Dimension train : "+str(x_test.shape))

In [None]:
print("Dimension train : "+str(y_train.shape))
print("Dimension train : "+str(y_test.shape))

# Régression linéaire sans normalisation des données

## Problème 1 : Convergence du modèle

Initialisation du modèle.

In [None]:
lin_reg = linear_regression(x_train)

Entraînement du modèle

In [None]:
history = lin_reg.fit(x_train, y_train, learning_rate=0.01, num_iters=300)

Visualisation du coût lors de l'entraînement

In [None]:
plt.plot(history)
plt.xlabel("Itérations")
plt.ylabel("J(W)")
plt.title("Evolution du coût pendant l\'entraînement")
plt.show()

Visualisation de l'évolution du coût.

In [None]:
history

## Problème 2 : interprétabilité du modèle

Diminution des valeurs du jeu d'entraînement et de test.

In [None]:
x_train_small = x_train / 1000
x_test_small = x_test / 1000

Visualisation des anciennes moyennes.

In [None]:
print(x_train.mean(axis=0))
print(x_test.mean(axis=0))

Visualisation des nouvelles moyennes.

In [None]:
print(x_train_small.mean(axis=0))
print(x_test_small.mean(axis=0))

Intialisation d'un nouveau modèle

In [None]:
lin_reg = linear_regression(x_train_small)

Entraînement du modèle prélablement initialisé.

In [None]:
history = lin_reg.fit(x_train_small, y_train, learning_rate=0.01, num_iters=300)

Visualisation de l'évolution du coût pendant l'entraînement.

In [None]:
plt.plot(history)
plt.xlabel("Itérations")
plt.ylabel("J(W)")
plt.title("Evolution du coût pendant l\'entraînement")
plt.show()

Visualisation de la variable prédite en fonction de la variable cible.

In [None]:
plt.scatter(lin_reg.predict(x_train_small), y_train)
plt.plot(np.arange(100000, 700000), np.arange(100000, 700000), color='red')
plt.ylabel('Variable cible')
plt.xlabel('Variable prédite')
plt.show()

Visualisation des coefficient du modèle.

In [None]:
lin_reg._w

Quelle est la variable la plus importante du modèle ?

**Votre réponse**

In [None]:
print('Moyenne variable 1 (population) : '+str(x_train_small[:, 0].mean()))
print('Moyenne variable 2 (note) : '+str(x_train_small[:, 1].mean()))

Comme les moyennes des variables sont différentes, les paramètres du modèle doivent s'y adapter.

Si les échelles des variables ne sont pas les mêmes il n'y a aucun moyen de savoir quel paramètre est le plus important.

# Normalisation des données avec sklearn

Pour l'utilisation d'un modèle linéaire, il est indispensable de passer par une étape de normalisation des données.

Cette étape permet de rendre le modèle interprétable mais aussi de faciliter la convergence du modèle.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

Initialisation de la classe avec aucun paramètre.

In [None]:
std = None

Entraînement de *std* en utilisant le fonction `fit`

In [None]:
None

Visualisez la moyenne et la variance calculer avec les attributs `mean_` et `var_`

In [None]:
print('Mean : '+str(None))
print('Std : '+str(None))

Utilisez la méthode `transform` sur le train.

In [None]:
x_train_std = None

Afficher la moyenne et variance sur le jeu d'entraînement avant la standardisation.

In [None]:
print(None)
print(None)

Afficher la moyenne et variance sur le jeu d'entraînement après la standardisation.

In [None]:
print(None)
print(None)

Utilisation de la méthode `fit_transform` sur le jeu d'entraînement pour entraîner et appliquer sur le jeu d'entraînement en même temps.

In [None]:
x_train_std = None

Affichez la moyenne et la variance obtenu sur `x_train_std`

In [None]:
print(None)
print(None)

## Gestion du train et du test

Initialisation des objets *StandardScaler*.

In [None]:
std1 = None
std2 = None

Utilisez la méthode `fit_transform` pour entraîné et appliquer le modèle sur le jeu d'entraînement et de test.

In [None]:
x_train_std = None
x_test_std = None

Visualisez la moyenne et la variance calculé par *std1*.

In [None]:
print('Mean : '+str(None))
print('Std : '+str(None))

Visualisez la moyenne et la variance calculé par *std2*.

In [None]:
print('Mean : '+str(None))
print('Std : '+str(None))

Création d'un exemple

In [None]:
exemple = np.array([100, 1]).reshape(1, 2)
exemple

Appliquez *std1* sur *exemple*.

In [None]:
None

Appliquez *std2* sur *exemple*.

In [None]:
None

On peut voir que pour des mêmes valeurs les résultats seront différent s'ils ont été transformé par *std1* et *std2*.

## Bonne pratique

Intialisez qu'un seul *std*.

In [None]:
# Initialisation
std = None

Entraînement de *std* sur le jeu d'entraînement.

In [None]:
# Training
None

Application de *std* sur le jeu d'entraînement et de test.

In [None]:
# Transform
x_train_std = None
x_test_std = None

# Entraînement d'un modèle de régression linéaire

Initialisation du modèle de régression linéaire.

In [None]:
lin_reg = linear_regression(x_train_std)

Entraînement du modèle.

In [None]:
history = lin_reg.fit(x_train_std, y_train, learning_rate=0.1, num_iters=100)

Visualisation de l'évolution sur coût pendant l'entraînement.

In [None]:
plt.plot(history)
plt.xlabel("Itérations")
plt.ylabel("J(W)")
plt.title("Evolution du coût pendant l\'entraînement")
plt.show()

Visualisation de la performance du modèle.

In [None]:
plt.scatter(lin_reg.predict(x_test_std), y_test)
plt.plot(np.arange(100000, 700000), np.arange(100000, 700000), color='red')
plt.ylabel('Variable cible')
plt.xlabel('Variable prédite')
plt.show()

Visualisation des paramètres du modèles.

In [None]:
lin_reg._w

Quelle est la variable la plus importante du modèle ?

**Votre réponse**