# Atelier 2 : Introduction au Machine Learning pour la regression


### Présentation du problème et du jeux de données

### Jeux de données
Cet ensemble de données contient des informations collectées par le US Census Service concernant le logement dans la région de Boston. Il a été obtenu à partir des archives StatLib (http://lib.stat.cmu.edu/datasets/boston) et a été largement utilisé par la littérature pour comparer les algorithmes. L'ensemble de données est de petite taille avec seulement 506 cas.

La variable cible ici 'medv' représente le prix, dans lequel la valeur médiane d'une maison doit être prédite.

Variables
    Il y a 14 attributs dans chaque cas de l'ensemble de données. 

- CRIM - taux de criminalité par habitant par ville
- ZN - proportion de terrains résidentiels zonés pour des lots de plus de 25 000 pi.ca.
- INDUS - proportion d'acres commerciales non commerciales par ville.
- CHAS - Variable fictive Charles River (1 si le tronçon délimite la rivière; 0 sinon)
- NOX - concentration en oxydes nitriques (parties pour 10 millions)
- RM - nombre moyen de pièces par logement
- AGE - proportion de logements occupés par le propriétaire construits avant 1940
- DIS - distances pondérées vers cinq centres d'emploi de Boston
- RAD - indice d'accessibilité aux autoroutes radiales
- TAXE - taux d'impôt foncier de pleine valeur par 10,000 dollars.
- PTRATIO - ratio élèves / enseignant par ville
- B - 1000 (Bk - 0,63)^2 où Bk est la proportion de noirs par ville
- LSTAT -% de statut inférieur de la population
- MEDV - Valeur médiane des logements occupés par le propriétaire en milliers de dollars.
    
**_Remarque :_** Le jeu de données comporte 506 enregistrements.

Note 1 : Un pieds² fait environ 0,092 m²

Note 2 : Le fichier de données est sous forme csv, vous le trouverez en : _/datasets/Boston.csv_



## Régression linéaire multivariée

Dans ce notebook, nous allons voir toutes les étapes permenntant de résoudre un problème d'apprentissage automatique.
Les problèmes d'apprentissage automatique sont généralement divisés en deux groupes. 


<math xmlns="http://www.w3.org/1998/Math/MathML" display="block">




<center>
  <mi>f</mi>
  <mo>:</mo>
  <mi>x</mi>
  <mo stretchy="false">&#x2192;<!-- → --></mo>
  <mi>y</mi>
</math></center>


 -  x représente l'entrée
 -  y représente la valeur de <mi>f(x)</mi>.


1. **Classification** - Si y est une variable discrète ou catégorique.
Les prédictions de la classification peuvent être évaluées à l'aide de la précision, contrairement aux prévisions de la régression.

2. **Régression** - Si y est un nombre réel ou continu.


Nous pouvons facilement comprendre que notre problème est un problème de régression, car nous voulons prédire le prix, qui est un nombre réel.

Remarque: La variable cible est généralement prédite non seulement avec une seule variable prédictive mais avec plusieurs. Dans ce cas, on parle de  Multivariate Regression (régression linéaire multivariée). Dans ce qui va suivre, on va implémenter les méthodes les plus connues en utilisant les libraires de Machine learning de Python.

### Multivariate Regression

Quand une variable cible est le fruit de la corrélation de plusieurs variables prédictives, on parle de Multivariate Regression pour faire des prédictions. Prenons, par exemple, la prédiction du prix d’une voiture. Le prix est la variable cible, les variables prédictives peuvent être : nombre de kilomètres au compteur, le nombre de cylindres, nombre de portes…etc. Toutes ces variables prédictives seront utilisées dans notre modèle de régression linéaire multivariée pour trouver une fonction prédictive.

Dans le cas de régression linéaire multivariée, la fonction prédictive s’écrira sous la forme :

![image.png](attachment:image.png)



A noter que :

        ε : est une constante
        α, β, γ…. : représente les coefficients de notre fonction prédictive F(X)
        X : est un vecteur/tableau de variables prédictives. Pour l’exemple de prédiction du prix de la maison, la taille du vecteur X sera égale à 2 (superficie en pied2 et le nombre de chambres)
          xi : représente la ième variable prédictive.

Maintenant qu’on sait à quoi ressemblera notre fonction prédictive ainsi que nos données, essayons d’appliquer ce concept dans un cas concret en le codant en Python.

### Chargement des données

On commence par charger les données contenues dans le fichier csv. Python propose via sa librairie Pandas des classes et fonctions pour lire divers formats de fichiers notamment les fichiers Excel.

In [None]:
import pandas as pd
df = pd.read_csv("datasets/Boston.csv")
df=df.drop(columns=['Unnamed: 0'], axis =1 )


In [None]:
df.head()

In [None]:
#df.medv.unique()

In [None]:
#on vérifie s'il n'y pas des valeurs nulles
df.isnull().sum()

In [None]:
#etude de la correlation
import seaborn as sns 
%matplotlib inline

matrice_corr = df.corr().round(1)
matrice_corr

In [None]:
sns.heatmap(data=matrice_corr, annot=True)

Le prix a une forte corrélation avec LSTAT et RM. Cependant il ne faut pas négliger les autres attributs comme CRIM,ZN,INDUS… car leur corrélation sont pas proches de 0. 
Il faut savoir que lorsqu’on fait une regression linéaire on pose certaines hypothèses notamment la Non colinéarité des variables explicatives (une variable explicative ne doit pas pouvoir s’écrire comme combinaison linéaire des autres).

TAX et RAD ont une corrélation de 0.9; NOX et  DIS et AGE ont une corrélation de 0.7 ; DIS et INDUS ont une corrélation de 0.7.
Après une analyse minutieuse nous choisissons : LSAT, RM,TAX,PTRATIO

On utilise pour le modèle les variables choisies ci-dessus ensuite on divise notre jeu de données en 2 parties (80%, pour l’apprentissage et les 20% restant pour le test.

In [None]:
#on utilise seulement 4 variables explicatives
X = df[['lstat','rm','tax','ptratio']]
Y= df[['medv']]

In [None]:
#base d'apprentissage et base de test
from sklearn.model_selection import train_test_split
 
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, 
                                                    test_size = 0.2, 
                                                    random_state=42)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

In [None]:
#entrainement du modèle
from sklearn.linear_model import LinearRegression

lmodellineaire = LinearRegression()
lmodellineaire.fit(X_train, Y_train)

In [None]:
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score

y_train_predict = lmodellineaire.predict(X_train)
rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))
r2 = r2_score(Y_train, y_train_predict)
 
print('La performance du modèle sur la base dapprentissage')
print('--------------------------------------')
print('Lerreur quadratique moyenne est {}'.format(rmse))
print('le score R2 est {}'.format(r2))
print('\n')
 
# model evaluation for testing set
y_test_predict = lmodellineaire.predict(X_test)
rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))
r2 = r2_score(Y_test, y_test_predict)
 
print('La performance du modèle sur la base de test')
print('--------------------------------------')
print('Lerreur quadratique moyenne est {}'.format(rmse))
print('le score R2 est {}'.format(r2))

### Regression Ridge

In [None]:
#on utilise toutes les variables explicatives
X = df[['crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'black', 'lstat']]
Y= df[['medv']]

In [None]:
#base d'apprentissage et base de test
from sklearn.model_selection import train_test_split
 
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, 
                                                    test_size = 0.2, 
                                                    random_state=5)
print(X_train.shape)
print(X_test.shape)
print(Y_train.shape)
print(Y_test.shape)

In [None]:
from sklearn.linear_model import Ridge
clf = Ridge()
clf.fit(X_train, Y_train)
train_score = clf.score(X_train, Y_train)
print('train score = ',train_score )

In [None]:
#Prédiction
pred = clf.predict(X_test)
mse = mean_squared_error(pred  , Y_test)
rmse = np.sqrt(mean_squared_error(pred,Y_test))
#print(' MSE = ',mse )
print(' RMSE = ',rmse )
r2 = r2_score(Y_test, pred)
print(' R2 = ',r2 )

### Regression LASSO

In [None]:
from sklearn.linear_model import Lasso
clf = Lasso()
clf.fit(X_train, Y_train)
train_score = clf.score(X_train, Y_train)
print('train score = ',train_score )

In [None]:
#Prédiction
pred = clf.predict(X_test)
mse = mean_squared_error(pred  , Y_test)
rmse = np.sqrt(mean_squared_error(pred,Y_test))
#print(' MSE = ',mse )
print(' RMSE = ',rmse )
r2 = r2_score(Y_test, pred)
print(' R2 = ',r2 )

### Elastic Net

In [None]:
from sklearn.linear_model import ElasticNet
clf = ElasticNet()
clf.fit(X_train, Y_train)
train_score = clf.score(X_train, Y_train)
print('train score = ',train_score )

In [None]:
#Prédiction
pred = clf.predict(X_test)
mse = mean_squared_error(pred  , Y_test)
rmse = np.sqrt(mean_squared_error(pred,Y_test))
#print(' MSE = ',mse )
print(' RMSE = ',rmse )
r2 = r2_score(Y_test, pred)
print(' R2 = ',r2 )

### Méthode de Random Forest
Pour une documentation complète : 
https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html#sklearn.ensemble.RandomForestRegressor




In [None]:
from sklearn.ensemble import RandomForestRegressor

clf = RandomForestRegressor(max_depth=None, n_estimators=100)
clf.fit(X_train, Y_train)# .values.ravel())

train_score = clf.score(X_train, Y_train)
print('train score = ',train_score )


In [None]:
ypred = clf.predict(X_test)
mse = mean_squared_error(ypred  , Y_test)
rmse = np.sqrt(mean_squared_error(ypred,Y_test))
print(' Random Forest RMSE = ',rmse )
r2 = r2_score(Y_test, ypred)
print(' Random Forest R2 = ',r2 )

### Pour aller plus loin :

### Normalisation des données et feature Scaling

Vous l’avez peut être remarqué, notre exemple comporte des variables prédictives avec des ordres de grandeurs très différents. En effet, le nombre de chambre d’une maison est généralement compris entre 1 et 10 alors que la superficie se compte en quelques milliers de pieds2.

Pour appliquer l’algorithme Multivariate Regression, il est nécessaire que les variables prédictives faisant partie du modèle prédictif soient du même ordre de grandeur. Généralement, il faut que la valeur de chaque variable prédictive soient compris (approximativement) entre -1 et 1. Si certaines valeurs dépassent un peu (par exemple -2 , 1.5…) ce n’est pas très grave.

Pour ramener nos variables prédictives au même ordre de grandeur, nous appliquerons un procédé qui s’appelle : _features scaling_

La librairie _Scikit learn_ de Python propose plusieurs classes et méthodes pour faire de la préparation de données (_Data pre-processing_) pour les algorithmes de Machine Learning. Le package sklearn.preprocessing propose la classe _StandardScaler_ qui permettra de faire du _features scaling_ sur toutes nos variables prédictives.

(voir tutoriel : https://www.datacorner.fr/feature-scaling/ )

In [None]:
from sklearn.preprocessing import StandardScaler
 
scale = StandardScaler()
#X_scaled = scale.fit_transform(X[['x1','X2']])

In [None]:
#from sklearn.model_selection import train_test_split
##decouper le data set en 30% pour test et 70% pour train
#X_train, X_test, y_train, y_test = train_test_split(X_scaled, Y, test_size=0.2, random_state=1)