# <center> TD4: Régression linéaire avec *scikit-learn* </center>


### 1) Utilisation de la classe *LinearRegression* sur le jeu de données précèdent

Nous allons maintenant utiliser la classe *LinearRegression* de *scikit-learn*. 
Nous allons générer le même jeu de données que précèdemment. 

- déterminer le modèle
- afficher la pente de la droite obtenue et l'ordonnée à l'origine
- afficher les résultats des calculs de l'erreur mse et rmse
- donner une représentation graphique du jeu de données ainsi que la droite de régression.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

#TODO

### 2) cas avec des caractéristiques multiples

Nous allons utiliser le jeu de données qui est dans *data/boston.txt*  
Ce jeu de données contient 506 échantillons et 12 variables caractéristiques. L’objectif est de prédire la valeur du prix des maisons (MEDV) en utilisant les variables caractéristiques.

Voici la description des données:

- CRIM : Taux de criminalité par habitant par ville.
- ZN : Proportion de zones de terrains résidentiels pour des lots de plus de 25 000 pieds carrés.
- INDUS : Proportion d’acres d’entreprises non commerciales par ville
- CHAS : Variable Dummy Charles River (= 1 si la parcelle borde la rivière ; 0 sinon)
- NOX : concentration d’oxyde nitrique (parties par 10 millions)
- RM : Nombre moyen de pièces par logement
- AGE : Proportion de logements occupés par leur propriétaire construits avant 1940
- DIS : Distances pondérées par rapport à cinq centres d’emploi de Boston
- RAD : Indice d’accessibilité aux autoroutes radiales
- TAX : Taux d’imposition foncière sur la pleine valeur par 10 000 $
- PTRATIO : ratio élèves/professeurs par ville
- ACC: ratio of accident
- LSTAT : Pourcentage de la population de statut inférieur
- MEDV : prix des maisons occupées par leur propriétaire, en milliers de dollars

- Commencer par charger les données caractéristiques dans un dataframe et les données cible dans un autre dataframe. Visualiser les premières lignes pour tester que tout s'est bien passé. 

In [19]:
df=pd.read_csv('data/boston.txt',sep='\s+',skiprows=22,header=None)
data=np.hstack([df.values[::2,:],df.values[1::2,:2]])
target = df.values[1::2,2]
columns= ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX','RM','AGE','DIS','RAD','TAX','PTRATIO','ACC','LSTAT']
boston=pd.DataFrame(data=data,columns=columns)
boston

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,ACC,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3,396.90,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.90,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.90,5.33
...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67
502,0.04527,0.0,11.93,0.0,0.573,6.120,76.7,2.2875,1.0,273.0,21.0,396.90,9.08
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.90,5.64
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48


Il faut maintenant pré-traiter les données (pas de valeurs nulles dans les colonnes )

In [28]:
boston[boston.isna().any(axis=1)]

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,ACC,LSTAT


Dans le cas des régressions linéaires multiples, deux conditions d’application sont nécessaires:  
- il doit y avoir une relation linéaire entre chaque variable caractéristique et la variable cible. 
- les variables caractéristiques doivent être indépendantes les unes des autres (il n’y a pas de colinéarité).

Nous allons construire la matrice de corrélation du jeu de donnéés qui nous montrera si des variables ont des relations de type linéaire avec la variable cible (coefficient proche de 1 ou -1). 



Pour cela utiliser, la méthode *corr()* de la classe *Dataframe*
- visualiser la matrice de corrélation obtenue (on pourra utiliser la méthode de la classe Dataframe *style.background_gradient(...)*)

In [30]:
matrix_corr = boston.corr()
matrix_corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,ACC,LSTAT
CRIM,1.0,-0.200469,0.406583,-0.055892,0.420972,-0.219247,0.352734,-0.37967,0.625505,0.582764,0.289946,-0.385064,0.455621
ZN,-0.200469,1.0,-0.533828,-0.042697,-0.516604,0.311991,-0.569537,0.664408,-0.311948,-0.314563,-0.391679,0.17552,-0.412995
INDUS,0.406583,-0.533828,1.0,0.062938,0.763651,-0.391676,0.644779,-0.708027,0.595129,0.72076,0.383248,-0.356977,0.6038
CHAS,-0.055892,-0.042697,0.062938,1.0,0.091203,0.091251,0.086518,-0.099176,-0.007368,-0.035587,-0.121515,0.048788,-0.053929
NOX,0.420972,-0.516604,0.763651,0.091203,1.0,-0.302188,0.73147,-0.76923,0.611441,0.668023,0.188933,-0.380051,0.590879
RM,-0.219247,0.311991,-0.391676,0.091251,-0.302188,1.0,-0.240265,0.205246,-0.209847,-0.292048,-0.355501,0.128069,-0.613808
AGE,0.352734,-0.569537,0.644779,0.086518,0.73147,-0.240265,1.0,-0.747881,0.456022,0.506456,0.261515,-0.273534,0.602339
DIS,-0.37967,0.664408,-0.708027,-0.099176,-0.76923,0.205246,-0.747881,1.0,-0.494588,-0.534432,-0.232471,0.291512,-0.496996
RAD,0.625505,-0.311948,0.595129,-0.007368,0.611441,-0.209847,0.456022,-0.494588,1.0,0.910228,0.464741,-0.444413,0.488676
TAX,0.582764,-0.314563,0.72076,-0.035587,0.668023,-0.292048,0.506456,-0.534432,0.910228,1.0,0.460853,-0.441808,0.543993


- Rechercher les variables qui sont les plus corrélées linéairement avec le prix (MEDV)
- pour chacune de ces variables représenter graphiquement le prix en fonction d'une variable choisie. Que constatez vous ?


In [5]:
#TODO

Mettre en place la régression linéaire qui prend en compte les variables précédentes.  
Vous allez d'abord séparer le jeu de données en 80% d'apprentissage et 20% de test

In [6]:
#TODO


- réaliser l'apprentissage de la droite de régression sur l'ensemble d'apprentissage et réaliser une prédiction sur ce même ensemble d'apprentissage.
- regarder en quoi consiste les mesures nommées, **coefficient de détermination: r_squared(r2)**, **l'erreur quadratique moyenne (mse)**, **racine de l'erreur quadratique (rmse)**
- utiliser **rmse** et **r-squared** pour déterminer les performances du modèle sur les données d'apprentissage

In [7]:

#TODO

Réaliser la prédiction sur l'ensemble de test et afficher les scores *rmse* et *r_squared(r2)*

In [8]:
#TODO