# TD Régression 
Le jeu de données utilisé est issu du livre d'Aurélien Géron, "Machine Learning avec Scikit Learn" (Dunod edition) ; c'est une version modifiée d'un jeu de données original de Luís Torgo. Ces données ont été proposées dans un article de 1997 du journal Statistics and Probability Letters. Ce sont des données du recensement de Californie de 1990. Chaque ligne correspond à un groupe de "blocks", ou district, (plus petite unité géographique utilisée par le Bureau du recensement aux États-Unis, représentatif d'une population entre 600 et 3 000 personnes). A ces données de recensement, un attribut supplémentaire sur la proximité avec l'Océan Pacifique a été ajouté : ocean_proximity.

### Objectifs
Les principaux objectifs de la séances sont de comprendre les étapes de création d'un modèle de régression et de s'approprier le code Python correspondant : 
- 1. Importation des données, 
- 2. visualisation et analyse des données, 
- 3. construction d'un premier modèle (quick & dirty) : choix et entrainement 
- 5. évaluation des performances du modèle, 
- 6. amélioration du modèle (travail sur les données; choix des algorithmes)



In [1]:
# importation bibiliothèques
import pandas as pd
#import numpy as np
#import matplotlib.pyplot as plt
#import matplotlib as mlp
import scikit 

# 1. Importation des données
Vous devez :
- vérifier que les données sont bien importées 
- comprendre à quoi elles correspondent 
- évaluer la volumétrie
- comprendre en quoi consistera le problème de régression.

In [2]:
# chargement des données à partir du csv
housing = pd.read_csv("housing2.csv")

# affichage des premières lignes des données
housing.head()

# résumé de la volumétrie et du type des données
housing.info()

# résumé statistique
housing.describe() 

# Les valeurs de "ocean_proximity" ne sont pas affichées ! 
housing["ocean_proximity"].unique()

housing["ocean_proximity"].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB


<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

# 2. Visualisation, Nettoyage et Analyse des données
## 2.1 Visualisation
A partir des visualisations proposées (vous pouez en faire d'autres), quelles sont vos premières conclusions sur les données utilisées ?

In [None]:
# Visualisation de chaque variable sous forme d'un histogramme
import matplotlib.pyplot as plt
housing.hist(bins=50,figsize=(20,15))
plt.show()

In [None]:
# Visualisation "géographique"
housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.1)

In [None]:
# Visualisation "géographique" en couleur
housing.plot(kind="scatter",x="longitude",y="latitude",alpha=0.4,
            s=housing["population"]/100,label="population",
            c="median_house_value",cmap=plt.get_cmap("jet"),
            colorbar=True)
plt.legend()

## 2.2 Nettoyage - gestion des valeurs manquantes (ici nulles)
Avez vous identifiés que des valeurs sont manquantes ? 
Si oui elles peuvent être traitées de la manière suivante :
- on supprime les valeurs(lignes) correspondantes
- on se débarrasse de la variable/feature(colonne) complétement
- on remplace les valeurs manquantes avec une certaine valeur (zéro, moyenne, médiane, etc.), c'est l'imputation.

In [4]:
# On peut tester s'il y a des valeurs non définies
print(housing.isna().sum())

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64


In [5]:
# Imputation par valeur médiane
from sklearn.impute import SimpleImputer
imputer=SimpleImputer(strategy="median")

# Attention : commme SimpleImputer ne fonctionne que sur des variables/features numériques, 
# on doit retirer celles qui ne le sont pas pour Imputer

# Récupération des variables numériques
housing_num=housing.drop("ocean_proximity",axis=1)

# Imputation
imputer.fit(housing_num) 
housing_num_tr=imputer.transform(housing_num)

# transformation en dataframe : housing_num_sans0
housing_num_sans0=pd.DataFrame(housing_num_tr,columns=housing_num.columns)

print(housing_num_sans0.isna().sum())

ModuleNotFoundError: No module named 'sklearn'

## 2.3 Analyse des données  - étude des corrélations
Comment les corrélations vont vous aider à construire votre premier modèle de régression?

In [None]:
# Calcul de la matrice des coefficients de Pearson 
corr_matrix=housing.corr()

In [None]:
# Visualisation de la matrice des coefficients de Pearson
import seaborn as sns
heat_map = sns.heatmap(corr_matrix, center=0, annot=True)

In [None]:
# Visualisation de la scatter matrice 
from pandas.plotting import scatter_matrix
scatter_matrix(housing,figsize=(12,8))

# possibilité de le faire sur certaines variables. par exemple:
#attributs=["median_house_value","median_income","total_rooms","housing_median_age"]
#scatter_matrix(housing[attributs],figsize=(12,8))

Quelles sont vos conclusions ?



# 3. Construction d'un premier modèle (quick & dirty),

## 3.1 Choix des entrées/features et de la sortie/valeur à prédire
Vous disposez des données numériques nettoyées dans housing_num_sans0

Mais la variable catégorielle (proximité de l'océan est encore sous forme de chaines de caractères. Il est nécessaire de la coder sous forme numérique.

## gestion des valeurs non  numériques (optionel)
La variable ocean_proximity n'est pas numérique, il est donc nécessaire de la coder sous forme numérique. Deux méthodes sont proposées.

In [None]:
# Méthode 1
# Chaque classe est codée en un entier compris entre 0 et N-1 (N: nombre de classes)

from sklearn.preprocessing import LabelEncoder
encoder1=LabelEncoder()
housing_cat=housing["ocean_proximity"]
housing_cat_encoded=encoder1.fit_transform(housing_cat)
housing_cat_encoded

# remarque l'opération inverse est alors
# encoder1.inverse_transform(housing_cat_encoded)

# Quel est le défaut d'un tel codage?

In [None]:
# Méthode 2
# Chaque classe est codée par une liste avec N-1 zéros et 1 un. La position du un indique la classe
from sklearn.preprocessing import OneHotEncoder
encoder2=OneHotEncoder()
housing_cat_hot= encoder2.fit_transform(housing[["ocean_proximity"]])
# autre syntaxe:housing_cat_hot=encoder2.fit_transform(housing_cat_encoded.reshape(-1,1))

# On obtient un objet de type matrice creuse par défaut, besoin de le convertir en matrice
housing_cat_hot_encoded=housing_cat_hot.toarray()
housing_cat_hot_encoded

# Quel est le défaut d'un tel codage?

## Choix des entrées/sorties

Vous avez à choisir les données en entrée et sortie de votre premier modèle qui servira de référence pour la suite : 
- Entrées: X
- Sortie: y

Conseil : démarrez avec un premier modèle simple que vous chercherez à améliorer par la suite

In [None]:
# Sauvegarde des données nettoyées (au cas où on modifie housing_num_sans0)
hoosing_save = pd.DataFrame.copy(housing_num_sans0)

In [None]:
# Création de X : par exemple copie puis suppression des colonnes hors modèle
X = pd.DataFrame.copy(housing_num_sans0)
X = pd.DataFrame.drop(X,columns=["housing_median_age","total_rooms","total_bedrooms","population","households", "median_house_value"])
X

In [None]:
# Création de y
y = housing_num_sans0[["median_house_value"]]
y

# 3.2 Normalisation/Standardisation des données
L'ordre de grandeur des valeurs numériques va avoir un effet sur le processus d'entrainement. Il est nécessaire de normaliser ou standardiser les données du modèle.

Standardisation d'une variable avec StandardScaler: 
- nouvelle variable a moyenne nulle et écart type égal à 1 

Normalisation d'une variable: 
- nouvelle variable comprise entre 0 et 1 : avec MinMaxScaler
- nouvelle variable comprise entre -1 et +1 : avec MaxAbsScaler 

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X)
X_stand = scaler.transform(X)
scaler.fit(y)
y_stand = scaler.transform(y)

## 3.3 Choix d'un type de modèle et des données d'entrainement (et de test)
On ne va utiliser que 80% (par exemple) des données pour l'entrainement du modèle. Les 20% restant seront utilisés plus tard... On appèlera "données d'entraintement" les 80% et "données de test" les 20%.
On va tester comme premier type de modèle, un modèle de régression linéaire.

In [None]:
# Création des données d'entrainement (X_train / y_train) et de test (X_test / y_test )
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_stand, y_stand, test_size=0.2, random_state=42)

In [None]:
# Choix d'un modèle de regression linéaire pour l'entrainement
from sklearn.linear_model import LinearRegression
lin_reg=LinearRegression()

## 3.4 Entrainement

In [None]:
# entrainement
lin_reg.fit(X_train,y_train)

# 4. Evaluation des performances du modèle

In [None]:
# Evaluation du modèle sur les données d'entrainement
Prediction_train=lin_reg.predict(X_train)

# Choix d'une métrique : par exemple RMSE
from sklearn.metrics import mean_squared_error
MSE_train = mean_squared_error(y_train,Prediction_train)
RMSE_train = np.sqrt(MSE_train)
RMSE_train

In [None]:
# Evaluation du modèle sur les données de test
Prediction_test=lin_reg.predict(X_test)

# Choix d'une métrique : par exemple RMSE
from sklearn.metrics import mean_squared_error
MSE_test = mean_squared_error(y_test,Prediction_test)
RMSE_test = np.sqrt(MSE_test)
RMSE_test

Quelles sont vos conclusions sur ce premier modèle ? 

# 6. Amélioration des performances du modèle
Il existe de très nombreuses manières d'obtenir un modèle plus performant. Tout d'abord en examinant en détails  les situations où le modèle est médiocre afin d'en déduire des solutions d'amélioration.
Sinon, de manière systématique, voici des pistes d'amélioration :
- ajouter ou retirer des entrées/features
- créer de nouveaux features; par exemple, le nombre total de chambres dans un district n'a peut être pas beaucoup de signification mais le nombre moyen de chambre par foyer sans doute plus etc.
- régulariser le modèle linéaire : regression ridge, regression lasso
- changer de type de modèles, par exemple on considérant des arbres de regression ou des forêts aléatoires
- changer de stratégie d'entrainement avec la validation croisée

In [None]:
# Quelques fonctions

# regression ridge
# from sklearn.linear_model import Ridge
# lin_reg_ridge = Ridge(alpha=1.0)
# lin_reg_ridge.fit(..., ...)
# ...=lin_reg_ridge.predict(...)

# regression lasso
# lin_reg_lasso = linear_model.Lasso(alpha=0.1)
# lin_reg_lasso.fit(..., ...)
# ...=lin_reg_lasso.predict(...)

# arbres de regression
# from sklearn.tree import DecisionTreeRegressor
# tree_reg=DecisionTreeRegressor()
# tree_reg.fit(...,...)
# ...=tree_reg.predict(...)
# tree_mse= mean_squared_error(...,...)
# tree_rmse = np.sqrt(tree_mse)

# Validation croisée (ici en exemple avec arbre de regression)
# from sklearn.model_selection import cross_val_score
# scores=cross_val_score(tree_reg,...,...,scoring="neg_mean_squared_error",cv=10)
# rmse_scores=np.sqrt(-scores)
# remarque : avec cross_val_score, on ne cherche pas à minimiser une fonction cout 
# mais à maximiser une fonction "utilité" d'où le signe négatif.


# Forêt aléatoire + validation croisée
# from sklearn.ensemble import RandomForestRegressor
# forest_reg = RandomForestRegressor()
# rf_scores=cross_val_score(forest_reg,...,...,scoring="neg_mean_squared_error",cv=5)
# rf_rmse_scores=np.sqrt(-rf_scores)
