# Enonc√© 


Nous allons utiliser un jeu de donn√©es d√©crivant le prix des maisons dans diff√©rentes zones de Boston. 

üëâ Le jeu de donn√©es :

|Variable|Description|
|:---|:----|
| `CRIM`     | per capita crime rate by town |
| `ZN`       | proportion of residential land zoned for lots over 25,000 sq.ft. |
| `INDUS`    | proportion of non-retail business acres per town |
| `CHAS`     | Charles River dummy variable (= 1 if tract bounds river; 0 otherwise) |
| `NOX`      | nitric oxides concentration (parts per 10 million) |
| `RM`       | average number of rooms per dwelling |
| `AGE`      | proportion of owner-occupied units built prior to 1940 |
| `DIS`      | weighted distances to five Boston employment centres |
| `RAD`      | index of accessibility to radial highways |
| `TAX`      | full-value property-tax rate per \$ 10,000 |
| `PTRATIO`  | pupil-teacher ratio by town |
| `B`        | 1000(Bk - 0.63)^2` where Bk is the proportion of blacks by town |
| `LSTAT`    | percentage lower status of the population |
| `MEDV`     | Median value of owner-occupied homes in $1000's |
    
üëâ Objectif :
- Pr√©dire le prix des maisons (variable expliqu√©e) gr√¢ce aux diff√©rentes informations pr√©sentes dans le jeu de donn√©es (variables explicatives).

## Setup üíª

Importer les librairies 

In [None]:
import pandas as pd 
import seaborn as sns

## C'est parti üí™

## 1. Import des donn√©es 

Scikit learn embarque dans la librairie des jeux de donn√©es. Cela permet √† tout de le monde de les utiliser pour s'entrainer.   

Pour commencer on importe le jeu de donn√©es. 

In [None]:
from sklearn.datasets import load_boston
dataset_boston = load_boston()

**Quel est le type de cet objet ?**

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
type(dataset_boston)
```
</details>

Ce type est une extension d'un dictionnaire que nous avons vu pr√©c√©demment.

[Documentation de scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.utils.Bunch.html#sklearn.utils.Bunch)

**Regardez les cl√©s qui sont pr√©centes dedans**

In [81]:
# Votre code ici

<details><summary>Solution</summary>

```python 
dataset_boston.keys()
```
</details>

`data` contient les variables explicatives  
`target` contient la variable expliqu√©e (le prix)   
`features_names` contient le nom des varibles explicatives   
`DESCR` contient la description du jeux de donn√©es  
`filename` contient le nom du fichier   



Pour lire la description originale de ce jeu de donn√©e 

In [None]:
# dataset_boston.DESCR.split("\n")

**Chargez le contenu des donn√©es de ce dataset dans un DataFrame.**

- Les donn√©es sont contenu dans la cl√© `data` 
- le nom des colonnes dans la cl√© `feature_names`

In [82]:
# Votre code ici

<details><summary>Solution</summary>

```python 
boston_df = pd.DataFrame(dataset_boston.data, columns=dataset_boston.feature_names)
```
</details>

**Ajoutez la variable expliqu√©e *target* du dataset dans une colonne `PRIX` ce dataset**

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
boston_df['PRIX'] = dataset_boston.target
```
</details>

## 2. Exploration des donn√©es 

Nous cherchons √† comprendre comment les variables explicatives sont li√©es √† la variable expliqu√©e. 

**Repr√©sentez sur un nuage du point le `PRIX` en fonction de `DIS`**

Analysez aussi la corr√©lation entre ces deux variables. 

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
sns.scatterplot(x="DIS", y="PRIX", data=boston_df)
boston_df["PRIX"].corr(boston_df["DIS"])
```
</details>

**R√©pr√©senter sur un nuage de point le `PRIX` en fonction de `RM`**

Analysez aussi la corr√©lation entre ces deux variables. 

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
sns.scatterplot(x="RM", y="PRIX", data=boston_df)
boston_df["PRIX"].corr(boston_df["RM"])
```
</details>

üí° Le jeu de donn√©es contient 14 variables. Afin d'avoir un avis global sur la corr√©lation entre les variables on utilise souvent une matrice de corr√©lation. Cette matrice permet de repr√©senter la corr√©lation de chacune des variables. 

üëâ[Plus d'information sur la corr√©lation](https://fr.wikipedia.org/wiki/Corr%C3%A9lation_(statistiques))

**Dessiner la matrice de corr√©lation des variables du DataFrame** 

- Vous pouvez utilise la m√©thode pour calcul√©e la [corr√©lation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html) des variables d'un DataFrame
- Seaborn propose aussi une repr√©sentation par [zone de chaleur](https://seaborn.pydata.org/generated/seaborn.heatmap.html) qui est assez utile

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
matrice_corr = boston_df.corr().round(1)
sns.heatmap(data=matrice_corr, annot=True)
```
</details>

### Comment lire cette matrice de corr√©lation ? 

1. Chaque variable est fortement corr√©l√©e √† elle-m√™me. C'est pour cela que la diagonale de matrice est compos√©e de 1. 



2. Pour lire la corr√©lation des variables avec le `PRIX` il faut lire la derni√®re ligne de la matrice


- `RM` est fortement corr√©l√©e avec `PRIX`
- `LSTAT` est fortement corr√©l√©e avec `PRIX`
- Viennent ensuite `INDUS`, `PTRATIO` et `TAX`


3. Lors d'une r√©gression lin√©aire, les variables explicatives ne doivent pas √™tre corr√©l√©es entre elles. 


- `INDUS` et `TAX` sont corr√©l√©e de 0.7 Nous √©cartons donc `INDUS`


4. Nous choisissons donc les variables explicatives `RM`, `LSTAT`, `TAX`, `PTRATIO`

## 3. Mod√©lisation 

**G√©n√©rez un jeu d'apprentissage et un jeu d'entrainement avec nos 4 variables explicatives** 

In [None]:
# Votre code ici

<details><summary>ü§´Indice</summary>

Pour prendre une partie d'un DataFrame 
```python 
df_2 = df[["COL1", "COL2"]]
```
</details>

<details><summary>Solution</summary>

```python 
from sklearn.model_selection import train_test_split

train_data, test_data = train_test_split(boston_df[["RM", "LSTAT", "TAX", "PTRATIO", "PRIX"]], test_size=0.3)
```
</details>

**G√©n√©rez les variables explicatives et expliqu√©s de d'apprentissage et de test** 

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
X_train = train_data[["RM", "LSTAT", "TAX", "PTRATIO"]]
X_test = test_data[["RM", "LSTAT", "TAX", "PTRATIO"]]
y_train = train_data["PRIX"]
y_test = test_data["PRIX"]
```
</details>

**Entrainez la r√©gression lin√©aire sur les jeux de donn√©es d'apprentissage** 

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
from sklearn.linear_model import LinearRegression
 
model = LinearRegression()
model.fit(X_train, y_train)
```
</details>

### 4. Evaluation du mod√®le 

**Analysez la performance du mod√®le sur le jeu d'apprentissage** 

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
model.score(X_train, y_train)
```
</details>

**Analysez la performance du mod√®le sur le jeu de test** 

In [None]:
# Votre code ici

<details><summary>Solution</summary>

```python 
model.score(X_test, y_test)
```
</details>

## Pour aller plus loin 

Pour allez plus loin et appliquer une r√©gression polynomiale sur ce jeu de donn√©e, suivez le notebook [ici](https://github.com/lilstipher/ledatascientist/blob/master/regression-polynomiale/Regression%20polynomiale.ipynb) 