# Notebook Pratique - Régression

## Instructions importantes!
* Ce Notebook sera utilisé en continu tout au long du cours. Il sera donc important de le garder bien structuré et ordonné.
* À chaque leçon, vous allez rajouter une section à ce Notebook avec les exercices associés aux apprentissages du cours. 
* À la fin du cours, vous obtiendrez un Notebook complet représentant l'entièreté d'un projet d'apprentissage automatique.
* Ce Notebook sera unique et personnalisé pour chaque élève. 
* **Il vous servira donc de référence pour votre projet d'intégration final.**

## Information sur le jeu de données

Tout au long des ateliers qui suivront, vous allez utiliser ce même jeu de données à plusieurs reprises.

Il s'agit du jeu de données `concrete.csv` représentant des mesures de solidité du ciment soumis à un test de compression. La variable cible à prédire est composée de valeurs continues. C'est donc un problème de régression.

Lien vers le jeu de données : https://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strength

Voici les colonnes du jeu de données :

| Nom original | Nom officiel | Nom pratique |
|--------------|--------------|--------------|
| Cement    | cement     | cement     |
| Blast Furnace Slag    | blast_furnace_slag     | blast     |
| Fly Ash    | fly_ash     | fly     |
| Water    | water      | water      |
| Superplasticizer   | superplasticizer        | super        |
| Coarse Aggregate   | coarse_Aggregate        | coarse        |
| Fine Aggregate   | fine_aggregate        | fine        |
| Age   | age        | age        |
| Concrete compressive strength   | concrete_compressive_strength        | strength        |

Il y a un total de 1030 échantillons de ciment qui ont été testés billets de banque qui ont été mesurés. Chaque ligne du jeu de données représente les valeurs mesurées pour un échantillon de ciment.

## PRÉPARATION DU NOUVEAU JEU DE DONNÉES

In [None]:
# Importer la librairie pandas
import pandas as pd

# Télécharger le jeu de données
data = pd.read_csv('concrete.csv')

# Observer le jeu de données brute
data.head()

Unnamed: 0,cement,blast_furnace_slag,fly_ash,water,superplasticizer,coarse_aggregate,fine_aggregate,age_day,concrete_compressive_strength
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.986111
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.887366
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.269535
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05278
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.296075


In [None]:
# Remplacer le nom des colonnes
colnames = ['cement', 'blast', 'fly', 'water', 'super', 'coarse', 'fine', 'age', 'strength']
data.columns = colnames

# Observer le jeu de données avec les nouvelles colonnes
data.head()

Unnamed: 0,cement,blast,fly,water,super,coarse,fine,age,strength
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28,79.986111
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28,61.887366
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270,40.269535
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365,41.05278
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360,44.296075


In [None]:
data.tail()

Unnamed: 0,cement,blast,fly,water,super,coarse,fine,age,strength
1025,276.4,116.0,90.3,179.6,8.9,870.1,768.3,28,44.284354
1026,322.2,0.0,115.6,196.0,10.4,817.9,813.4,28,31.178794
1027,148.5,139.4,108.6,192.7,6.1,892.4,780.0,28,23.696601
1028,159.1,186.7,0.0,175.6,11.3,989.6,788.9,28,32.768036
1029,260.9,100.5,78.3,200.6,8.6,864.5,761.5,28,32.401235


In [None]:
data.dtypes

cement      float64
blast       float64
fly         float64
water       float64
super       float64
coarse      float64
fine        float64
age           int64
strength    float64
dtype: object

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1030 entries, 0 to 1029
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   cement    1030 non-null   float64
 1   blast     1030 non-null   float64
 2   fly       1030 non-null   float64
 3   water     1030 non-null   float64
 4   super     1030 non-null   float64
 5   coarse    1030 non-null   float64
 6   fine      1030 non-null   float64
 7   age       1030 non-null   int64  
 8   strength  1030 non-null   float64
dtypes: float64(8), int64(1)
memory usage: 72.5 KB


### Séparer les données en sous-ensemble X et y

In [None]:
# Préparation des données
X = data.iloc[:, 0:8]
y = data.iloc[:, 8]

In [None]:
# Imprimer l'aperçu des colonnes incluses dans X
X.head()

Unnamed: 0,cement,blast,fly,water,super,coarse,fine,age
0,540.0,0.0,0.0,162.0,2.5,1040.0,676.0,28
1,540.0,0.0,0.0,162.0,2.5,1055.0,676.0,28
2,332.5,142.5,0.0,228.0,0.0,932.0,594.0,270
3,332.5,142.5,0.0,228.0,0.0,932.0,594.0,365
4,198.6,132.4,0.0,192.0,0.0,978.4,825.5,360


In [None]:
# Imprimer les colonnes incluses dans X
y.head()

0    79.986111
1    61.887366
2    40.269535
3    41.052780
4    44.296075
Name: strength, dtype: float64

### 9.1 Erreur moyenne absolue (MAE)

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

In [None]:
# Définir le modèle à utiliser
lr_model = LinearRegression()

# Appliquer la validation croisée
cv_scores = cross_val_score(lr_model, X, y, cv=10, scoring='neg_mean_absolute_error')

In [None]:
# Extraire et imprimer la performance obtenue
print(f"Précision : {round(cv_scores.mean(), 3)} +/- {round(cv_scores.std(), 3)}")

Précision : -9.03 +/- 2.515


### 9.2 Erreur quadratique moyenne (MSE)

In [None]:
# Définir le modèle à utiliser
lr_model = LinearRegression()

# Appliquer la validation croisée
cv_scores = cross_val_score(lr_model, X, y, cv=10, scoring='neg_mean_squared_error')

In [None]:
# Extraire et imprimer la performance obtenue
print(f"Précision : {round(cv_scores.mean(), 3)} +/- {round(cv_scores.std(), 3)}")

Précision : -131.791 +/- 70.714


In [None]:
# Calculer le RMSE
from math import sqrt
print(f'RMSE : {round(sqrt(abs(cv_scores.mean())), 3)}')

RMSE : 11.48


### 9.3 R carré (R2)

In [None]:
# Définir le modèle à utiliser
lr_model = LinearRegression()

# Appliquer la validation croisée
cv_scores = cross_val_score(lr_model, X, y, cv=10, scoring='r2')

In [None]:
# Extraire et imprimer la performance obtenue
print(f"Précision : {round(cv_scores.mean(), 3)} +/- {round(cv_scores.std(), 3)}")

Précision : 0.278 +/- 0.522
