# TP1 Machine Learning - Année 4 - ESILV - Septembre 2023
Ibrahim BITAR

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns



- numpy et pandas sont deux bibliothèques Python populaires pour la manipulation de données. numpy est principalement utilisé pour effectuer des opérations numériques sur des tableaux, tandis que pandas est utilisé pour travailler avec des données tabulaires (comme les données CSV) en utilisant des structures de données appelées DataFrames.


- ColumnTransformer est une classe fournie par la bibliothèque scikit-learn (sklearn). Elle permet de gérer différentes transformations sur les colonnes d'un jeu de données, ce qui est utile lorsque vous avez des colonnes avec différents types de données (numériques, catégoriques, textuelles) et que vous souhaitez les prétraiter de manière spécifique.

- Pipeline est une classe de scikit-learn qui permet de créer un flux de travail de traitement des données et d'apprentissage automatique en chaînant plusieurs étapes. Vous pouvez spécifier une séquence d'opérations à effectuer, du prétraitement des données à l'apprentissage du modèle, le tout dans une seule structure.

- SimpleImputer est utilisé pour gérer les valeurs manquantes dans les données en leur attribuant une valeur spécifique (par exemple, la moyenne des valeurs non manquantes).

- StandardScaler est utilisé pour mettre à l'échelle les caractéristiques numériques afin qu'elles aient une moyenne de zéro et un écart-type de un. Cela est souvent nécessaire pour de nombreux algorithmes d'apprentissage automatique.

- OneHotEncoder est utilisé pour transformer des variables catégorielles en variables binaires (0 ou 1) pour qu'elles puissent être utilisées dans les modèles d'apprentissage automatique.

- LogisticRegression est un modèle d'apprentissage automatique couramment utilisé pour la classification binaire.
train_test_split est une fonction de scikit-learn qui est utilisée pour diviser un ensemble de données en ensembles d'entraînement et de test, ce qui est essentiel pour évaluer la performance d'un modèle.

As you can remark, a sample-data repository is created after running the previous code. You have access to california_housing_test.csv, california_housing_train.csv, mnist_test.csv and mnist_train_small.csv. You can import a local csv files to your sample_data repo. Let import now the winequality-red.csv that you can download to your local computer from this link  here: https://archive.ics.uci.edu/dataset/186/wine+quality


In [None]:
wine = pd.read_csv("data/winequality-red.csv", sep=';')

In [None]:
from sklearn import preprocessing

group_names = ['bad', 'good']
catego = pd.cut(wine['quality'], bins=2, labels=group_names)
label_quality = preprocessing.LabelEncoder()
wine['quality'] = label_quality.fit_transform(catego)
print(wine['quality'].value_counts())
print(wine['quality'].head(20))


- pd.read_csv est une fonction de la bibliothèque pandas (pd) qui est utilisée pour lire un fichier CSV et le stocker dans un DataFrame, une structure de données tabulaire en deux dimensions.

- "data/winequality-red.csv" est un chemin relatif vers le fichier CSV. Assurez-vous que le fichier se trouve dans un dossier `data` à la racine du projet.

- Pour récupérer ce fichier si besoin, vous pouvez le télécharger depuis le [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv). Par exemple : `wget -O data/winequality-red.csv https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv`.

- sep=';' spécifie le séparateur de colonnes dans le fichier CSV. Dans ce cas, le point-virgule (;) est utilisé comme séparateur. Par défaut, la virgule (,) est utilisée comme séparateur, mais cela peut varier selon les fichiers CSV.

In [None]:
wine.info()

In [None]:
wine.describe()

In [None]:
wine.isnull().sum()

In [None]:
print(wine.head(3))

- wine.head(3) est utilisé pour afficher les trois premières lignes du DataFrame wine. La méthode head() est couramment utilisée pour afficher un aperçu des premières lignes d'un DataFrame et est utile pour vérifier rapidement les données et s'assurer qu'elles ont été chargées correctement.

### Histogrammes des caractéristiques
Ces diagrammes permettent de visualiser la distribution de chaque variable pour repérer tendances générales et valeurs aberrantes.


In [None]:
wine.hist(bins=20, figsize=(15,10))
plt.tight_layout()
plt.show()


- wine.hist() génère un histogramme pour chaque variable numérique du DataFrame.
- bins=20 spécifie le nombre de barres de chaque histogramme.
- figsize=(15, 10) définit la taille de l'ensemble des graphiques.


In [None]:
wine.plot(kind='box', subplots=True, layout=(3,4), sharex=False, sharey=False)
plt.show()

In [None]:
plt.figure(figsize=(12,8))
sns.heatmap(wine.corr(), annot=True, cmap='coolwarm')
plt.title('Matrice de corrélation')
plt.show()


Cette heatmap met en évidence les corrélations entre les variables : les couleurs vives indiquent des relations fortes, positives ou négatives.


In [None]:
from pandas.plotting import scatter_matrix
scatter_matrix(wine,figsize=(20,20))
plt.show()

- Chaque case de la matrice contient un diagramme de dispersion qui montre la relation entre deux variables numériques. La diagonale de la matrice contient des histogrammes de chaque variable par elle-même.

- Cette matrice permet de visualiser les relations entre toutes les paires de variables numériques dans le jeu de données sur la qualité du vin. Elle est utile pour détecter des tendances, des regroupements ou des valeurs aberrantes dans les données. Chaque diagramme de dispersion montre comment deux variables numériques sont distribuées et s'il existe une relation linéaire entre elles.

SKlearn Pipeline

In [None]:
#import classes
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score


# Remarques 
### StandardScaler 
C'est une classe de scikit-learn qui est utilisée pour mettre à l'échelle les caractéristiques numériques d'un ensemble de données. La mise à l'échelle est effectuée en soustrayant la moyenne de chaque caractéristique et en divisant par l'écart-type, ce qui permet de centrer les données autour de zéro et de les mettre à la même échelle.

### PCA 
C'est une classe de scikit-learn qui représente l'analyse en composantes principales (ACP). L'ACP est une technique de réduction de dimensionnalité qui permet de projeter les données dans un nouvel espace de caractéristiques tout en conservant le maximum d'information possible. Elle est couramment utilisée pour réduire la complexité des données.

### RandomForestClassifier 
C'est une classe de scikit-learn qui représente un modèle d'apprentissage automatique basé sur une forêt aléatoire pour la classification. Une forêt aléatoire est un ensemble d'arbres de décision, où chaque arbre est entraîné sur un sous-ensemble aléatoire des données. C'est un algorithme puissant pour la classification et la régression.

Pipeline creation

In [None]:
#create the pipeline
ML_pipeline = make_pipeline(StandardScaler(),
                        PCA(n_components=4),
                        RandomForestClassifier(criterion='entropy', n_estimators=100, max_depth=5, random_state=1))

- StandardScaler() est la première étape du pipeline. Elle normalise (met à l'échelle) les données d'entrée en soustrayant la moyenne et en divisant par l'écart-type. Cela est important pour de nombreux algorithmes d'apprentissage automatique, car il est préférable que toutes les caractéristiques aient la même échelle.

- PCA(n_components=4) C'est la deuxième étape du pipeline. Elle effectue l'analyse en composantes principales (ACP) pour réduire la dimension des données à 4 composantes principales. L'ACP est utilisée pour la réduction de dimensionnalité et la création de nouvelles caractéristiques qui capturent le maximum d'information à partir des caractéristiques originales.

- RandomForestClassifier(criterion='entropy', n_estimators=100, max_depth=5, random_state=1) est la troisième étape du pipeline. Elle utilise un modèle de forêt aléatoire pour la classification. Les hyperparamètres spécifiés incluent le critère de division des arbres (entropy), le nombre d'estimateurs (arbres) dans la forêt (100), la profondeur maximale des arbres (5), et la graine aléatoire (random_state=1) pour garantir la reproductibilité des résultats.

In [ ]:
X = wine.loc[:, 'fixed acidity':'alcohol']  # or: wine.drop('quality', axis=1)
y = wine['quality']
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, stratify=y, random_state=1)
ML_pipeline.fit(X_train, y_train)
y_pred = ML_pipeline.predict(X_test)
test_acc = ML_pipeline.score(X_test, y_test)
print(f'Test accuracy: {test_acc:.3f}')
diff = (y_test == y_pred)
diff


In [None]:
# Évaluation du modèle
labels = label_quality.transform(label_quality.classes_)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.3f}")
print("Classification report:
", classification_report(y_test, y_pred, labels=labels, target_names=label_quality.classes_))
cm = confusion_matrix(y_test, y_pred, labels=labels)
plt.figure(figsize=(5,4))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=label_quality.classes_,
            yticklabels=label_quality.classes_)
plt.xlabel('Prédit')
plt.ylabel('Réel')
plt.title('Matrice de confusion')
plt.show()


Les valeurs de précision, rappel et F1-score fournies par le rapport de classification permettent d'évaluer la qualité du modèle.
La matrice de confusion illustre les prédictions correctes (diagonale) et les erreurs entre les classes 'bad' et 'good'.
Une concentration des valeurs sur la diagonale principale indique une bonne performance, tandis que des valeurs hors diagonale révèlent les types d'erreurs restantes.

In [ ]:
import joblib
joblib.dump(ML_pipeline, 'rf_classifier.pkl')
# To load: RFmodel = joblib.load('rf_classifier.pkl')
