# Mini projet - Data mining - SDV Rennes 2023

## Objectif
Durant ce mini projet, on va essayer de travailler avec des données réelles.
Il est temps d'appliquer vos compétences acquises pendant cet enseignement dans un mini projet de modélisation décisionnelle à partir des données.
L'objectif est de déterminer la qualité d'un vin à partir de mesures des composantes chimiques.


## Sujet proposé
La prédiction de la qualité (entier entre 0 et 10) du vin à partir des mesures de ses composantes chimiques.
Pour ce mini projet, je propose d'utiliser ce dataset : http://archive.ics.uci.edu/ml/datasets/Wine+Quality


## Références utiles
- [Documentation scikit-learn](http://scikit-learn.org/stable/index.html)
- [Documentation Pandas](https://pandas.pydata.org/docs)
- [Documentation NumPy](https://docs.scipy.org/doc/numpy/user/index.html)
- [Documentation Matplotlib](http://matplotlib.org/)
- [Documentation Seaborn](https://seaborn.pydata.org/)
- [Dataset wine quality](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)


## Déroulement
- Pour qu'on soit efficace, et que ça soit un mini projet que vous pourriez utiliser comme référence, celui-ci sera guidé.
Comme ça va faire l'objet de la note finale de la partie pratique de l'examen (14 points), vous serez guidé par des exercices étape par étape.
- Vous pouvez travailler seul ou en binôme.



## Exercice 1 : Point métier
### Question 1.1 : Objectif
C'est quoi l'objectif de cette modélisation décisionnelle ? Dans la vraie vie, à ce stade, un point s'impose avec le PO pour clarifier le besoin. Aujourd'hui, vous portez sa casquette ;)  

**Réponse** : Déterminer la qualité d'un vin à partir de ses composants.

## Question 1.2 : Méthode décisionnelle
Analytiquement, existe-t-il une mét6hode qui nous permet de construire un modèle décisionnel fiable qui répond à l'objectif de l'étude ? Donnez une réponse logique, si possible avec un lien de référence.

**Réponse** : Nous avons une valeur qui oscille entre 0 et 10, ce qui constitue une variable quantitative. Les recherches sur internet ne permettent pas d'identifier une méthode mathématique prédéfinie pour estimer cette valeur bien qu'un ensemble de critères sont nécessaires pour cette estimation d'après [cet article](https://macaonews.org/fooddrinks/wine-tasting-essentials-part-1-how-to-inspect-a-wine-by-sight/). Parmis les méthodes factorielles, la méthode AFD ne constitue pas une méthode adéquate puisqu'elle est utilisée dans le cadre de l'analyse d'une variable qualitative, ou classification. **Nous allons donc nous orienter vers l'ACP pour réaliser cette modélisation décisionnelle puisqu'elle est la méthode d'estimation de variables continues**. Le reste du projet, on va adopter le choix d'appliquer une modélisation décisionnelle à partir des donées.  


**EDIT** : *LORS DE NOTRE MODELISATION, NOUS NOUS SOMMES RENDU COMPTE QUE LES TECHNIQUES DE MODÉLISATIONS POUR ESTIMER DES VARIABLES QUALITATIVES NE FONCTIONNENT PAS. EN CE SENS, NOUS NOUS SOMMES CONCENTRÉ SUR LA MODÉLISATION DE VARIABLE QUALITATIVES. LA VARIABLE QUALITY SERAIT ALORS UNE VALEUR CATEGORIELLE, AU MÊME TITRE QUE LE TYPE DE VIN*


## Exercice 2 : Chargement des données
### Question 2.1 : Création du dataset
Télécharger les 2 fichiers `winequality-red.csv` et `winequality-white.csv` depuis [ce lien](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)
Former votre dataset à partir des 2 fichiers déjà téléchargés.
Afficher les 3 premières lignes du dataset.

In [None]:
import pandas as pd

In [None]:
winequality_red = "http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
winequality_white = "http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv"

df_red = pd.read_csv(winequality_red, sep=';')
type_wine = ["white", "red"]
# Ajoute une colonne "type_wine" à df_red
df_red['type_wine'] = type_wine[1]
df_white = pd.read_csv(winequality_white, sep=';')
# Ajoute une colonne "type_wine" à df_white
df_white['type_wine'] = type_wine[0]
# Concatenate red and white wine data into a single DataFrame
df = pd.concat([df_red, df_white])
df.head(3)

### Question 2.2 : Confirmation du choix du dataset
- Existe-t-il une différence entre les vins rouges et vins blancs en terme de qualité ?
- Pour répondre à cette question, tracer une courbe qui groupe les données suivant le type du vin.
- Sur le même graphique, mettez l'accent sur la qualité.
- Commenter le graphique ?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
df_white.sort_values(by = "quality", inplace = True)
df_red.sort_values(by = "quality", inplace = True)
sns.lineplot(x=list(range(len(df_white))), y=df_white["quality"], data = df_white, color = "blue", label = "white wine")
sns.lineplot(x=list(range(len(df_red))), y=df_red["quality"], data = df_red, color = "red", label = "red wine")
plt.title("Quality of wine behavior behavior, according to the type of wine")
plt.xlabel("Wine Observation")
plt.ylabel("Quality")
plt.show()

### REALISATION DU GRAPHIQUE
1. Trier les datasets par qualité du vin.
2. Tracer une courbe qui montre le comportement de la qualité du vin en fonction du type de vin. 

### COMMENTAIRE DU GRAPHIQUE

En abscisses, on retrouve l'observation du vin.  
En ordonnées, on retrouve la qualité du vin.  

On peut observer que les vins blancs ont une qualité maximale supérieure aux vins rouges.  
Cependant, le nombre de vins rouges étant inférieures à celui des vins blancs ne permet pas de l'affirmer.

## Exercice 3 : Analyse exploratoire
**NB:** Pour le reste du projet, on va travailler avec le dataset formé par les vins rouges et blancs.


### Question 3.1 : Etat des lieux
- Afficher la description puis les informations du dataset
- Quel est le nombre d'observations qu'on a dans le dataset ?
- Combien de variables possède le dataset ?
>- Combien de variables continues ?
>- Combien de variables qualitatives ?

In [None]:
df.info()

### COMMENTAIRE DE df.info()
Le dataset issu de la fusion des datasets des vins rouges et des vins blancs.  
Le dataset est consitué de 6497 observations.  
Le dataset possède 13 variables dont la variable à expliquer, quality. Il y a également une variable créée, type_wine, qui est le type de vin . Parmis ces variables, nous retrouvons 12 variables continues et une variable qualitative.

### Question 3.2 : Variables
- Quelles sont les variables explicatives ?
- Quelle est la variable expliquée ?

La variable expliquée est quality.  
Les autres variables sont les variables explicatives, sauf type_wine.

---

### Question 3.3 : Variables qualitatives
- Appliquez une transformation sur les variables qualitatives.

### Label Encoder

In [None]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
df_labencod = df.copy()
df_labencod['type_wine_labencod'] = le.fit_transform(df['type_wine'])
df_labencod.drop("type_wine", axis = 1, inplace = True)
df_labencod.head(3)

### One-Hot

In [None]:
dummies_wine = pd.get_dummies(df["type_wine"])
df_onehotencod = pd.concat([df, dummies_wine], axis = 1)
df_onehotencod.drop("type_wine", axis = 1, inplace = True)
df_onehotencod.head(3)

### COMMENTAIRE
Nous avons fait deux datasets pour **confronter les deux techniques d'encoding** : Label encoding vs One Hot

---

### Question 3.4 : Vérification des données manquantes
- Effectuez une vérification sur les données manquantes.
- Combien d'individus présentent des données manquantes ?

In [None]:
df.isna().sum()

### Observations  
On peut voir qu'il n'y a aucune données manquantes.  
On l'avait déjà identifié dans la question 3.1 avec le df.info().

---

### Question 3.5 : Imputation des données manquantes
- En dehors du contexte de ce projet, proposez une méthode pour imputer des données manquantes.
- Pour ce projet, quelle méthode proposez-vous pour imputer des données manquantes ?
- Que faîtes-vous dans le cas où on a des données manquantes dans la colonne de la variable expliquée ?

### Réponse
- En dehors du contexte de ce projet, on propose d'appliquer la méthode de la moyenne.  
- Pour ce projet, on propose d'appliquer la méthode de la moyenne par type de vin.  
- Dans le cas où on a des données manquantes dans la colonne de la variable expliquée, on propose de supprimer les observations qui présentent des données manquantes.

---

### Question 3.6 : Analyse du nombre des observations par qualité
- Proposez un graphique afin de visualiser le nombre d'observations par qualité.
- Commentez ce graphique.

In [None]:
sns.histplot(data = df, x = df["quality"], hue = "type_wine", stat = "count", discrete = True, element = "step")
plt.title("Number of wines by quality, according to the type of wine")
plt.xlabel("Quality")
plt.ylabel("Number of wines")
plt.show()

### Question 3.7 : Analyse de la corrélation
- Proposer un graphique qui met en évidence la corrélation entre les différentes variables.
- Commenter ce graphique.

In [None]:
import numpy as np
df_corr = df.drop("type_wine", axis = 1)
corr = df_corr.corr()
plt.figure(figsize = (10, 10))
sns.set_theme(context='notebook', style='darkgrid', palette='deep', font='sans-serif', font_scale=1, color_codes=True, rc=None)
mask = np.triu(np.ones_like(corr, dtype=bool))
sns.heatmap(corr, annot = True, cmap = "coolwarm",mask=mask, vmin = -1, vmax = 1, center = 0, square = True, linewidths = 1, cbar_kws = {"shrink": 0.5})
plt.title("Correlation between features")
plt.show()

### BONUS : HEATMAP 3D

In [None]:
import numpy as np
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

# Use the `%matplotlib notebook` magic command to enable interactive features

df_corr = df.drop("type_wine", axis = 1)
corr = df_corr.corr()

# Generate coordinates for the heatmap
X, Y = np.meshgrid(np.arange(corr.shape[0]), np.arange(corr.shape[1]))

# Get the values to be plotted
Z = corr.values

# Create a Figure and an Axes3D object
fig = plt.figure(figsize=(10, 10))
ax = fig.add_subplot(111, projection='3d')

# Plot the surface
ax.plot_surface(X, Y, Z, cmap='coolwarm')

# Add a colorbar
ax.figure.colorbar(ax.collections[0])

# Set the labels and title
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Correlation')
plt.title("Correlation between features")

plt.show()

### Question 3.8 : Fractionnement en Features X et Target y
- Fractionnez votre dataset en deux parties : `X` pour les features et `y` pour la variable cible.

### Label Encoder

In [None]:
df_labencod.head(3)

In [None]:
# Découpage pour X
X_labencod = df_labencod.drop("quality", axis = 1)
X_labencod.head(3)

In [None]:
# Découpage pour y
y_labencod = df_labencod["quality"]
y_labencod.head(3)

### One Hot Encoder

In [None]:
X_onehotencod = df_onehotencod.drop("quality", axis = 1)
X_onehotencod.head(3)

In [None]:
y_onehotencod = df_onehotencod["quality"]
y_onehotencod.head(3)

### Question 3.9 : Split en subsets de Train et Test
- Formez les subsets d'entraînement (2/3) et de test (1/3)

In [None]:
from sklearn.model_selection import train_test_split

### Label Encoder

In [None]:
X_labencod_train, X_labencod_test, y_labencod_train, y_labencod_test = train_test_split(X_labencod, y_labencod, test_size = 1/3, random_state = 42)

### One Hot Encoder

In [None]:
X_onehotencod_train, X_onehotencode_test, y_onehotencod_train, y_onehotencod_test = train_test_split(X_onehotencod, y_onehotencod, test_size = 1/3, random_state = 42)

### Question 3.10 : Réduction des variables
- Avec vos propres mots, expliquez pourquoi on cherche à réduire le nombre des variables ?
- Appliquez une méthode de réduction de variables par sélection.
- Quelles sont les meilleures variables sélectionnées ? Expliquez cette sélection.
- Déterminez les nouveaux subsets des variables explicatives (`X_train_best` et `X_test_best`) après filtrage.
- Affichez les dimensions de `X_train_best` et `X_train`

In [None]:
from sklearn.feature_selection import VarianceThreshold

### Label Encoder

In [None]:
# Tout d'abord, nous allons calculer les variances pour estimer un seuil à donner au VarianceTreshold
import statistics
for col_name in list(X_labencod_train.columns):
  print(f"variance de {col_name} = {statistics.variance(X_labencod_train[col_name]):.2f}")

**Commentaire** : nous choisissons comme seuil (threshold), 20.

In [None]:
threshold_labencod = 20
selector_labencod = VarianceThreshold(threshold=threshold_labencod)
selector_labencod.fit_transform(X_labencod_train)

# Nom des colonnes à garder
col_keep_labencod = selector_labencod.get_feature_names_out()

print(col_keep_labencod)

In [None]:
X_thresh20_train_best = X_labencod_train.loc[::, [col_name for col_name in list(X_labencod_train.columns) if col_name in col_keep_labencod]]
X_thresh20_train_best.head(3)

### One Hot Encoder

In [None]:
for col_name in list(X_onehotencod_train.columns):
  print(f"variance de {col_name} = {statistics.variance(X_onehotencod_train[col_name]):.2f}")

**Commentaire** : Nous constatons que les deux manières d'encoder le type de vin n'induit pas de variances significatives (0.18 avec le Label Encoder et 0.19, deux fois, avec le One hot Encoder). De ce fait, en gardant la même threshold, cela va avoir le même traitement sur les jeux de données qui ont pourtant des colonnes différentes pour l'encoding du type de vin (Nous allons avoir les mêmes variables à garder en sortie). Ainsi, pour forcer un changement dans l'estimation du modèle (ce qui était attendu lors de l'utilisation de deux encodeurs), nous faisons le choix de changer le threshold pour le One Hot Encoder, nous permettant de garder plus de variables que pour Label Encoder, sans sélectionner les variables issues de l'encodage du type de vin, quelque soit la méthode.

In [None]:
# Nous choissons un seuil de 0
threshold_onehotencod = 0
selector_onehotencod = VarianceThreshold(threshold=threshold_onehotencod)
selector_onehotencod.fit_transform(X_onehotencod_train)
col_keep_onehot = selector_onehotencod.get_feature_names_out()
print(col_keep_onehot)

In [None]:
X_thresh0_train_best = X_onehotencod_train.loc[::, [col_name for col_name in list(X_onehotencod_train.columns) if col_name in col_keep_onehot]]
X_thresh0_train_best.head(3)

### Réponse

La réduction des variables permet de réduire le nombre de variables à traiter sans supprimer les informations utiles (les variables qui expliquent le mieux la target), qui permet de diminuer le problème de fléau de la dimension. De plus, cela va permettre de supprimer le bruit.

### Question 3.11 :  Distribution des 4 meilleurs variables explicatives
- Proposer sur la même figure 4 graphiques qui mettent en évidence la distribution des 4 meilleures variables sélectionnées par filtrage.
- Que remarquez-vous ? Peut-on mieux optimiser les données d'entrée ?

### Threshold_variance = 20

In [None]:
fig, axes = plt.subplots(1,3, figsize = [15,5])
sns.histplot(ax = axes[0], data = X_thresh20_train_best, x = "residual sugar", stat = "count", discrete = True, element = "step", kde = True)
sns.histplot(ax = axes[1], data = X_thresh20_train_best, x = "free sulfur dioxide", stat = "count", discrete = True, element = "step", color = "green", kde = True)
sns.histplot(ax = axes[2], data = X_thresh20_train_best, x = "total sulfur dioxide", stat = "count", discrete = True, element = "step", color = "pink", kde = True)
plt.suptitle("Variable distribution for the remaining variables - Variance threshold = 20")
plt.show()

### Threshold variance = 0

In [None]:
fig, axes = plt.subplots(2,3, figsize = [15,5])
sns.histplot(ax = axes[0,0], data = X_thresh0_train_best, x = "residual sugar", stat = "count", discrete = True, element = "step", kde = True)
sns.histplot(ax = axes[0,1], data = X_thresh0_train_best, x = "free sulfur dioxide", stat = "count", discrete = True, element = "step", color = "green", kde = True)
sns.histplot(ax = axes[0,2], data = X_thresh0_train_best, x = "total sulfur dioxide", stat = "count", discrete = True, element = "step", color = "pink", kde = True)
sns.histplot(ax = axes[1,0], data = X_thresh0_train_best, x = "fixed acidity", stat = "count", discrete = True, element = "step", color = "black", kde = True)
sns.histplot(ax = axes[1,1], data = X_thresh0_train_best, x = "alcohol", stat = "count", discrete = True, element = "step", color = "purple", kde = True)
plt.suptitle("Variable distribution for the remaining variables - Variance threshold = 0")
plt.show()

## Exercice 4 : Modélisation
### Question 4.1 : Remise à l'échelle
- Décrivez les distributions des différentes variables explicatives.
- Est-il nécessaire de mettre à l'échelle les données du dataset ? Justifiez votre réponse. Si c'est le cas faites-le.

### Réponse
- 
- Oui, il est nécessaire de mettre à l'échelle les données du dataset. En effet, les variables explicatives ne sont pas toutes sur la même échelle. Certaines variables ont des valeurs très élevées (free sulfur dioxide, total sulfur dioxide, residual sugar) alors que d'autres ont des valeurs très faibles (volatile acidity, citric acid, etc.). Il est donc nécessaire de mettre à l'échelle les données du dataset pour pouvoir les comparer correctement.

### Threshold variance = 20

In [None]:
print(col_keep_labencod) # Pour Threshold variance = 20

In [None]:
X_l1_normalize_20train_array = preprocessing.normalize(X_thresh20_train_best, norm='l1')
X_l2_normalize_20train_array = preprocessing.normalize(X_thresh20_train_best, norm='l2')

X_l1_normalize_20train = pd.DataFrame(X_l1_normalize_20train_array, columns = col_keep_labencod)

X_l2_normalize_20train = pd.DataFrame(X_l1_normalize_20train_array, columns = col_keep_labencod)
print(X_l2_normalize_20train.head(3))

### Threshold variance = 0

In [None]:
X_l1_normalize_0train_array = preprocessing.normalize(X_thresh0_train_best, norm='l1')
X_l2_normalize_0train_array = preprocessing.normalize(X_thresh0_train_best, norm='l2')

X_l1_normalize_0train = pd.DataFrame(X_l1_normalize_0train_array, columns = col_keep_onehot)
X_l2_normalize_0train = pd.DataFrame(X_l2_normalize_0train_array, columns = col_keep_onehot)
print(X_l2_normalize_0train.head(3))

### Question 4.2 : Création du modèle
- Choisissez un modèle sklearn pour l'entrainer et créer le votre. [Documentation](https://scikit-learn.org/stable/supervised_learning.html)
- Exemples:
>- Pour une classification, vous pouvez utiliser l'un de ces modèles: [RidgeClassifier](https://scikit-learn.org/stable/modules/linear_model.html#classification), [SVC](https://scikit-learn.org/stable/modules/svm.html#classification), [DecisionTreeClassifier](https://scikit-learn.org/stable/modules/tree.html#classification)
>- Pour une régression, vous pouvez utiliser l'un de ces modèles: [SVR](https://scikit-learn.org/stable/modules/svm.html#regression), [DecisionTreeRegressor](https://scikit-learn.org/stable/modules/tree.html#regression)

### Threshold variance = 20

In [None]:
X_thresh20_test_raw = X_labencod_test.loc[::, [col_name for col_name in list(X_labencod_test.columns) if col_name in col_keep_labencod]] # Extraction 
X_l1_normalize_20test_array = preprocessing.normalize(X_thresh20_test_raw, norm='l1')
X_l2_normalize_20test_array = preprocessing.normalize(X_thresh20_test_raw, norm='l2')

X_l1_normalize_20test = pd.DataFrame(X_l1_normalize_20test_array, columns = col_keep_labencod) # NORMALIZATION L1
X_l2_normalize_20test = pd.DataFrame(X_l2_normalize_20test_array, columns = col_keep_labencod) # NORMALIZATION L2

In [None]:
# from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# from sklearn import svm
from sklearn import tree
# model = LinearDiscriminantAnalysis() # Moyen, pas ouf. 0.45
# model = svm.SVR() # Nul à chier. 0.00
# model = svm.SVC() # Moyen, pas ouf. 0.45
# model = svm.LinearSVC() # Moyen, pas ouf. 0.46
model = tree.DecisionTreeClassifier() # Moyen. 0.51
# model = tree.DecisionTreeRegressor() # NEGATIF
# from sklearn.linear_model import Perceptron # Moyen. 0.31
# model = Perceptron(tol=1e-3, random_state=0)
# from sklearn.multiclass import OutputCodeClassifier # 0.46
# from sklearn.svm import LinearSVC # 0.46
# model = OutputCodeClassifier(LinearSVC(random_state=0),code_size=2, random_state=0) # 0.46
# from sklearn.naive_bayes import CategoricalNB # 0.45
# model = CategoricalNB() 
# from sklearn.neural_network import MLPClassifier # 0.45
# model = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 2), random_state=1)

# ENTRAINEMENT ET SCORING AVEC L1
model_t20_l1 = model.fit(X_l1_normalize_20train, y_labencod_train) # Entrainement
score_t20_l1 = model_t20_l1.score(X_l1_normalize_20test, y_labencod_test)

# ENTRAINEMENT ET SCORING AVEC L2
model_t20_l2 = model.fit(X_l2_normalize_20train, y_labencod_train) # Entrainement
score_t20_l2 = model_t20_l2.score(X_l2_normalize_20test, y_labencod_test)

### Threshold variance = 0

In [None]:
X_thresh0_test_raw = X_onehotencode_test.loc[::, [col_name for col_name in list(X_onehotencode_test.columns) if col_name in col_keep_onehot]] # Extraction 
X_l1_normalize_0test_array = preprocessing.normalize(X_thresh0_test_raw, norm='l1')
X_l2_normalize_0test_array = preprocessing.normalize(X_thresh0_test_raw, norm='l2')

X_l1_normalize_0test = pd.DataFrame(X_l1_normalize_0test_array, columns = col_keep_onehot) # NORMALIZATION L1
X_l2_normalize_0test = pd.DataFrame(X_l2_normalize_0test_array, columns = col_keep_onehot) # NORMALIZATION L2

In [None]:
# from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
# from sklearn import svm
from sklearn import tree
# model = LinearDiscriminantAnalysis()
# model = svm.SVR() #Nul à chier. 0.1
# model = svm.SVC() # Moyen, pas ouf. 0.46
# model = svm.LinearSVC() # Moyen, pas ouf. 0.47
model = tree.DecisionTreeClassifier() # Moyen. 0.583
# model = tree.DecisionTreeRegressor() # NEGATIF
# from sklearn.multiclass import OutputCodeClassifier # 0.46
# from sklearn.svm import LinearSVC # 0.46
# model = OutputCodeClassifier(LinearSVC(random_state=0),code_size=2, random_state=0) # 0.479
# from auto-sklearn import AutoSklearnClassifier
# model = AutoSklearnClassifier(time_left_for_this_task=2*60, per_run_time_limit=30, n_jobs=8)
# ENTRAINEMENT ET SCORING AVEC L1
model_t0_l1 = model.fit(X_l1_normalize_0train, y_onehotencod_train) # Entrainement
score_t0_l1 = model_t0_l1.score(X_l1_normalize_0test, y_onehotencod_test)

# ENTRAINEMENT ET SCORING AVEC L2
model_t0_l2 = model.fit(X_l2_normalize_0train, y_onehotencod_train) # Entrainement
score_t0_l2 = model_t0_l2.score(X_l2_normalize_0test, y_onehotencod_test)

### Question 4.3 : Evaluation du modèle
- Calculez la précision du score sur le subset d'entrainement puis sur le subset de test

In [None]:
print("== SUBSETS DE TEST ==")
print(f"Score t20 L1 : {score_t20_l1:.2f}")
print(f"Score t20 L2 : {score_t20_l2:.2f}")
print(f"Score t0 L1 : {score_t0_l1:.2f}")
print(f"Score t0 L2 : {score_t0_l2:.2f}")

---

### Question 4.4 : Optimisation du résultat
- Pourriez-vous proposer une méthode qui optimise plus encore la précision du modèle sélectionné ?
- Pourriez-vous proposer une méthode qui permet de déterminer le meilleur modèle parmi une liste définie de modèles ?

Pour optimiser le modèle, Nous conseillons d'avoir **plus de variables explicatives** pour augmenter le nombre d'informations utiles. De plus, il serait intéressant d'avoir un **jeu de donnée équitable** entre le nombre de vin dits "rouge" et dits "blancs", puisque lors du split du dataset, les jeux de données ne sont pas équilibrés, avec plus de vins blancs puisque leur présence est plus grande que celle des rouges.  
Concernant la méthode de détermination du meilleur modèle parmi une liste définie de modèle, il existe des méthodes comme **le grid search** qui va tester un nombre de paramètres pour chaque modèle, selon la grille de paramètre que l'on définiera.

---

### Question 4.5 : Prédiction
Prédire la qualité du vin (rouge) dont les composants chimiques sont les suivantss:
`
'fixed acidity': 7,
'volatile acidity': 0.7,
'citric acid': 0,
'residual sugar': 2,
'chlorides': 0.1,
'free sulfur dioxide': 13,
'total sulfur dioxide': 40,
'density': 0.99,
'pH': 3.5,
'sulphates': 0.6,
'alcohol': 9.5
`

In [None]:
# Nous allons utiliser le modèle entrainé avec un threshold de 1 et une normalisation l1
predict_this = {'fixed acidity': [7],
'volatile acidity': [0.7],
'citric acid': [0],
'residual sugar': [2],
'chlorides': [0.1],
'free sulfur dioxide': [13],
'total sulfur dioxide': [40],
'density': [0.99],
'pH': [3.5],
'sulphates': [0.6],
'alcohol': [9.5],
'type wine' : ['red']}

def predict_wine_quality(wine_input : dict, col_keep : list, model):
    """
    Predict the wine quality based on inputs
    """
    wine_red = [1 if item == 'red' else 0 for item in wine_input['type wine']]
    wine_white = [1 if item == 'white' else 0 for item in wine_input['type wine']]
    data_df_raw = pd.DataFrame.from_dict(wine_input)
    data_df_raw['red'] = wine_red
    data_df_raw['white'] = wine_white
    
    data_df_filter = data_df_raw.loc[::, [col_name for col_name in list(data_df_raw.columns) if col_name in col_keep]]
    data_array_l1 = preprocessing.normalize(data_df_filter, norm='l1')
    data_df_l1 = pd.DataFrame(data_array_l1, columns = col_keep)

    # Run prediction
    quality_prediction = {'quality' : model.predict(data_array_l1)}
    return quality_prediction


In [None]:
quality_predicted = predict_wine_quality(wine_input = predict_this, col_keep = col_keep_onehot, model = model_t0_l1)
print(quality_predicted)

---

### Question 4.6 : Sauvegarde du modèle
- Exporter le modèle dans un format utilisable par une api externe.

In [None]:
import pickle
# save the model to disk
filename = 'model_t0_l1.sav'
pickle.dump(model_t0_l1, open(filename, 'wb'))

## Exercice 5 : Utilisation externe du modèle
- Avec une techno de votre choix, développez une api qui utilise le modèle déjà exporté dans la question 4.6.

# Auteur
- [Mohamed ZWAWA](https://www.linkedin.com/in/mtzwawa)