In [14]:
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [None]:
# Récupération du DataSet
data = pd.read_csv("https://www.stat4decision.com/wine_data.csv", index_col = 0)
data["type"].value_counts()

type
0    4898
1    1599
Name: count, dtype: int64

In [None]:
# Affichage des infos du DataSet
data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6497 entries, 0 to 1598
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         6497 non-null   float64
 1   volatile acidity      6497 non-null   float64
 2   citric acid           6497 non-null   float64
 3   residual sugar        6497 non-null   float64
 4   chlorides             6497 non-null   float64
 5   free sulfur dioxide   6497 non-null   float64
 6   total sulfur dioxide  6497 non-null   float64
 7   density               6497 non-null   float64
 8   pH                    6497 non-null   float64
 9   sulphates             6497 non-null   float64
 10  alcohol               6497 non-null   float64
 11  quality               6497 non-null   int64  
 12  type                  6497 non-null   int64  
dtypes: float64(11), int64(2)
memory usage: 710.6 KB


In [19]:
# Sélectionne la colonne "type" comme target
y = data["type"]

# Supprime la colonne "type" pour obtenir les features
x = data.drop("type", axis=1)

# Divise les données en ensembles d'entraînement et de test
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=42)

# Crée un modèle de Random Forest
modele_rf = RandomForestClassifier(
     n_estimators=100,  # Nombre d'arbres dans la forêt
     criterion='gini',  # Critère de mesure de la qualité de la séparation
     max_depth=None,  # Profondeur maximale des arbres (illimitée ici)
     min_samples_split=2,  # Nombre minimum d'échantillons pour diviser un nœud
     min_samples_leaf=1,  # Nombre minimum d'échantillons dans une feuille
     min_weight_fraction_leaf=0.0,  # Fraction minimale de poids dans une feuille
     max_features='log2',  # Nombre maximum de caractéristiques à considérer pour la meilleure séparation
     max_leaf_nodes=None,  # Nombre maximum de nœuds feuilles (illimité ici)
     min_impurity_decrease=0.0,  # Diminution minimale de l'impureté pour diviser un nœud
     bootstrap=True,  # Utilise l'échantillonnage bootstrap
     oob_score=False,  # Ne calcule pas le score hors du sac
     n_jobs=None,  # Utilise un seul job (par défaut)
     random_state=None,  # Pas de graine pour la reproductibilité
     verbose=0,  # Pas de sortie détaillée
     warm_start=False,  # Ne pas réutiliser les résultats précédents
     class_weight=None,  # Pas de poids pour les classes
     ccp_alpha=0.0,  # Coefficient pour la complexité de la prune
     max_samples=None,  # Pas de limite sur le nombre d'échantillons
)

# Entraîne le modèle sur les données d'entraînement
modele_rf.fit(x_train, y_train)

# Crée un DataFrame des importances des caractéristiques et les trie par ordre décroissant
pd.DataFrame(modele_rf.feature_importances_, 
             index=x_train.columns, 
             columns=["importance"]).sort_values("importance", ascending=False)

Unnamed: 0,importance
total sulfur dioxide,0.302713
chlorides,0.243219
volatile acidity,0.12285
density,0.063578
sulphates,0.060698
free sulfur dioxide,0.053229
residual sugar,0.047365
fixed acidity,0.046046
pH,0.025619
citric acid,0.022539


In [18]:
from sklearn.metrics import accuracy_score, confusion_matrix

# Calcule et affiche le pourcentage de bonnes classifications
print(f"Le pourcentage de bien classés est de : {accuracy_score(y_test, modele_rf.predict(x_test)) * 100} %")

# Crée un DataFrame de la matrice de confusion
pd.DataFrame(confusion_matrix(y_test, modele_rf.predict(x_test)),
             index=["blanc_données", "rouge_données"],  # Noms des vraies classes
             columns=["blanc_predit", "rouge_predit"])  # Noms des classes prédites

Le pourcentage de bien classés est de : 99.6923076923077 %


Unnamed: 0,blanc_predit,rouge_predit
blanc_données,1239,0
rouge_données,5,381
