# Prétraitement des données de vin
## Introduction

Dans ce notebook, nous allons prétraiter un jeu de données sur le vin en utilisant des techniques de mise à l'échelle pour les variables numériques et d'encodage pour les variables catégorielles. Le but est de préparer les données pour un modèle de machine learning.
# Importer les bibliothèques nécessaires

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

## Définir la fonction de prétraitement

In [None]:
def preprocessor_donnees_vin(chemin_fichier, variables_numeriques, variables_categorielles, test_size=0.2, random_state=42):
    """
    Préprocesse les données du vin.

    Args:
        chemin_fichier: Chemin d'accès au fichier CSV contenant les données du vin.
        variables_numeriques: Liste des noms des variables numériques.
        variables_categorielles: Liste des noms des variables catégorielles.
        test_size: Proportion des données à utiliser pour l'ensemble de test.
        random_state: Graine aléatoire pour la reproductibilité.

    Returns:
        X_train_preprocessed: Données d'entraînement prétraitées.
        X_test_preprocessed: Données de test prétraitées.
        y_train: Variables cibles d'entraînement.
        y_test: Variables cibles de test.
    """
    try:
        # Charger les données
        data = pd.read_csv(chemin_fichier)

        # Séparer les features et la variable cible
        X = data.drop('target', axis=1)
        y = data['target']

        # Diviser les données en ensembles d'entraînement et de test
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state)

        # Créer le préprocesseur
        preprocessor = ColumnTransformer(
            transformers=[
                ('num', StandardScaler(), variables_numeriques),
                ('cat', OneHotEncoder(), variables_categorielles)
            ])

        # Appliquer le prétraitement sur les données d'entraînement
        X_train_preprocessed = preprocessor.fit_transform(X_train)

        # Appliquer le prétraitement sur les données de test
        X_test_preprocessed = preprocessor.transform(X_test)

        return X_train_preprocessed, X_test_preprocessed, y_train, y_test

    except FileNotFoundError:
        print(f"Erreur: Fichier non trouvé: {chemin_fichier}")
        return None, None, None, None
    except Exception as e:
        print(f"Une erreur est survenue: {e}")
        return None, None, None, None

## Exécution principale

In [None]:
# Définir les paramètres
chemin_fichier_vin = "../../data/raw/vin.csv"  # Adaptez le chemin si nécessaire
variables_numeriques = ['fixed acidity', 'volatile acidity']  # Adaptez les variables
variables_categorielles = ['type']  # Adaptez les variables

# Appeler la fonction pour prétraiter les données
X_train_preprocessed, X_test_preprocessed, y_train, y_test = preprocessor_donnees_vin(
    chemin_fichier_vin, variables_numeriques, variables_categorielles
)

# Vérifier le résultat
if X_train_preprocessed is not None:
    print("Données prétraitées avec succès!")


## Conclusion
Nous avons réussi à prétraiter les données du vin en séparant les ensembles d'entraînement et de test, en normalisant les variables numériques et en encodant les variables catégorielles. Ces données sont maintenant prêtes pour être utilisées dans un modèle de machine learning.