In [1]:
from sklearn.model_selection import KFold

# Définition des méthodes de validation croisée
def K_Fold(k, df, method):
    '''
    Fonction qui applique la méthode de validation croisée
    en important la méthode KFold de sickit-learn.model_selection.
    
    Paramètres : 
        k : nombre de folds
        df : les données sur lesquelles on effectue le KFold
        method : le modèle utilisé pour la classification
        
    Retourne :
        err_train : la moyenne des erreurs d'entraînement
        err_test : la moyenne des erreurs de test
    '''
    
    # Pour obtenir de bons résultats on utilise la k-fold cross-validation
    kf = KFold(n_splits=k)

    # Initialisation de l'erreur moyenne pour les set train et test
    err_train = 0
    err_test = 0

    # k-fold cross-validation sur les données d'entraînement
    for train, test in kf.split(df):
        x_train = df.iloc[train].drop(columns=['species'])
        t_train = df.iloc[train]['species']
        x_test = df.iloc[test].drop(columns=['species'])
        t_test = df.iloc[test]['species']

        # Initialisation du modèle
        model = method

        # Entraînement
        model.train(x_train, t_train)

        # Calcul de l'erreur d'entraînement
        pred_train = model.predict(x_train)
        err_train += model.error(t_train, pred_train)

        # Calcul de l'erreur de test
        pred_test = model.predict(x_test)
        err_test += model.error(t_test, pred_test)

    # On retourne les moyennes des erreurs d'entraînement et de test
    return err_train / k, err_test / k

In [2]:
import matplotlib.pyplot as plt

# Définition des méthodes d'affichage graphique des résultats

def plot_df(df_train, df_test, xlabel, direction, mean):
    '''
    Fonction permettant d'afficher graphiquement le taux d'erreur moyen en fonction
    des hyperparamètres d'une méthode, lorsque les données sont stockées sous forme
    de dataframe.
    
    Paramètres :
        df_train : dataframe de l'évolution de l'erreur en fonction des hyperparamètres
                   durant l'entraînement
        df_test : dataframe de l'évolution de l'erreur en fonction des hyperparamètres
                   durant l'entraînement
        xlabel : le nom de l'hyperparamètre observé
        direction : 'index' ou 'columns' selon si l'évolution de l'hyperparamètre est montrée
                     selon les lignes ou les colonnes
        mean : booléen mis à true si le dataframe montre l'évolution de deux hyperparamètres
               on montre alors l'évolution d'un hyperparamètre en prenant la moyenne de l'autre
               sur les données
    
    Retourne : 
        Ne retourne pas de valeur, affiche simplement le graphique.
    '''
    
    if direction == 'index':
        if mean:
            plt.plot(df_train.index, df_train.mean(axis=1), color='green', label='train')
            plt.plot(df_test.index, df_test.mean(axis=1), color='red', label='test')
        else:
            plt.plot(df_train.index, df_train, color='green', label='train')
            plt.plot(df_test.index, df_test, color='red', label='test')
    else:
        if mean:
            plt.plot(df_train.columns, df_train.mean(axis=0), color='green', label='train')
            plt.plot(df_test.columns, df_test.mean(axis=0), color='red', label='test')
        else:
            plt.plot(df_train.columns, df_train, color='green', label='train')
            plt.plot(df_test.columns, df_test, color='red', label='test')
    plt.xlabel(xlabel)
    plt.ylabel('erreur')
    plt.legend(loc="upper left")