In [None]:
import pandas as pd

import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv("..\\data\\Walmart_scores.csv")
df.head()

Unnamed: 0,model,R2_train,R2_test,RMSE,MAE
0,baseline,,,772664.752804,709060.647224
1,linear_regression,0.97533,0.908774,200864.334271,146543.603711
2,linear_regression_stratify,0.974116,0.939239,162779.362871,125838.888046
3,ridge,0.936332,0.888992,220021.245023,220021.245023
4,ridge_alpha,0.97269,0.937312,165339.843952,165339.843952


In [None]:
df

Unnamed: 0,model,R2_train,R2_test,RMSE,MAE
0,baseline,,,772664.752804,709060.647224
1,linear_regression,0.97533,0.908774,200864.334271,146543.603711
2,linear_regression_stratify,0.974116,0.939239,162779.362871,125838.888046
3,ridge,0.936332,0.888992,220021.245023,220021.245023
4,ridge_alpha,0.97269,0.937312,165339.843952,165339.843952
5,lasso,0.974116,0.939251,162763.616314,125828.497268
6,lasso_alpha,0.97022,0.94448,155600.590011,120524.43804


# Conclusion

* Nous allons mettre en place un graphique pour les mesures r2_score train, test, MAE, RMSE pour :
 - Régression linéaire simple => bleu
 - Régression linéaire avec stratify sur store => orange
 - Pénalité Ridge => vert
 - Pénalité Ridge avec paramètre alpha => Jaune
 - Pénalité Lasso => Rouge
 

In [None]:
scores = {
    'Régression Linéaire': {
        'R² train': df.loc[df["model"].eq("linear_regression"), "R2_train"].iloc[0],
        'R² test': df.loc[df["model"].eq("linear_regression"), "R2_test"].iloc[0],
        'RMSE': df.loc[df["model"].eq("linear_regression"), "RMSE"].iloc[0],
        'MAE': df.loc[df["model"].eq("linear_regression"), "MAE"].iloc[0]
    },
    'Régression Linéaire stratify': {
        'R² train': df.loc[df["model"].eq("linear_regression_stratify"), "R2_train"].iloc[0],
        'R² test': df.loc[df["model"].eq("linear_regression_stratify"), "R2_test"].iloc[0],
        'RMSE': df.loc[df["model"].eq("linear_regression_stratify"), "RMSE"].iloc[0],
        'MAE': df.loc[df["model"].eq("linear_regression_stratify"), "MAE"].iloc[0]
    },
    'Pénalité Ridge': {
        'R² train': df.loc[df["model"].eq("ridge"), "R2_train"].iloc[0],
        'R² test': df.loc[df["model"].eq("ridge"), "R2_test"].iloc[0],
        'RMSE': df.loc[df["model"].eq("ridge"), "RMSE"].iloc[0],
        'MAE': df.loc[df["model"].eq("ridge"), "MAE"].iloc[0]
    },
    'Pénalité Ridge avec alpha': {
        'R² train': df.loc[df["model"].eq("ridge_alpha"), "R2_train"].iloc[0],
        'R² test': df.loc[df["model"].eq("ridge_alpha"), "R2_test"].iloc[0],
        'RMSE': df.loc[df["model"].eq("ridge_alpha"), "RMSE"].iloc[0],
        'MAE': df.loc[df["model"].eq("ridge_alpha"), "MAE"].iloc[0]
    },
    'Pénalité Lasso': {
        'R² train': df.loc[df["model"].eq("lasso"), "R2_train"].iloc[0],
        'R² test': df.loc[df["model"].eq("lasso"), "R2_test"].iloc[0],
        'RMSE': df.loc[df["model"].eq("lasso"), "RMSE"].iloc[0],
        'MAE': df.loc[df["model"].eq("lasso"), "MAE"].iloc[0]
    },
    'Pénalité Lasso avec alpha': {
        'R² train': df.loc[df["model"].eq("lasso_alpha"), "R2_train"].iloc[0],
        'R² test': df.loc[df["model"].eq("lasso_alpha"), "R2_test"].iloc[0],
        'RMSE': df.loc[df["model"].eq("lasso_alpha"), "RMSE"].iloc[0],
        'MAE': df.loc[df["model"].eq("lasso_alpha"), "MAE"].iloc[0]
    }
}

# Couleurs pour chaque type de régression
colors = {
    'Régression Linéaire': 'blue',
    'Régression Linéaire stratify':'orange',
    'Pénalité Ridge': 'green',
    'Pénalité Ridge avec alpha': 'yellow',
    'Pénalité Lasso': 'red',
    'Pénalité Lasso avec alpha': 'purple'
}

# Créer une figure avec 4 sous-graphiques (2x2)
fig, axes = plt.subplots(2, 2, figsize=(14, 12))

# Titres des sous-graphiques
titles = ['R² train', 'R² test', 'RMSE', 'MAE']

# Parcourir les sous-graphiques et les scores
for ax, title in zip(axes.flatten(), titles):
    values = [scores[regression][title] for regression in colors]
    ymin = min(values) * 0.95  # Un peu plus bas que le minimum
    ymax = max(values) * 1.05  # Un peu plus haut que le maximum
    for regression, color in colors.items():
        ax.bar(regression, scores[regression][title], color=color)
        value = scores[regression][title]
        ax.text(regression, value, f'{value:.2f}', 
                ha='center', va='bottom', fontsize=10, color='black')
    ax.set_title(title)
    ax.set_ylabel('Score')
    if title == 'R² train' or title == 'R² test':
        ax.set_ylim(ymin, min(1,ymax))  # Dynamique pour le min et le minimum entre le max et 1 pour le max
    else:
        ax.set_ylim(ymin, ymax)  # Dynamique

        # Ajouter une ligne pour la moyenne des MAE
    if title == 'MAE':
        ax.axhline(y=df.loc[df["model"].eq("baseline"), "MAE"].iloc[0], color='black', linestyle='--', label=f'MAE Baseline: {df.loc[df["model"].eq("baseline"), "MAE"].iloc[0]:.2f}')
        ax.legend()
    if title == 'RMSE':
        ax.axhline(y=df.loc[df["model"].eq("baseline"), "RMSE"].iloc[0], color='black', linestyle='--', label=f'RMSE Baseline: {df.loc[df["model"].eq("baseline"), "RMSE"].iloc[0]:.2f}')
        ax.legend()

    ax.grid(True)
    ax.set_xticks([])
# Ajouter une légende globale en dehors du graphique, à droite
handles = [plt.Line2D([0], [0], color=color, lw=4, label=regression) for regression, color in colors.items()]
fig.legend(handles=handles, loc='upper left', bbox_to_anchor=(1.05, 1), bbox_transform=ax.transAxes)

# Ajuster les espaces entre les sous-graphiques pour faire de la place pour la légende
plt.tight_layout(rect=[0, 0, 0.85, 1])

# Afficher le graphique
plt.show()


* Le meilleur modèle est Lasso avec alpha.
Cela apporte le moins d'écart entre train et test donc laisse paraître moins d'overfitting.
De plus la RMSE et la MAE sont plus faibles, ce qui indique des valeurs plus proches et de manières plus régulière de la valeur cible.

Il faut cependant, tempérer les résultats étant donné le nombre de valeurs très faibles et l'absence de certaines données.
Il faudrait pouvoir évaluer sur un dataset bien plus conséquent, certains magasins ayant mois de 5 lignes.