# Milestone 2

### Avant de commencer. Merci de lire bien attentivement le README.md pour cette seconde partie.

In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
# all imports
from src import *
import pandas as pd
import os.path
from sklearn.model_selection import GridSearchCV, StratifiedKFold
import wandb
import pickle
from sklearn.metrics import roc_auc_score
from xgboost import XGBClassifier
import config
from sklearn.metrics import roc_curve, auc, RocCurveDisplay
from sklearn.calibration import CalibrationDisplay
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
# commenté car j'ai des érreurs liées au package torch qui est assez complique a installer windows
#from src.models import model_start

## Data acquisition

In [None]:
filename = './data/dataframe_2016_to_2019.csv'
start_year = 2016
end_year = 2019

if not os.path.isfile(filename):
    # Get the data from the NHL API (2016 - 2019)
    nhl_data_provider = get_data_from(start_year, end_year)

    # Clean the data
    clean_regular_season, clean_playoff = clean_data(nhl_data_provider)

    # Transform data into dataframe
    df_2016_to_2019 = convert_dictionaries_to_dataframes(clean_regular_season,
                                                         clean_playoff,
                                                         np.arange(start_year, end_year + 1).tolist())
    df_2016_to_2019.to_csv(filename, index=False)

#### Récupération des données d'entraînement

In [None]:
train_data = pd.read_csv(filename)

# Ingénierie des caractéristiques I

## Question 1

In [None]:
count_table = pd.crosstab(train_data['isGoal'], train_data['typeDescKey'])
# count_table2 = pd.crosstab(train_data['emptyGoalNet_0_1'],train_data['emptyGoalNet'])

count_table
# count_table2

#### Histogramme du nombre de tirs (buts et non-buts séparés), regroupés par distance

##### Variables distance de tir et angle de tir regroupées

In [None]:
# Binning de la distance en intervalles de 20 pieds
train_data.loc[:,'shotDistance_bin'] = pd.cut(train_data['shotDistance'], bins=[0, 20, 40, 60, 80, 100, 120, 140, 160, 180, 200], labels=['0-19', '20-39', '40-59', '60-79', '80-99', '100-119', '120-139', '140-159', '160-179', '180-200'])

train_data.loc[:,'shotAngle_bin'] = pd.cut(train_data['shotAngle'], bins=[0, 20, 40, 60, 80, 100, 120, 140, 160, 180], labels=['0-19', '20-39', '40-59', '60-79', '80-99', '100-119', '120-139', '140-159', '160-179'])


train_data


In [None]:
## Add in advancedVisualisation (by Youry)
def histogram_2_variables_binned(df, x_bin, hue, shrink, xlabel, ylabel, title, legendTitle, legendLabels):
    plt.figure(figsize=(10, 6))
    sns.histplot(data=df, x=x_bin, hue=hue, multiple='dodge', palette='coolwarm', shrink=shrink)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.ylim(0,100000)
    plt.title(title)
    plt.legend(title=legendTitle, labels=legendLabels)
    plt.grid(axis="y")
    plt.show()


histogram_2_variables_binned(df=train_data, x_bin='shotDistance_bin', hue='isGoal', shrink=0.8, xlabel='Distance du tir (pieds)', ylabel='Nombre de tirs', title='Histogramme du nombre de tirs par distance', legendTitle='', legendLabels=['But', 'Non-but'])

#### Histogramme du nombre de tirs (buts et non-buts séparés), regroupés par angle

In [None]:
histogram_2_variables_binned(df=train_data, x_bin='shotAngle_bin', hue='isGoal', shrink=0.8, xlabel='Angle du tir', ylabel='Nombre de tirs', title='Histogramme du nombre de tirs par angle', legendTitle='', legendLabels=['But', 'Non-but'])

#### Histogramme 2D où un axe est la distance et l'autre est l'angle (sans distinction entre buts et non-buts)

In [None]:
def histogram2D_2_variables(df, x, y, bins, label, xlabel, ylabel, title):
    # Remove rows with NaN values
    df = df.dropna(subset=[x, y])
    # Plot the histogram with hue for 'is_goal'
    plt.figure(figsize=(10, 6))
    plt.hist2d(df[x], df[y], bins=bins, cmap='Blues')
    # Customize legend labels for hue values
    plt.colorbar(label=label)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title)
    plt.show()

histogram2D_2_variables(train_data, x='shotDistance', y='shotAngle', bins=20, label='Nombre de tirs', xlabel='Distance du tir (pieds)', ylabel='Angle du tir', title='Histogramme 2D du nombre de tirs par distance et angle')

In [None]:
'''
def histogram2D_2_variables_seaborn(df, x, y, title, xlabel, ylabel, kind):
    # Remove rows with NaN values
    df = df.dropna(subset=[x, y])
    # Jointplot to visualize the 2D histogram
    sns.jointplot(data=df, x=x, y=y, kind=kind, cmap='Blues')
    # Add title and labels
    plt.suptitle(title, fontsize=16)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    # Show the plot
    plt.show()


# histogram2D_2_variables_seaborn(train_data, x='shotDistance', y='shotAngle', title="Histogramme 2D de la Distance et de l'Angle", xlabel='Distance du tir (pieds)', ylabel='Angle du tir',
#                         kind='kde'
#                         # kind='reg'
#                         # kind='hist'
#                         # kind='hex'
# )


g = sns.jointplot(data=train_data, x='shotAngle', y='shotDistance')
g.plot_joint(sns.kdeplot, color="r", zorder=0, levels=6)
g.plot_marginals(sns.rugplot, color="r", height=-.15, clip_on=False)

# Ajouter un titre, un xlabel, et un ylabel
g.ax_joint.set_title("Relation entre la distance et l'angle des tirs", fontsize=14)
g.ax_joint.set_xlabel("Angle du tir", fontsize=12)
g.ax_joint.set_ylabel("Distance du tir(pieds)", fontsize=12)

# Ajuster l'espacement du titre
plt.subplots_adjust(top=0.9)  # Ajuste la position du titre
'''

## Question 2

#### Le taux de but (buts / (buts + non-buts)) par distance

In [None]:
df_distance_goal_rate = train_data.groupby('shotDistance')['isGoal'].mean().reset_index()
df_distance_goal_rate.columns = ['shotDistance', 'goalRate']

df_distance_goal_rate

In [None]:
def scatterplot_2_variables(df, x, y, color, s, title, xlabel, ylabel):
    plt.figure(figsize=(10, 6))
    sns.scatterplot(data=df, x=x, y=y, color=color, s=s, marker='o')
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title)
    plt.grid(True)
    plt.show()

scatterplot_2_variables(df=df_distance_goal_rate, x='shotDistance', y='goalRate',color='blue', s=20, title='Taux de but en fonction de la distance', xlabel='Distance du tir', ylabel='Taux de but')

#### Le taux de but (buts / (buts + non-buts)) par angle

In [None]:
df_angle_goal_rate = train_data.groupby('shotAngle')['isGoal'].mean().reset_index()
df_angle_goal_rate.columns = ['shotAngle', 'goalRate']

df_angle_goal_rate

In [None]:
scatterplot_2_variables(df=df_angle_goal_rate, x='shotAngle', y='goalRate', color='green', s=20,
                        title='Taux de but en fonction de l\'angle', xlabel='Angle du tir', ylabel='Taux de but')

#### Question 2 : vaiables distance et angle binned(s)

In [None]:
# Regrouper les tirs par bins de distance
goal_stats_by_distance = train_data.groupby('shotDistance_bin', observed=True).agg(
    goals=('isGoal', 'sum'),
    total_shots=('isGoal', 'count')
)

# Calculer le taux de but
goal_stats_by_distance['goal_rate'] = goal_stats_by_distance['goals'] / goal_stats_by_distance['total_shots']

goal_stats_by_distance


In [None]:
# Tracer la courbe
def plot_goal_rate(df, x, y, rate, rate_min, rate_max, plotTitle, title, fontSize, xlabel, sizeXlabel, ylabel, sizeYlabel):
    # Histogramme
    plt.figure(figsize=(10, 6))
    bars = plt.bar(df.index, df[rate]*100, color='green', label=plotTitle)
    # Annoter les ratios sur les barres
    for bar, (_, row) in zip(bars, df.iterrows()):
        x_i = int(row[x])
        y_i = int(row[y])
        rate_i = row[rate]
        plt.text(
            bar.get_x() + bar.get_width() / 2,
            bar.get_height(),
            f"{rate_i*100:.1f}%\n({x_i}/{y_i})",
            ha='center',
            va='bottom',
            fontsize=9,
            color='black'
        )
    # Affiche le graphique
    plt.title(title, fontsize=fontSize)
    plt.xlabel(xlabel, fontsize=sizeXlabel)
    plt.ylabel(ylabel, fontsize=sizeYlabel)
    plt.ylim(rate_min, rate_max)  # Limiter l'axe Y
    plt.grid(alpha=0.5)
    # plt.legend()
    plt.tight_layout()
    plt.show()


plot_goal_rate(goal_stats_by_distance, 'goals', 'total_shots', 'goal_rate', 0, 20, 'Taux de but', 'Taux de but en fonction de la distance', 14, 'Distance de tir', 12, 'Taux de but (%)', 12)

In [None]:
# Regrouper les tirs par bins d'angle
goal_stats_by_angle = train_data.groupby('shotAngle_bin', observed=True).agg(
    goals=('isGoal', 'sum'),
    total_shots=('isGoal', 'count')
)

# Calculer le taux de but
goal_stats_by_angle['goal_rate'] = goal_stats_by_angle['goals'] / goal_stats_by_angle['total_shots']

goal_stats_by_angle

In [None]:
plot_goal_rate(goal_stats_by_angle, 'goals', 'total_shots','goal_rate', 0, 100, 'Taux de but', 'Taux de but en fonction de l\'angle', 14, 'Angle de tir', 12, 'Taux de but', 12)

## Question 3

In [None]:
plot_goals_by_distance(train_data)

### Nombre de buts net non vides marqués depuis l'intérieur de la zone défensive

In [None]:
filtered_data = train_data[
    (train_data['shotDistance'] > 90) & (train_data['typeDescKey'] == 'goal') & (train_data['emptyGoalNet'] == 0)]
len(filtered_data)

In [None]:
filtered_data.loc[54362, :]

In [None]:
# l'venement 54362 (filtered_data.loc[54362,:]) du match 2016020894 n'a pas les bonnes coordonées. 
# voir la vidéo: https://www.youtube.com/watch?v=lM6JXVW0-YY du match. le but de Mats Zuccarello en période de shoot-out
# est fait du coté droit, non du coté gauche

# l'evenemnt 80622 du match 2017020004 n'a pas les bonnes coordonées.
# voir la vidéo: https://www.youtube.com/watch?v=WpIGr7srlLY. le but de Kevin Labanc est du mauvais coté

# l'evenemnet 1806 n'a pas le bon zoneShoot/zoneCode. il a comme zoneShoot D (defensive) alors que quand on regarde le but de
# John Tavares, il le marque bien dans la zone offensive https://www.youtube.com/watch?v=MO7vAygX2_c

### Nombre de buts marqués depuis l'intérieur de la zone défensive

In [None]:
filtered_data = train_data[(train_data['shotDistance'] > 90) & (train_data['typeDescKey'] == 'goal')]

grouped_df = filtered_data.groupby(['shotType']).count()

print(grouped_df['idGame'])

In [None]:
filtered_data[filtered_data['shotType'] == 'wrap-around']

In [None]:
# pour l'evenement 47255 du match 2016020779, le type de tir n'est pas correct car un wrap-around ne peut pas se faire aussi loin
# voir: https://www.nhl.com/gamecenter/pit-vs-stl/2017/02/04/2016020779/playbyplay
# video: https://www.youtube.com/watch?v=CHcbWHyRDbE. Sidney Crosby a bien tiré depuis la position (3,1). donc les coordonées et la distance sont 
# bonnes. Le type de tir n'est pas le bon. 

# video wrap-around: https://www.youtube.com/watch?v=tmRibUXW8RE

# Modèles de base

#### Préparation de la caractéristique et de la cible

In [None]:
# Préparation de la caractéristique et de la cible
X = train_data[['shotDistance']].dropna()
y = train_data['isGoal'][X.index]

In [None]:
# Vérification des types et absence de NaN
print(X.shape)
print(y.shape)
print("Type de X:", type(X))
print("Type de y:", type(y))
print("Valeurs manquantes dans X:", X.isnull().sum().sum())
print("Valeurs manquantes dans y:", y.isnull().sum())

In [None]:
# Division des données en ensembles d'entraînement et de validation
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(X_train.shape)
print(y_train.shape)
print(X_val.shape)
print(y_val.shape)

### Question 1

#### Entraîner le modèle

In [None]:
clf = LogisticRegression()
clf.fit(X_train, y_train)

#### Prédiction et évaluation

In [None]:
# Prédiction et évaluation
y_pred = clf.predict(X_val)
accuracy = accuracy_score(y_val, y_pred)
f1 = f1_score(y_val, y_pred, average="weighted")
print(f"Précision du modèle sur l'ensemble de validation: {accuracy:.2f}")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}")

##### Analyse des résultats :
Précision globale :

Une précision élevée ne signifie pas nécessairement que le modèle est performant, surtout si les classes sont déséquilibrées (ex. : beaucoup plus de non-buts que de buts).
Problème potentiel :

La distance seule peut ne pas capturer suffisamment de complexité dans les données pour prédire efficacement si un tir est un but.
Un déséquilibre des classes pourrait conduire à un biais du modèle vers la classe majoritaire.

### Question 2

##### La courbe ROC est tracée avec le taux de vrais positifs (TPR) contre le taux de faux positifs (FPR). La métrique AUC (Area Under Curve) représente l’aire sous cette courbe.

In [None]:
from sklearn.metrics import roc_curve, auc, RocCurveDisplay
from sklearn.calibration import CalibrationDisplay

In [None]:
# Probabilités pour la classe "but"
y_proba = clf.predict_proba(X_val)[:, 1]

# Calcul des ROC et AUC
fpr, tpr, _ = roc_curve(y_val, y_proba)
roc_auc = auc(fpr, tpr)

In [None]:
# def plot_roc_curve_(fpr_, tpr_, roc_auc_, color_, label1, label2#, xmin_, xmax_, ymin_, ymax_
#                     ):
#     # Tracé de la courbe ROC
#     plt.figure(figsize=(8, 6))
#     plt.plot(fpr_ * 100, tpr_ * 100, color=color_, label = f"{label1} (AUC = {roc_auc_:.2f})")
#     plt.plot([0, 100], [0, 100], linestyle="--", color="gray", label=label2) # Ligne de base du classificateur aléatoire
#     plt.title("Courbe ROC", fontsize=14)
#     plt.xlabel("Taux de faux positifs- FPR (%)", fontsize=12)
#     # plt.xlim(xmin_,xmax_)
#     # plt.xlim(100,0)
#     plt.ylabel("Taux de vrais positifs- TPR (%)", fontsize=12)
#     # plt.ylim(ymin_,ymax_)
#     plt.legend(fontsize=12)
#     plt.grid(alpha=0.3)
#     plt.tight_layout()
#     plt.show()
#
# # Appel de la fonction
# plot_roc_curve_(fpr_=fpr, tpr_=tpr, roc_auc_=roc_auc, color_="blue", label1="Régression logistique", label2="Classificateur aléatoire"
#                 #, xmin_=100, xmax_=0, ymin_=0, ymax_=100
#                 )


##### Courbe ROC et AUC : La courbe ROC permet de visualiser le compromis entre les taux de vrais positifs et de faux positifs, et l'AUC fournit une mesure globale de la performance du modèle.

In [None]:
# Ligne de base aléatoire
y_proba_random = np.random.uniform(0, 1, len(y_val))
plt.figure(figsize=(10, 6))
# ROC
RocCurveDisplay.from_predictions(y_val, y_proba, name="Régression logistique", color="blue", ax=plt.gca())
RocCurveDisplay.from_predictions(y_val, y_proba_random, name="Classificateur aléatoire", color="gray", linestyle="--", ax=plt.gca())
plt.title("ROC Curves for Logistic Regression Models")
plt.grid(True)
plt.show()

#### b) Taux de buts par centile de probabilité

##### Cette courbe montre la capacité du modèle à prédire des buts en fonction de la probabilité qu'il attribue à chaque tir.
Pour tracer le taux de buts par centile de probabilité, nous devons analyser la proportion de tirs qui se sont effectivement transformés en buts dans chaque centile des probabilités prédites par le modèle.

In [None]:
percentiles = np.linspace(0, 100, 11)
goal_rates = compute_goal_rate_by_percentile(y_val, y_proba, percentiles)

plot_line_2_variables(x=percentiles[:-1], y=goal_rates, color='green', label="Taux de buts par centile de probabilité", xinf=100, xsup=0, x_label="Centile de probabilité", y_label="Taux de buts (%)")

##### Cette courbe montre la capacité du modèle à prédire des buts en fonction de la probabilité qu'il attribue à chaque tir.

#### c) La proportion cumulée de buts (pas de tirs) comme une fonction du centile de la probabilité de tir donnée par le modèle

##### Elle montre dans quelle mesure chaque modèle capture les buts les plus probables.

In [None]:
def compute_cumulative_goal_rate(y_val, y_proba):
    # Sélectionner uniquement les buts (classe positive)
    goal_indices = (y_val == 1)
    proba_goals = y_proba[goal_indices]

    # Trier les probabilités des vrais buts en ordre décroissant
    sorted_goal_proba = np.sort(proba_goals)[::-1]

    # Calculer la proportion cumulée
    cumulative_proportion = np.cumsum(sorted_goal_proba) * 100 / np.sum(sorted_goal_proba)

    return cumulative_proportion


cumulative_proportion = compute_cumulative_goal_rate(y_val, y_proba)
x_value = np.linspace(0, 100, len(cumulative_proportion))


plot_line_2_variables(x_value, cumulative_proportion, color="green", label="Proportion cumulée des buts", xinf=100, xsup=0, x_label="Centile de probabilité", y_label="Proportion cumulée des buts (%)")

#### d) Le diagramme de fiabilité (courbe de calibration)

In [None]:
# 4. Diagramme de fiabilité
CalibrationDisplay.from_predictions(y_val, y_proba, n_bins=10)
plt.title("Diagramme de fiabilité")
plt.show()

In [None]:
CalibrationDisplay.from_estimator(clf, X_val, y_val)
plt.title('Courbe de Calibration', fontsize=14)
plt.show()

### Question 3 : Entrainement de deux autres classificateurs
- Distance seuelement
- Angle seulement
- Distance et angle

In [None]:
# Préparation de la caractéristique et de la cible
X_2 = train_data[['shotDistance', 'shotAngle']].dropna()
y_2 = train_data['isGoal'][X.index]

In [None]:
# Vérification des types et absence de NaN
print("Type de X:", type(X_2))
print("Type de y:", type(y_2))
print("Valeurs manquantes dans X:", X_2.isnull().sum().sum())
print("Valeurs manquantes dans y:", y_2.isnull().sum())

In [None]:
# Division des données en ensembles d'entraînement et de validation
X2_train, X2_val, y2_train, y2_val = train_test_split(X_2, y_2, test_size=0.2, random_state=42,stratify=y_2)

In [None]:
# Charger les caractéristiques pour chaque ensemble de données
# La distance seulement
X2_distance_train = X2_train[['shotDistance']]
X2_distance_val = X2_val[['shotDistance']]
# L'angle seulement
X2_angle_train = X2_train[['shotAngle']]
X2_angle_val = X2_val[['shotAngle']]
# La distance et l'angle
X2_both_train = X2_train[['shotDistance','shotAngle']]
X2_both_val = X2_val[['shotDistance','shotAngle']]

In [None]:
print(X2_distance_train.shape)
print(X2_distance_val.shape)
print(X2_angle_train.shape)
print(X2_angle_val.shape)

In [None]:
# Entraînement des modèles
clf_distance = LogisticRegression().fit(X2_distance_train, y2_train)
clf_angle = LogisticRegression().fit(X2_angle_train, y2_train)
clf_both = LogisticRegression().fit(X2_both_train, y2_train)

# Probabilités prédites pour chaque modèle
y_proba_distance = clf_distance.predict_proba(X2_distance_val)[:, 1]
y_proba_angle = clf_angle.predict_proba(X2_angle_val)[:, 1]
y_proba_both = clf_both.predict_proba(X2_both_val)[:, 1]

# Ligne de base aléatoire
y2_proba_random = np.random.uniform(0, 1, len(y2_val))

#### a) Courbe ROC avec AUC

In [None]:
# Tracer les courbes ROC
plt.figure(figsize=(10, 6))
RocCurveDisplay.from_predictions(y2_val, y_proba_distance, name="Distance", color="blue", ax=plt.gca())
RocCurveDisplay.from_predictions(y2_val, y_proba_angle, name="Angle", color="green", ax=plt.gca())
RocCurveDisplay.from_predictions(y2_val, y_proba_both, name="Distance + Angle", color="red", ax=plt.gca())
RocCurveDisplay.from_predictions(y2_val, y2_proba_random, name="Random Baseline", color="gray", linestyle="--", ax=plt.gca())

plt.title("ROC Curves for Logistic Regression Models")
plt.grid(True)
plt.show()

#### b) Taux de buts par centile

In [None]:
# Calculer les taux pour chaque modèle
# centiles = np.linspace(100, 0, 100)  # Centiles décroissants
goal_rate_distance = compute_goal_rate_by_percentile(y_val, y_proba_distance, percentiles)
goal_rate_angle = compute_goal_rate_by_percentile(y_val, y_proba_angle, percentiles)
goal_rate_both = compute_goal_rate_by_percentile(y_val, y_proba_both, percentiles)
goal_rate_random = compute_goal_rate_by_percentile(y_val, y_proba_random, percentiles)

# Tracer les taux de buts
plt.figure(figsize=(10, 6))
plt.plot(percentiles[:-1], goal_rate_distance, label="Distance", color="blue")
plt.plot(percentiles[:-1], goal_rate_angle, label="Angle", color="green")
plt.plot(percentiles[:-1], goal_rate_both, label="Distance + Angle", color="red")
plt.plot(percentiles[:-1], goal_rate_random, label="Random Baseline", color="black", linestyle="--")

# Personnalisation du graphique
ax = plt.gca()
ax.grid()
ax.set_facecolor('0.95')

ax.set_ylim([0, 100])
ax.set_xlim([0, 100])
ax.invert_xaxis()
major_ticks = np.arange(0, 110, 10)
ax.set_xticks(major_ticks)
ax.set_yticks(major_ticks)

plt.title("Taux de buts par centile de probabilité")
plt.xlabel("Centile de probabilité")
# plt.xlim(100,0)
plt.ylabel("Taux de buts (%)")
# plt.ylim(0, 100)
plt.grid(True)
plt.legend()
plt.show()


#### c) Proportion cumulée des buts par centile

In [None]:
# Calculer les proportions cumulées pour chaque modèle
cumulative_goals_distance = compute_cumulative_goal_rate(y2_val, y_proba_distance)
cumulative_goals_angle = compute_cumulative_goal_rate(y2_val, y_proba_angle)
cumulative_goals_both = compute_cumulative_goal_rate(y2_val, y_proba_both)
cumulative_goals_random = compute_cumulative_goal_rate(y2_val, y2_proba_random)


# x_value = np.linspace(0, 100, len(cumulative_proportion))

# Tracer les proportions cumulées
plt.figure(figsize=(10, 6))
plt.plot(x_value, cumulative_goals_distance, label="Distance", color="blue")
plt.plot(x_value, cumulative_goals_angle, label="Angle", color="green")
plt.plot(x_value, cumulative_goals_both, label="Distance + Angle", color="red")
plt.plot(x_value, cumulative_goals_random, label="Random Baseline", color="black", linestyle="--")

# Personnalisation du graphique
ax = plt.gca()
ax.grid()
ax.set_facecolor('0.95')

ax.set_ylim([0, 100])
ax.set_xlim([0, 100])
# ax.invert_xaxis()
major_ticks = np.arange(0, 110, 10)
ax.set_xticks(major_ticks)
ax.set_yticks(major_ticks)

plt.xlabel("Centile de probabilité")
plt.ylabel("Proportion cumulée des buts (%)")
plt.title("Proportion cumulée des buts")
plt.grid(True)
plt.legend()
plt.show()


#### d) Diagramme de fiabilité

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))

CalibrationDisplay.from_predictions(y2_val, y_proba_distance, n_bins=10, ax=ax, name="Reg log : distance")
CalibrationDisplay.from_predictions(y2_val, y_proba_angle, n_bins=10, ax=ax, name="Reg log : angle")
CalibrationDisplay.from_predictions(y2_val, y_proba_both, n_bins=10, ax=ax, name="Reg log : both")

plt.title("Diagramme de fiabilité")
plt.show()

### Question 4: WandB

In [None]:
import os
os.environ["WANDB_DIR"] = "C:/DS_milestone2_wandb"
os.environ["WANDB_NOTEBOOK_NAME"] = "main_Milestone-2.ipynb"

#### wandb pour distance seulement

In [None]:
# Initialiser Wandb pour distance
wandb.init(
    project=config.WANDB_PROJECT_NAME,  # Nom du projet
    dir="C:/DS_milestone2_wandb",
    name="LogisticRegression_Distance",  # Nom de l'expérience
    group="logistic_regression",
    tags=["logistic_regression", "distance_only"],  # Tags pour cette expérience
    entity=config.WANDB_TEAM_NAME
)

# Exemple : Entraîner le modèle
clf1 = LogisticRegression()
clf1.fit(X2_distance_train, y2_train)

# Évaluer le modèle (exemple avec AUC ROC)
y_proba1 = clf1.predict_proba(X2_distance_val)[:, 1]
auc_roc1 = roc_auc_score(y2_val, y_proba1)

# Enregistrer les métriques dans Wandb
wandb.log({"val_roc_auc": auc_roc1})

# Sauvegarder le modèle
model_path1 = "logistic_regression_distance.pkl"
with open(model_path1, "wb") as f:
    pickle.dump(clf1, f)

# Enregistrer le modèle dans Wandb
wandb.save(model_path1)

# Terminer l'expérience
wandb.finish()

#### wandb pour angle seulement

In [None]:
# Initialiser Wandb
wandb.init(
    project=config.WANDB_PROJECT_NAME,
    dir="C:/DS_milestone2_wandb",
    name="LogisticRegression_Angle",  # Nom de l'expérience
    group="logistic_regression",
    tags=["logistic_regression", "angle_only"],  # Tags pour cette expérience
    entity=config.WANDB_TEAM_NAME
)

# Exemple : Entraîner le modèle
clf2 = LogisticRegression()
clf2.fit(X2_angle_train, y2_train)

# Évaluer le modèle (exemple avec AUC ROC)
y_proba2 = clf2.predict_proba(X2_angle_val)[:, 1]
auc_roc2 = roc_auc_score(y2_val, y_proba2)

# Enregistrer les métriques dans Wandb
wandb.log({"val_roc_auc": auc_roc2})

# Sauvegarder le modèle
model_path2 = "logistic_regression_angle.pkl"
with open(model_path2, "wb") as f2:
    pickle.dump(clf2, f2)

# Enregistrer le modèle dans Wandb
wandb.save(model_path2)

# Terminer l'expérience
wandb.finish()

#### wandb: Distance et angle

In [None]:
# Initialiser Wandb
wandb.init(
    project=config.WANDB_PROJECT_NAME,
    dir="C:/DS_milestone2_wandb",
    name="LogisticRegression_Distance_Angle",  # Nom de l'expérience
    group="logistic_regression",
    tags=["logistic_regression", "distance et angle"],  # Tags pour cette expérience
    entity=config.WANDB_TEAM_NAME
)

# Exemple : Entraîner le modèle
clf3 = LogisticRegression()
clf3.fit(X2_both_train, y2_train)

# Évaluer le modèle (exemple avec AUC ROC)
y_proba3 = clf3.predict_proba(X2_both_val)[:, 1]
auc_roc3 = roc_auc_score(y2_val, y_proba3)

# Enregistrer les métriques dans Wandb
wandb.log({"val_roc_auc": auc_roc3})

# Sauvegarder le modèle
model_path3 = "logistic_regression_distance_and_angle.pkl"
with open(model_path3, "wb") as f3:
    pickle.dump(clf3, f3)

# Enregistrer le modèle dans Wandb
wandb.save(model_path3)

# Terminer l'expérience
wandb.finish()

# Ingénierie des caractéristiques II

### Ajout de l'artefact sur Wandb

In [None]:
# Connect to the Wandb API
api = wandb.Api()

# Spécifiez votre projet
project_name = config.WANDB_PROJECT_NAME
entity = config.WANDB_TEAM_NAME

try:
    artifact = api.artifact(f'{entity}/{project_name}/wpg_v_wsh_2017021065:latest')
    print("L'artefact existe déjà.")
except wandb.errors.CommError as e:
    run = wandb.init(project="IFT6758.2024-A11")

    # Create artefact
    artifact = wandb.Artifact(
        "wpg_v_wsh_2017021065",
        type="dataset"
    )

    # add data
    my_table = wandb.Table(dataframe=train_data[train_data['idGame'] == 2017021065])
    artifact.add(my_table, "wpg_v_wsh_2017021065")
    run.log_artifact(artifact)


# Modèles avancés 

## Question 1

### Entrainement du modèle

In [None]:
# Sélection des caractéristiques
characteristics = ['shotDistance', 'shotAngle']

x = train_data[characteristics].dropna()
y = train_data['isGoal'][x.index]

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.2, random_state=42, stratify=y)

In [None]:
xgb = XGBClassifier(objective='binary:logistic')
xgb.fit(x_train, y_train)

### Courbes

#### ROC/AUC

In [None]:
# Probabilités pour la classe "but"
y_predicted_prob = xgb.predict_proba(x_val)[:, 1]

In [None]:
# Ligne de base aléatoire
y_proba_random = np.random.uniform(0, 1, len(y_val))
plt.figure(figsize=(10, 6))
# ROC
RocCurveDisplay.from_predictions(y_val, y_predicted_prob, name="XGBoost", color="blue", ax=plt.gca())
RocCurveDisplay.from_predictions(y_val, y_proba_random, name="Classificateur aléatoire", color="gray", linestyle="--", ax=plt.gca())
plt.title("ROC Curve for XGBoost Model")
plt.grid(True)
plt.show()

In [None]:
# le XGBoost a un AUC similaire a celui de la regression logistique (entrainée avec l'angle et la distance) 

#### Taux de buts vs percentile de probabilité 

In [None]:
percentiles = np.linspace(0, 100, 11)
goal_rates = compute_goal_rate_by_percentile(y_val, y_predicted_prob, percentiles)

plot_line_2_variables(x=percentiles[:-1], y=goal_rates, color='green', label="Taux de buts par centile des probabilités prédites", xinf=100, xsup=0, x_label="Centiles des probabilités prédites", y_label="Taux de buts (%)")

In [None]:
# il s'agit d'une courbe de calibrage personnalisé. la courbe monte régulièrement, cela signifie  cela signifie que les probabilités prédites 
# par le modèle sont cohérentes avec les fréquences observées
# La courbe est similaire a celle de la reg logistique distance + angle

#### Proportion cumulée de buts vs percentile de probabilité

#### Le diagramme de fiabilité (courbe de calibration)

In [None]:
CalibrationDisplay.from_predictions(y_val, y_predicted_prob, n_bins=10, name="XGBoost basique")
plt.title("Diagramme de fiabilité")
plt.show()

In [None]:
# la courbe passe en dessous de la diagonale a partir de 0.4 environ, 
# ainsi, cette figure pourrait impliquerait que le modèle sur-prédit les probabilités. cependant, sachant qu'il n,ya pas peu
#etre pas assez de données dans les bins, on est mieux de se fier a la courbe de buts par percentile qu'on a faite qui a aplus de données
#par bin (la fraction de valeurs positive dans chaque bin est donc plus representative )

#La courbe est cohérente au début (où il y a beaucoup d'exemples) mais devient incohérente aux extrémités (où les bins sont sous-représentés)
# ici le modele surprédit, alors que dans le cas de la regression logistique, le modèle sous-predit

### Wandb

In [None]:
# Initialiser Wandb pour distance
wandb.init(
    project=config.WANDB_PROJECT_NAME,  # Nom du projet
    name="XGBoost par défaut : distance et angle",  # Nom de l'expérience
    group="XGBoost",
    tags=["XGBoost", "distance_and_angle"],  # Tags pour cette expérience
    entity=config.WANDB_TEAM_NAME
)

xgb_params = {
    "learning_rate": 0.3,
    "max_depth": 6,
    "n_estimators": 100,
    "subsample": 1.0
}

# Logger les hyperparamètres dans wandb
wandb.config.update(xgb_params)

# Exemple : Entraîner le modèle
xgb = XGBClassifier(objective='binary:logistic')
xgb.fit(x_train, y_train)

# Évaluer le modèle (exemple avec AUC ROC)
y_predicted_prob = xgb.predict_proba(x_val)[:, 1]
y_predicted = xgb.predict(x_val)

auc_roc = roc_auc_score(y_val, y_predicted_prob)
f1 = f1_score(y_predicted, y_val, average="weighted")
ece = compute_ece(y_val, y_predicted_prob)

# Enregistrer les métriques dans Wandb
wandb.log({"val_roc_auc": auc_roc, "val_f1_score_weighted_weighted": f1, "val_expected_calibration_error": ece })

# Terminer l'expérience
wandb.finish()

## Question 2

In [None]:
xgb_categorial_characteristics = [
    'shotType',
    'previousEventType',
    'rebound'
]

xgb_num_characteristics = ['shotDistance', 
                   'shotAngle', 
                   'numberPeriod', 
                   'gameSeconds',
                   'xCoord',
                   'yCoord',
                   'previousXCoord',
                   'previousYCoord',
                   'timeSinceLastEvent',
                   'distanceFromLastEvent',
                   'speedFromLastEvent',
                  'reboundAngleShot' # changement angle de tir
                  ]

characteristics = xgb_num_characteristics + xgb_categorial_characteristics

In [None]:
x_full_train = train_data[characteristics].dropna()
y_full_train = train_data['isGoal'][x_full_train.index].to_numpy()

In [None]:
full_pipeline = ColumnTransformer(
    transformers=[
        ("cat", OneHotEncoder(), xgb_categorial_characteristics),  # OneHotEncoder pour les colonnes catégorielles
    ],
    remainder="passthrough"  # Garder les autres colonnes telles quelles
)

# Appliquer la pipeline aux données
x_full_train_transformed = full_pipeline.fit_transform(x_full_train)

### Optimisation des hyperparamètres

In [None]:
from sklearn.metrics import make_scorer

'''
def compute_ece(y_true, y_proba, n_bins=10):
    """
    Calcule l'Expected Calibration Error (ECE).
    
    Args:
        y_true: array, étiquettes vraies (0 ou 1).
        y_proba: array, probabilités prédites pour la classe positive.
        n_bins: int, nombre de bins pour la calibration.
        
    Returns:
        ece: erreur de calibration moyenne attendue.
    """
    bins = np.linspace(0, 1, n_bins + 1)
    bin_indices = np.digitize(y_proba, bins, right=True) - 1
    ece = 0.0

    for i in range(n_bins):
        # Masque des exemples dans le bin courant
        bin_mask = bin_indices == i
        if bin_mask.sum() > 0:
            bin_mean_predicted = y_proba[bin_mask].mean()
            bin_actual = y_true[bin_mask].mean()
            ece += (bin_mask.sum() / len(y_true)) * abs(bin_mean_predicted - bin_actual)
    
    return ece

# Créer une version négative de l'ECE pour minimisation
def negative_ece(y_true, y_proba):
    return -compute_ece(y_true, y_proba)

ece_scorer = make_scorer(negative_ece, needs_proba=True)

xgb = XGBClassifier(objective='binary:logistic')

stratified_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

param_grid = {
    "learning_rate": [0.01, 0.1],        # Taux d'apprentissage
    "max_depth": [10, 20],                  # Profondeur maximale des arbres
    "n_estimators": [200, 300],          # Nombre d'arbres
    "subsample": [0.7, 1.0],                 # Proportion des échantillons utilisés par arbre
}

grid_search = GridSearchCV(
    estimator=xgb,
    param_grid=param_grid,
    scoring=ece_scorer,
    cv=stratified_cv,                                   # Nombre de folds pour la validation croisée
    verbose=1,                              # Niveau de log
    n_jobs=-1                               # Utilisation de tous les cœurs disponibles
)

grid_search.fit(x_full_train_transformed, y_full_train)

# Résultats de la meilleure combinaison d'hyperparamètres
print("Meilleurs hyperparamètres :", grid_search.best_params_)
print("Meilleur score (Brier Score) :", grid_search.best_score_)


# show_xgboost_hyperparameters_scores(grid_search)
'''

### Courbes XGBoost

In [None]:
xgb_basic = XGBClassifier(objective='binary:logistic')

# grid_search.best_params_
# best_params = {'learning_rate': 0.1, 'max_depth': 20, 'n_estimators': 300, 'subsample': 1.0}
best_params = {'learning_rate': 0.01, 'max_depth': 10, 'n_estimators': 300, 'subsample': 1.0}

xgb_advanced = XGBClassifier(objective='binary:logistic', **best_params)

x = train_data[characteristics].dropna()
y = train_data['isGoal'][x.index]

x_train, x_val, y_train, y_val = train_test_split(x, y, test_size=0.2, random_state=42, stratify=y)

In [None]:
xgb_basic.fit(x_train[['shotDistance', 'shotAngle']], y_train)

x_train_transformed = full_pipeline.fit_transform(x_train)
x_val_transformed = full_pipeline.fit_transform(x_val)

xgb_advanced.fit(x_train_transformed, y_train)

y_predicted_prob_basic = xgb_basic.predict_proba(x_val[['shotDistance', 'shotAngle']])[:, 1]
y_predicted_prob_advanced = xgb_advanced.predict_proba(x_val_transformed)[:, 1]

#### ROC/AUC

In [None]:
plt.figure(figsize=(10, 6))
RocCurveDisplay.from_predictions(y_val, y_predicted_prob_basic, name="XGBoost basique (Distance et angle)", color="blue", ax=plt.gca())
RocCurveDisplay.from_predictions(y_val, y_predicted_prob_advanced, name="XGBoost avancé", color="green", ax=plt.gca())

plt.title("ROC Curves for XGBoost Models")
plt.grid(True)
plt.show()

#### Taux de buts vs percentile de probabilité

In [None]:
goal_rate_basic = compute_goal_rate_by_percentile(y_val, y_predicted_prob_basic, percentiles)
goal_rate_advanced = compute_goal_rate_by_percentile(y_val, y_predicted_prob_advanced, percentiles)

# Tracer les taux de buts
plt.figure(figsize=(10, 6))
plt.plot(percentiles[:-1], goal_rate_basic, label="XGBoost basique", color="blue")
plt.plot(percentiles[:-1], goal_rate_advanced, label="XGBoost avancé", color="green")

plt.title("Taux de buts par centile de probabilité")
plt.xlabel("Centile de probabilité")
plt.xlim(100,0)
plt.ylabel("Taux de buts (%)")
plt.ylim(0, 100)
plt.grid(True)
plt.legend()
plt.show()

#### Proportion cumulée des buts par centile

#### Diagramme de fiabilité

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))

CalibrationDisplay.from_predictions(y_val, y_predicted_prob_basic, n_bins=10, ax=ax, name="XGBoost basique")
CalibrationDisplay.from_predictions(y_val, y_predicted_prob_advanced, n_bins=10, ax=ax, name="XGBoost avancé")

plt.title("Diagramme de fiabilité")
plt.show()

### wandb

In [None]:
run = wandb.init(
    project=config.WANDB_PROJECT_NAME,  # Nom du projet
    name="XGBoost avancé (nouvelles caractéristiques)",  # Nom de l'expérience
    group="XGBoost",
    tags=["XGBoost", "new_features"],  # Tags pour cette expérience
    entity=config.WANDB_TEAM_NAME
)

xgb_params = {
    'learning_rate': 0.01,
    'max_depth': 10,
    'n_estimators': 300,
    'subsample': 1.0
}

# Logger les hyperparamètres dans wandb
wandb.config.update(xgb_params)

y_predicted_advanced = xgb_advanced.predict(x_val_transformed)

auc_roc = roc_auc_score(y_val, y_predicted_prob_advanced)
f1 = f1_score(y_predicted_advanced, y_val, average="weighted")
ece = compute_ece(y_val, y_predicted_prob_advanced)

wandb.log({"val_roc_auc": auc_roc, "val_f1_score_weighted": f1, "val_expected_calibration_error": ece })

model_path = "XGBoost_improved_with_new_features.pkl"
with open(model_path, "wb") as f:
    pickle.dump(xgb_advanced, f)

# Enregistrer le modèle avec WandB
run.log_model(path="XGBoost_improved_with_new_features.pkl", name="XGBoost_improved_with_new_features")

# Terminer l'expérience
wandb.finish()

## Question 3

### Sélection par importances via forêt aléatoire

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.metrics import make_scorer, accuracy_score

In [None]:
x_full_train = train_data[characteristics].dropna()
y_full_train = train_data['isGoal'][x_full_train.index].to_numpy()

x_full_train_transformed = full_pipeline.fit_transform(x_full_train)

In [None]:
'''
clf = ExtraTreesClassifier(n_estimators=100, random_state=42)
clf.fit(x_full_train_transformed, y_full_train)

# Obtenir l'importance des caractéristiques
importances = clf.feature_importances_

# Définir plusieurs seuils pour les importances
thresholds = np.linspace(0, max(importances), 10)

print('importances')
print(importances)

# Initialiser les variables pour suivre les scores et les seuils
scores_by_threshold = []

# Définir une validation croisée stratifiée
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# Essayer plusieurs seuils pour sélectionner les meilleures caractéristiques
for threshold in thresholds:
    # Sélectionner les caractéristiques importantes
    selector = SelectFromModel(clf, threshold=threshold, prefit=True)
    
    x_train_selected = selector.transform(x_full_train_transformed)

    xgb_advanced = XGBClassifier(objective='binary:logistic', **best_params)

    # Calculer la moyenne des scores sur les plis de la validation croisée
    scores = cross_val_score(xgb_advanced, x_train_selected, y_full_train, cv=cv, scoring=make_scorer(negative_ece, needs_proba=True))
    mean_score = np.mean(scores)

    # Stocker les résultats
    scores_by_threshold.append((threshold, mean_score))
    print(f"Threshold: {threshold:.4f}, Cross-Validation negative ECE: {mean_score:.4f}")

ece_by_threshold = [(t[0], t[1] * -1) for t in scores_by_threshold]

# Extraire les valeurs pour l'axe x (étiquettes) et l'axe y (hauteur des barres)
thresholds = [x[0] for x in ece_by_threshold]
ece_values = [x[1] for x in ece_by_threshold]

# Créer le graphique en bâtons
plt.figure(figsize=(10, 6))
plt.bar(thresholds, ece_values, width=0.003, color='skyblue')

# Ajouter les étiquettes
plt.xlabel('Threshold')
plt.ylabel('Erreur de calibration moyenne')
plt.title('Graphique en bâtons des Thresholds et des érreurs de calibration attendues moyennes')

# Afficher les étiquettes des thresholds sur l'axe des x
plt.xticks(thresholds, rotation=45)

# Afficher le graphique
plt.tight_layout()
plt.grid()
plt.show()

plt.savefig('feature_selection_random_forest')
'''

In [None]:
# best_threshold = sorted(ece_by_threshold, key=lambda x: x[1])[0][0] . celui qui minimise l'érruer de calibration
best_threshold = 0.08148290719876781

In [None]:
clf = ExtraTreesClassifier(n_estimators=100, random_state=42)
clf.fit(x_full_train_transformed, y_full_train)

selector = SelectFromModel(clf, threshold=best_threshold, prefit=True)

In [None]:
ohe = full_pipeline.named_transformers_["cat"]
ohe_columns = ohe.get_feature_names_out(xgb_categorial_characteristics)

# Colonnes "passthrough" (non modifiées)
passthrough_columns = xgb_num_characteristics

# Liste finale des colonnes
all_columns = list(ohe_columns) + passthrough_columns
all_columns_array = np.array(all_columns)

print("colonnes conservées")
print(all_columns_array[selector.get_support()])
'''
['shotDistance' 'shotAngle' 'gameSeconds' 'xCoord' 'yCoord'
 'timeSinceLastEvent' 'distanceFromLastEvent' 'speedFromLastEvent']
'''

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x_full_train, y_full_train, test_size=0.2, random_state=42, stratify=y_full_train)

xgb_basic = XGBClassifier(objective='binary:logistic')
xgb_advanced = XGBClassifier(objective='binary:logistic', **best_params)
xgb_advanced_2 = XGBClassifier(objective='binary:logistic', **best_params)

x_train_transformed = full_pipeline.fit_transform(x_train)
x_train_transformed_2 = selector.transform(x_train_transformed)

x_val_transformed = full_pipeline.fit_transform(x_val)
x_val_transformed_2 = selector.transform(x_val_transformed)

xgb_basic.fit(x_train[['shotDistance', 'shotAngle']], y_train)
xgb_advanced.fit(x_train_transformed, y_train)
xgb_advanced_2.fit(x_train_transformed_2, y_train)

y_predicted_prob_basic = xgb_basic.predict_proba(x_val[['shotDistance', 'shotAngle']])[:, 1]
y_predicted_prob_advanced = xgb_advanced.predict_proba(x_val_transformed)[:, 1]
y_predicted_prob_advanced_2 = xgb_advanced_2.predict_proba(x_val_transformed_2)[:, 1]

#### ROC/AUC

In [None]:
plt.figure(figsize=(10, 6))
RocCurveDisplay.from_predictions(y_val, y_predicted_prob_basic, name="XGBoost basique (Distance et angle)", color="blue", ax=plt.gca())
RocCurveDisplay.from_predictions(y_val, y_predicted_prob_advanced, name="XGBoost avancé", color="green", ax=plt.gca())
RocCurveDisplay.from_predictions(y_val, y_predicted_prob_advanced_2, name="XGBoost avancé - caractéristiques sélectionnées", color="red", ax=plt.gca())

plt.title("ROC Curves for XGBoost Models")
plt.grid(True)
plt.show()

#### Taux de buts vs percentile de probabilité

In [None]:
goal_rate_basic = compute_goal_rate_by_percentile(y_val, y_predicted_prob_basic, percentiles)
goal_rate_advanced = compute_goal_rate_by_percentile(y_val, y_predicted_prob_advanced, percentiles)
goal_rate_advanced_2 = compute_goal_rate_by_percentile(y_val, y_predicted_prob_advanced_2, percentiles)


# Tracer les taux de buts
plt.figure(figsize=(10, 6))
plt.plot(percentiles[:-1], goal_rate_basic, label="XGBoost basique", color="blue")
plt.plot(percentiles[:-1], goal_rate_advanced, label="XGBoost avancé", color="green")
plt.plot(percentiles[:-1], goal_rate_advanced_2, label="XGBoost avancé - caractéristiques sélectionnées", color="red")


plt.title("Taux de buts par centile de probabilité")
plt.xlabel("Centile de probabilité")
plt.xlim(100,0)
plt.ylabel("Taux de buts (%)")
plt.ylim(0, 100)
plt.grid(True)
plt.legend()
plt.show()

#### Proportion cumulée des buts par centile

#### Diagramme de fiabilité

In [None]:
fig, ax = plt.subplots(figsize=(8, 6))

CalibrationDisplay.from_predictions(y_val, y_predicted_prob_basic, n_bins=10, ax=ax, name="XGBoost basique")
CalibrationDisplay.from_predictions(y_val, y_predicted_prob_advanced, n_bins=10, ax=ax, name="XGBoost avancé")
CalibrationDisplay.from_predictions(y_val, y_predicted_prob_advanced_2, n_bins=10, ax=ax, name="XGBoost avancé - caractéristiques sélectionnées")

plt.title("Diagramme de fiabilité")
plt.show()

### Wandb

In [None]:
run = wandb.init(
    project=config.WANDB_PROJECT_NAME,  # Nom du projet
    name="XGBoost avancé (caractéristiques selectionnées)",  # Nom de l'expérience
    group="XGBoost",
    tags=["XGBoost", "selected_features"],  # Tags pour cette expérience
    entity=config.WANDB_TEAM_NAME
)

xgb_params = {
    'learning_rate': 0.01,
    'max_depth': 10,
    'n_estimators': 300,
    'subsample': 1.0
}

# Logger les hyperparamètres dans wandb
wandb.config.update(xgb_params)

y_predicted_advanced_2 = xgb_advanced_2.predict(x_val_transformed_2)

auc_roc = roc_auc_score(y_val, y_predicted_prob_advanced_2)
f1 = f1_score(y_predicted_advanced_2, y_val, average="weighted")
ece = compute_ece(y_val, y_predicted_prob_advanced_2)


# Enregistrer les métriques dans Wandb
wandb.log({"val_roc_auc": auc_roc, "val_f1_score_weighted": f1, "val_expected_calibration_error": ece })

model_path = "XGBoost_improved_with_selected_features.pkl"
with open(model_path, "wb") as f:
    pickle.dump(xgb_advanced_2, f)

# Enregistrer le modèle avec WandB
run.log_model(path="XGBoost_improved_with_selected_features.pkl", name="XGBoost_improved_with_selected_features")

# Terminer l'expérience
wandb.finish()

# Faites de votre mieux!

### Implémentation des réseaux de neurones

In [None]:
# Sélection des caractéristiques
characteristics = ['shotDistance', 'shotAngle', 'numberPeriod', 'gameSeconds'
                   ,'emptyGoalNet', 'offensivePressureTime', 'speedFromLastEvent', 'distanceFromLastEvent']

X = train_data[characteristics].dropna()
y = train_data['isGoal'][X.index]

# Chargement des données
config.INPUTS_DATA = X.to_numpy()
config.LABELS_DATA = y.to_numpy()

### Optimisation Perceptron

In [None]:
# model_start.optimize("Perceptron")

### Optimisation MLP 1 couche cachée

In [None]:
#model_start.optimize("MLP_H1")

### Optimisation 2 couches cachées

In [None]:
#model_start.optimize("MLP_H2") 

# Évaluer sur l'ensemble de test

### Acquisition des données d'entraînement

In [None]:
filename = './data/dataframe_2020_to_2021.csv'
start_year = 2020
end_year = 2021

if not os.path.isfile(filename):
    # Get the data from the NHL API (2020 - 2021)
    nhl_data_provider = get_data_from(start_year, end_year)

    # Clean the data
    clean_regular_season, clean_playoff = clean_data(nhl_data_provider)

    # Transform data into dataframe
    df_2020_to_2021 = convert_dictionaries_to_dataframes(clean_regular_season,
                                                         clean_playoff,
                                                         np.arange(start_year, end_year + 1).tolist())
    df_2020_to_2021.to_csv(filename, index=False)

### Récupération des données d'entraînement

In [None]:
test_data = pd.read_csv(filename)

# Séparation des données de test en saison régulières et playoff
regular_test_data = test_data[test_data['gameType'] == "regular-season"].dropna()
playoff_test_data = test_data[test_data['gameType'] == "playoffs"].dropna()

## Prédiction pendant la saison régulière (2020-2021)

### Regression logistique

In [None]:
#TODO: CODE ICI

### XGBoost

In [None]:
#TODO: CODE ICI

characteristics = xgb_num_characteristics + xgb_categorial_characteristics

x_test = regular_test_data[characteristics].dropna()
y_test = regular_test_data['isGoal'][x_test.index].to_numpy()

x_test_transformed = full_pipeline.fit_transform(x_test)

# Initialize a run
run = wandb.init(project=config.WANDB_PROJECT_NAME, entity=config.WANDB_TEAM_NAME)

# Access and download model. Returns path to downloaded artifact
downloaded_model_path = run.use_model(name = "XGBoost_improved_with_new_features:latest")

In [None]:
# Charger le modèle
with open(downloaded_model_path, "rb") as file:  # "rb" signifie lecture en mode binaire
    xgb_model = pickle.load(file)

y_pred_prob_xgb = xgb_model.predict_proba(x_test_transformed)[:, 1]
y_pred_xgb = xgb_model.predict(x_test_transformed)

auc_roc = roc_auc_score(y_test, y_pred_prob_xgb)
f1 = f1_score(y_pred_xgb, y_test, average="weighted")
ece = compute_ece(y_test, y_pred_prob_xgb)

print(f"F1 pondéré: {f1}")
print(f"AUC: {auc_roc}")
print(f"ece: {ece}")

### Préparation des données pour les réseaux de neurones

In [None]:
# Chargement des données de test
X_regular = regular_test_data[characteristics]
y_regular = regular_test_data['isGoal'][X_regular.index]

# Ajout dans le fichier config.py :
config.TEST_DATA = X_regular.to_numpy()

### Perceptron

In [None]:
y_pred = model_start.predict_data("Perceptron")
f1 = f1_score(y_pred, y_regular, average="weighted")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}") 

### MLP 1 couche cachée

In [None]:
y_pred = model_start.predict_data("MLP_H1")
f1 = f1_score(y_pred, y_regular, average="weighted")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}") 

### MLP 2 couches cachées

In [None]:
y_pred = model_start.predict_data("MLP_H2")
f1 = f1_score(y_pred, y_regular, average="weighted")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}") 

## Prédiction pendant les Playoffs (2020-2021)

### Regression logistique

In [None]:
#TODO: CODE ICI

### XGBoost

In [None]:
#TODO: CODE ICI

### Préparation des données pour les réseaux de neurones

In [None]:
# Chargement des données de test
X_playoff = playoff_test_data [characteristics]
y_playoff = playoff_test_data ['isGoal'][X_playoff.index]

# Ajout dans le fichier config.py :
config.TEST_DATA = X_playoff.to_numpy()

### Perceptron

In [None]:
y_pred = model_start.predict_data("Perceptron")
f1 = f1_score(y_pred, y_playoff, average="weighted")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}") 

### MLP 1 couche cachée

In [None]:
y_pred = model_start.predict_data("MLP_H1")
f1 = f1_score(y_pred, y_playoff, average="weighted")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}") 

### MLP 2 couches cachées

In [None]:
y_pred = model_start.predict_data("MLP_H2")
f1 = f1_score(y_pred, y_playoff, average="weighted")
print(f"F1-score du modèle sur l'ensemble de validation: {f1:.2f}") 