In [420]:
import pandas as pd
import numpy as np
import os 

from sklearn.preprocessing import LabelEncoder, OrdinalEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix

In [421]:
input_path = os.path.join('..\data\datasets\csv_files','2016-2020-v2.csv')
df = pd.read_csv(input_path)

$$ \textbf{Traitement des valeurs manquantes dans la colonne 'strength':} $$

In [422]:
def remove_nan_from_strength(df : pd.DataFrame):
    for index, row in df.iterrows():
    # On cherche les lignes pour lesquelles 
        if (row['strength'] != 'Even') & (row['strength'] != 'Power Play') & (row['strength'] != 'Short Handed'):
            if row['attacking_team_name'] == row['home_team'] :
                if row['home_team_players'] < row['away_team_players']:
                    df.at[index, 'strength'] = 'Short Handed'
                else : 
                    if row['home_team_players'] == row['away_team_players']:
                        df.at[index, 'strength'] = 'Even'
                    else :
                        df.at[index, 'strength'] = 'Power Play'
            else :
                if row['away_team_players'] > row['home_team_players']:
                    df.at[index, 'strength'] = 'Power Play'
                else : 
                    if row['away_team_players'] == row['home_team_players']:
                        df.at[index, 'strength'] = 'Even'
                    else : 
                        df.at[index, 'strength'] = 'Short Handed'

    return df

In [423]:
df = remove_nan_from_strength(df)

$$ \textbf{Encodage des caractéristiques : } $$

In [424]:
# Encodage des caractéristiques de type catégorielle :
# On utilise LabelEncoder() pour les variables pour lesquelles l'ordre n'est pas important

# Colonne pour lesquels l'ordre n'est pas important
categorical_columns_1 = ['period_type', 'attacking_team_name', 'shooter', 'goalie', 'rebound', 'last_event_type', 'home_team']

# Colonne pour laquelle l'ordre est important
# Sachant que certains types de tirs sont plus efficaces en moyenne que d'autre, on encode les 
# types de tirs les plus efficaces avec des valeurs élevées
# (Au Milestone 1, on a vu que les 'Tip-in' sont les plus efficaces et que les 'Wrap-around' sont les moins
# efficaces)

shot_type_classified = [['Wrap-around',0], ['Slap Shot', 1], ['Snap Shot', 2], ['Wrist Shot', 3], ['Backhand', 4], ['Deflected', 5], ['Tip-In',6]]

# La caractéristique 'strength' doit aussi étre encodée de manière ordinale, étant donné
# que lorsqu'une équipe est en 'Power Play', elle a plus de chances de marquer tandis que lorsqu'elle est
# 'Short handed', ses chances de marquer diminuent
strength_classified = [['Short Handed',0], ['Even', 1], ['Power Play', 2]]

In [425]:
def encode_categorical_features(df : pd.DataFrame, categorical_features: list, shot_type_classified : list, strength_classified : list):
    df = df.copy()

    # Encodage des 'shot_type'
    mapping_dict = {row[0]: row[1] for row in shot_type_classified}
    df['shot_type'] = df['shot_type'].replace(mapping_dict)

    # Encodage de 'strength'
    mapping_dict_1 = {row[0] : row[1] for row in strength_classified}
    df['strength'] = df['strength'].replace(mapping_dict_1)

    # Encodage des autres caractéristiques
    label_encoder = LabelEncoder()

    for feature in categorical_features :
        df[feature] = label_encoder.fit_transform(df[feature]) 

    return df

In [426]:
df = df.dropna()
df = encode_categorical_features(df, categorical_columns_1, shot_type_classified, strength_classified )

$$ \textbf{Sélection des caractéristiques + Séparation des données (entrainement, validation, test):} $$

$$\textbf{Méthode de filtrage (K-best) } $$

In [427]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.metrics import recall_score, f1_score

In [434]:
def get_features_KBest(X: pd.DataFrame, Y: pd.Series, nb_features: int):

    # https://stackoverflow.com/questions/39839112/the-easiest-way-for-getting-feature-names-after-running-selectkbest-in-scikit-le
    selector = SelectKBest(f_classif, k = nb_features)
    X_new = pd.DataFrame(selector.fit_transform(X, Y))

    names = X.columns.values[selector.get_support()]

    return X[names], names

In [443]:
def get_test_df(df: pd.DataFrame, test_year : int) :
    df = df.copy()
    # Ajout d'une colonne pour l'année
    df['year'] = df['gameID'].apply(lambda x : x//1000000)

    # Récupération du DataFrame de test
    test_df = df[df['year'] == test_year]
    test_df.drop(columns = 'year')

    # Récupération du DataFrame d'entrainement et validation
    train_val_df = df[df['year'] == test_year]
    train_val_df.drop(columns = 'year')

    return test_df, train_val_df

In [445]:
# Récupération des deux DataFrames
test_df, train_val_df = get_test_df(df, 2020)

In [446]:
X = train_val_df.drop(columns=['is_goal', 'period_time'])
Y = train_val_df['is_goal']

# On récupère le dataset avec les K-meilleures caractéristiques
X_Kbest, Kbest_features = get_features_KBest(X, Y, 10)

  f = msb / msw


In [449]:
# Mise à jour de notre ensemble de test
test_df = test_df[Kbest_features]

In [461]:
X_train, X_val, Y_train, Y_val = train_test_split(
    X_Kbest, Y, train_size = 0.8, random_state = 42 
)

$$ \textbf{Réequilibrage des données : }  $$ 

In [481]:
# 1re approche : Utilisation de SMOTE pour créer des échantillons synthétiques de la classe minoritaire
from imblearn.over_sampling import SMOTE

In [482]:
oversample_SM = SMOTE(sampling_strategy = 'minority')
X_train_over, Y_train_over = oversample_SM.fit_resample(X_train,Y_train) 

In [454]:
# 2e approche : Utilisation de RandomUnderSampler pour réduire la taille de la classe majoritaire
from imblearn.under_sampling import RandomUnderSampler
# https://imbalanced-learn.org/stable/references/generated/imblearn.under_sampling.RandomUnderSampler.html#imblearn.under_sampling.RandomUnderSampler

In [455]:
rus = RandomUnderSampler(random_state = 42)
X_train_res, Y_train_res = rus.fit_resample(X_train, Y_train)

$$ \textbf{Entrainement d'un modèle RandomForest} $$ 

In [474]:
RandomForest_model = RandomForestClassifier()

In [483]:
# Entrainement du modèle sur les données sur-échantillonées par SMOTE
RandomForest_model.fit(X_train_over,Y_train_over)

In [484]:
Y_pred = RandomForest_model.predict(X_val)

In [485]:
confusion_matrix(Y_val,Y_pred)

array([[9113,  628],
       [ 809,  136]], dtype=int64)

In [486]:
print("Accuracy_score :",accuracy_score(Y_pred, Y_val))
print("Recall score :" , recall_score(Y_pred, Y_val))
print("F1-score :" , f1_score(Y_pred, Y_val))

Accuracy_score : 0.8655249859629421
Recall score : 0.17801047120418848
F1-score : 0.1591574019894675


$$ \textbf{Méthode de wrapping : Recursive feature elimination (RFE)} $$

In [334]:
from sklearn.svm import SVR
from sklearn.feature_selection import RFE

In [335]:
estimator = SVR(kernel = 'linear')