# NBA : calcul de cote


# TD de machine Learning

**Elective** : Machine Learning   
**Professeur** : Théophile Ravillion   
**Date** : Jeudi 22 Avril 2021

## Les données
Fan de patin à glace et lassé des conversations de comptoir du dimanche midi qui tournent inévitablement autour du prochain match de NBA, vous avez décidé de mettre au point un modèle de prédiction qui vous permettra d'avoir facilement le dernier mot et d'être reconnu comme le devin de référence en la matière.

Depuis longtemps, le baskett est une affaire de statistique, un grand nombre d'indicateur ont été mis au point par des stateux : https://www.basketball-reference.com/about/glossary.html 

https://www.basketball-reference.com/ contient de nombreuses données sur les matchs passés.

Vous disposez d'un jeu de données agrégeant pour chaque match ces indicateurs de performance par équipe et par joueur observés lors des précédents matchs. 

## Votre défi :
Estimez une cote pour chaque matchup de la saison régulière 2018-2019.

## Livrable
Un projet github contenant un notebook + un fichier cotes.csv contenant les cotes pour la saison 2018-2019.
cotes.csv doit contenir le tableau des cotes de l'équipe jouant à domicile en fonction de l'équipe adverse jouant en exterieur.   
En header l'id des équipes avec la convention de nommage suivante : {team_id}_away   
En première colonne  : {team_id}_home   
Chaque case doit correspondre à la cote de l'équipe jouant à domicile    

Bonne chance !

# Feuille de route

Comment procéder ? 
Pour réaliser cet exercice, il vous faudra :

## Récuperer les données 

In [4]:
import pandas as pd

url_train = "" 

df_train = pd.read_csv(url_train, sep=',', decimal='.' )


## description des données   
Le DataFrame contient 

### Terminologie des colonnes : ###   

`_past` :  signifie que cet indicateur a été calculé sur des données précédent le match

`home_` :  désigne l'équipe jouant à domicile
`away_` :  désigne l'équipe jouant à l'exterieur

`player` : désigne un indicateur calculé en aggrégeant les performances individuelles des joueurs présents à ce match. Son absence signifie au contraire que l'indicateur est calculé sur la base de données qui concernent l'équipe.
             
`pct` :  désigne un pourcentage

Pour le reste, se reporter à : https://www.basketball-reference.com/about/glossary.html

### Liste des colonnes : ###    

game_id : id du match    
season : saison    
away_id : id de l'équipe jouant à l'exterieur       
away_name : nom de l'équipe jouant à l'exterieur     
home_id : id de l'équipe jouant à domicile     
home_name : nom de l'équipe jouant à domicile        
datetime : jour du match    
home_win : 1 si l'équipe à domicile l'a emporté. Sinon, 0. 

**Indicateurs de l'équipe jouant à domicile :**   
home_efg_past    
home_ftfga_past    
home_ftscore_past    
home_orb_past    
home_ortg_past    
home_pace_past    
home_tov_past    
home_win_past    

**Indicateurs de l'équipe jouant à l'exterieur :**   
away_efg_past    
away_ftfga_past    
away_ftscore_past    
away_orb_past    
away_ortg_past    
away_pace_past    
away_tov_past    
away_win_past 

**Indicateurs calculés sur la base des précédentes rencontres des deux mêmes équipes** :   
win_pct_same_matchup : % de victoire de l'équipe jouant à domicile lors des précédentes rencontres des deux mêmes équipes dans la même configuration (home/away)

win_pct_mirror_matchup : % de victoire de l'équipe jouant à domicile  lors des précédentes rencontres des deux mêmes équipes dans la configuration home/away inverse  

**Indicateurs calculés sur la base des données passées des joueurs :**   
plus_minus_player_away_past   
plus_minus_player_home_past   
ts_pct_player_away_past   
ts_pct_player_home_past   
efg_pct_player_away_past   
efg_pct_player_home_past   
3par_player_away_past   
3par_player_home_past   
ftr_player_away_past   
ftr_player_home_past   
orb_pct_player_away_past   
orb_pct_player_home_past   
drb_pct_player_away_past   
drb_pct_player_home_past   
trb_pct_player_away_past   
trb_pct_player_home_past   
ast_pct_player_away_past   
ast_pct_player_home_past   
stl_pct_player_away_past   
stl_pct_player_home_past   
blk_pct_player_away_past   
blk_pct_player_home_past   
tov_pct_player_away_past   
tov_pct_player_home_past   
usg_pct_player_away_past   
usg_pct_player_home_past   
ortg_player_away_past   
ortg_player_home_past   
drtg_player_away_past   
drtg_player_home_past   
bpm_player_away_past   
bpm_player_home_past   
game_score_player_away_past   
game_score_player_home_past   

## Analyser les données  
Identifier la distribution de chaque variable  
Données manquantes    
Données aberrantes   
Données corrélées entre elles  

### Boite à outils :   
**Décrire le contenu d'un dataframe pandas**   
`df.info()`   
`df.describe()`   

Gallerie Seaborn : https://seaborn.pydata.org/examples/index.html#   
Histograme : https://seaborn.pydata.org/generated/seaborn.histplot.html   
PairPlot : https://seaborn.pydata.org/generated/seaborn.pairplot.html   
Corrélogramme : https://seaborn.pydata.org/generated/seaborn.heatmap.html   

**Imputation des valeurs manquantes :**   
KNNImputer : https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html  
`df['var1'] = df['var1'].fillna(df['var1'].mean())`  
`df['var1'] = df['var1'].fillna(df['var1'].median())`  
`df['var1'] = df['var1'].fillna(df['var1'].mode())`  
`df['var1'] = df['var1'].fillna(method='ffill')`

**Quelques fonctions pandas utiles :**  
**Supprimer la ligne** i du dataframe df :   
`df.drop(i, axis=0, inplace=True)`
  
**Supprimer la colonne** c du dataframe df :   
`df.drop(i, axis=1, inplace=True)`
  
**Appliquer la fonction f** sur la colonne c du dataframe df :   
`df[c] = df[c].apply(lambda x : f(x))`

**Selectionner**  les 5 premiers éléments d'un dataframe df :   
`df.head(5)`

**Selectionner**  les 5 derniers éléments d'un dataframe df :   
`df.tail(5)`

**Selectionner**  les éléments d'un dataframe qui satisfont une condition :   
ex : selectionner toutes les lignes dont le prix est supérieur à 100 :  
`df[df['prix'] > 100]`

## Normaliser les données
Choisir une méthode de normalisation, comparer les résultats obtenus avec différentes méthodes 

### Boite à outils

K-NN : https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html   
Robust Scaler : https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html   
StandardScaler : 
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html#sklearn.preprocessing.StandardScaler         
MinMaxScaler : 
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html#sklearn.preprocessing.MinMaxScaler      

## Etudier l’opportunité d’une réduction de dimension
- Tester les perfs obtenus pour différentes valeurs
- Visualiser la variance expliquée par chaque axe
- Justifier le nombre d’axes retenus

### Boite à outils  
Analyse en composante principale : https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html   

## Créer un échantillon non biaisé de validation
A moins que vous n'utilisiez la k-fold validation (stratifiée ?)

### Boite à outil :   
`from sklearn.model_selection import train_test_split`  

## Entrainer différents algorithmes de classification

`model = ...`   
`model.fit(X_train, y_train)`

### Boite à outils  
SVM : https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html   
Random Forest : https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier   
Regression logistique : https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html   

## Comparer la performance de différents algorithmes
Faire des prédictions et evaluer leur justesse de ces prédictions à l'aide de différents indicateurs :
- Matrice de confusion
- Accuracy
- F-Score

### Boite à outils  
Un rapport de performance clé en main : https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html   

Liste des différents indicateurs : https://scikit-learn.org/stable/modules/model_evaluation.html

Faire une prédiction avec un model sklearn entrainé :   
`y_pred_1 = model_1.predict(X_val, y_val)`   

Eventuellement, on cherchera à estimer une probabilité :    
`y_pred_1 = model_1.predict_proba(X_val, y_val)`   





## Optimiser les hyper-paramètres de l’algorithme retenu
Tester différents hyper-paramètres pour tirer au mieux partit de l'algorithme retenu

### Boite à outils  
GridSearchCV :  https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html



## Calculer cotes pour la saison 2018-2019

**Rappel de stat :**    
Si l'équipe A à Pa=80% de chance de victoire contre l'équipe B, alors la cote de A se calcul :   
Ca = 1/Pa = 1.25

Créez un fichier cotes.csv contenant les cotes.   

En header l'id des équipes avec la convention de nommage suivante : {team_id}_away   
En première colonne  : {team_id}_home   
Chaque case doit correspondre à la cote de l'équipe jouant à domicile    

Vérifier que votre notebook fonctionne avant de le rendre.    
Si possible : redémarrez le et faites le tourner en entier


### Boite à outils  
exporter un dataFrame pandas au format csv :   
`df_cote.to_csv('data/cotes.csv' , sep=',', decimal='.')`