# 0 - Préliminaires


Executer les cellules suivantes pour importer les librairies utiles et les fonctions de base

In [4]:
import pandas as pd
import numpy as np
import matplotlib
%matplotlib notebook
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler,MinMaxScaler
from sklearn.datasets import make_moons, make_circles, make_classification
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.decomposition import pca
from sklearn.metrics import classification_report



In [5]:
h = .02  # step size in the mesh

def plot_classifier_training(clf,X_train,X_test,y_train,y_test):
    """
    Entraine sans normaliser et affiche les résultats du classifier clf (qui doit exposer l'interface sklearn) pour un dataset 2D. 
    """
    
    cm = plt.cm.RdBu
    cm_bright = ListedColormap(['#FF0000', '#0000FF'])
    
    fig,ax = plt.subplots()
    
    X = np.concatenate((X_train,X_test),axis=0)
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    
    clf.fit(X_train, y_train)
    score = clf.score(X_test, y_test)

    # Plot the decision boundary. For that, we will assign a color to each
    # point in the mesh [x_min, x_max]x[y_min, y_max].
    if hasattr(clf, "decision_function"):
        Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    else:
        Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    ax.contourf(xx, yy, Z, cmap=cm, alpha=.8)
    # Plot the training points
    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright,
               edgecolors='k')
    # and testing points
    ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6,
               edgecolors='k')
    
    
    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())
    ax.set_xticks(())
    ax.set_yticks(())
    ax.text(xx.max() - .3, yy.min() + .3, ('Score : %.2f %% ' % (score*100.0)).lstrip('0'),
                size=15, horizontalalignment='right')
    return score
    

# 1 Essai de quelques classifiers
Dans cette première partie, on essaiera sur des jeux de données basiques quelques classifiers afin de comprendre leur fonctionnement
 
## 1.0 Chargement et affichage des jeux de données

### Dataset a deux classes trivial
Executer la cellule suivante pour construire et afficher le jeu de données

In [13]:
# Dataset 2D trivial : 
trivial_data, trivial_labels = make_classification(n_features=2, n_redundant=0, n_informative=2,
                           random_state=1, n_clusters_per_class=1)
# color map:
trivial_colormap = ['r' if label==0 else 'b' for label in trivial_labels]
plt.figure()
plt.scatter(trivial_data[:,0],trivial_data[:,1], c=trivial_colormap)

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x285a3f75128>

### Dataset linéairement séparable
Executer la cellule suivante pour construire et afficher le jeu de données

In [14]:
rng = np.random.RandomState(2)
linear_sep_data = trivial_data + 2*rng.uniform(size=trivial_data.shape)
linear_sep_labels = trivial_labels
linear_sep_colormap = trivial_colormap

plt.figure()
plt.scatter(linear_sep_data[:,0],linear_sep_data[:,1], c=linear_sep_colormap)

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x285a482ae48>

### Moon dataset 
Executer la cellule suivante pour construire et afficher le jeu de données

In [15]:
moon_data,moon_labels = make_moons(noise=0.3, random_state=0)
moon_colormap = ['r' if label==0 else 'b' for label in moon_labels]

plt.figure()
plt.scatter(moon_data[:,0],moon_data[:,1], c=moon_colormap)

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x285a4ae4a58>

### Dataset encapsulé
Executer la cellule suivante pour construire et afficher le jeu de données

In [16]:
circle_data,circle_label = make_circles(noise=0.2, factor=0.5, random_state=1)
circle_colormap = ['r' if label==0 else 'b' for label in circle_label]

plt.figure()
plt.scatter(circle_data[:,0],circle_data[:,1], c=circle_colormap)

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x285a4b2bac8>

________________________________________________________________________________________________________

## 1.1 Classification 
### Construction d'un jeu de données de validation


In [17]:
# construction des datasets de training et test pour le dataset trivial :

trivial_train, trivial_test, trivial_train_labels, trivial_test_labels = \
                train_test_split(trivial_data, trivial_labels, test_size=.4, random_state=42)
# colormaps pour l'affichage
trivial_train_colormap = ['orange' if label==0 else 'green' for label in trivial_train_labels]
trivial_test_colormap = ['r' if label==0 else 'b' for label in trivial_test_labels]


# affichage des datasets : 
plt.figure()
plt.scatter(trivial_train[:,0],trivial_train[:,1], c= trivial_train_colormap,label='Training set trivial')
plt.scatter(trivial_test[:,0],trivial_test[:,1], c= trivial_test_colormap,label='Validation set trivial')
plt.title('Validation vs Training sets')




<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Validation vs Training sets')

### Machine à support vectoriel (SVM) linéaire
Executer la cellule suivante pour entrainer et afficher la classification du SVM sur le dataset trivial 

In [18]:
# création du classifier à support vectoriel linéaire
clf = SVC(kernel='linear')

plot_classifier_training(clf,trivial_train, trivial_test, trivial_train_labels, trivial_test_labels)

<IPython.core.display.Javascript object>

1.0

#### Exercice
Construire les jeux de validation pour les autres datasets, puis entrainer et afficher le SVM linéaire sur ces datasets.

Conclure sur la capacité d'un tel classifier a traiter les données plus complexes

In [12]:
linear_sep_train, linear_sep_test, linear_sep_train_labels, linear_sep_test_labels = #A completer
  
moon_train, moon_test, moon_train_labels, moon_test_labels = #A completer

circle_train, circle_test, circle_train_labels, circle_test_labels = #A completer

# evaluer les classifiers ici




SyntaxError: invalid syntax (<ipython-input-12-ac76e49e94b6>, line 1)

### L'astuce du noyeau (kernel trick)
Evaluer sur les différents datasets des SVM avec des noyeaux différents tels que ceux cités ci dessous et jouer avec les paramètres des noyeaux pour mesurer leur influence (voir <a href=http://scikit-learn.org/stable/modules/svm.html#svm-kernels>la doc sklearn</a> pour plus d'informations sur les noyeaux disponibles)

Conclure sur les noyeaux les mieux adaptés a chacun des datasets

In [19]:
gaussian_svm = SVC(kernel='rbf',gamma=2, C=1)
polynomial_svm = SVC(kernel='poly',degree=2)
sigmoid_svm = SVC(kernel='sigmoid',gamma=2, coef0=2)

### K plus proches voisins (KNN)
Etudier le comportement du classifier suivant sur les différents datasets


In [20]:
knn_clf = KNeighborsClassifier(3)

Etudier l'impact du nombre de voisins sur la qualité de la prédiction selon les différents datasets

### Decision Tree Classifier
Evaluer le classifier suivant sur les différents datasets et analyser son comportement

In [21]:
dt_clf = DecisionTreeClassifier(max_depth=5)

### Random Forest Classifier
Evaluer le classifier suivant sur les différents datasets et étudier son comportement

In [22]:
rf_clf = RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1)

## 1.2 Scoring
Utiliser la fonction suivante pour calculer les scores et la matrice de confusion des différents classifiers essayés dans la partie précédente. Conclure sur les classifiers les mieux adaptés a chacun des datasets. 

In [23]:
def get_scoring_report(clf,X_train,X_test,y_train,y_test,beta=1):
    """
    renvoie les valeurs suivantes pour un classifier clf entrainé sur X_train,y_train et scoré sur X_test,y_test:
    tp : vrais positifs
    tn : vrais négatifs
    fp : faux positifs
    fn : faux négatifs
    precision : précision
    """
    tp=0
    tn=0
    fp=0
    fn=0
    clf.fit(X_train,y_train)
    y_pred = clf.predict(X_test)
    for i in range(y_pred.size):
        predicted = y_pred[i]
        true_val = y_test[i]
        if predicted==true_val:
            if true_val==1:
                tp+=1
            else:
                tn+=1
        else:
            if predicted==1:
                fp+=1
            else:
                fn+=1
    precision=tp/(tp+fp)
    recall=tp/(tp+fn)
    accuracy = (tp+tn)/(tp+fp+tn+fn)
    f_beta = (1+beta**2)*(precision*recall/(precision*(beta**2)+recall))
    
    return tp,tn,fp,fn,precision,recall,accuracy,f_beta

In [24]:
# exemple d'utilisation
tp,tn,fp,fn,precision,recall,accuracy,f_beta = get_scoring_report(clf,trivial_train, trivial_test, trivial_train_labels, trivial_test_labels)
print("precision : "+ str(precision))

precision : 1.0


# 2 Application a des données réelles


## - Import des données
 
Le dataset chargé par la cellule suivante constitue des stats de joueurs de la NBA, labellisées par zero si le joueur en question n'a pas passé plus de 5 ans en NBA, et par un dans le cas contraire. 
![alt text](./ds_params.png "Données d'entrée")

In [25]:
# Load dataset
df = pd.read_csv("nba_logreg.csv")

# extraction des noms, labels, paramètres et valeurs
names = df['Name'].values.tolist() # players names
labels = df['TARGET_5Yrs'].values # labels
paramset = df.drop(['TARGET_5Yrs','Name'],axis=1).columns.values
df_vals = df.drop(['TARGET_5Yrs','Name'],axis=1).values
# replacing Nan values (only present when no 3 points attempts have been performed by a player)
for x in np.argwhere(np.isnan(df_vals)):
    df_vals[x]=0.0
df

Unnamed: 0,Name,GP,MIN,PTS,FGM,FGA,FG%,3P Made,3PA,3P%,...,FTA,FT%,OREB,DREB,REB,AST,STL,BLK,TOV,TARGET_5Yrs
0,Brandon Ingram,36,27.4,7.4,2.6,7.6,34.7,0.5,2.1,25.0,...,2.3,69.9,0.7,3.4,4.1,1.9,0.4,0.4,1.3,0.0
1,Andrew Harrison,35,26.9,7.2,2.0,6.7,29.6,0.7,2.8,23.5,...,3.4,76.5,0.5,2.0,2.4,3.7,1.1,0.5,1.6,0.0
2,JaKarr Sampson,74,15.3,5.2,2.0,4.7,42.2,0.4,1.7,24.4,...,1.3,67.0,0.5,1.7,2.2,1.0,0.5,0.3,1.0,0.0
3,Malik Sealy,58,11.6,5.7,2.3,5.5,42.6,0.1,0.5,22.6,...,1.3,68.9,1.0,0.9,1.9,0.8,0.6,0.1,1.0,1.0
4,Matt Geiger,48,11.5,4.5,1.6,3.0,52.4,0.0,0.1,0.0,...,1.9,67.4,1.0,1.5,2.5,0.3,0.3,0.4,0.8,1.0
5,Tony Bennett,75,11.4,3.7,1.5,3.5,42.3,0.3,1.1,32.5,...,0.5,73.2,0.2,0.7,0.8,1.8,0.4,0.0,0.7,0.0
6,Don MacLean,62,10.9,6.6,2.5,5.8,43.5,0.0,0.1,50.0,...,1.8,81.1,0.5,1.4,2.0,0.6,0.2,0.1,0.7,1.0
7,Tracy Murray,48,10.3,5.7,2.3,5.4,41.5,0.4,1.5,30.0,...,0.8,87.5,0.8,0.9,1.7,0.2,0.2,0.1,0.7,1.0
8,Duane Cooper,65,9.9,2.4,1.0,2.4,39.2,0.1,0.5,23.3,...,0.5,71.4,0.2,0.6,0.8,2.3,0.3,0.0,1.1,0.0
9,Dave Johnson,42,8.5,3.7,1.4,3.5,38.3,0.1,0.3,21.4,...,1.4,67.8,0.4,0.7,1.1,0.3,0.2,0.0,0.7,0.0


L'objectif de cette partie est de choisir le score le plus approprié à ce que serait une prédiction sportive visant a savoir si l'on peut miser sur un joueur et investir dans sa carrière. Lorsque vous aurez sélectionné le score le plus approprié, utilisez la fonction de scoring ainsi que ce qui a été vu en partie 1 pour entrainer le meilleur classifier possible sur le dataset de validation fourni. 

La cellule suivante offre une vue du dataset basculé en 2D grace a une analyse en composantes principales (cf. cours).  

In [26]:
pcized = pca.PCA().fit_transform(df_vals) 
plt.figure()
plt.scatter(pcized[:,0],pcized[:,1],c=['r' if label==0.0 else 'b' for label in labels.tolist()], alpha=0.6)

<IPython.core.display.Javascript object>

<matplotlib.collections.PathCollection at 0x285a5cd82e8>

Construction des datasets de training et de validation

In [27]:
nba_train, nba_test, nba_train_labels, nba_test_labels = \
                train_test_split(df_vals, labels, test_size=.4, random_state=42)


La cellule suivante contient des outils qui peuvent éventuellement vous servir a aguiller votre recherche du meilleur classifier


In [28]:
dictIndexes = {}
param_list = list(paramset)
# histogramme sur un des paramètres
for i in range(len(param_list)):
    dictIndexes[param_list[i]]=i

def plot_nba_feature_histogram(feature_name, dataset,color='b',new_fig=True):
    """
    dessine un histogramme de la couleur souhaitée pour la distribution de paramètre 
    de nom feature_name dans le dataset dataset
    
    Si new_fig=False, plotte l'histogramme dans la figure courante, sinon, crée 
    une nouvelle figure
    
    ATTENTION: cela ne fonctionne que pour les datasets issus directement du dataset 
    source, dont le training et validation dataset, pas ceux qui ont étés reconstruits
    a partir de la fonction get_subset
    """
    
    findex = dictIndexes[feature_name]
    if new_fig:
        plt.figure()
    plt.hist(dataset[:,findex],color=color)
    

def get_feature_stats(feature_name,dataset):
    """
    retourne un triplet moyenne, eccart type, étendue pour la variable demandée
    
    ATTENTION: cela ne fonctionne que pour les datasets issus directement du dataset 
    source, dont le training et validation dataset, pas ceux qui ont étés reconstruits
    a partir de la fonction get_subset
    """
    vals = dataset[:,dictIndexes[feature_name]]
    return np.average(vals),np.std(vals),np.max(vals)-np.min(vals)

def get_subset(dataset,feature_names):
    """
    retourne un sous ensemble du dataset fourni ne contenant que 
    les features présentes dans la liste feature_names
    
     ATTENTION: cela ne fonctionne que pour les datasets issus directement du dataset 
    source, dont le training et validation dataset, pas ceux qui ont étés reconstruits
    a partir de cette même fonction
    """
    outdf = []
    for x in feature_names:
        outdf.append(dataset[:,dictIndexes[x]])
    print(outdf)
    return(np.array(outdf).transpose())

In [32]:
# quelques exemples d'utilisation des fonctions proposées

plot_nba_feature_histogram('3P%',df_vals,color='red')
print(get_feature_stats('3P%',df_vals))
print(get_subset(df_vals,['3P%','3P Made']))


<IPython.core.display.Javascript object>

(19.132238805970147, 16.0539855860376, 100.0)
[array([25. , 23.5, 24.4, ...,  0. , 10. , 33.3]), array([0.5, 0.7, 0.4, ..., 0. , 0. , 0.4])]
[[25.   0.5]
 [23.5  0.7]
 [24.4  0.4]
 ...
 [ 0.   0. ]
 [10.   0. ]
 [33.3  0.4]]


In [31]:
# affiche les indexs utilisés pour requêter les features
dictIndexes

{'GP': 0,
 'MIN': 1,
 'PTS': 2,
 'FGM': 3,
 'FGA': 4,
 'FG%': 5,
 '3P Made': 6,
 '3PA': 7,
 '3P%': 8,
 'FTM': 9,
 'FTA': 10,
 'FT%': 11,
 'OREB': 12,
 'DREB': 13,
 'REB': 14,
 'AST': 15,
 'STL': 16,
 'BLK': 17,
 'TOV': 18}

In [30]:
#--------------------------# ENTRAINEZ VOS CLASSIFIERS ICI #----------------------------#