In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

**Question** Importer le fichier `heart_Disease.csv` dans un `dataframe`. Regarder les premières lignes, regardez les statistiques descriptives.

# Observation

**Question** Regardez l'aide sur `nunique` de pandas et afficher des informations complémentaires sur ce dataset. Les valeurs numériques sont elles toutes des valeurs continues ou des valeurs discrètes ? 

Les attributs ici qui ont un nombre de valeurs supérieur à 5 sont plutôt à interpréter comme des attributs à valeurs continues et les autres des attributs catégoriels à valeurs discrètes. 

In [None]:
attrs_cont = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']
attrs_cat = list(set(df.columns).difference(set(attrs_cont)))
attrs_cat.remove('target')
attrs_cat

**Question** Une `DataFrame` est une collection de `Series` qui sont les colonnes. On peut aussi regarder les différentes valeurs que peuvent prendre les colonnes avec `value_counts`. Regardez les différentes valeurs de chaque colonne et en particulier de la `target`.

**Question** Tracer des histogrammes représentant ces comptages. Vous pouvez directement utiliser la méthode `hist`des `DataFrames` ou des `Series`.

# Petit rappel de Pandas

In [None]:
df['age'].head()  # sélection d'une colonne

In [None]:
df[['age', 'sex']].head() # sélection de colonnes

In [None]:
df.iloc[:,0:2].head() # sélection lignes et de colonnes par les indices

In [None]:
df['sex']==0  # filtre, série de booléens

In [None]:
df[df['sex']==0] # application d'un filtre

In [None]:
df[df['sex']==0][['age','slope']]  # cumuler un filtre et une sélection

# Préparation

**Question** Préparer l'échantillon pour permettre une évaluation de l'erreur.

# Classe majoritaire

**Question** Dans un problème de classification, il faut toujours évaluer les performances d'un classifieur par rapport à quelque chose de très bête qui est la fonction constante qui prédit la classe la plus fréquente. D'après les statistiques quel serait la performance d'une telle règle sur l'échantillon complet?

*Réponse* : 

**Question** On peut trouver d'autres classeurs très bêtes comme celui-ci dans le package `dummy` de sklearn. Faites un tel classifieur qui prédit la classe majoritaire avec une des instances d'un des modules de ce package.

# Naive Bayes

**Question** Lire l'explication introductive de Naive Bayes dans la [documentation de sklearn](https://scikit-learn.org/stable/modules/naive_bayes.html#naive-bayes). On refait ci-dessous quelques calculs presque à la main, de façon pas très maligne, juste pour décomposer et comprendre...

**Question** Prenons les attributs `sex` et `fbs`. Calculons le nombre de fois où `sex` vaut 1 et 0 quand la cible `target` vaut 1.

**Question** Calculer les probabilités  P(sex=1|target=1), P(sex=0|target=1) nommés p1s1 et p1s0

**Question** Prenons les attributs `sex` et `fbs`. Calculons les probabilités suivantes sur l'échantillon de train.
- P(sex|target), c'est-à-dire les 4 valeurs P(sex=1|target=1), P(sex=0|target=1), P(sex=1|target=0), P(sex=0|target=0). Nommés p1s1, p1s0, p0s1, p0s0 
- P(fbs|target) (4 valeurs). Nommés p1f1, p1f0, p0f1, p0f0 

**Question** Toujours sur le train, quelles sont les probabilités d'avoir la cible à 1 ou à 0 ? p1, p0

**Question** Maintenant prenons le premier exemple du test et regardons les attributs `sex` et `fbs`. Avec le modèle de Naive Bayes, quelle serait la valeur de la cible qui serait prédite et pourquoi ? 

*Réponse* : C'est donc 0 la valeur prédite.

**Question** Importez `CategoricalNB` et appliquez le classifeur en ne prenant en compte que les attributs `sex` et `fbs` pour retrouver ces résultats.

**Question** Appliquez le classifeur sur les attributs catégoriels et estimer le score.

# Arbres de décision

**Question** Utilisez la classe `DecisionTreeClassifier` du package `tree` pour créer un arbre de décision. Quel est le score obtenu ?

**Question** Afficher cet arbre, sous forme de texte et sous forme de dessin.

**Question** Faites une recherche du meilleur arbre de décision en jouant sur les hyperparamètres `max_depth` entre 2 et 10 et `criterion` qui peut être `"gini"` ou  `"entropy"`

**Question** Afficher l'arbre correspondant au meilleur estimateur.

# Régression logistique 

## Observation

In [None]:
from ipywidgets import interact

def logistic_sigmoid(x, a, b):
    return 1 / (1 + np.exp(-(np.dot(a, x) + b))) 

def loss_logistic(x ,a, b):
    return np.log(np.exp(-(np.dot(a, x) + b))+1)

funcs = {"loss":loss_logistic, "sigmoïde": logistic_sigmoid}
grid_size = 0.1
x_grid = np.arange(-5, 5, grid_size)

plt.clf()

def plot_logistic_sigmoid(f, a, b):
    plt.plot(x_grid, funcs[f](x_grid, a, b), '-b')
    plt.axis([-5, 5, 0, 1])
    plt.show()


interact(
    plot_logistic_sigmoid,
    a=(-10, 10, .25),
    b=(-10, 10),
    f=['sigmoïde', 'loss']
)

## Application

**Question** Importer `LogisticRegression` et entraîner un classifieur. Afficher le score. Adaptez le nombre d'itérations...

**Question** Avec `LogisticRegressionCV` réglez les hyperparamètres. Quelle valeur de $C$ a été trouvée ? 

## Scaling

Alors que ce n'est pas nécessaire pour les arbres de décision ou NaiveBayes, il pourrait être opportun de normaliser les attributs continus avec d'autres classifieurs...

**Question** Utiliser `StandardScaler` pour normaliser les attributs continus sur le train. Composer alors un nouveau jeu de données `X_train_scaled` avec les attributs continus normalisés et les attributs catégoriels inchangés. On utilisera `fit` pour entrainer la transformation puis `transform` pour l'appliquer au test ensuite... donnant `X_test_scaled`. 

**Question** Réentraîner le classifieur par régression logistique avec ce nouveau jeu de données et estimer les scores.

# SVC...

**Question** Même si cela n'a pas été étudié en cours... on peut aussi utiliser le classifieur `SVC` (voir [SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC)) 