# TP Discrimination bayésienne

La "discrimination" consiste, compte tenu de "features" (variables explicatives), à prédire l'appartenance à une classe.  
La discrimination bayésienne, en s'appuyant sur une modélisation probabiliste et la règle de Bayes, permet de déterminer quelle est la probabilité d'appartenance à une classe. Après seuillage, on peut affecter un "exemple" à une classe. 

On peut évaluer les performances grace à la "matrice de confusion", qui compare (ci-dessous dans le cas binaire) les prédictions aux valeurs réelles. Le score (ou *accuracy*) est le nombre total d'exmples bien classifiés sur le nombre total d'exemples. 


### Matrice de confusion
![image.png](attachment:742b6a07-85a6-4532-af5a-e93b2dd24635.png)

Source : [Wikipedia](https://en.wikipedia.org/wiki/Confusion_matrix)

La fonction maison suivante vous permettra de visualiser la matrice de confusion (cas binaire - deux classes)

### Fonctions maison

In [None]:
# %load mycfm.py
from IPython.display import HTML, display, display_html 
import numpy as np
import pandas as pd

def mycfm(y_true, y_pred):  
    """
    Rend une jolie matrice de confusion (cas binaire) et les principaux scores associés
    
    Arguments :
    -----------
    y_true: array
         les vraies classes
    y_pred: array
         les classes prédites 
    """
    CC=pd.crosstab(y_true, y_pred, rownames=['True'], colnames=['Predicted'], margins=True)
    try:
        display_html(CC)
    except:
        print(CC)
       
    C=np.array(CC)
    score=(C[0,0]+C[1,1])/(C[0,0]+C[1,1]+C[0,1]+C[1,0])
    precision=(C[1,1])/(C[1,1]+C[0 ,1])
    recall=(C[1,1])/(C[1,1]+C[1,0])
    print()
    print('{s:{c}<{n}}{num:2.3}'.format(s='Score',n=15,c='', num=score))
    print('{s:{c}<{n}}{num:2.3}'.format(s='Precision',n=15,c='', num=precision))
    print('{s:{c}<{n}}{num:2.3}'.format(s='Recall',n=15,c='', num=recall))


Vous pourrez éventuellement aussi utiliser la table issue de sklearn (utilisable avec plus de deux classes)
```
from sklearn.metrics import confusion_matrix
```

In [None]:
# L'histogramme standard ne permet pas de normalisation à une valeur quelconque
# ce qui est nécessaire si on veut intégrer des proportions. D'où cette version rapide. 

def myhist(x, bins=50, normed=None, color="blue", **kwargs):
    # bins peut être un vecteur des positions (gauches) des intervalles
    if isinstance(bins, int): bins = np.linspace(x.min(), x.max(), bins)
    width = bins[2] - bins[1]
    c, b = np.histogram(x, bins=bins)

    f = normed / (width * np.size(x)) if isinstance(normed,
                                                    (int, float)) else 1
    plt.bar(b[:-1], f * c, width=width, color=color, **kwargs)


#### Test
#bins=np.linspace(-6,6,50)
#myhist(X[0:N1], bins, normed=None)

### Imports utiles

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
import matplotlib.pyplot as plt

## Taille et poids

### Préparation

Les données peuvent être obtenues [ici](https://raw.githubusercontent.com/johnmyleswhite/ML_for_Hackers/master/02-Exploration/data/01_heights_weights_genders.csv). Vous disposez également du fichier `01_heights_weights_genders.csv` dans le répertoire courant. 

- Lire le fichier dans une variable heights_and_weights
- Afficher les premières lignes

In [None]:
heights_and_weights = ...

Examiner les variables (`.head(), .describe()`)

Le tableau initial est trié (Hommes/Femmes). On va le mélanger. 

In [None]:
np.random.seed(22)
I = np.random.choice(np.arange(10000), 10000, replace=False)

heights_and_weights = heights_and_weights.loc[I]

On commence par appliquer un certain nombre de transformations pour :
 - convertir le genre en une variable binaire (une variable numérique est nécessaire pour le module `statmodels` que l'on va employer dans la suite -- ce n'est pas nécessaire pour `sklearn`),
 - les données sont anglo-saxonnes, en tailles en pouces et poids en livres. On convertit en unités métriques,  ce sera plus agréable.
 
Pour ce faire, on utilise les méthodes `map` et  `apply`. Vous n'avez pas besoin de retenir ça. 

In [None]:
heights_and_weights['Male'] = heights_and_weights['Gender'].map({
    'Male': 1,
    'Female': 0
})
heights_and_weights['H (cm)'] = heights_and_weights['Height'].apply(
    lambda x: x * 2.54)
heights_and_weights['W (kg)'] = heights_and_weights['Weight'].apply(
    lambda x: x / 2.205)

In [None]:
heights_and_weights.head()

Tracer les histogrammes de la taille et du poids. 

Exemple pour le poids : 

In [None]:
# 2cm bins
h = heights_and_weights['H (cm)']
male = heights_and_weights['Gender'] == 'Male'
bins1 = np.arange(h.min(), h.max(), 2.)
plt.figure(figsize=[9, 6])
h[male].hist(bins=bins1, fc='blue', label="Hommes", alpha=0.5)
h[~male].hist(bins=bins1, fc='green', label="Femmes", alpha=0.6)
plt.set_xlabel = "Taille (cm)"
plt.title("Taille (cm)")
_ = plt.legend()

- Faites la même chose pour le poids, avec un pas de 2kg

- Comment déterminer une valeur seuil qui permettrait de classifier en homme-femme à partir de la seule donnée de la taille ? A quoi vont correspondre les erreurs ? A quelle proportion s'attendre ?  

Toujours pour la taille, définir une matrice X de "features" et une réponse (*target*) y,   la variable à prédire. 

X **doit** être une matrice (un objet 2D). Vous pouvez passer par un array en utilisant l'attribut .values. 

In [None]:
X = ...
y = ...

### Cas à une seule variable explicative

#### Apprentissage

Lire la documentation sur sklearn
https://scikit-learn.org/stable/modules/lda_qda.html#lda-qda
ainsi que la documenation de la fonction disponible ici :
- https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html#sklearn.discriminant_analysis.LinearDiscriminantAnalysis

- instancier le classifier, sous le nom `clf` par exemple,  
- apprendre à partir des données (méthode .fit(.,.))


In [None]:
# instanciation du classifieur
clf = ...
# On apprend les choses (fit) sur la base totale -- pas de test ici
clf.fit(...)

# On trace  la frontière "à la main" en calculant les prédictions 
# pour tous les x
x = np.linspace(h.min(), h.max(), 1000)
xp = clf.predict(np.reshape(x, (len(x), 1)))

#**Tracé des résultats *** 
#
bins1 = np.arange(h.min(), h.max(), 2.)
plt.figure(figsize=[9, 6])
h[male].hist(bins=bins1, fc='blue', label="Hommes", alpha=0.5)
h[~male].hist(bins=bins1, fc='green', label="Femmes", alpha=0.6)

plt.plot(x, 600 * xp, linewidth=2, color="red", label="Affectation")
_ = plt.legend()


- Calculer les prédictions données par ce classifieur sur sa base d'apprentissage X
- Donner la matrice de confusion correspondante

In [None]:
preds = clf.predict(...)
mycfm(...,...)

#### Généralisation

- Définir une base d'apprentissage (Xtrain, ytrain) et une base de test (Xtest, ytest) en prenant par exemple la moitié des données pour le train, et l'autre moitié pour le test. 
- Apprendre un nouveau classifieur sur train, et calculer la matrice de confusion sur test. 
- Pensez-vous que le classifieur généralise bien sur de nouvelles donnée s(non vues lors de l'apprentissage ?)

In [None]:
M = 5000
Xtrain = ...
Xtest = ...
ytrain = ...
ytest = ...

clf2 = ...
# On apprend les choses sur le train
clf2.fit(..., ...)
# on prédit sur test
preds = clf2.predict(...)
mycfm(..., ...)

#### Fonction discriminante

Le modèle, lorqu'on compare les probabilités de deux classes, débouche sur une fonction "discriminante" de décision linéaire (une droite donc). f page 18 du poly, ou 
https://perso.esiee.fr/~bercherj/EL3029/DiscriminationBayesienne.html#Principe-de-la-m%C3%A9thode

Les coefficients sont donnés par les attributs `.coef()`et `.intercept()`du classifieur. 
La frontière de discrimination sera donnée par $w^T x + x_0 = 0$. 

- En déduire la valeur de seuil qui semble être utilisée pour effectuer la discrimination. 

In [None]:
# La frontière de décision est données par coef*x + intercept = 0
# Soit

seuil = ...
seuil


#### Probabilités d'appartenance à une classe

- Utiliser la méthode `predict_proba`du classifieur pour prédire les probas (de quoi ?) pour une taille de 164 cm. Vous passerez une matrice `[[164]]`

In [None]:
clf.predict_proba(... )

- Pour des tailles allant de 120 à 200 cm, tracer la probabilité que la personne soit un Homme. 

In [None]:
Xtest = np.arange(120, 200).reshape(-1,1)

In [None]:
probs = clf.predict_proba(...)

In [None]:
plt.plot(...)
plt.xlabel(...)

- Reprendre rapidement la problème de classification, mais cette fois-ci avec les données de poids (Il faut sélectionner la colonne 'W (kg)')

- Calculer la matrice de confusion, quelle est la valeur du score obtenue ?
```
X = heights_and_weights[['W (kg)']].values[I]
```

### Traitement à deux dimensions

Il est très simple d'intégrer plus de variables explicatives. Faisons le ici en intégrant à la fois la taille et le poids :

- créer une matrice X des tailles et poids, la réponse y correspondante
- comme précédemmment, donnez vous une base de train et test de manière à pouvoir mesurer les capacités en généralisation
- apprendre une LDA, calculer les performances

In [None]:
classifier = LDA()
X = ...
y = ...
# 
M = 5000
Xtrain = X[:M, :]
Xtest = X[M:,:]
ytrain = y[:M]
ytest = y[M:]


# Apprentissage sur la base d'apprentissage
classifier.fit(..., ...)
score = classifier.score(..., ...)
print("Score sur la base de test : ", score)

#### Fonction discriminante

La fonction de séparation est cette fois-ci 
$$
\beta_0 + \beta_1*\text{taille} + \beta_2*\text{poids}
$$
**On peut donc tracer la droite $\text{poids}=-\beta_0/\beta_2 - \beta_1/\beta_2*\text{taille}$ dans le plan (taille, poids) et comparer aux données répertoriées**

- A l'aide des coefficients et de l'intercept, tracer sur le même graphe 
    - les nuages de points (avec des couleurs différentes selon hommes et femmes (par exemple deux plots)
    - la droite représentant la frontière de décision

In [None]:
intercept = classifier.intercept_
coeffs = classifier.coef_[0]

In [None]:
d0 = -intercept / coeffs[1]
d1 = -coeffs[0] / coeffs[1]
...


Comme précédemment, il est possible de prédire une classe avec la probabilité correspondante :
- Calculer quelles sont les probabilités associées à un individu de taille, poids = 170, 69.6

(utiliser `classifier.predict` et `classifier.predict_proba`)

In [None]:
taille, poids = 170, 69.6
test = np.array([taille, poids]).reshape(1, -1)
...

## Classification de digits

On considère maintenant un problème de discrimination de l'écriture manuscrite (chiffres).
Pour cela, on utilisera un modèle de Bayes naïf, avec a priori gaussien.

Le code suivant permet de lire les données et d'afficher des exemples

In [None]:
# Author: Gael Varoquaux <gael dot varoquaux at normalesup dot org>
# minor modifs: jfb
# License: Simplified BSD

# Standard scientific Python imports
import pylab as pl

# Import datasets, classifiers and performance metrics
from sklearn import datasets, metrics

# The digits dataset
digits = datasets.load_digits()

# The data that we are interested in is made of 8x8 images of digits,
# let's have a look at the first 3 images, stored in the `images`
# attribute of the dataset. If we were working from image files, we
# could load them using pylab.imread. For these images know which
# digit they represent: it is given in the 'target' of the dataset.
for index, (image, label) in enumerate(zip(digits.images, digits.target)):
    if index>7: break
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=pl.cm.gray_r, interpolation='nearest')
    plt.title('Training: %i' % label)


Chacune des images est 8x8. Si on les redimensionne en vecteurs, quelle est la taille du vecteur correspondant ? Est-il raisonnable de définir et utiliser une matrice de corrélation non diagonale dans le modèle ? (et ce sont de très petites images...). 

- Créer une matrice `data` contenant ces vecteurs. 
- A partir de cette matrice, créer une base `(X_train, y_train)` pour l'apprentissage à partir de la moitié des données, et une base de test `(X_test, y_test)` à partir de l'autre moitié

- Instancier un classificateur bayes gaussien naïf `GaussianNB`. Nommer `classifier` ce classifieur. 
- Apprendre le modèle sur (X_train, y_train)` 
- Effectuer les prédictions sur le test
- Calculer la matrice de confusion sur ces prédictions, par rapport aux véritables valeurs `y_test`. Que pensez-vous de ces résultats ?

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix

In [None]:
# Create a classifier: a naive Gauss classifier
classifier = ...

# We learn the digits on the first half of the digits
classifier.fit(..., ...)

# Now predict the value of the digit on the second half:
predicted = classifier.predict(...)

print("Confusion matrix:\n%s" % ...)

Exécuter le code suivant (éventuellement plusieurs fois) pour visualiser des prédictions sur des éléments pris au hasard

In [None]:
#take 8 examples at random (jfb)
I = np.random.choice(int(n_samples // 2), size=8, replace=False)
data_test = X_test[I] # we are indeed in the test sample (these data have not been used to learn)
data_test_target = y_test[I]

for index, (image, label) in enumerate(zip(data_test, data_test_target)):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image.reshape(8, 8), cmap=pl.cm.gray_r, 
               interpolation='nearest')
    plt.title('Prediction: {0} \n (true: {1})'.format(
        int(classifier.predict(image.reshape(1, -1))), label))

## Affairs data (Optionnel)

Ce notebook est inspiré des exemples [1](https://github.com/jseabold/pydc) et [2](http://nbviewer.ipython.org/github/justmarkham/gadsdc1/blob/master/logistic_assignment/kevin_logistic_sklearn.ipynb). 

**Données** -- 
Les données étudiées sont le "affairs dataset" fourni avec Statsmodels. les données initiales sont disponibles [ici](http://fairmodel.econ.yale.edu/vote2012/affairs.txt) et analysées dans l'[article](http://fairmodel.econ.yale.edu/rayfair/pdf/1978a200.pdf) du Journal of Political Economy(1978). Les données ont été recueillies lors d'une étude menée en 1974, par le magazine Redbook, lors de laquelle des femmes ont été interrogées sur tout un tas de choses, dont leur participation à des extramarital affairs (adultère). 

Les données contiennent 6366 observations avec 9 variables :

- rate_marriage: woman's rating of her marriage (1 = very poor, 5 = very good)
- age: woman's age
- yrs_married: number of years married
- children: number of children
- religious: woman's rating of how religious she is (1 = not religious, 4 = strongly religious)
- educ: level of education (9 = grade school, 12 = high school, 14 = some college, 16 = college graduate, 17 = some graduate school, 20 = advanced degree)
- occupation: woman's occupation (1 = student, 2 = farming/semi-skilled/unskilled, 3 = "white collar", 4 = teacher/nurse/writer/technician/skilled, 5 = managerial/business, 6 = professional with advanced degree)
- occupation_husb: husband's occupation (same coding as above)
- affairs: time spent in extra-marital affairs


In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
#

from sklearn.model_selection import train_test_split
from sklearn import metrics

### Préparation

In [None]:
# load dataset
dta = sm.datasets.fair.load_pandas().data

Description du tableau

In [None]:
...

On crée une variable binaire: il y a tromperie ou non.

In [None]:
# add "affair" column: 1 represents having affairs, 0 represents not
dta['affair'] = (dta.affairs > 0).astype(int)

Analyse rapide des tromperies

In [None]:
dta.groupby('affair').mean()

Quand il y a tromperie, le mariage est noté plus faible (attention à la notion de causalité). 

Autre vision (à nouveau, attention à la causalité)

In [None]:
dta.groupby('rate_marriage').mean()

Encoder les variables catégorielles (qualitatives/non quantitatives) et créer un nouveau dataframe. Vous pourrez utiliser `pd.get_dummies`ou un `ÒneHotEncoder`. 

In [None]:
...

In [None]:
...

In [None]:
..

### Discrimination

Ensuite c'est très facile : on instancie un modèle (par exemple LDA), on "fit", on regarde le score

In [None]:
#
model = ..
X_train, X_test, y_train, y_test = train_test_split(dataset,y)

res = model.fit(...)
#
#score - quel score obtenu sur test?
model.score(...)

Les coefficients obtenus sont les suivants

In [None]:
res.coef_

On relie les coefficients aux variables. Interprétations ?

In [None]:
pd.DataFrame(res.coef_, columns=dataset.columns)

mariage bien noté, proba dune "affaire" diminue, 
plus sentiment religieux, plus la proba d'affaire diminue
plus occupation 1 (étudiant), plus la proba diminue
plus occupation 6, plus la proba augmente

On peut prédire :

In [None]:
age= 22
children= 8
educ= 16
occup_h_1=0
occup_h_2=0
occup_h_3=0 
occup_h_4=1
occup_h_5=0 
occup_h_6=0
occupation_1= 0
occupation_2= 0
occupation_3= 1
occupation_4= 0
occupation_5=0
occupation_6= 0
rate_marriage= 4
religious = 5
yrs_married= 7

test=[rate_marriage, age, yrs_married, children, religious, educ, occupation_1, occupation_2, occupation_3, occupation_4,occupation_5,
occupation_6, occup_h_1, occup_h_2,occup_h_3, occup_h_4, occup_h_5,
occup_h_6]

In [None]:

print("proba d'avoir une 'affaire' : ", 
     ...)