# 2CSSID-TP03. Naive Bayes

Dans ce TP, nous allons traiter Naive Bayes. C'est le seul algorithme dans notre programme qui cr√©e un mod√®le g√©n√©ratif.

Bin√¥mes : 
- **Bin√¥me 1 : HATTABI ILYES** 
- **Bin√¥me 2 : CHAHBOUNI SKANDAR RAMZI**

In [1]:
import matplotlib
import numpy             as np
import pandas            as pd 
import matplotlib.pyplot as plt 
%matplotlib inline

np        .__version__ , \
pd        .__version__ , \
matplotlib.__version__

('1.21.5', '1.4.2', '3.5.1')

In [2]:
from typing import Tuple, List, Dict

**RAPPEL**

Tout le monde connait le th√©or√®me de Bayes pour calculer la probabilit√© conditionnelle d'un √©vennement $A$ sachant un autre $B$: 
$$ P(A|B) = \frac{P(A)P(B|A)}{P(B)}$$

Pour appliquer ce th√©or√®me sur un probl√®me d'appentissage automatique, l'id√©e est simple ; Etant donn√© une caract√©ristique $f$ et la sortie $y$ qui peut avoir la classe $c$ : 
- Remplacer $A$ par $y=c$
- Remplacer $B$ par $f$ 
On aura l'√©quation : 
$$ P(y=c|f) = \frac{P(y=c)P(f|y=c)}{P(f)}$$

On appelle : 
- $P(y=c|f)$ post√©rieure 
- $P(y=c)$ ant√©rieure
- $P(f|y=c)$ vraisemblance
- $P(f)$ √©vidence 

Ici, on estime la probablit√© d'une classe $c$ sachant une caract√©ristique $f$ en utilisant des donn√©es d'entrainement. Maintenant, on veut estimer la probabilit√© d'une classe $c$ sachant un vecteur de caract√©ristiques $\overrightarrow{f} = \{f_1, ..., f_L\}$ : 
$$ P(y=c|\overrightarrow{f}) = \frac{P(y=c)P(\overrightarrow{f}|y=c)}{P(f)}$$

Etant donn√©e plusieurs classes $c_j$, la classe choisie $\hat{c}$ est celle avec la probabilit√© maximale 
$$\hat{c} = \arg\max\limits_{c_k} P(y=c_k|\overrightarrow{f})$$
$$\hat{c} = \arg\max\limits_{c_k} \frac{P(y=c_k)P(\overrightarrow{f}|y=c_k)}{P(f)}$$
On supprime l'√©vidence pour cacher le crime : $P(f)$ ne d√©pend pas de $c_k$ et elle est postive, donc √ßa ne va pas affecter la fonction $\max$.
$$\hat{c} = \arg\max\limits_{c_k} P(y=c_k)P(\overrightarrow{f}|y=c_k)$$

Pour calculer $P(\overrightarrow{f}|y=c_k)$, on va utiliser une properi√©t√© na√Øve (d'o√π vient le nom Naive Bayes) : on suppose l'ind√©pendence conditionnelle entre les caract√©ristiques $f_j$. 
$$\hat{c} = \arg\max\limits_{c_k} P(y=c_k) \prod\limits_{f_j \in \overrightarrow{f}} P(f_j|y=c_k)$$

Pour √©viter la disparition de la probabilit√© (multiplication et repr√©sentation de virgule flottante sur machine), on transforme vers l'espace logarithme.
$$\hat{c} = \arg\max\limits_{c_k} \log P(y=c_k) + \sum\limits_{f_j \in \overrightarrow{f}} \log P(f_j|y=c_k)$$


## I. R√©alisation des algorithmes

Pour estimer la vraisemblance, il existe plusieurs mod√®les (lois):
- **Loi multinomiale :** pour les carac√©tristiques nominales
- **Loi de Bernoulli :** lorsqu'on est interress√© par l'apparence d'une caract√©ristique ou non (binaire)
- **Loi normale :** pour les caract√©ristiques num√©riques

Dans ce TP, nous allons impl√©menter Naive Bayes pour les caract√©ristiques nominales (loi multinomiale). 
Dans notre mod√®le, nous voulons stocker les statistiques et pas les probabilit√©s. 
L'int√©r√™t est de faciliter la mise √† jours des statistiques (si par exemple, nous avons un autre dataset et nous voulons enrichir le mod√®le ; dans e cas, il suffit d'ajouter les statistiques du nouveau dataset)

Ici, nous allons utiliser le dataset "jouer" (utilis√© dans la plupart des cours) contenant des caract√©ristiques nominales.

In [3]:
jouer   = pd.read_csv('data/jouer.csv')

X_jouer = jouer.iloc[:, :-1].values # Premi√®res colonnes 
Y_jouer = jouer.iloc[:,  -1].values # Derni√®re colonne 

# Afficher le dataset "jouer"
jouer

Unnamed: 0,temps,temperature,humidite,vent,jouer
0,ensoleile,chaude,haute,non,non
1,ensoleile,chaude,haute,oui,non
2,nuageux,chaude,haute,non,oui
3,pluvieux,douce,haute,non,oui
4,pluvieux,fraiche,normale,non,oui
5,pluvieux,fraiche,normale,oui,non
6,nuageux,fraiche,normale,oui,oui
7,ensoleile,douce,haute,non,non
8,ensoleile,fraiche,normale,non,oui
9,pluvieux,douce,normale,non,oui


### I.1. Entra√Ænement de la probabilit√© ant√©rieure

Etant donn√© le vecteur de sortie $Y$, la probabilit√© de chaque classe (diff√©rentes valeurs de $Y$) est calul√©e comme :

$$p(c_k) = \frac{|\{y / y \in Y \text{ et } y = c_k\}|}{|Y|}$$


La fonction doit r√©cup√©rer des statistiques afin de pouvoir calculer la probabilit√© ant√©rieure de chaque classe. Donc, elle doit retourner  :
- Un vecteur contenant les noms des classes
- Un vecteur contenant les nombres d'occurrences de chaque classe dans le premier vecteur

In [4]:
# TODO: Stastistiques sur la probabilit√© ant√©rieure
def stat_anterieure(Y: np.ndarray) -> Tuple[np.ndarray, np.ndarray]: 
    cls, freq  = np.unique(Y, return_counts=True) 
    return cls, freq

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# Resultat : 
# (array(['non', 'oui'], dtype=object), array([5, 9]))
#---------------------------------------------------------------------

stat_anterieure(Y_jouer)

(array(['non', 'oui'], dtype=object), array([5, 9], dtype=int64))

### I.2. Entra√Ænement de la probabilit√© de vraissemblance (loi multinomiale)

Notre mod√®le doit garder le nombre des diff√©rentes valeurs d'une caract√©ristique $A$ et le nombre de ces valeurs dans chaque classe.
Donc, √©tant donn√© un vecteur d'une caract√©ristique $A= X[:,j]$, un autre des $Y$ et un $C$ contenant la liste des classes, la fonction d'entra√Ænement doit retourner : 
- $V$ : un vecteur contenant les diff√©rentes cat√©gories de $A$ (c'est d√©j√† fait)
- Une matrice contenant le nombre d'occurrences de chaque cat√©gorie de $V$ dans chaque classe  : 
   - Les lignes repr√©sentent les cat√©gories $v \in V$ de la car√©ct√©ristique $A$
   - Les colonnes repr√©sentent les classes $c \in C$ de $Y$


In [5]:
# TODO: Statistiques de vraissemblance (une seule caract√©ristique)
def stat_vraissemblance_1(A: np.ndarray, 
                          Y: np.ndarray, 
                          C: np.ndarray
                         ) -> Tuple[np.ndarray, np.ndarray]: 
    V = np.unique(A) # Cat√©gories de la caract√©ristique A
    nb_rows = V.size
    nb_cols = C.size
    freq = np.zeros(shape=(nb_rows, nb_cols), dtype=int)

    for a, y in zip(A, Y):
        # find a in V 
        ind_x = np.where(V == a)[0][0]
        # find y in C
        ind_y = np.where(C == y)[0][0]
        # frequency 
        freq[ind_x][ind_y] += 1
    return V, freq

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# Resultat : 
# (array(['ensoleile', 'nuageux', 'pluvieux'], dtype=object),
#  array([[3, 2],
#         [0, 4],
#         [2, 3]]))
#---------------------------------------------------------------------
C_t = np.array(['non', 'oui'])
stat_vraissemblance_1(X_jouer[:, 0], Y_jouer, C_t)

(array(['ensoleile', 'nuageux', 'pluvieux'], dtype=object),
 array([[3, 2],
        [0, 4],
        [2, 3]]))

### I.3. Entra√Ænement loi multinomiale

**Rien √† programmer ici**

Notre mod√®le ($\theta_{X, C}$) doit garder des statistiques sur les classes et aussi sur chaque cat√©gorie de chaque caract√©ristique. Pour ce faire, nous allons repr√©senter $\theta$ comme un vecteur : 
- $\theta[N+1]$ est un vecteur de $N$ √©l√©ments repr√©sentant des statistiques sur chaque caract√©ristique $j$, plus un √©l√©ment (le dernier) pour les statistiques sur les classes.
- Chaque √©l√©ment est un dictionnaire (HashMap en Java)
- Un √©l√©ment des caract√©ristiques contient deux cl√©s : 
    - **val** : pour r√©cup√©rer la liste des noms des cat√©gories de la caract√©ristique
    - **freq**: pour r√©cup√©rer une matrice repr√©sentant la fr√©quence de chaque caract√©ristique dans chaque classe
- Un √©l√©ment des classes contient deux cl√©s : 
    - **cls** : pour r√©cup√©rer la liste des noms des classes
    - **freq**: pour r√©cup√©rer la liste des fr√©quences de chaque classe

In [6]:
# La fonction qui entraine Th√©ta sur plusieurs caract√©ristiques
# Rien √† programmer ici
# Notre th√©ta est une liste des dictionnaires;
# chaque dictionnaire contient la liste des cat√©gories et la matrice des fr√©quences dela caract√©ristique respective √† la colonne de X
# On ajoute les statistiques ant√©rieures des classes √† la fin de r√©sultat
def entrainer_multi(X: np.ndarray, 
                    Y: np.ndarray
                   ) -> np.ndarray: 
    
    Theta   = []
    
    stats_c = {}
    stats_c['cls'], stats_c['freq'] =  stat_anterieure(Y)
    
    for j in range(X.shape[1]): 
        stats = {}
        stats['val'], stats['freq'] =  stat_vraissemblance_1(X[:, j], Y, stats_c['cls'])
        Theta.append(stats)
    
    Theta.append(stats_c)
    return Theta


#=====================================================================
# TEST UNITAIRE
#=====================================================================
# Resultat : 
# [{'val': array(['ensoleile', 'nuageux', 'pluvieux'], dtype=object),
#   'freq': array([[3, 2],
#          [0, 4],
#          [2, 3]])},
#  {'val': array(['chaude', 'douce', 'fraiche'], dtype=object),
#   'freq': array([[2, 2],
#          [2, 4],
#          [1, 3]])},
#  {'val': array(['haute', 'normale'], dtype=object),
#   'freq': array([[4, 3],
#          [1, 6]])},
#  {'val': array(['non', 'oui'], dtype=object),
#   'freq': array([[2, 6],
#          [3, 3]])},
#  {'cls': array(['non', 'oui'], dtype=object), 'freq': array([5, 9])}]
#---------------------------------------------------------------------
Theta_jouer = entrainer_multi(X_jouer, Y_jouer)

Theta_jouer

[{'val': array(['ensoleile', 'nuageux', 'pluvieux'], dtype=object),
  'freq': array([[3, 2],
         [0, 4],
         [2, 3]])},
 {'val': array(['chaude', 'douce', 'fraiche'], dtype=object),
  'freq': array([[2, 2],
         [2, 4],
         [1, 3]])},
 {'val': array(['haute', 'normale'], dtype=object),
  'freq': array([[4, 3],
         [1, 6]])},
 {'val': array(['non', 'oui'], dtype=object),
  'freq': array([[2, 6],
         [3, 3]])},
 {'cls': array(['non', 'oui'], dtype=object),
  'freq': array([5, 9], dtype=int64)}]

### I.4. Estimation de la probabilit√© de vraissemblance (loi multinomiale)
L'√©quation pour estimer la vraisemblance 
$$ P(X_j=v|y=c_k) = \frac{|\{ y \in Y / y = c_k \text{ et } X_j = v\}|}{|\{y = c_k\}|}$$


Dans le cas d'une valeur $v$ qui n'existe pas dans le dataset d'entrainnement ou qui n'existe pas pour une classe donn√©e mais ui existe dans le dataset de test, nous aurons une probabilit√© nulle. 
Afin de r√©gler ce probl√®me, nous pouvons appliquer une fonction de lissage qui attribue une petite probabilit√© aux donn√©es non vues dans l'entra√Ænement. 
Le lissage que nous allons utiliser est celui de Lidstone. 
Lorsque $\alpha = 1$, il est appel√© lissage de Laplace.
$$ P(X_j=v|y=c_k) = \frac{|\{ y \in Y / y = c_k \text{ et } X_j = v\}| + \alpha}{|\{y = c_k\}| + \alpha * |V|}$$
O√π: 
- $\alpha$ est une valeur donn√©e 
- $V$ est l'ensemble des diff√©rentes valeurs de $f_j$ (le vocabulaire; les cat√©gories)

Etant donn√© : 
- $\theta_j$ les param√®tres de la caract√©ristique $j$ repr√©sent√©es comme dictionnaire
    - **val** : pour r√©cup√©rer la liste des noms des cat√©gories de la caract√©ristique (vocabulaire $V$)
    - **freq**: pour r√©cup√©rer une matrice repr√©sentant la fr√©quence de chaque caract√©ristique dans chaque classe. C'est une matrice $|V|\times|C|$
- $v$ la valeur de la caract√©ristique $j$ utilis√©e pour calculer les probabilit√©s
- $\theta_c$ les param√®tres des classes $C$ repr√©sent√©es comme dictionnaire
    - **cls** : pour r√©cup√©rer la liste des noms des classes
    - **freq**: pour r√©cup√©rer la liste des fr√©quences des classes
    
Cette fonction doit retourner : 
- Une liste $P[|C|]$ contenant les probabilit√©s de la cat√©gorie $v$ de $X_j$ sur toutes les classes $C$ 
- Elle doit prendre en consid√©ration le cas o√π la valeur $v$ n'existe pas dans le mod√®le entra√Æn√©

In [7]:
# TODO: Calculer la vraissamblance d'une valeur donn√©e
def P_vraiss_multi(Theta_j: Dict[str, np.ndarray], 
                   Theta_c: Dict[str, np.ndarray], 
                   v      : str, 
                   alpha  : float = 0.
                  ) -> Tuple[np.ndarray, np.ndarray]: 
    
    #une liste des indices o√π se trouve la valeur v dans Theta_j["val"]
    #commentaire de classroom
    ind = np.where(Theta_j['val'] == v)[0]
    
    nbr_diffs = np.unique(Theta_j['val']).size
    result = []
    for (i , nb_occ) in enumerate(Theta_c['freq']):
        if ind.size == 0:
            prob = alpha / (nb_occ + alpha * nbr_diffs)
        else :
            prob = (Theta_j['freq'][ind[0]][i] + alpha) / (nb_occ + alpha * nbr_diffs)
        result.append(prob)
        
    return result

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# Resultat : 
# (array([0.4       , 0.33333333]), array([0.125     , 0.08333333]))
#---------------------------------------------------------------------
# Calcul :
# La probabilit√© de jouer si temps = pluvieux 
# P(temps = pluvieux | jouer=oui) = (nbr(temps=pluvieux et jouer=oui)+alpha)/(nbr(jour=oui) + alpha * nbr_diff(temps)))
# P(temps = pluvieux | jouer=oui) = (3 + 0)/(9 + 0) ==> 3 est le nombre de diff√©rentes valeurs de temps (entrainnement)
# P(temps = pluvieux | jouer=oui) = 4/12 ==> 0.33333333333333333333333333333333333~

# La probabilit√© de jouer si temps = neigeux 
# P(temps = neigeux | jouer=oui) = (nbr(temps=neigeux et jouer=oui)+alpha)/(nbr(jouer=oui) + alpha * nbr_diff(temps)))
# P(temps = neigeux | jouer=oui) = (0 + 1)/(9 + 3) ==> 3 est le nombre de diff√©rentes valeurs de temps (entrainnement)
# P(temps = neigeux | jouer=oui) = 1/13 ==> 0.0833333333333333333333333333333333333~
#---------------------------------------------------------------------


P_vraiss_multi(Theta_jouer[0], Theta_jouer[-1], 'pluvieux'), \
P_vraiss_multi(Theta_jouer[0], Theta_jouer[-1], 'neigeux', alpha=1.)

([0.4, 0.3333333333333333], [0.125, 0.08333333333333333])

### I.5. Pr√©diction de la classe (loi multinomiale)
Revenons maintenant √† notre √©quation de pr√©diction 
$$\hat{c} = \arg\max\limits_{c_k} \log P(y=c_k) + \sum\limits_{f_j \in \overrightarrow{f}} \log P(f_j|y=c_k)$$

- On doit pr√©dire un seule √©chantillon $x$. 
- La fonction doit retourner un vecteur des log-probabilit√© des classes
- Si anter=false donc on n'utilise pas la probabilit√© ant√©rieure

In [8]:
# TODO: Pr√©diction des log des probabilit√©s
def predire(x    : np.ndarray, 
            Theta: List[Dict[str, np.ndarray]], 
            alpha: float = 1., 
            anter: bool  = True
           ) -> float: 
    
    if anter:
        result = np.log(Theta[-1]['freq'] / sum(Theta[-1]['freq'])) # probabilit√© ant√©rieure
    else :
        result = np.zeros(shape=Theta[-1]['cls'].shape)
        
    for (i, value) in enumerate(x):
        result = np.add(result, np.log(P_vraiss_multi(Theta[i], Theta[-1], value, alpha=alpha)))
        
    return result

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# Resultat : 
# (array([-5.20912179, -4.10264337]), array([-4.17950237, -3.66081061]))
#---------------------------------------------------------------------
predire(['pluvieux', 'fraiche', 'normale', 'oui'], Theta_jouer), \
predire(['pluvieux', 'fraiche', 'normale', 'oui'], Theta_jouer, anter=False) 

(array([-5.20912179, -4.10264337]), array([-4.17950237, -3.66081061]))

### I.6. Regrouper en une classe (loi multinomiale)

**Rien √† programmer ici**


In [9]:
class NBMultinom(object): 
    
    def __init__(self, alpha=1.): 
        self.alpha = alpha
        
    def entrainer(self, X, Y):
        self.Theta = entrainer_multi(X, Y)
    
    def predire(self, X, anter=True, prob=False): 
        Y_pred = []
        cls = self.Theta[-1]['cls']
        for i in range(len(X)): 
            log_prob = predire(X[i,:], self.Theta, alpha=self.alpha, anter=anter)
            if prob:
                Y_pred.append(np.max(log_prob))
            else:
                Y_pred.append(cls[np.argmax(log_prob)])
        return Y_pred

#=====================================================================
# TEST UNITAIRE
#=====================================================================
# Resultat : 
# ['oui', 'non']
#---------------------------------------------------------------------
notre_modele = NBMultinom()
notre_modele.entrainer(X_jouer, Y_jouer)
X_test = np.array([
    ['neigeux', 'fraiche', 'normale', 'oui'],
    ['neigeux', 'fraiche', 'haute'  , 'oui']
])
notre_modele.predire(X_test)

['oui', 'non']

## II. Application et analyse

**Il n'y a rien √† programmer ici.**

Le but de cette section est de mener des exp√©rimentations afin de bien comprendre les concepts vus dans le cours.
Aussi, elle nous assiste √† comprendre l'effet des diff√©rents param√®tres.
En plus, la discussion des diff√©rentes exp√©rimentations peut am√©liorer l'aspect analytique chez l'√©tudient.

### II.1. Probabilit√© ant√©rieure 

Nous voulons tester l'effet de la probabilit√© ant√©rieure.
Pour ce faire, nous avons entra√Æn√© deux mod√®les :
1. Avec probabilit√© ant√©rieure
1. Sans probabilit√© ant√©rieure (Il consid√®re une distribution uniforme des classes)

Pour tester si les mod√®les ont bien s'adapter au dataset d'entra√Ænement, nous allons les tester sur le m√™me dataset et calculer le rapport de classification.


In [10]:
# AVEC Scikit-learn
# ===================
from sklearn.naive_bayes   import CategoricalNB
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics       import classification_report

nb_avec     = CategoricalNB(alpha=1.0, fit_prior=True )
nb_sans     = CategoricalNB(alpha=1.0, fit_prior=False)

enc         = OrdinalEncoder()
X_jouer_enc = enc.fit_transform(X_jouer)
nb_avec.fit(X_jouer_enc, Y_jouer)
nb_sans.fit(X_jouer_enc, Y_jouer)

Y_pred_avec = nb_avec.predict(X_jouer_enc)
Y_pred_sans = nb_sans.predict(X_jouer_enc)

# AVEC notre mod√®le (juste pour voir comment l'utiliser)
# =======================================================
#notre_modele = NBMultinom()
#notre_modele.entrainer(X_jouer, Y_jouer)
#Y_notre_ant = notre_modele.predire(X_jouer)
#Y_notre_sans_ant = notre_modele.predire(X_jouer, anter=False) 

# Le rapport de classification


print( 'Avec probabilit√© ant√©rieure (a priori)'  )
print(classification_report(Y_jouer, Y_pred_avec))

print( 'Sans probabilit√© ant√©rieure (a priori)'  )
print(classification_report(Y_jouer, Y_pred_sans))

Avec probabilit√© ant√©rieure (a priori)
              precision    recall  f1-score   support

         non       1.00      0.80      0.89         5
         oui       0.90      1.00      0.95         9

    accuracy                           0.93        14
   macro avg       0.95      0.90      0.92        14
weighted avg       0.94      0.93      0.93        14

Sans probabilit√© ant√©rieure (a priori)
              precision    recall  f1-score   support

         non       0.67      0.80      0.73         5
         oui       0.88      0.78      0.82         9

    accuracy                           0.79        14
   macro avg       0.77      0.79      0.78        14
weighted avg       0.80      0.79      0.79        14



**TODO: Analyser les r√©sultats**
    
- Que remarquez-vous ?
- Est-ce que la probabilit√© ant√©rieure est importante dans ce cas ?
- Comment cette probabilit√© affecte le r√©sultat ?
- Quand est-ce que nous sommes s√ªrs que l'utilisation de cette probabilit√© est inutile ?

**R√©ponse**

- Les r√©sultats obtenues dans le mod√®le avec probabilit√© ant√©rieure sont mieux que celui obtenus dans l'autre mod√®le(sans probabilt√© ant√©rieur). le mod√®le 1 (avec probabilt√© ant√©rieur) est meiux que le mod√®le qui n'utilise pas la probabilit√© ant√©rieur
- Oui, car les classes de notre dataset ne sont pas uniforme (d√©s√©quilibr√©s).
- lorsque les classes sont d√©siquilibr√©s la valeur de probabilit√© ant√©rieur differe, donc l'ajout de cette probabilt√© au probabilt√© post√©rieur peut changer le r√©sultat.
- la probabilit√© ant√©rieur n'est pas utile lorsque les classes de dataset sont uniforme, ce qui implique que la probabilit√© ant√©rieur est la meme pour touts les classes .(on rajoute toujours une valeurs constante pour toute les probabilit√©s calcul√© ce qui ne sert √† rien) 

### II.2. Lissage

Nous voulons tester l'effet de lissage de Lidstone.
Pour ce faire, nous avons entra√Æn√© trois mod√®les : 
1. alpha = 1 (lissage de Laplace)
1. alpha = 0.5
1. alpha = 0 (sans lissage)

In [11]:
NBC_10 = CategoricalNB(alpha = 1.0 )
NBC_05 = CategoricalNB(alpha = 0.5 )
NBC_00 = CategoricalNB(alpha = 0.0 )

NBC_10.fit( X_jouer_enc,   Y_jouer )
NBC_05.fit( X_jouer_enc,   Y_jouer )
NBC_00.fit( X_jouer_enc,   Y_jouer )

Y_10   = NBC_10.predict(X_jouer_enc)
Y_05   = NBC_05.predict(X_jouer_enc)
Y_00   = NBC_00.predict(X_jouer_enc)


print(          'Alpha = 1.0'             )
print(classification_report(Y_jouer, Y_10))

print(          'Alpha = 0.5'             )
print(classification_report(Y_jouer, Y_05))

print(          'Alpha = 0.0'             )
print(classification_report(Y_jouer, Y_00))


Alpha = 1.0
              precision    recall  f1-score   support

         non       1.00      0.80      0.89         5
         oui       0.90      1.00      0.95         9

    accuracy                           0.93        14
   macro avg       0.95      0.90      0.92        14
weighted avg       0.94      0.93      0.93        14

Alpha = 0.5
              precision    recall  f1-score   support

         non       1.00      0.80      0.89         5
         oui       0.90      1.00      0.95         9

    accuracy                           0.93        14
   macro avg       0.95      0.90      0.92        14
weighted avg       0.94      0.93      0.93        14

Alpha = 0.0
              precision    recall  f1-score   support

         non       1.00      0.80      0.89         5
         oui       0.90      1.00      0.95         9

    accuracy                           0.93        14
   macro avg       0.95      0.90      0.92        14
weighted avg       0.94      0.93     



**TODO: Analyser les r√©sultats**

- Que remarquez-vous ?
- Est-ce que le lissage affecte la performance dans ce cas ? Pourquoi ?
- Pourquoi Scikit-learn n'accepte pas la valeur $\alpha=0$ et affiche une alerte "UserWarning: alpha too small will result in numeric errors, setting alpha = 1.0e-10" ?
- Quelle est l'int√©r√™t du lissage (dans le cas g√©n√©ral) ?

**R√©ponse**

- les trois mod√®les sont identiques, (meme r√©sultats dans tous les m√©trics utilis√©s), changement de alpha n'a pas affect√© la performance des mod√®les.
- Non. puisque notre √©chantillon de test ne contient pas des valeurs non √©xistantes dans l'√©chantillon de l'entrainement, en effet data_train = data_test dans notre cas.
- Si alpha = 0, alors si dans le test on utilise une valeur que notre mod√®le n'a jamais vu dans l'entrainement, on aurra comme r√©sultat 0.
- Dans le cas d'une valeur  ùë£  qui n'existe pas dans le dataset d'entrainnement ou qui n'existe pas pour une classe donn√©e mais elle existe dans le dataset de test, nous aurons une probabilit√© nulle. Afin de r√©gler ce probl√®me, nous pouvons appliquer une fonction de lissage qui attribue une petite probabilit√© aux donn√©es non vues dans l'entra√Ænement.

### II.3. Comparaison avec d'autres algorithmes

Naive Bayes est un algorithme puissant lorsqu'il s'agit de classer les documents textuels ; nous voulons tester cette information avec la d√©tection de spam. 
Le dataset utilis√© est [SMS Spam Collection Dataset](https://www.kaggle.com/uciml/sms-spam-collection-dataset).
Chaque message du dataset doit √™tre repr√©sent√© sous forme d'un mod√®le "Sac √† mots" (BoW : Bag of Words).
Dans l'entra√Ænement, les diff√©rents mots qui s'apparaissent dans les messages (vocabulaire) sont consid√©r√©s comme des caract√©ristiques. 
Donc, pour chaque message, la valeur de la caract√©ristique est la fr√©quence du mot dans le message. 
Par exemple, si le mot "good" apparait 3 fois dans le message, donc la caract√©ristique "good" aura la valeur 3 dans ce message.

Notre impl√©mentation n'est pas ad√©quate pour la nature de ce probl√®me. 
Dans Scikit-learn, [sklearn.naive_bayes.CategoricalNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html) est similaire √† notre impl√©mentation. 
L'algorithme ad√©quat pour ce type de probl√®me est [sklearn.naive_bayes.MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html).
Les algorithmes compar√©s :
1. Naive Bayes (Loi Multinomiale)
1. Naive Bayes (Loi Gaussienne)
1. Regression logistique 

In [12]:
# lire le dataset
messages = pd.read_csv('data/spam.csv', encoding='latin-1')
# renomer les caract√©ristiques : texte et classe
messages = messages.rename(columns={'v1': 'classe', 'v2': 'texte'})
# garder seulement ces deux caract√©ristiques
messages = messages.filter(['texte', 'classe'])

messages.head()

Unnamed: 0,texte,classe
0,"Go until jurong point, crazy.. Available only ...",ham
1,Ok lar... Joking wif u oni...,ham
2,Free entry in 2 a wkly comp to win FA Cup fina...,spam
3,U dun say so early hor... U c already then say...,ham
4,"Nah I don't think he goes to usf, he lives aro...",ham


In [13]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection         import train_test_split
from sklearn.naive_bayes             import MultinomialNB, GaussianNB
from sklearn.linear_model            import LogisticRegression
from sklearn.metrics                 import precision_score, recall_score
import timeit


modeles = [
    MultinomialNB(),
    GaussianNB(),
    LogisticRegression(solver='lbfgs') 
    #solver=sag est plus lent; donc j'ai choisi le plus rapide
]

temps_train = []
temps_test  = []
rappel      = []
precision   = []

msg_train, msg_test, Y_train, Y_test = train_test_split(messages['texte'] ,
                                                        messages['classe'],
                                                        test_size    = 0.2, 
                                                        random_state = 0  )

count_vectorizer = CountVectorizer()
X_train          = count_vectorizer.fit_transform(msg_train).toarray()
X_test           = count_vectorizer.transform    (msg_test ).toarray()


for modele in modeles:
    # ==================================
    # ENTRAINEMENT 
    # ==================================
    temps_debut = timeit.default_timer()
    modele.fit(X_train, Y_train)
    temps_train.append(timeit.default_timer() - temps_debut)
    
    # ==================================
    # TEST 
    # ==================================
    temps_debut = timeit.default_timer()
    Y_pred      = modele.predict(X_test)
    temps_test.append(timeit.default_timer() - temps_debut)
    
    # ==================================
    # PERFORMANCE 
    # ==================================
    # Ici, nous consid√©rons une classification binaire avec une seule classe "spam" 
    # le classifieur ne sera pas jug√© par sa capacit√© de d√©tecter les non spams
    precision.append(precision_score(Y_test, Y_pred, pos_label='spam'))
    rappel   .append(recall_score   (Y_test, Y_pred, pos_label='spam'))

    
print('Fin') 

Fin


#### II.3.1. Temps d'entra√Ænement et de test

Combien de temps chaque algorithme prend pour entrainer le m√™me dataset d'entrainement et combien de temps pour tester le m√™me dataset de test.

In [17]:
algo_noms = ['Naive Bayes Multinomial', 'Naive Bayes Gaussien', 'Regression logistique']

pd.DataFrame({
    'Algorithme'            : algo_noms  ,
    'Temps d\'entrainement' : temps_train,
    'Temps de test'         : temps_test
})

Unnamed: 0,Algorithme,Temps d'entrainement,Temps de test
0,Naive Bayes Multinomial,0.54345,0.068078
1,Naive Bayes Gaussien,0.431447,0.133568
2,Regression logistique,1.405087,0.021132


**TODO: Analyser les r√©sultats**

- Que remarquez-vous concernant le temps d'entrainement ? Pourquoi nous avons eu ces r√©sultats en se basant sur les algorithmes ?
- Que remarquez-vous concernant le temps de test ? Pourquoi nous avons eu ces r√©sultats en se basant sur les algorithmes ?

**R√©ponse**

- On remarque que Naive bayes Multinomial et Gaussian sont t√©rs plus rapide que la r√©gression logistique. car la m√©thode de naive bayes est une m√©thode statistique (calcul de probabilit√©) tandis que la r√©gression logistique est une m√©thode it√©rative (dans scikit learn) tous d√©pend de taux d'apprentissage.
- On remarque que l'inverse est vrai pour le temps de test, car la regression logistique classifie les valeurs du dataset de test en calculant la sortie en utilisant une fonction de classification (calculs simple) ce qui implique un temp de test court, par contre le naive bayes n√©cessite un calcul des probabilit√© en calculant la somme de toutes les probabilit√©s calcul√©s dans l'entrainement ce qui n√©cessite un temps un peu plus √©leve que la pr√©diction par la regression logistique 

#### II.3.2. Qualit√© de pr√©diction

Comment chaque algorithme performe sur le dataset de test dans le cas de d√©tection de spams (spam: est la classe positive).

In [15]:
pd.DataFrame({
    'Algorithme' : algo_noms,
    'Rappel'     : rappel   ,
    'Precision'  : precision
})

Unnamed: 0,Algorithme,Rappel,Precision
0,Naive Bayes Multinomial,0.927711,0.987179
1,Naive Bayes Gaussien,0.891566,0.616667
2,Regression logistique,0.855422,0.986111


**TODO: Analyser les r√©sultats**

On remarque que Naive Bayes surpasse la r√©gression logistique pour la d√©tection de spams. 
- Est-ce que ceci preuve que Naive Bayes est meilleur que les autres algorithmes sur n'importe quel probl√®me ?
- Est-ce que ceci preuve que Naive Bayes peut donner de meilleurs r√©sultats que les autres algorithmes sur des probl√®mes similaires ?
- Pourquoi le mod√®le gaussien est moins performant que le multinomial ?

**R√©ponse**

- Non. 
- Oui.
- car le model de naive bayes multinomial est utilis√© pour la classification selon des caract√©ristiques discrete (non continue), alors que le naive bayes gaussien est utilis√© pour les distributions continues (distribution normale). dans notre cas, les caract√©ristuqes sont discretes c'est pourquoi le mod√®le multinoimiale est plus performant que l'autre (gaussienne)

In [16]:
print('FIN')

FIN
