# TP06 : Naïve Bayes

Tout le monde connait le théorème de Bayes pour calculer la probabilité conditionnelle d'un évennement $A$ sachant un autre $B$: 
$$ P(A|B) = \frac{P(A)P(B|A)}{P(B)}$$

Pour appliquer ce théorème sur un problème d'appentissage automatique, l'idée est simple ; Etant donné une caractéristique $f$ et la sortie $y$ qui peut avoir la classe $c$ : 
- Remplacer $A$ par $y=c$
- Remplacer $B$ par $f$ 
On aura l'équation : 
$$ P(y=c|f) = \frac{P(y=c)P(f|y=c)}{P(f)}$$

On appelle : 
- $P(y=c|f)$ postérieure 
- $P(y=c)$ antérieure
- $P(f|y=c)$ vraisemblance
- $P(f)$ évidence 

Ici, on estime la probablité d'une classe $c$ sachant une caractéristique $f$ en utilisant des données d'entrainement. Maintenant, on veut estimer la probabilité d'une classe $c$ sachant un vecteur de caractéristiques $\overrightarrow{f} = \{f_1, ..., f_L\}$ : 
$$ P(y=c|\overrightarrow{f}) = \frac{P(y=c)P(\overrightarrow{f}|y=c)}{P(f)}$$

Etant donnée plusieurs classes $c_j$, la classe choisie $\hat{c}$ est celle avec la probabilité maximale 
$$\hat{c} = \arg\max\limits_{c_k} P(y=c_k|\overrightarrow{f})$$
$$\hat{c} = \arg\max\limits_{c_k} \frac{P(y=c_k)P(\overrightarrow{f}|y=c_k)}{P(f)}$$
On supprime l'évidence pour cacher le crime : $P(f)$ ne dépend pas de $c_k$ et elle est postive, donc ça ne va pas affecter la fonction $\max$.
$$\hat{c} = \arg\max\limits_{c_k} P(y=c_k)P(\overrightarrow{f}|y=c_k)$$

Pour calculer $P(\overrightarrow{f}|y=c_k)$, on va utiliser une properiété naïve (d'où vient le nom Naive Bayes) : on suppose l'indépendence conditionnelle entre les caractéristiques $f_j$. 
$$\hat{c} = \arg\max\limits_{c_k} P(y=c_k) \prod\limits_{f_j \in \overrightarrow{f}} P(f_j|y=c_k)$$

Pour éviter la disparition de la probabilité (multiplication et représentation de virgule flottante sur machine), on transforme vers l'espace logarithme.
$$\hat{c} = \arg\max\limits_{c_k} \log P(y=c_k) + \sum\limits_{f_j \in \overrightarrow{f}} \log P(f_j|y=c_k)$$


## Avantages 

Les classifieurs naïfs bayésiens, malgré leur simplicité, ont des points forts:
- Ils ont besoin d'une petite quantité de données d'entrainement.
- Ils sont très rapides par rapport aux autres classifieurs.
- Ils donnent de bons résultats dans le cas de filtrage du courrier indésirable et de classification de documents.

## Limites
Les classifieurs naïfs bayésiens certes sont populaires à cause de leur simplicité. Mais, une telle simplicité vient avec un coût [référence: Spiderman].
- Les probabilités obtenues en utilisant ces classifieurs ne doivent pas être prises au sérieux.
- S'il existe une grande corrélation entre les caractéristiques, ils vont donner une mauvaise performance.
- Dans le cas des caractéristiques continues (prix, surface, etc.), les données doivent suivre la loi normale.


## I- Implémentation

Pour estimer la vraisemblance, il y a plusieurs modèles (lois):
- Loi multinomiale : pour les caracétristiques nominales
- Loi de Bernoulli : lorsqu'on est interressé par l'apparence d'une caractéristique ou non (binaire)
- loi normale : pour les caractéristiques numériques

Dans ce TP, on va implémenter Naive Bayes pour les caractéristiques nominales (loi multinomiale)

### I-1- Les données pour les tests unitaires
Ici, on va utiliser le dataset "jouer" contenant des caractéristiques nominales.

In [1]:
import numpy as np
import pandas as pd 


jouer = pd.read_csv("jouer.csv")

X_jouer = jouer.iloc[:, :-1].values # Premières colonnes 
Y_jouer = jouer.iloc[:,-1].values # Dernière colonne 

# Afficher le dataset "jouer"
jouer

Unnamed: 0,temps,temperature,humidite,vent,jouer
0,ensoleile,chaude,haute,non,non
1,ensoleile,chaude,haute,oui,non
2,nuageux,chaude,haute,non,oui
3,pluvieux,douce,haute,non,oui
4,pluvieux,fraiche,normale,non,oui
5,pluvieux,fraiche,normale,oui,non
6,nuageux,fraiche,normale,oui,oui
7,ensoleile,douce,haute,non,non
8,ensoleile,fraiche,normale,non,oui
9,pluvieux,douce,normale,non,oui


### I-2- Estimation de la probabilité antérieure
Etant donné le vecteur de sortie $Y$, on doit calculer la probabilité de chaque classe (différentes valeurs de $Y$)

$$p(c_k) = \frac{|\{y / y \in Y \text{ et } y = c_k\}|}{|Y|}$$

La fonction doit retourner un dictionnaire où la clé est le nom de la classe et la valeur est sa probabilité. Voici, un exemple d'un dictionnaire dans Python

In [2]:
# Exemple de dictionnaire dans Python 
d = {}
d["Iris-setosa"] = 0.5
d["Iris-versicolor"] = 0.33
d["Iris-virginica"] = 0.67

for c in d: 
    print("P(" + c + ")= " + str(d[c]))

P(Iris-setosa)= 0.5
P(Iris-versicolor)= 0.33
P(Iris-virginica)= 0.67


In [3]:
# TODO Réaliser la fonction 
def P_c(Y): 
    resultat = {}
    vals = np.unique(Y)
    for val in vals:
        resultat[val] = len(Y[Y == val]) / len(Y)
    return resultat

# Résultat: {'non': 0.35714285714285715, 'oui': 0.6428571428571429}
P_c(Y_jouer)

{'non': 0.35714285714285715, 'oui': 0.6428571428571429}

### I-3- Entrainement  (loi multinomiale)

Notre modèle (notons le par $\theta_{f_j,C}$) doit garder le nombre des différentes valeurs dans une caractéristique $A$ et le nombre de ces valeurs dans chaque classe.

Donc, étant donné un vecteur d'une caractéristique $A$ et un autre des $Y$ respectives, la fonction d'entrainement doit retourner un dictionnaire (notre théta) : 
- la clé est une valeur $a_v$ de $A$ 
- la valeur est un autre dictionnaire : 
   - il doit contenir une clé "_total_" dont la valeur est le nombre d'occurence de $a_v$ dans $A$ 
   - la clé est la classe $c_k$ de $Y$
   - la valeur est le nombre d'occurence de $a_v$ respectives à $c_k$


In [4]:
# TODO Réaliser cette fonction 
# Elle génère théta pour une seule caractéristique
def entrainer_multi_1(A, Y): 
    resultat = {}
    A_vals = np.unique(A)
    Y_vals = np.unique(Y)
    for val in A_vals:
        resultat[val] = {}
        resultat[val]['_total_'] = len(A[A == val])
        for Y_val in Y_vals:
            resultat[val][Y_val] = len(Y[(A == val) & (Y == Y_val)])
    return resultat

# Résultat 
# {'ensoleile': {'_total_': 5, 'non': 3, 'oui': 2},
# 'nuageux': {'_total_': 4, 'non': 0, 'oui': 4},
# 'pluvieux': {'_total_': 5, 'non': 2, 'oui': 3}}
Theta_jouer_temps = entrainer_multi_1(X_jouer[:, 0], Y_jouer)

Theta_jouer_temps

{'ensoleile': {'_total_': 5, 'non': 3, 'oui': 2},
 'nuageux': {'_total_': 4, 'non': 0, 'oui': 4},
 'pluvieux': {'_total_': 5, 'non': 2, 'oui': 3}}

In [5]:
# La fonction qui entraine Théta sur plusieurs caractéristiques
# Rien à programmer ici
# Notre théta est une liste des dictionnaires;
# chaque dictionnaire contient le théta de la caractéristique respective à la colonne de X
# On ajoute les probabilités antérieures des classes à la fin de résultat
def entrainer_multi(X, Y): 
    resultat = []
    for i in range(X.shape[1]): 
        resultat.append(entrainer_multi_1(X[:, i], Y))
    resultat.append(P_c(Y))
    return resultat

Theta_jouer = entrainer_multi(X_jouer, Y_jouer)

Theta_jouer

[{'ensoleile': {'_total_': 5, 'non': 3, 'oui': 2},
  'nuageux': {'_total_': 4, 'non': 0, 'oui': 4},
  'pluvieux': {'_total_': 5, 'non': 2, 'oui': 3}},
 {'chaude': {'_total_': 4, 'non': 2, 'oui': 2},
  'douce': {'_total_': 6, 'non': 2, 'oui': 4},
  'fraiche': {'_total_': 4, 'non': 1, 'oui': 3}},
 {'haute': {'_total_': 7, 'non': 4, 'oui': 3},
  'normale': {'_total_': 7, 'non': 1, 'oui': 6}},
 {'non': {'_total_': 8, 'non': 2, 'oui': 6},
  'oui': {'_total_': 6, 'non': 3, 'oui': 3}},
 {'non': 0.35714285714285715, 'oui': 0.6428571428571429}]

### I-4- Estimation de la probabilité de vraissemblance (loi multinomiale)
L'équation pour estimer la vraisemblance 
$$ P(f_j=v|y=c_k) = \frac{|\{ y \in Y / y = c_k \text{ et } f_j = v\}|}{|\{y = c_k\}|}$$

Si, dans le dataset de test, on veut calculer la probabilité d'une valeur $v$ qui n'existe pas dans le dataset d'entrainnement ou qui n'existe pas pour une classe donnée, on aura une probabilité nulle. Ici, on doit appliquer une fonction de lissage qui donne une petite probabilité aux données non vues dans l'entrainnement. Le lissage qu'on va utiliser est celui de Lidstone. Lorsque $\alpha = 1$ on l'appelle lissage de Laplace.
$$ P(f_j=v|y=c_k) = \frac{|\{ y \in Y / y = c_k \text{ et } f_j = v\}| + \alpha}{|\{y = c_k\}| + \alpha * |V|}$$
Où: 
- $\alpha$ est une valeur donnée 
- $V$ est l'ensemble des différentes valeurs de $f_j$ (le vocabulaire)

In [6]:
# TODO compléter cette fonction
def P_vraiss_multi(Theta_j, v, c, alpha=1.): 
    len_V = len(Theta_j.keys()) # La taille du vocabulaire
    nbr_c = 0
    for i in Theta_j.keys() :
        nbr_c += Theta_j[i][c]
    v_ = Theta_j.get(v,None)
    v_c_count = v_[c] if v_ else 0
    return (v_c_count + alpha) / (nbr_c + alpha * len_V)

# La probabilité de jouer si temps = pluvieux 
# P(temps = pluvieux | jouer=oui) = (nbr(temps=pluvieux et jouer=oui)+alpha)/(nbr(jour=oui) + alpha * nbr_diff(temps)))
# P(temps = pluvieux | jouer=oui) = (3 + 1)/(9 + 3) ==> 3 est le nombre de différentes valeurs de temps (entrainnement)
# P(temps = pluvieux | jouer=oui) = 4/12 ==> 0.33333333333333333333333333333333333~

# La probabilité de jouer si temps = neigeux 
# P(temps = neigeux | jouer=oui) = (nbr(temps=neigeux et jouer=oui)+alpha)/(nbr(jouer=oui) + alpha * nbr_diff(temps)))
# P(temps = neigeux | jouer=oui) = (0 + 1)/(9 + 3) ==> 3 est le nombre de différentes valeurs de temps (entrainnement)
# P(temps = neigeux | jouer=oui) = 1/13 ==> 0.0833333333333333333333333333333333333~


P_vraiss_multi(Theta_jouer_temps, "pluvieux", "oui"), P_vraiss_multi(Theta_jouer_temps, "neigeux", "oui")

(0.3333333333333333, 0.08333333333333333)

### I-5- Prédiction de la classe (loi multinomiale)
Revenons maintenant à notre équation de prédiction 
$$\hat{c} = \arg\max\limits_{c_k} \log P(y=c_k) + \sum\limits_{f_j \in \overrightarrow{f}} \log P(f_j|y=c_k)$$

Ici, vous devez prédire un seule échantillon $x$

In [7]:
# TODO compléter ce code
# Pour récupérer le théta de la caractéristique n°0 : Theta[0]
# anter est un booléen, si il est False, on ne compte pas la probabilité antérieure P(y = c_k)
def predire(x, Theta, alpha=1., anter=True): 
    c_opt = "" # la classe optimale
    p_c = Theta[-1] #les classes et leurs probabilités antérieures
    if not anter: # si on ne veut pas ajouter les probabiliés antérieures
        p_c = dict.fromkeys(p_c, 1.) # on définit le tous en 1; log(1) = 0
    max_log_p = np.NINF # - infinity 
    # compléter ici
    
    for c in p_c.keys():
        max_ = np.log(p_c[c])
        i = 0
        for v in Theta[:len(Theta) - 1]:
            max_ += np.log(P_vraiss_multi(v,x[i],c))
            i += 1
        if max_log_p < max_:
            max_log_p = max_
            c_opt = c
    return c_opt, max_log_p

# Résultat: (('oui', -4.102643365036796), ('oui', -3.6608106127577567))
predire(["pluvieux", "fraiche", "normale", "oui"], Theta_jouer), predire(["pluvieux", "fraiche", "normale", "oui"], Theta_jouer, anter=False) 

(('oui', -4.102643365036796), ('oui', -3.6608106127577567))

### I-7- Regrouper en une classe (loi multinomiale)

**Rien à programmer ici, il y a une petite analyse**


In [8]:
class NBMultinom(object): 
    
    def __init__(self, alpha=1.): 
        self.alpha = alpha
        
    def entrainer(self, X, Y):
        self.Theta = entrainer_multi(X, Y)
    
    def predire(self, X, anter=True, prob=False): 
        Y_pred = []
        for i in range(len(X)): 
            c, p = predire(X[i,:], self.Theta, alpha=self.alpha, anter=anter)
            if prob:
                Y_pred.append(p)
            else:
                Y_pred.append(c)
        return Y_pred

On va entrainer un modèle en utilisant notre imlémentation avec et sans probabilité antérieure. 
Normalement, on doit tester sur des données non vues (des données qu'on n'a pas utilisé pour l'entrainement). Mais, ici, on va tester sur les mêmes données d'entrainement afin de savoir si le modèle a bien représenté ce dataset ou non (calculer l'erreur) 

In [9]:
notre_modele = NBMultinom()
notre_modele.entrainer(X_jouer, Y_jouer)
Y_notre_ant = notre_modele.predire(X_jouer)
Y_notre_sans_ant = notre_modele.predire(X_jouer, anter=False)

# Ici, ce n'ai pas la peine d'exécuter plusieurs fois
# puisque le résultat sera le même 

# Le rapport de classification
from sklearn.metrics import classification_report

print("Notre modèle avec probabilité antérieure (a priori)")
print(classification_report(Y_notre_ant, Y_jouer))

print("Notre modèle sans probabilité antérieure (a priori)")
print(classification_report(Y_notre_sans_ant, Y_jouer))


Notre modèle avec probabilité antérieure (a priori)
              precision    recall  f1-score   support

         non       0.80      1.00      0.89         4
         oui       1.00      0.90      0.95        10

    accuracy                           0.93        14
   macro avg       0.90      0.95      0.92        14
weighted avg       0.94      0.93      0.93        14

Notre modèle sans probabilité antérieure (a priori)
              precision    recall  f1-score   support

         non       0.80      0.67      0.73         6
         oui       0.78      0.88      0.82         8

    accuracy                           0.79        14
   macro avg       0.79      0.77      0.78        14
weighted avg       0.79      0.79      0.78        14



**Analyser les résultats** :

* modèle avec probabilité antérieure:
    - ce modele utilise la probabilité antérieure **P_c** ce qui est donnée par la proportion de contribution de la classe dans l'ensemble des données,et ce modele utilise cette probabilité dans le clacul de la probabilité postérieure,ce qui nous donne une très bonne resultat pour la classification, c'est pour ca l'accuracy de ce modele est meilleure (94%)

* modèle sans probabilité antérieure:
    - ce modele considère que tout les données sont équiprobable, est cela signifie qu'il aura une marge d'erreur qui va affecter la resultat de ce dernier, c'est pour ca l'accuracy de ce modele est moin bonne (79%)

## II- Détection de spam 

Ici, on va essayer d'appliquer l'apprentissage automatique sur la détection de spam. 
Chaque message dans le dataset est représenté en utilisant un modèle "Sac à mots" (BoW : Bag of Words).
Dans l'entrainement, on récupère les différents mots qui s'apparaissent dans les messages. 
Chaque mot va être considéré comme une caractéristique. 
Donc, pour chaque message, la valeur de la caractéristique est la fréquence de son mot dans le message. 
Par exemple, si le mot "good" apparait 3 fois dans le message, donc la caractéristique "good" aura la valeur 3 dans ce message.

Notre implémentation n'est pas adéquate pour la nature de ce problème. 
Dans Scikit-learn, le [sklearn.naive_bayes.CategoricalNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.CategoricalNB.html) est similaire à notre implémentation. 
L'algorithme adéquat pour ce type de problème est [sklearn.naive_bayes.MultinomialNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html).

Le dataset utilisé est [SMS Spam Collection Dataset](https://www.kaggle.com/uciml/sms-spam-collection-dataset).
Les algorithmes comparés :
- Naive Bayes
- Arbre de décision
- Regression logistique 

### II-1- Préparation de données


In [10]:
messages = pd.read_csv("spam.csv", encoding="latin-1")
messages = messages.rename(columns={"v1": "classe", "v2": "texte"})
messages = messages.filter(["texte", "classe"])

messages.head()

Unnamed: 0,texte,classe
0,"Go until jurong point, crazy.. Available only ...",ham
1,Ok lar... Joking wif u oni...,ham
2,Free entry in 2 a wkly comp to win FA Cup fina...,spam
3,U dun say so early hor... U c already then say...,ham
4,"Nah I don't think he goes to usf, he lives aro...",ham


### II-2- Entrainement et test des modèles sur plusieurs exécutions 

Afin de satisfaire un étudiant qui réclame toujours sur le manque des données, nous avons décidé de comparer les algorithmes sur plusieurs excécutions (runs). 

**Rien à analyser ici**

**P.S.** timeit.default_timer() est dépendante du système d'exploitation. Aussi, elle peut être affectée par d'autre processus en parallèle. 

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
#from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
import timeit
from sklearn.metrics import precision_score, recall_score

NBR_RUN = 7

temps_train = {
    "naive_bayes" : [],
    "arbre_decision": [],
    "reg_log": []
}

temps_test = {
    "naive_bayes" : [],
    "arbre_decision": [],
    "reg_log": []
}

perf = {
    "naive_bayes_P" : [],
    "arbre_decision_P": [],
    "reg_log_P": [], 
    "naive_bayes_R" : [],
    "arbre_decision_R": [],
    "reg_log_R": []
}


for run in range(NBR_RUN): 
    # prétaitement des données
    msg_train, msg_test, Y_train, Y_test = train_test_split(messages["texte"],messages["classe"],test_size=0.2)
    count_vectorizer = CountVectorizer()
    X_train = count_vectorizer.fit_transform(msg_train)
    X_test = count_vectorizer.transform(msg_test)
    
    # ==================================
    # ENTRAINEMENT 
    # ==================================
    
    #entrainement Naive Bayes
    naive_bayes = MultinomialNB()
    temps_debut = timeit.default_timer()
    naive_bayes.fit(X_train, Y_train)
    temps_train["naive_bayes"].append(timeit.default_timer() - temps_debut)
    
    #entrainement CART
    arbre_decision = DecisionTreeClassifier()
    temps_debut = timeit.default_timer()
    arbre_decision.fit(X_train, Y_train)
    temps_train["arbre_decision"].append(timeit.default_timer() - temps_debut)
    
    #entrainement Régression logitique
    reg_log = LogisticRegression(solver="lbfgs") #solver=sag est plus lent; donc j'ai choisi le plus rapide
    temps_debut = timeit.default_timer()
    reg_log.fit(X_train, Y_train)
    temps_train["reg_log"].append(timeit.default_timer() - temps_debut)
    
    # ==================================
    # TEST 
    # ==================================
    
    #test Naive Bayes
    temps_debut = timeit.default_timer()
    Y_naive_bayes = naive_bayes.predict(X_test)
    temps_test["naive_bayes"].append(timeit.default_timer() - temps_debut)
    
    
    #test CART
    temps_debut = timeit.default_timer()
    Y_arbre_decision = arbre_decision.predict(X_test)
    temps_test["arbre_decision"].append(timeit.default_timer() - temps_debut)
    
    #test Régression logitique
    temps_debut = timeit.default_timer()
    Y_reg_log = reg_log.predict(X_test)
    temps_test["reg_log"].append(timeit.default_timer() - temps_debut)
    
    # ==================================
    # PERFORMANCE 
    # ==================================
    # Ici, on va considérer une classification binaire avec une seule classe "spam" 
    # On ne juge pas le classifieur sur sa capacité de détecter les non spams
    
    perf["naive_bayes_P"].append(precision_score(Y_test, Y_naive_bayes, pos_label="spam"))
    perf["arbre_decision_P"].append(precision_score(Y_test, Y_arbre_decision, pos_label="spam"))
    perf["reg_log_P"].append(precision_score(Y_test, Y_reg_log, pos_label="spam"))
    
    perf["naive_bayes_R"].append(recall_score(Y_test, Y_naive_bayes, pos_label="spam"))
    perf["arbre_decision_R"].append(recall_score(Y_test, Y_arbre_decision, pos_label="spam"))
    perf["reg_log_R"].append(recall_score(Y_test, Y_reg_log, pos_label="spam"))
    
    

temps_train

{'naive_bayes': [0.4447437999999977,
  0.011007199999994555,
  0.016033600000014303,
  0.008362200000021858,
  0.01073410000000763,
  0.011071399999991627,
  0.009383899999988898],
 'arbre_decision': [0.2300140999999769,
  0.11730980000001523,
  0.12535539999998946,
  0.12056000000001177,
  0.11752029999999536,
  0.12229089999999587,
  0.1101011000000085],
 'reg_log': [0.48593980000001125,
  0.07716170000000488,
  0.06702420000002007,
  0.061377600000014354,
  0.08369319999999902,
  0.06431860000000711,
  0.060205799999977216]}

### II-3- Analyse du temps d'apprentissage 

Combien de temps chaque algorithme prend pour entrainer le même dataset d'entrainement


In [12]:
pd.DataFrame(temps_train)

Unnamed: 0,naive_bayes,arbre_decision,reg_log
0,0.444744,0.230014,0.48594
1,0.011007,0.11731,0.077162
2,0.016034,0.125355,0.067024
3,0.008362,0.12056,0.061378
4,0.010734,0.11752,0.083693
5,0.011071,0.122291,0.064319
6,0.009384,0.110101,0.060206


**Analyser**:


- Arbre de décision:La durée d'entrainement est justifiée par la complexité de la procedure de la construction de l'arbre qui passe par plusieurs étapes.

- la methode de Reg log utilise la fonction de decente de gradient pour minimiser l'erreur, ce qui peut prendre du temps, mais elle est toujour moins complexe que les arbres de decision, et elle presente une durée d'entrainement moyenne par rapport aux autres algo.

- la methode de Naive Bayes est très rapide car elle est simple dans la construction du modele.

### II-4- Analyse du temps de test 

Combien de temps chaque algorithme prend pour prédir les classes

In [13]:
pd.DataFrame(temps_test)

Unnamed: 0,naive_bayes,arbre_decision,reg_log
0,0.019405,0.000948,0.000148
1,0.000477,0.000748,0.000212
2,0.000292,0.000512,0.000142
3,0.000204,0.000413,0.000101
4,0.000435,0.000664,0.000186
5,0.000201,0.000401,0.000107
6,0.000202,0.000388,0.0001


**Analyser**:

- Naive_Bayes reste la meilleure en question de temps de test, reg-log est aussi bonne, ceci revient à la dépendance de temps de calcul et opérations effectués seulement. 

- les arbres de decision ont une structure hiérarchique et peuvent être profondes, ce qui affecte le processus de prediction,  c'est pour ca les arbres de decision sont un peu lentes par rapport aux autre algo.


### II-5- Analyse de la performance 

Ici, on compare les modèles en se basant sur leurs capacités à détecter le spam. 
On va utiliser la précision et le rappel.

In [14]:
pd.DataFrame(perf, columns = ["arbre_decision_P", "naive_bayes_P", "reg_log_P", "arbre_decision_R", "naive_bayes_R", "reg_log_R"])

Unnamed: 0,arbre_decision_P,naive_bayes_P,reg_log_P,arbre_decision_R,naive_bayes_R,reg_log_R
0,0.883721,0.98374,0.982609,0.838235,0.889706,0.830882
1,0.911392,0.993506,0.979452,0.883436,0.93865,0.877301
2,0.893443,0.968504,0.982609,0.813433,0.91791,0.843284
3,0.885135,0.959459,0.964789,0.861842,0.934211,0.901316
4,0.921986,0.971831,0.984733,0.866667,0.92,0.86
5,0.914286,0.978417,0.985185,0.870748,0.92517,0.904762
6,0.911765,0.966443,0.984962,0.815789,0.947368,0.861842


In [15]:
pd.DataFrame(perf, columns = ["arbre_decision_P", "naive_bayes_P", "reg_log_P", "arbre_decision_R", "naive_bayes_R", "reg_log_R"]).mean()

arbre_decision_P    0.903104
naive_bayes_P       0.974557
reg_log_P           0.980620
arbre_decision_R    0.850021
naive_bayes_R       0.924717
reg_log_R           0.868484
dtype: float64

**Analyser**:

* **Naive Bayes**:
    - avec un rappel 92%, ce modele a le meilleur rappel par rapport aux autre methodes avec une très bonne precision (très proche à celle de Reg Log) ,<br/> un rappel de 92% veut dire que, dans 93% des cas, ce modele il a classifié correctement les messages comme SPAM avec une precision 97% .

* **Regression Logistique**:
    - ce modele a un rappel de 88% avec la meilleur precision (98%) par rapport aux autre modeles, ce modele predit correctement 88% des messages comme SPAM.

* **Arbre de decision**:
    - ce modele a le moins rappel et la moindre précision, et cela est du à sa vulnérabilité aux suraperentissage (overfietting), ce qui peut produire des erreurs et par conséquent affecter la precision et l'accuracy du modele, avec un rappel 85% et une precision 80% on peut dire que les arbres de decision ne sont pas convenable à notre cas.