In [1]:
import os
import numpy as np

from sklearn import metrics
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

In [2]:
from sklearn.naive_bayes import MultinomialNB, BernoulliNB, GaussianNB

#### Il existe trois variante du Naïve Bayes : 
La probabilité de chaque caractéristique f-j sachant une classe c-i est estimée selon le type de ces valeurs: discrètes, binaires ou continues.

- Loi multinomiale
>- Lorsque les valeurs des caractéristiques sont discrètes, on utilise la loi multinomiale. Par exemple, la couleur des cheveux avec les valeurs: brun, auburn, châtain, roux, blond vénitien, blond et blanc.
- Loi de Bernoulli
>- Lorsque les valeurs des caractéristiques sont binaires, on utilise la loi de Bernoulli.
- Loi normal
> - Lorsque les valeurs des caractéristiques sont continues, on utilise la loi normale (loi gaussienne). Par exemple, le poids, le prix, etc.

Pour plus de détaille voir : 
https://projeduc.github.io/intro_apprentissage_automatique/bayes.html

In [3]:
DATA_DIR = 'jeux_de_donnees/enron'
target_names = ['ham', 'spam']
# On crée une liste tout les noms des sous dossier dans le dossier eron
subfolders = ['enron%d' % i for i in range(1,7)]

#On crée une liste X qui contiendra tout les email
X = []
#On crée une liste y qui contiendra 1 si spam 0 sinon.
y = []

#### Lecture de tout les email contenues dans les dossier spam

In [4]:
for subfolder in subfolders:
    
    #On crée une liste de tout les fichier contenue le dossier spam de chaque sous-dossier
    spam_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'spam'))
    for spam_file in spam_files:
        with open(os.path.join(DATA_DIR, subfolder, 'spam', spam_file), encoding='ascii', errors='ignore') as f:
            X.append(f.read())
            # On ajouter 1 à notre liste target pour chaque spam lu dans la liste data.
            y.append(1)
            
    ham_files = os.listdir(os.path.join(DATA_DIR, subfolder, 'ham'))
    for ham_file in ham_files:
        with open(os.path.join(DATA_DIR, subfolder, 'ham', ham_file), encoding='ascii', errors='ignore') as f:
            X.append(f.read())
            y.append(0)

FileNotFoundError: [Errno 2] No such file or directory: 'jeux_de_donnees/enron/enron1/spam'

#### Partitionnement du jeu de données en jeu de test et d'entrainement.

In [26]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.10, random_state=42)

#### On comment par convertir nos listes qui contiennent des chaine de caractère en valeur numérique :
On va utiliser la focntion CountVectorizer() qui va :
- construire un dictionnaire à partir de chacun des mot du texte
- ramplacer chaque mit par son vecteur
- et tout sommer pour nous

In [27]:
count_vec = CountVectorizer()
X_train_counts = count_vec.fit_transform(X_train)
print(X_train_counts)

  (0, 127701)	4
  (0, 112094)	2
  (0, 38375)	6
  (0, 131577)	3
  (0, 57844)	5
  (0, 131645)	16
  (0, 72061)	1
  (0, 24498)	1
  (0, 124556)	1
  (0, 94455)	1
  (0, 143255)	1
  (0, 145440)	1
  (0, 148230)	4
  (0, 62395)	1
  (0, 15936)	1
  (0, 18021)	4
  (0, 85805)	1
  (0, 38237)	1
  (0, 97446)	1
  (0, 37831)	3
  (0, 28189)	2
  (0, 87742)	6
  (0, 30359)	3
  (0, 73202)	1
  (0, 85638)	2
  :	:
  (30343, 61303)	1
  (30343, 144678)	1
  (30343, 20414)	1
  (30343, 2902)	1
  (30343, 2920)	1
  (30343, 68284)	1
  (30343, 76323)	3
  (30343, 58893)	1
  (30343, 36046)	1
  (30343, 99341)	1
  (30343, 88716)	1
  (30343, 59699)	1
  (30343, 66301)	1
  (30343, 126122)	1
  (30343, 42022)	1
  (30343, 21231)	1
  (30343, 32948)	1
  (30343, 84216)	1
  (30343, 36994)	2
  (30343, 116385)	1
  (30343, 71985)	1
  (30343, 127334)	2
  (30343, 748)	1
  (30343, 89624)	1
  (30343, 150002)	1


In [31]:
# Pour afficher chacun de mot du dictionnaire
# Les numéro après chaque forme un index unique
count_vec.vocabulary_

{'subject': 127701,
 're': 112094,
 'cornhusker': 38375,
 'thanks': 131577,
 'for': 57844,
 'the': 131645,
 'information': 72061,
 'below': 24498,
 'sometime': 124556,
 'next': 94455,
 'week': 143255,
 'would': 145440,
 'you': 148230,
 'go': 62395,
 'ahead': 15936,
 'and': 18021,
 'make': 85805,
 'copy': 38237,
 'of': 97446,
 'contract': 37831,
 'brief': 28189,
 'me': 87742,
 'can': 30359,
 'interoffice': 73202,
 'mail': 85638,
 'it': 74433,
 'to': 133238,
 'at': 21015,
 'eb': 48447,
 '3703': 6253,
 'kathy': 77707,
 'benedict': 24581,
 'daren': 41248,
 'farmer': 55071,
 '11': 1325,
 '22': 3940,
 '2000': 2904,
 '42': 6896,
 'am': 17314,
 'katherine': 77695,
 'hou': 68194,
 'ect': 48752,
 'cc': 31690,
 'if': 69915,
 'need': 93822,
 've': 139710,
 'got': 62802,
 'that': 131596,
 'lists': 82978,
 'transport': 134452,
 'cost': 38617,
 'fuel': 59310,
 'from': 59016,
 'each': 48205,
 'location': 83627,
 'there': 131870,
 'numerous': 96404,
 'receipt': 112458,
 'points': 105455,
 'is': 74148,


In [32]:
X_train_counts.shape

(30344, 150271)

In [33]:
print(X_train_counts[0])

  (0, 127701)	4
  (0, 112094)	2
  (0, 38375)	6
  (0, 131577)	3
  (0, 57844)	5
  (0, 131645)	16
  (0, 72061)	1
  (0, 24498)	1
  (0, 124556)	1
  (0, 94455)	1
  (0, 143255)	1
  (0, 145440)	1
  (0, 148230)	4
  (0, 62395)	1
  (0, 15936)	1
  (0, 18021)	4
  (0, 85805)	1
  (0, 38237)	1
  (0, 97446)	1
  (0, 37831)	3
  (0, 28189)	2
  (0, 87742)	6
  (0, 30359)	3
  (0, 73202)	1
  (0, 85638)	2
  :	:
  (0, 138690)	1
  (0, 65322)	1
  (0, 115730)	1
  (0, 131993)	1
  (0, 142545)	1
  (0, 46177)	1
  (0, 95759)	2
  (0, 30158)	2
  (0, 131795)	1
  (0, 120497)	1
  (0, 97487)	1
  (0, 144036)	1
  (0, 61303)	1
  (0, 57067)	1
  (0, 55557)	1
  (0, 102694)	1
  (0, 90386)	1
  (0, 143851)	1
  (0, 62485)	1
  (0, 79154)	1
  (0, 125147)	1
  (0, 67930)	1
  (0, 66152)	1
  (0, 144678)	1
  (0, 5680)	1


#### Maintenant on applique la transformation tf.idf

In [34]:
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
print(X_train_tfidf[0])

  (0, 148230)	0.04925615977636903
  (0, 146129)	0.054838542384100596
  (0, 145440)	0.0218316452812981
  (0, 144678)	0.015302664968140907
  (0, 144324)	0.04295413468191148
  (0, 144298)	0.03343754852118188
  (0, 144036)	0.06633062480383585
  (0, 143851)	0.03947324750044667
  (0, 143753)	0.04857273537151021
  (0, 143255)	0.02807640270763269
  (0, 143034)	0.09173731372098101
  (0, 142545)	0.026154764895255762
  (0, 139710)	0.03302194493116669
  (0, 138690)	0.047230727079474295
  (0, 138465)	0.027378522750878764
  (0, 135984)	0.08232914692317359
  (0, 134452)	0.13779467948452526
  (0, 133238)	0.12868190192185952
  (0, 132111)	0.05821955416507975
  (0, 131993)	0.025069738688245937
  (0, 131870)	0.04781462436445775
  (0, 131795)	0.02960803426195387
  (0, 131645)	0.1758907711293936
  (0, 131596)	0.06446105959625699
  (0, 131580)	0.058929862165533434
  :	:
  (0, 27902)	0.13318301207900518
  (0, 24581)	0.3451523318091459
  (0, 24498)	0.028386501918252257
  (0, 23876)	0.015380508419703539
  (0, 

#### Je lance l'entrainement avec le BernoulliNB

In [35]:
model = BernoulliNB()
model.fit(X_train_tfidf, y_train)

BernoulliNB()

In [38]:
X_test_counts = count_vec.transform(X_test)
X_test_tfidf = tfidf_transformer.transform(X_test_counts)
y_pred = model.predict(X_test_tfidf)

print(accuracy_score(y_test, y_pred))

0.9878410438908659


In [39]:
model = MultinomialNB()
model.fit(X_train_tfidf, y_train)

X_test_counts = count_vec.transform(X_test)
X_test_tfidf = tfidf_transformer.transform(X_test_counts)
y_pred = model.predict(X_test_tfidf)

print(accuracy_score(y_test, y_pred))

0.9884341637010676


#### Je définis mon modèle avec un pipline et je lance l'apprantissage

In [44]:
text_model = Pipeline([('count_vec', CountVectorizer()), 
                     ('tfidf_transformer', TfidfTransformer()),
                     ('text_model', SGDClassifier(tol=None, loss='log'))])

text_model.fit(X_train, y_train)
y_pred = text_model.predict(X_test)
print(accuracy_score(y_test, y_pred))

0.9798339264531435
