<center>
    <img src="https://www.dates-concours.ma/wp-content/uploads/2019/05/ENSET-Mohemmedia-300x141.png" width="300" alt="ENSET logo"  />
</center>

# Machine Learning – Naive Bayes workshop N°1
### By Hamza El Anssari 


## Objectives

After completing this lab you will be able to:

-   Build a Logistic Regression Model
-   Use Cross Entropy

<h2>Table of content</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li><a>Packages</a></li>
    <li><a>Exercice 1 : Concepts de base</a></li>
    <li><a>Exercice 2 : Mise en œuvre de knn</a></li>
    <li><a>Exercice 3 : Visualisation de données</a></li>
    <li><a>Exercice 4 : Evaluation du modèle en fonction de k</a></li>
    <li><a>Exercice 5 : Etude de Dataset diabetes.csv</a></li>
</ul>
    
</div>
 
<hr>

### <font color='red'>1 - Packages</font> ###
First, let's run the cell below to import all the packages that you will need during this assignment. 
- [numpy](www.numpy.org) is the fundamental package for scientific computing with Python.
- [sklearn](http://scikit-learn.org/stable/) provides simple and efficient tools for data mining and data analysis. 
- [matplotlib](http://matplotlib.org) is a library for plotting graphs in Python.
- [seaborn](http://seaborn.pydata.org/) is a library that uses Matplotlib underneath to plot graphs. 
- [pandas](http://pandas.pydata.org/) is a library for data analysis and manipulation.

In [3]:
import pandas as pd
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sn

### <font color='red'>2 - Exercice 1 : Concepts de base</font> ##

**1 - Donner une brève description à KNN :**<br>
L'algorithme des k-plus proches voisins (KNN) est un algorithme d'apprentissage automatique supervisé simple et facile à mettre en œuvre qui peut être utilisé pour résoudre des problèmes de classification et de régression.

**2 - Pourquoi KNN est considéré comme étant un « lazy learner »:**<br>
K-NN est considéré comme étant un lazy learner car il n'apptrient pas la phase d’apprentissage

**3 - Donner quelques cas d’utilisation de KNN:**<br>
<li>Systèmes de recommandation</li>
<li>Sciences politiques: classement des électeurs potentiels</li>
<li>Classification des clients</li>
<li>.....</li>

**4 - Dans quels cas on ne peut pas utiliser le classifieur KNN:**<br>
KNN permet de faire la classification pour les problèmes non linéairement séparable

**5 - Quelles sont les principales faiblesses de KNN:**<br>
<li>Ne fonctionne pas bien avec un grand dataset</li>
<li>Sensible aux données bruyantes, aux valeurs manquantes.</li>
<li>L'algorithme KNN ne fonctionne pas bien avec des données de grande dimension car avec un grand nombre de dimensions</li>

**6 - Quels sont les paramètres importants du classifieur KNN:**  Le paramètre k

**7 - Quelles sont les pratiques à suivre pour bien identifier le paramètre k:**  Calculer l'accuracy par rapport au paramètre k

### <font color='red'>3 - Exercice 2 : Mise en œuvre de kNN</font> ###

Soit S un dataset définie comme suit :<br>
S = S1 U S2<br>

S1 = {01010,11111,11010,11101,10101}<br>
S2 = {01100,11001,10110,10101,10010}<br>

C = {c1,c2]<br>

Tous les enregistrements de S1 appartiennent à la classe C1<br>
Tous les enregistrements de S2 appartiennent à la classe C2<br>

**1 - Quel est le classifieur Naive Bayes à utiliser pour le dataset ci-dessus**  Bernoulli Naive Bayes car on a un dataset binaire <br>

**2- En utilisant le classifieur Naive Bayes adéquat, Quelle est la classe que peut avoir x=00111**<br>

<br>P(c1/x) = P(x/c1) * P(c1) * 1/P(x)
<br>P(c2/x) = P(x/c2) * P(c2) * 1/P(x)

<br>P(x/c1) = 1/5 * 1/5 * 3/5 * 3/5 * 3/5 = 0.00864
<br>P(x/c2) = 1/5 * 3/5 * 3/5 * 2/5 * 2/5 = 0.01152
<br>P(c1) = P(c2) = 1/2 = 0.5

<br>P(c1/x) = 0.00432 * 1/P(x)
<br>P(c2/x) = 0.00576 * 1/P(x)

<b>Donc x appartient la classe c2</b>

| byte1  | byte2 | byte3 | byte4 | byte5 | classe |
| --- | --- | --- | --- | --- | --- |
| 0 | 1 | 0 | 1 | 0 | c1
| 1 | 1 | 1 | 1 | 1 | c1
| 1 | 1 | 0 | 1 | 0 | c1
| 1 | 1 | 1 | 0 | 1 | c1
| 1 | 0 | 1 | 0 | 1 | c1
| 0 | 1 | 1 | 0 | 0 | c2
| 1 | 1 | 0 | 0 | 1 | c2
| 1 | 0 | 1 | 1 | 0 | c2
| 1 | 0 | 1 | 0 | 1 | c2
| 1 | 0 | 0 | 1 | 0 | c2

**3- Écrire un code source qui permet de calculer les probabilités nécessaires**

In [4]:
def probability(dataset, x):
    total_c1 = len(df[df['classe']=='c1'])
    total_c2 = len(df[df['classe']=='c2'])
    p_c1 = total_c1/len(dataset)
    p_c2 = total_c2/len(dataset)
    proba_c1 = 1
    proba_c2 = 1
    c1 = (df['classe']=='c1')
    c2 = (df['classe']=='c2')
    for i,val in enumerate(x):
        proba_c1 *= (dataset[c1].iloc[:,i]== val).sum()
        proba_c2 *= (dataset[c2].iloc[:,i]== val).sum()
    pr_c1 = (proba_c1/np.power(total_c1,len(x)))*p_c1
    pr_c2 = (proba_c2/np.power(total_c2,len(x)))*p_c2
    return pr_c1,pr_c2

In [5]:
S1 = [[0,1,0,1,0],[1,1,1,1,1],[1,1,0,1,0],[1,1,1,0,1],[1,0,1,0,1]]
df_c1 = pd.DataFrame(S1, columns=['byte1', 'byte2', 'byte3','byte4','byte5'])
df_c1['classe'] = 'c1'
df_c1.head()

Unnamed: 0,byte1,byte2,byte3,byte4,byte5,classe
0,0,1,0,1,0,c1
1,1,1,1,1,1,c1
2,1,1,0,1,0,c1
3,1,1,1,0,1,c1
4,1,0,1,0,1,c1


In [6]:
S2 = [[0,1,1,0,0],[1,1,0,0,1],[1,0,1,1,0],[1,0,1,0,1],[1,0,0,1,0]]
df_c2 = pd.DataFrame(S2, columns=['byte1', 'byte2', 'byte3','byte4','byte5'])
df_c2['classe'] = 'c2'
df_c2.head()

Unnamed: 0,byte1,byte2,byte3,byte4,byte5,classe
0,0,1,1,0,0,c2
1,1,1,0,0,1,c2
2,1,0,1,1,0,c2
3,1,0,1,0,1,c2
4,1,0,0,1,0,c2


In [7]:
df = pd.concat([df_c1,df_c2])
df.head(10)

Unnamed: 0,byte1,byte2,byte3,byte4,byte5,classe
0,0,1,0,1,0,c1
1,1,1,1,1,1,c1
2,1,1,0,1,0,c1
3,1,1,1,0,1,c1
4,1,0,1,0,1,c1
0,0,1,1,0,0,c2
1,1,1,0,0,1,c2
2,1,0,1,1,0,c2
3,1,0,1,0,1,c2
4,1,0,0,1,0,c2


In [8]:
probability(df,[0,0,1,1,1])

(0.00432, 0.00576)

### <font color='red'>4 - Exercice 3 : Classification du texte</font> ###

**Objectif : Classifier des phrases selon leur thème : la radio ou la télévision**
Échantillon :
<li>Classe télévision :</li>
- Le programme TV n’est pas intéressant.
- La TV m’ennuie.
- Les enfants aiment la TV.
- On reçoit la TV par onde radio.
<li>Classe radio :</li>
- Il est intéressant d’écouter la radio.
- Sur les ondes, les programmes pour enfants sont rares.
- Les enfants vont écouter la radio; c’est rare.
<li>Vocabulaire : </li>
- V = {TV, programme, intéressant, enfants, radio, onde, écouter, rare}
<br>En utilisant un classifieur de Bayes, à quel thème serait associée la phrase :
<br>
<b>« J’ai vu la radio de mes poumons à la TV »</b>

In [4]:
data = [
    ['Le programme TV n’est pas intéressant','TV'],['La TV m’ennuie','TV'],['Les enfants aiment la TV','TV'],
    ['On reçoit la TV par onde radio','TV'],['Il est intéressant d’écouter la radio','radio'],['Sur les ondes','radio'],
    ['les programmes pour enfants sont rares','radio'],['Les enfants vont écouter la radio','radio']
       ]
df_ex3 = pd.DataFrame(data,columns=['phrase','classe'])
df_ex3.head()

Unnamed: 0,phrase,classe
0,Le programme TV n’est pas intéressant,TV
1,La TV m’ennuie,TV
2,Les enfants aiment la TV,TV
3,On reçoit la TV par onde radio,TV
4,Il est intéressant d’écouter la radio,radio


<br>P(TV/phrase) = P(phrase/TV) * P(TV) * 1/P(phrase)
<br>P(radio/phrase) = P(phrase/radio) * P(radio) * 1/P(phrase)

In [5]:
df_ex3['phrase'] = [x.lower() for x in df_ex3['phrase']]
df_ex3.head()

Unnamed: 0,phrase,classe
0,le programme tv n’est pas intéressant,TV
1,la tv m’ennuie,TV
2,les enfants aiment la tv,TV
3,on reçoit la tv par onde radio,TV
4,il est intéressant d’écouter la radio,radio


In [6]:
tv = df_ex3['classe']== 'TV'
radio = df_ex3['classe']== 'radio'

In [7]:
p_tv = tv.sum()/len(df_ex3)
p_radio = radio.sum()/len(df_ex3)

In [8]:
phrase = 'J’ai vu la radio de mes poumons à la TV'.lower()
words = phrase.split()
words

['j’ai', 'vu', 'la', 'radio', 'de', 'mes', 'poumons', 'à', 'la', 'tv']

In [9]:
vocabulaire = ['TV', 'programme', 'intéressant', 'enfants', 'radio', 'onde', 'écouter', 'rare']
vocabulaire = [x.lower() for x in vocabulaire]
vocabulaire

['tv',
 'programme',
 'intéressant',
 'enfants',
 'radio',
 'onde',
 'écouter',
 'rare']

In [10]:
words = [x for x in words if x in vocabulaire]
words

['radio', 'tv']

In [11]:
print('classe TV')
[(w,df_ex3[tv].phrase.str.count(w)) for w in words]

classe TV


[('radio',
  0    0
  1    0
  2    0
  3    1
  Name: phrase, dtype: int64),
 ('tv',
  0    1
  1    1
  2    1
  3    1
  Name: phrase, dtype: int64)]

In [12]:
print('classe radio')
[(w,df_ex3[radio].phrase.str.count(w)) for w in words]

classe radio


[('radio',
  4    1
  5    0
  6    0
  7    1
  Name: phrase, dtype: int64),
 ('tv',
  4    0
  5    0
  6    0
  7    0
  Name: phrase, dtype: int64)]

In [15]:
words_count_tv = [df_ex3[tv].phrase.str.count(w).sum() for w in words]
words_count_radio = [df_ex3[radio].phrase.str.count(w).sum() for w in words]

In [16]:
words_count_tv

[1, 4]

In [17]:
words_count_radio

[2, 0]

In [18]:
proba_words_tv = words_count_tv/tv.sum()
proba_words_radio = words_count_radio/radio.sum()

In [19]:
proba_words_tv

array([0.25, 1.  ])

In [20]:
is_tv = p_tv * np.prod(proba_words_tv)
is_tv

0.125

In [23]:
proba_words_radio

array([0.5, 0. ])

In [123]:
is_radio = p_radio * np.prod(proba_words_radio)
is_radio

0.0

**« J’ai vu la radio de mes poumons à la TV » est une phrase dans la classe <font color='red'>TV</font>**

### <font color='red'>5 - Exercice 4 : NB by using sklearn</font> ###

Utiliser le dataset iris.csv
Ouvrir le fichier NB_iris.ipynb se trouvant dans googleclassroom
1. Analyser les différents algorithmes

In [24]:
df_ex4 = pd.read_csv("Iris.csv")
df_ex4.drop('Id',axis=1,inplace=True)
df_ex4.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [25]:
X=df_ex4.iloc[:,0:4]
y=df_ex4.iloc[:,4]

In [29]:
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=.33,random_state=17)

In [26]:
def Model(model, X_train, y_train, X_test, y_test):
    model.fit(X_train, y_train)
    print(model)
    y_pred = model.predict(X_test)
    print ('Accuracy : ',accuracy_score(y_test,y_pred))

In [30]:
Model(BernoulliNB(binarize=True),X_train, y_train, X_test, y_test)

BernoulliNB(binarize=True)
Accuracy :  0.56


In [31]:
Model(BernoulliNB(binarize=0.1),X_train, y_train, X_test, y_test)

BernoulliNB(binarize=0.1)
Accuracy :  0.36


In [32]:
Model(MultinomialNB(),X_train, y_train, X_test, y_test)

MultinomialNB()
Accuracy :  0.56


In [33]:
Model(GaussianNB(),X_train, y_train, X_test, y_test)

GaussianNB()
Accuracy :  0.96


**2 - Quelles sont les conclusions à faire**<br>

Gaussian Naive bayes est le meilleure pour ce cas car notre dataset est "continuous data"

**3 - Comparer le résultat obtenu avec KNN (avec le meilleur k)**<br>

Les résultat obtenu avec KNN est plus mieux que les resultat avec Naive Bayes 
<li><b>accuracy avec KNN</b> : accuracy = 1</li> 
<li><b>accuracy avec Naive Bayes</b> : accuracy = 0.96</li>

### <font color='red'>6 - Exercice 5 :  NB from scratch</font> ###

<p>Voir les code sources fourni dans le fichier functions.pdf<br>
Soit le dataset suivant qui représente une partie de la base de données iris. Cette base de données présente trois types de fleurs selon leurs caractéristiques (voir tableau).<br>
Le dernier exemple (x) est un exemple à classer à l’aide de knn.</p>

**1 - Selon le dataset ci-dessus, quel est le classifieur Naive Bayes le plus adéquat à utiliser**<br>
Gaussian Naive bayes est le meilleure pour ce cas car notre dataset est "continuous data"

**2 - Quelles sont les étapes à suivre pour classer x ? quelles sont les formules à utiliser au sein de chaque étape**<br>
<li>Calculer les deux probabilités : </li>
P(c1/x) = P(x/c1) * P(c1) * 1/P(x)
<br>P(c2/x) = P(x/c2) * P(c2) * 1/P(x)
<br>
<li>On choisir la classe qui a la plus grande valuer</li>

**3 - Implémenter les fonctions nécessaires qui prennent en compte les formules définies en 2**

In [191]:
def probability(dataset, x, classe):
    con = (dataset['Species'] == classe)
    data = dataset[con]
    probas = []
    for i,val in enumerate(x):
        mean = data.iloc[:,i].mean()
        var = data.iloc[:,i].var()
        proba = (1/math.sqrt(2*math.pi*var))*(np.exp(-1/2*np.power(val-mean,2)/var))
        probas.append(proba)
    return probas

**4 -  En utilisant votre code source**

In [193]:
df_ex6.head()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


<li><b>Calculer la probabilité de chaque classe</b></li>

<font color='red'><b>Iris-setosa<b></font>

In [194]:
proba_setosa = (df_ex6['Species'] == 'Iris-setosa').sum()/len(df_ex6)
proba_setosa

0.3333333333333333

<font color='red'><b>Iris-versicolor<b></font>

In [195]:
proba_versicolor = (df_ex6['Species'] == 'Iris-versicolor').sum()/len(df_ex6)
proba_versicolor

0.3333333333333333

<font color='red'><b>Iris-virginica<b></font>

In [196]:
proba_virginica = (df_ex6['Species'] == 'Iris-virginica').sum()/len(df_ex6)
proba_virginica

0.3333333333333333

<li><b>Calculer les moyennes et variances</b></li>

<font color='red'><b>Moyennes<b></font>

In [197]:
df_ex6.mean()

SepalLengthCm    5.843333
SepalWidthCm     3.054000
PetalLengthCm    3.758667
PetalWidthCm     1.198667
dtype: float64

<font color='red'><b>Variances<b></font>

In [198]:
df_ex6.var()

SepalLengthCm    0.685694
SepalWidthCm     0.188004
PetalLengthCm    3.113179
PetalWidthCm     0.582414
dtype: float64

<li><b>Calculer P( x | classe) sachant que classe={ Iris-setosa , Iris-versicolor, Iris-virginica }</b></li>

<font color='green'>** La probabilité s'écrit comme suit</font>
<li>Pr(SepalLengthCm)</li>
<li>Pr(SepalWidthCm)</li>
<li>Pr(PetalLengthCm)</li>
<li>Pr(PetalWidthCm)</li>

<font color='red'><b>Iris-setosa<b></font>

In [199]:
probability(df_ex6,[4.9,3.0,4.9,2.1],'Iris-setosa')

[1.0817495855560573,
 0.5736143870495223,
 1.6122626032157304e-85,
 3.099230350468631e-65]

<font color='red'><b>Iris-versicolor<b></font>

In [202]:
probability(df_ex6,[4.9,3.0,4.9,2.1],'Iris-versicolor')

[0.1031244047781986,
 0.9718584132539115,
 0.3358152325641716,
 0.0009511683841995659]

<font color='red'><b>Iris-virginica<b></font>

In [203]:
probability(df_ex6,[4.9,3.0,4.9,2.1],'Iris-virginica')

[0.018506779675120297,
 1.2330295149586663,
 0.3597393539944261,
 1.4007694672920687]

**Calculer la probabilité (classe | x) sachant que classe={ Iris-setosa , Iris-versicolor, Iris-virginica }**

<font color='red'><b>Iris-setosa<b></font>

In [205]:
np.prod(probability(df_ex6,[4.9,3.0,4.9,2.1],'Iris-setosa'))*proba_setosa

1.0335111234820907e-150

<font color='red'><b>Iris-versicolor<b></font>

In [206]:
np.prod(probability(df_ex6,[4.9,3.0,4.9,2.1],'Iris-versicolor'))*proba_versicolor

1.0670898697072345e-05

<font color='red'><b>Iris-virginica<b></font>

In [207]:
np.prod(probability(df_ex6,[4.9,3.0,4.9,2.1],'Iris-virginica'))*proba_virginica

0.00383299003004266

<font color='green'><b>Donc x appartient la classe Iris-virginica</b></font>