In [1]:
# Imports básicos
import pandas as pd
from sklearn.model_selection import cross_val_score

Nesse exemplo, vamos testar o algoritmo no dataset Iris, que contém informações sobre as pétalas de três espécies de flores. O objetivo é utilizar essas informações para predizer classificar as flores de acordo com a sua espécie.

In [2]:
df = pd.read_csv('Iris.csv')

In [3]:
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


Note que as features são valores contínuos (o comprimento da pétala da flor, por exemplo). Por isso, vamos utilizar um modelo capaz de lidar com valores contínuos: o GaussianNB, que utiliza uma distribuição normal (contínua) para modelar as features.

In [4]:
# Seleção das features e target
x = df[['SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm']]
y = df['Species']

In [5]:
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()
cross_val_score(gnb, x, y, cv=10).mean()

0.9533333333333334

Com o algoritmo de naive bayes, conseguimos uma acurácia de 95,3%.

Como já falamos nesse post, a distribuição normal depende de:

- $\mu_{iy}$, a média da feature $i$ nas observações de classe $y$
- $\sigma_{iy}$, o desvio padrão da feature $i$ nas observações de classe $y$

Abaixo, podemos ver os valores calculados pelo algoritmo.

In [6]:
gnb.fit(x, y)
media = pd.DataFrame(gnb.theta_, columns=x.columns, index=gnb.classes_)
desv_padrao = pd.DataFrame(gnb.sigma_, columns=x.columns, index=gnb.classes_)

In [7]:
# Médias
media

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
Iris-setosa,5.006,3.418,1.464,0.244
Iris-versicolor,5.936,2.77,4.26,1.326
Iris-virginica,6.588,2.974,5.552,2.026


In [8]:
# Desvios padrões
desv_padrao

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
Iris-setosa,0.121764,0.142276,0.029504,0.011264
Iris-versicolor,0.261104,0.0965,0.2164,0.038324
Iris-virginica,0.396256,0.101924,0.298496,0.073924
