### conceito

O algoritmo possui o nome de "naive" pois é "ingênuo" quanto à premissa de que as features são independentes entre si, o que não é verdade para a maioria dos casos no mundo real.

Funciona calculando a probabilidade condicional de cada feature e multiplicando-as ao final. Um problema é que caso uma das features tenha 0 ocorrências, o resultado da multiplicação também será 0. Para corrigir este problema é utilizada a **correção laplaciana**, que consiste basicamente em adicionar um valor *aplha* a cada valor para que a probabilidade condicional não seja nula.

In [1]:
weather = ['Sunny','Sunny','Overcast','Rainy','Rainy','Rainy','Overcast','Sunny','Sunny', 'Rainy','Sunny','Overcast','Overcast','Rainy']
temp = ['Hot','Hot','Hot','Mild','Cool','Cool','Cool','Mild','Cool','Mild','Mild','Mild','Hot','Mild']
play = ['No','No','Yes','Yes','Yes','No','Yes','No','Yes','Yes','Yes','Yes','Yes','No']

In [2]:
# transformando string's das colunas em valores numéricos

from sklearn import preprocessing

le = preprocessing.LabelEncoder()

weather_encoded = le.fit_transform(weather)
temp_encoded = le.fit_transform(temp)
label = le.fit_transform(play)
print("Temp:", temp_encoded)
print("Play:", label)
print("Weather:", weather_encoded)

Temp: [1 1 1 2 0 0 0 2 0 2 2 2 1 2]
Play: [0 0 1 1 1 0 1 0 1 1 1 1 1 0]
Weather: [2 2 0 1 1 1 0 2 2 1 2 0 0 1]


In [3]:
# transformando em uma tupla única

features = tuple(zip(weather_encoded, temp_encoded))
print(features)

((2, 1), (2, 1), (0, 1), (1, 2), (1, 0), (1, 0), (0, 0), (2, 2), (2, 0), (1, 2), (2, 2), (0, 2), (0, 1), (1, 2))


In [4]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

model.fit(features, label)

# prevendo para um exemplo onde weather = overcast e temp = mild
predicted = model.predict([[0,2]])
print("Predicted Value:", predicted)

Predicted Value: [1]


Para mais de uma feature

In [5]:
from sklearn import datasets

wine = datasets.load_wine()

In [6]:
print("Features: ", wine.feature_names)
print("Labels: ", wine.target_names)

Features:  ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']
Labels:  ['class_0' 'class_1' 'class_2']


In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3,random_state=109) # 70% training and 30% test

In [8]:
from sklearn.naive_bayes import GaussianNB

gnb = GaussianNB()

gnb.fit(X_train, y_train)

y_pred = gnb.predict(X_test)

In [9]:
from sklearn import metrics

print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9074074074074074
