#Modelos de Classificação: Naive Bayes

### Importando libs  e funções

Importando libs

In [0]:
import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn import metrics

## Naive Bayes com Labels Binários

### Etapa de exploração e tratamento dos dados

Importando os dados. O dataset contém atributos de clima, temp, humidade, etc. Portanto, o objetivo é calcular a probabilidade de jogar de acordo com os diversos atributos como clima e tempo.

Mais informações a respeito do dataset: [Kaggle](https://www.kaggle.com/fredericobreno/play-tennis)

In [0]:
df = pd.read_csv('https://raw.githubusercontent.com/intelligentagents/aprendizagem-supervisionada/master/data/tennis.csv')

# Selecionando apenas alguns atributos para melhor visualização:
df = df.loc[:, ['wheather', 'temp', 'play']]

Descrevendo o dataset

In [5]:
# Exporando o dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 3 columns):
wheather    14 non-null object
temp        14 non-null object
play        14 non-null object
dtypes: object(3)
memory usage: 464.0+ bytes


In [21]:
# Visualizando o sumário das colunas numéricas do dataset
df.describe()

Unnamed: 0,wheather,temp,play
count,14,14,14
unique,3,3,2
top,sunny,mild,yes
freq,5,6,9


Transformando os dados categóricos em númericos:

In [22]:
# Criando o labelEncoder
df.head(5)

Unnamed: 0,wheather,temp,play
0,sunny,hot,no
1,sunny,hot,no
2,overcast,hot,yes
3,rainy,mild,yes
4,rainy,cool,yes


Transformando os dados categóricos em númericos:

In [0]:
le = preprocessing.LabelEncoder()
df['wheather'] = le.fit_transform(df['wheather'])
df['temp'] = le.fit_transform(df['temp'])
df['play'] = le.fit_transform(df['play'])

Visualizando o dataset

In [9]:
df.head(5)

Unnamed: 0,wheather,temp,play
0,2,1,0
1,2,1,0
2,0,1,1
3,1,2,1
4,1,0,1


Definindo as variáveis dependentes/independentes e visualizando as 5 primeiras:

In [0]:
X = df.iloc[:, :2].values 
y = df.iloc[:, -1].values

### Etapa de Treinamento e Validação do Modelo

Importando e treinando o modelo com o conjunto de treinamento:

In [26]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(X,y)

GaussianNB(priors=None, var_smoothing=1e-09)

Prevendo os resultados do modelo criado com o conjunto de testes

In [27]:
predicted = model.predict([[0,2]]) # 0:Overcast, 2:Mild

print("Valor a ser previsto:", predicted)

Valor a ser previsto: [1]


## Naive Bayes com Labels Múltiplos

### Etapa de Exploração e Tratamento dos dados

Importando os dados relacinados a classificação de vinhos contendo atributos químicos de vinhos. 

[Fonte](https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data)


In [0]:
from sklearn.datasets import load_wine

wine = datasets.load_wine()

Visualizando o nome das features:

In [30]:
print ("Features: ", wine.feature_names)

Features:  ['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


Visualizando os labels (tipos de vinhos)

In [31]:
print ("Labels: ", wine.target_names)

Labels:  ['class_0' 'class_1' 'class_2']


Visualizando a formato dos dados:

In [14]:
wine.data.shape

(178, 13)

Exibindo os 5 primeiros registros:

In [32]:
wine.data[0:5]

array([[1.423e+01, 1.710e+00, 2.430e+00, 1.560e+01, 1.270e+02, 2.800e+00,
        3.060e+00, 2.800e-01, 2.290e+00, 5.640e+00, 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, 1.120e+01, 1.000e+02, 2.650e+00,
        2.760e+00, 2.600e-01, 1.280e+00, 4.380e+00, 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, 1.860e+01, 1.010e+02, 2.800e+00,
        3.240e+00, 3.000e-01, 2.810e+00, 5.680e+00, 1.030e+00, 3.170e+00,
        1.185e+03],
       [1.437e+01, 1.950e+00, 2.500e+00, 1.680e+01, 1.130e+02, 3.850e+00,
        3.490e+00, 2.400e-01, 2.180e+00, 7.800e+00, 8.600e-01, 3.450e+00,
        1.480e+03],
       [1.324e+01, 2.590e+00, 2.870e+00, 2.100e+01, 1.180e+02, 2.800e+00,
        2.690e+00, 3.900e-01, 1.820e+00, 4.320e+00, 1.040e+00, 2.930e+00,
        7.350e+02]])

Transformando os dados em um dataframe:

In [0]:
df_wine = pd.DataFrame(wine.data, columns = wine.feature_names)

#Adicionando os labels ao dataframe:
df_wine['type'] = wine.target

Visualizando o dataframe após a transformação dos dados:

In [34]:
df_wine.head(5)

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,type
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


Definindo as variáveis dependentes/independentes:

In [0]:
X = df_wine.iloc[:, :13]
y = df_wine.iloc[:, -1]

Dividindo os daods em conjunto de treinamento/testes (70% treinamento / 30% testes):

In [0]:
X_train, X_test, y_train, y_test = train_test_split(wine.data, wine.target, test_size=0.3, random_state=42) 

### Etapa de Treinamento e Validação do Modelo

Criando um classificador Naive Bayes e treinando o modelo:

In [38]:
model = GaussianNB()
model.fit(X_train,y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

Predizendo as respostas para o conjunto de testes:

In [0]:
y_pred = model.predict(X_test)

Visualizando a acurácia do modelo:

In [40]:
print("Acurácia:", metrics.accuracy_score(y_test, y_pred))

Acurácia: 1.0
