## Comparativo entre Técnicas de Classificação: Naive Bayes

### Pipeline de Classificação

Importando as packages e funções:

In [0]:
from sklearn.metrics import f1_score, recall_score, accuracy_score, precision_score
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder

Importando os dados. O dataset contém atributos de clima, temp, humidade, etc. Portanto, o objetivo é calcular a probabilidade de jogar de acordo com os diversos atributos como clima e tempo.

Mais informações a respeito do dataset: [Kaggle](https://www.kaggle.com/fredericobreno/play-tennis)

In [0]:
df = pd.read_csv('https://raw.githubusercontent.com/intelligentagents/aprendizagem-supervisionada/master/data/tennis.csv')


Visualizando e descrevendo  o dataset

In [3]:
# Exporando o dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 5 columns):
wheather    14 non-null object
temp        14 non-null object
humidity    14 non-null object
windy       14 non-null bool
play        14 non-null object
dtypes: bool(1), object(4)
memory usage: 590.0+ bytes


In [5]:
df.head(5)

Unnamed: 0,wheather,temp,humidity,windy,play
0,sunny,hot,high,False,no
1,sunny,hot,high,True,no
2,overcast,hot,high,False,yes
3,rainy,mild,high,False,yes
4,rainy,cool,normal,False,yes


Transformando as colunas categóricas em numericas:

In [0]:
# Criando o labelEncoder
le =  LabelEncoder()

for column in df.columns:
    df[column] = le.fit_transform(df[column])

Visualizando o dataset após as transformações:

In [8]:
df.head(5)

Unnamed: 0,wheather,temp,humidity,windy,play
0,2,1,0,0,0
1,2,1,0,1,0
2,0,1,0,0,1
3,1,2,0,0,1
4,1,0,1,0,1


Definindo as variáveis indepedentes e dependentes

In [0]:
X = df.iloc[:, :10].values
y = df.iloc[:, -1].values

Dividindo o dataset em conjunto de treinamento e testes

In [0]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)


Criando o dicionário contendo todos os classificadores:

In [0]:
estimators = {'Decision Tree': DecisionTreeClassifier(criterion = 'entropy', random_state = 0),
              'KNN': KNeighborsClassifier(n_neighbors = 5, metric = 'euclidean'),
              'SVC': SVC(kernel = 'rbf', random_state = 0),
              'Random Forest' : RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0) ,
              'Naive Bayes' : GaussianNB()}

Criando dataframe que irá guardar os resultados finais dos classificadores:

In [0]:
df_results = pd.DataFrame(columns=['classifier', 'accuracy', 'precision', 'recall', 'f1'], index=None)

Percorrendo o dicionário e treinando e avaliando os modelos:

In [13]:
# Percorrendo os classificadores
for name, estim in estimators.items():
    
    # print("Treinando Estimador {0}: ".format(name))
    
    # Treinando os classificadores com Conjunto de Treinamento
    estim.fit(X_train, y_train)
    
    # Prevendo os resultados do modelo criado com o conjunto de testes
    y_pred = estim.predict(X_test)
    
    
    # Armazenando as métricas de cada classificador em um dataframe
    df_results.loc[len(df_results), :] = [name, accuracy_score(y_test, y_pred), precision_score (y_test, y_pred, average = 'macro'),
                   recall_score(y_test, y_pred,  average = 'macro'), f1_score(y_test, y_pred,  average = 'macro')]


  'recall', 'true', average, warn_for)
  'recall', 'true', average, warn_for)
  'recall', 'true', average, warn_for)
  'recall', 'true', average, warn_for)


Exibindo os resultados finais:

In [0]:
df_results

Unnamed: 0,clf,acc,prec,rec,f1
0,Decision Tree,1.0,1.0,1.0,1.0
1,KNN,0.666667,0.5,0.333333,0.4
2,SVC,0.666667,0.5,0.333333,0.4
3,Random Forest,1.0,1.0,1.0,1.0
4,Naive Bayes,1.0,1.0,1.0,1.0
