## Carregando os Dados

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# Carregando dados de treinamento
train = pd.read_csv('./data/treino_5x5.csv')
y_train = train['classe'].values
X_train = train.drop('classe', axis=1).values

# Carregando dados de teste
test = pd.read_csv('./data/teste_5x5.csv')
y_test = test['classe'].values
X_test = test.drop('classe', axis=1).values

# Normalizando dados
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

## KNN

In [2]:
# Buscando melhores parametros

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

# Definindo parametros
param_grid = {
    'n_neighbors': [1, 3, 5, 7, 9, 11],
    'metric': ['euclidean', 'manhattan', 'minkowski'],
    'p': [1, 2, 3]
}

# Instanciando modelo
knn = KNeighborsClassifier()

# Instanciando GridSearch
grid = GridSearchCV(knn, param_grid, cv=5, scoring='accuracy', verbose=1, n_jobs=-1)

# Treinando modelo
grid.fit(X_train, y_train)

# Melhores parametros
print(f'Melhor Acurácia: {grid.best_score_}')
print(f'Melhor K: {grid.best_estimator_.n_neighbors}')
print(f'Melhor Distancia: {grid.best_estimator_.metric}')
print(f'Melhor P: {grid.best_estimator_.p}')


Fitting 5 folds for each of 54 candidates, totalling 270 fits
Melhor Acurácia: 0.958
Melhor K: 3
Melhor Distancia: euclidean
Melhor P: 1


In [3]:
# Testando com os dados de teste
from sklearn.metrics import accuracy_score

# Instanciando modelo
knn = KNeighborsClassifier(n_neighbors=grid.best_estimator_.n_neighbors, metric=grid.best_estimator_.metric, p=grid.best_estimator_.p)

# Treinando modelo
knn.fit(X_train, y_train)

# Prevendo dados de teste
y_pred = knn.predict(X_test)

# Acurácia
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')

Acurácia: 0.98


## Naive Bayes

In [4]:
# Buscando melhores parametros Naive Bayes

from sklearn.naive_bayes import GaussianNB

# Definindo parametros
param_grid = {
    'var_smoothing': [1e-9, 1e-8, 1e-7, 1e-6, 1e-5] # var_smoothing: É um parâmetro de suavização (float), padrão = 1e-9. Aumenta a robustez do modelo, evitando que as probabilidades sejam zero.
}

# Instanciando modelo
nb = GaussianNB()

# Instanciando GridSearch
grid = GridSearchCV(nb, param_grid, cv=5, scoring='accuracy', verbose=1, n_jobs=-1)

# Treinando modelo
grid.fit(X_train, y_train)

# Melhores parametros
print(f'Melhor Acurácia: {grid.best_score_}')
print(f'Melhor var_smoothing: {grid.best_estimator_.var_smoothing}')


Fitting 5 folds for each of 5 candidates, totalling 25 fits
Melhor Acurácia: 0.86
Melhor var_smoothing: 1e-05


In [5]:
# Testando com os dados de teste
from sklearn.metrics import accuracy_score

# Instanciando modelo
nb = GaussianNB(var_smoothing=grid.best_estimator_.var_smoothing)

# Treinando modelo
nb.fit(X_train, y_train)

# Prevendo dados de teste
y_pred = nb.predict(X_test)

# Acurácia
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')

Acurácia: 0.916
