# Nearest Neighbors Classification

Este trabalho se utiliza de uma implementação comercial do KNN, feita pela biblioteca SciKit-Learn, para classificar os sensores de detecção da bactéria E-Coli, desenvolvidos pelo grupo de pesquisa do Programa de Pós-Graduação em Física da UFMG, conforme sua etapa de fabricação, dado uma curva de tensão de entrada e suas respectivas medidas de tensão de saída.

## Importação das bibliotecas

In [0]:
import numpy as np
import pandas as pd
from sklearn import neighbors, metrics
from sklearn.model_selection import train_test_split

## Leitura do dataset

In [None]:
N_NEIGHBORS = 15

df = pd.read_csv('all_treated.csv', sep=';')

X = []
Y = []

for label in df['label'].unique():
    for sample in df['amostra'].unique():
        x = np.reshape(
            df.loc[
                (df['label'] == label) & (df['amostra'] == sample),
                ['v_gate', 'resist']
            ].values,
            -1
        )
        y = label

        if len(x) == 140:
            X.append(x)
            Y.append(y)

X = np.vstack(X)
Y = np.array(Y)

## Separação dos dados em conjuntos de treinamento e de teste

In [None]:
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2)

## Construção do classificador

In [0]:
clf = neighbors.KNeighborsClassifier(
    N_NEIGHBORS,
    weights='distance',
    algorithm='auto'
)

clf.fit(x_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=15, p=2,
                     weights='distance')

## Apuração das métricas

In [0]:
y_true, y_pred = y_test, clf.predict(x_test)
target_names = ['Limpo', 'Ácido', 'Molécula']
print(metrics.accuracy_score(y_true, y_pred))
print(metrics.classification_report(y_true, y_pred, target_names=target_names))

0.7471264367816092
              precision    recall  f1-score   support

       Limpo       0.94      0.98      0.96        59
       Ácido       0.68      0.62      0.65        61
    Molécula       0.61      0.63      0.62        54

    accuracy                           0.75       174
   macro avg       0.74      0.75      0.74       174
weighted avg       0.74      0.75      0.74       174

