# K Nearest Neighbours aplicado à base IRIS

Como solicitado na especificação do trabalho, a base de dados foi dividida em três partes: A, B e C - cada uma com a mesma proporção.

Inicialmente, devemos carregar o dataset previamente divido:

In [3]:
import pandas as pd

A = pd.read_csv('../Iris/df_A.csv', header=None)
B = pd.read_csv('../Iris/df_B.csv', header=None)
C = pd.read_csv('../Iris/df_C.csv', header=None)

# Set the first row as the header
A.columns = A.iloc[0]
B.columns = B.iloc[0]
C.columns = C.iloc[0]

# Drop the first row now that the headers are set
A = A.drop(A.index[0])
B = B.drop(B.index[0])
C = C.drop(C.index[0])

# Reset the index if needed
A.reset_index(drop=True, inplace=True)
B.reset_index(drop=True, inplace=True)
C.reset_index(drop=True, inplace=True)

Com a base divida de acordo com a especificação, podemos iniciar os experimentos.

In [4]:
import pandas as pd

metrics_df = pd.DataFrame(columns=["treinamento", "acurácia", "sensitividade", "especificidade", "precision"])

## Experimento 1
### Treinamento A+B com teste C


In [6]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import precision_score, accuracy_score, confusion_matrix, recall_score

train = pd.concat([A, B])
test = pd.concat([C])

feature_columns = ['sepal_length', 'sepal_width', 'petal_length','petal_width']


x_train = train[feature_columns].values
y_train = train['species'].values

x_test = test[feature_columns].values
y_test = test['species'].values

# Será que é necessário normalizar?
classifier = KNeighborsClassifier(n_neighbors=3)
classifier.fit(x_train, y_train)

y_pred = classifier.predict(x_test)

cm = confusion_matrix(y_test, y_pred)
specificity_per_class = []
for j in range(len(cm)):
    tn = cm[0, 0] + cm[1, 1] - cm[j, j]
    fp = cm[j, :].sum() - cm[j, j]
    specificity_j = (tn / (tn + fp))
    specificity_per_class.append(specificity_j)

accuracy = accuracy_score(y_test, y_pred)*100
sensitivity = recall_score(y_test, y_pred, average='macro')
precision = precision_score(y_test, y_pred, average='macro')

metrics_df.loc[len(metrics_df)] = {
    "treinamento": "A+B e teste C",
    "acurácia": accuracy,
    "sensitividade": sensitivity,
    "especificidade": specificity_per_class,
    "precision": precision
}

metrics_df

Unnamed: 0,treinamento,acurácia,sensitividade,especificidade,precision
0,A+B e teste C,97.959184,0.979167,"[1.0, 0.9444444444444444, 1.0]",0.980392
