In [1]:
#bibliotecas utilizadas
import csv
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# Database
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split


### Parte 1 - Dataset

Ao iniciar qualquer experimento com Inteligência Artificial, o primeiro passo, e um dos mais importantes, é compreender o problema interpretando a base de dados escolhida. Dessa forma, nesta parte deve-se:
* Carregar o dataset
* Analisar os atributos
* Identificar possíveis problemas com a base para preprocessá-la (e.g. identificar duplicadas, outliers, instâncias com atributos incompletos, normalizar e centralizar dados)

In [2]:
iris = load_iris()
print(iris.data.shape)
print(iris.target.shape)
print(iris.feature_names)
print(iris.target_names)

df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['class'] = iris.target
df['class'] = df['class'].map({0:iris.target_names[0], 1:iris.target_names[1], 2:iris.target_names[2]})
df.head()

(150, 4)
(150,)
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### Parte 2 - Preprocessamento

### Parte 3 - Distâncias

Em métodos baseados em distância, um dos passos do algoritmo é calcular a distância entre dois pontos, para isso esse Notebook utiliza três tipos de distância comumente utilizadas:
* Distância Euclidiana: $$d(x,y) = \sqrt{\sum_{l=1}^d(x_l-y_l)^2}$$ 
* Distância Manhattan: $$d(x,y) = \sum_{l=1}^d|x_l-y_l|$$ 
* Distância Minkowski: $$d(x,y) = \sqrt[p]{\sum_{l=0}^{d-l}(|x_l-y_l|)^p}$$ 


In [3]:
def distance(distanceMethod,x,y,p=2):
    if distanceMethod == 'euclidean':
        return np.sqrt(np.sum((x - y) ** 2,axis=1))
    elif distanceMethod=='manhattan':
        return np.sum(np.abs(x-y),axis=1)
    elif distanceMethod=='minkowski':
        return np.sum(np.abs(x-y)**p,axis=1)**1/p

### Parte 3 - K-NN



In [4]:
def knn(X,Y,y_train,k=3):
    y_pred=[]
    for i in range(Y.shape[0]):
        d = distance('euclidean', X, Y[i,:])
        d_sort = np.argsort(d)
        y_n = y_train[d_sort[:k]]
        y_n.dtype
        y_pred.append(np.argmax(np.bincount(y_n)))
    return y_pred

### Parte 4 - Evaluate

In [5]:
X_train, X_test, y_train, y_test = train_test_split(df.iloc[:,0:4].values, df["class"].map({iris.target_names[0]:0, iris.target_names[1]:1, iris.target_names[2]:2}).values, test_size=0.33, random_state=42)

In [6]:
y_pred = knn(X_train,X_test, y_train)

In [7]:
accuracy_score(y_test, y_pred)

0.97999999999999998

In [8]:
confusion_matrix(y_test, y_pred)

array([[19,  0,  0],
       [ 0, 15,  0],
       [ 0,  1, 15]])