In [242]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

In [243]:
iris = datasets.load_iris()



In [244]:
m, n = iris.data.shape
print('Numero de observações:', m)
print('Numero de variaveis:', n)

Numero de observações: 150
Numero de variaveis: 4


In [245]:
# organizando os dados para analise descritva
irisdf = pd.DataFrame(iris.data)
irisdf.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']
specie = pd.DataFrame(iris.target  )
specie = specie.rename(columns = {0: 'species'})
irisdf = pd.concat([irisdf, specie], axis = 1)

#specie = specie["species"].replace({ 0:"setosa", 1:"virginica", 2:"virginica"})

In [246]:
# Grupos de espécies:
specie.groupby("species").size()

species
0    50
1    50
2    50
dtype: int64

In [247]:
# Descritva básica
irisdf.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


In [248]:
# Particao em (treinamento,teste) com aproximadamente 50% em cada grupo
np.random.seed(881)
indices = np.random.permutation(m)
metade = int(m/2)


In [249]:
# Indicando os indices dos dados para treinamento e teste
indices_treinamento = indices[:metade] # de 0 ate (metade-1)
indices_teste = indices[metade:] # de (metade) ate (m-1)


In [250]:

# Separando Dados de treinamento:
Dados_Tre = iris.data[indices_treinamento]
Classe_Tre = iris.target[indices_treinamento]

In [251]:
# Separando Dados de teste:
Dados_Tes = iris.data[indices_teste]
Classe_Tes = iris.target[indices_teste]

In [252]:
print('\nExemplos de treinamento:\n', indices_treinamento)
print('\nExemplos de teste:\n', indices_teste)


Exemplos de treinamento:
 [ 43 144  14  81 112  41  84 100  17  33  32  47 128 143   3  90 149  75
  71   8  63 115  82 129  34  85  56  42  58  35   0  61   6  80  65 134
  38  16  48 131 111  52  69 119 104  21  67 113 141 136 139 108   7  36
  60  20  74  66  26 102 107  29  54  11 116 148  27  18  15  30  39 124
   5  59  76]

Exemplos de teste:
 [109  83  96  24  73 132  19  70 137 142  88  77 127  46   1 146   9  50
  37  51  40  87 140  95  25  97 117  93  94  68 105 135 114  31  55  62
 122  53 106 103  89 145  10  45  99 147  13  92 123  23  28 138 118  57
 101  72  78 133  49  91  98 126  12 120 130 110  22  44 125   4   2  86
 121  79  64]


In [253]:
# Construcao e parametrizacao do classificador knn sem pesos
knn = KNeighborsClassifier(n_neighbors=5)

In [254]:
# Fase de treinamento
knn.fit(Dados_Tre, Classe_Tre)

KNeighborsClassifier()

In [255]:
# Classificacao dos exemplos de teste
previsao = knn.predict(Dados_Tes)

#------------------------------------------------------------------------------
# Verificar erros
print('------------------------------------------------')
print('Relatorio de erros:')
erros = 0
for i in range(len(Classe_Tes)):
    if previsao[i] != Classe_Tes[i]:
        erros += 1
        print('\t t={0},  c={1}'.format(previsao[i], Classe_Tes[i]))

print('\t Numero de erros:', erros)

print('------------------------------------------------')
print('Confusion Matrix:')
print(confusion_matrix(Classe_Tes, previsao)) # predição . verdadeiro

print('------------------------------------------------')
print('Acuracia (percentual de acertos):')
print(accuracy_score(Classe_Tes, previsao))

------------------------------------------------
Relatorio de erros:
	 t=2,  c=1
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 Numero de erros: 7
------------------------------------------------
Confusion Matrix:
[[20  0  0]
 [ 0 27  1]
 [ 0  6 21]]
------------------------------------------------
Acuracia (percentual de acertos):
0.9066666666666666


In [256]:
# construindo knn com pesos
knn_d = KNeighborsClassifier(n_neighbors=5, weights='distance')

In [257]:
# treinando o algoritmo
knn_d.fit(Dados_Tre, Classe_Tre)

KNeighborsClassifier(weights='distance')

In [258]:
# Classificacao dos exemplos de teste
previsao_ = knn_d.predict(Dados_Tes)
# Verificar erros
print('------------------------------------------------')
print('Relatorio de erros:')
erros = 0
for i in range(len(Classe_Tes)):
    if previsao_[i] != Classe_Tes[i]:
        erros += 1
        print('\t t={0},  c={1}'.format(previsao_[i], Classe_Tes[i]))

print('\t Numero de erros:', erros)

print('------------------------------------------------')
print('Confusion Matrix:')
print(confusion_matrix(Classe_Tes, previsao_)) # predição . verdadeiro

print('------------------------------------------------')
print('Acuracia (percentual de acertos):')
print(accuracy_score(Classe_Tes, previsao_))

------------------------------------------------
Relatorio de erros:
	 t=2,  c=1
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 t=1,  c=2
	 Numero de erros: 6
------------------------------------------------
Confusion Matrix:
[[20  0  0]
 [ 0 27  1]
 [ 0  5 22]]
------------------------------------------------
Acuracia (percentual de acertos):
0.92
