In [204]:
#@author: joaojosefilho
#@dataset: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

#Importações Usadas

import csv
import random
import math
import operator 
import pandas as pd
import numpy as np

In [205]:
# função que carregará o csv e o dividirá aleatoriamente em conjuntos de dados de 
# treinamento e teste usando a taxa de divisão fornecida(split)

def handleDataset(filename, split, trainingSet=[] , testSet=[]):
	#Abre o arquivo apenas para leitura
    with open(filename, 'r') as csvfile:
        #Letura das linhas do arquivo
	    lines = csv.reader(csvfile)        
	    #Pega as linhas e as converte em listas
	    dataset = list(lines)
        #Quantidade de Linhas
	    for x in range(len(dataset)-1):
            #Quantidade de colunas
	        for y in range(4):
                #Conversão de String para float	            
	            dataset[x][y] = float(dataset[x][y])
            #Divide os dados aleatoriamente entre o trainingSet e testSet
            #random.random(): Gera um número aleatório entre 0.00000000000000000 e 1.00000000000000000	        
	        if random.random() < split:            
                #Adiciona a linha do arquivo lido em forma de lista dentro do trainingSet
	            trainingSet.append(dataset[x])
	        else:
                #Adiciona a linha do arquivo lido em forma de lista dentro do testSet
	            testSet.append(dataset[x])

In [206]:
#Cálculo da distância euclidiana
#Formula: Raiz quadrada do Somatório  de (instance1[i] - instance2[i])² onde o somatório vai de i=1 até n

def euclideanDistance(instance1, instance2, length):
	distance = 0
	for x in range(length):
        #Distance é igual a primeira instância menos a segunda instancia elevado ao quadrado
		distance += pow((instance1[x] - instance2[x]), 2)
    #Retorna a raiz quatrada da distância 
	return math.sqrt(distance)

In [207]:
# Calcular a distância em toda a instância e selecione o subconjunto que tem a menor distância euclidiana.
# getNeighbors retorna os k'esimos vizinhos mais semelhantes do conjunto de treinamento para uma determinada instância de teste

def getNeighbors(trainingSet, testInstance, k):
	distances = []
    #Tamanho da testInstance
	length = len(testInstance)-1
	for x in range(len(trainingSet)):
        #Clacula a Distância Euclidiana
		dist = euclideanDistance(testInstance, trainingSet[x], length)
        #Lista com a instância do conjunto de treino e sua distância da instância dada
		distances.append((trainingSet[x], dist))
    #Ordena as distâncias do menor para o maior
	distances.sort(key=operator.itemgetter(1))
	neighbors = []
	for x in range(k):
        #Pega os k vizinhos mais próximos
		neighbors.append(distances[x][0])
	return neighbors

In [208]:
# Retorna a classe mais frequente entre as instâncias

def getResponse(neighbors):
	classVotes = {}
	for x in range(len(neighbors)):
        #Pega a classe das instâncias
		response = neighbors[x][-1]
        #Contabiliza o número de vezes que a classe das instâncias aparece 
		if response in classVotes:
            #Se a classe já estiver em classVotes, Conta mais um
			classVotes[response] += 1
		else:
            #Se a classe não estiver em classVotes, Começe a contar
			classVotes[response] = 1
    #Ordena do maior para o menor, os intens do dicionário classVotes
	sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True)
    #Vai retornar a classe que apareceu com maior frequência
	return sortedVotes[0][0]

In [209]:
#Soma o total de previsões corretas e retorna a precisão como uma porcentagem das classificações corretas.

def getAccuracy(testset, predict):
    correct = 0
    for i in range(len(testset)):
        if predict[i] == testset[i][-1]:
            correct += 1
    return (correct/len(testset))*100

In [215]:
def main():
    #prepare data 
    trainingSet=[] 
    testSet=[] 
    split = 0.67 
    handleDataset('database/iris.data', split, trainingSet, testSet) 
    print ('Conjunto de Treino: ' + repr(len(trainingSet)))
    print ('Conjunto de Teste: ' + repr(len(testSet)))
    # generate predictions 
    predictions=[] 
    k = 3 
    for x in range(len(testSet)): 
        neighbors = getNeighbors(trainingSet, testSet[x], k) 
        result = getResponse(neighbors) 
        predictions.append(result) 
        print(str(x+1) + ': Previsto=' + repr(result) + ', Atual=' + repr(testSet[x][-1]))
    accuracy = getAccuracy(testSet, predictions)
    print('Accuracy: ' + repr(accuracy) + '%')

main()

Conjunto de Treino: 101
Conjunto de Teste: 49
1: Previsto='Iris-setosa', Atual='Iris-setosa'
2: Previsto='Iris-setosa', Atual='Iris-setosa'
3: Previsto='Iris-setosa', Atual='Iris-setosa'
4: Previsto='Iris-setosa', Atual='Iris-setosa'
5: Previsto='Iris-setosa', Atual='Iris-setosa'
6: Previsto='Iris-setosa', Atual='Iris-setosa'
7: Previsto='Iris-setosa', Atual='Iris-setosa'
8: Previsto='Iris-setosa', Atual='Iris-setosa'
9: Previsto='Iris-setosa', Atual='Iris-setosa'
10: Previsto='Iris-setosa', Atual='Iris-setosa'
11: Previsto='Iris-setosa', Atual='Iris-setosa'
12: Previsto='Iris-setosa', Atual='Iris-setosa'
13: Previsto='Iris-setosa', Atual='Iris-setosa'
14: Previsto='Iris-setosa', Atual='Iris-setosa'
15: Previsto='Iris-setosa', Atual='Iris-setosa'
16: Previsto='Iris-setosa', Atual='Iris-setosa'
17: Previsto='Iris-setosa', Atual='Iris-setosa'
18: Previsto='Iris-versicolor', Atual='Iris-versicolor'
19: Previsto='Iris-versicolor', Atual='Iris-versicolor'
20: Previsto='Iris-versicolor', Atu