# KNN com aleatoriedade do registros teste-treino

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

- Abaixo, a implementação da função que define os registros

In [113]:
import random

def gera_teste_treino(conjunto, porcentagem: float):
    if porcentagem > 1: return
    teste = pd.DataFrame()
    tamanho = len(conjunto)

    for n in range(int(len(conjunto) * porcentagem)):
        selecionado = random.randint(0, tamanho - 1)
        teste = pd.concat([teste, conjunto.iloc[selecionado]])
        conjunto.drop(index=selecionado)
        tamanho -= 1

    teste.reset_index()
    conjunto.reset_index()
    
    rotulos = 0
    # teste.drop(columns="Species")
    
    return conjunto, teste, rotulos

- Abaixo, a implementação do algoritmo KNN.

In [65]:
def dist(a, b) -> float:
    if len(a) != len(b): return
    return sum([(x - y) ** 2 for x, y in zip(a,b)]) ** (1/2)


def knn(treino, teste, k: int):
    treino_tratado = treino.drop(columns=["Species"])

    classes = pd.Series()
    for registro in range(len(teste)):
        distancias = [dist(teste.iloc[registro].tolist(), a) for a in treino]
        distancias = pd.DataFrame(distancias, columns=["Values"])
        k_vizinhos = distancias.sort_values(by=["Values"], ascending=False).head(k)

        counter = {classe : 0 for classe in treino["Species"].unique().tolist()}
        for index in k_vizinhos.index:
            counter[treino.iloc[index]["Species"]] += 1

        maior_registro = max(counter.values())
        repetidos = [classe for classe in counter if counter[classe] == maior_registro]

        if len(repetidos) == 1:
            classes = pd.concat([classes, pd.Series([repetidos[0]])])
        else:
            for index in k_vizinhos.index:
                if counter[treino.iloc[index]["Species"]] == maior_registro:
                    classes = pd.concat([classes, treino.iloc[index]["Species"]])
                    break

    classes.reset_index()
    return classes

- Abaixo, uma função que retorna a quantidade de erros dado um conjunto teste e sua classificacao original.

In [26]:
def conta_erros(teste, classes) -> int:
    return len(teste.compare(classes))

- Abaixo, os resultados, para 10 testes com 20% de porcentagem do conjunto de treino para testes.
- Aqui, testo k de 1 até $\sqrt{len(conjunto)}$, para as 10 iterações, gerando uma lista de erros para cada.

In [114]:
conjunto = pd.read_csv("Iris.csv")

treino, teste, rotulos = gera_teste_treino(conjunto, 0.2)

teste

Unnamed: 0,79,88,67,9,93,95,0,38,121,7,...,53,66,24,46,94,25,60,34,91,73
Id,80,,,,,,,,,,...,,,,,,,,,,
SepalLengthCm,5.7,,,,,,,,,,...,,,,,,,,,,
SepalWidthCm,2.6,,,,,,,,,,...,,,,,,,,,,
PetalLengthCm,3.5,,,,,,,,,,...,,,,,,,,,,
PetalWidthCm,1.0,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
SepalLengthCm,,,,,,,,,,,...,,,,,,,,,,
SepalWidthCm,,,,,,,,,,,...,,,,,,,,,,
PetalLengthCm,,,,,,,,,,,...,,,,,,,,,,
PetalWidthCm,,,,,,,,,,,...,,,,,,,,,,


In [78]:
"""
conjunto = pd.read_csv("Iris.csv")
erros_total = []

for n in range(10):
    erro = []
    treino, teste, rotulos = gera_teste_treino(conjunto, 0.2)
    
    for k in range(1, int((len(conjunto)) ** (1/2) + 1)):
        
        novos_rotulos = knn(treino, teste, k)
        print(teste)
        erro.append(conta_erros(rotulos, novos_rotulos))
        
        
    erros_total.append(erro)
"""

'\nconjunto = pd.read_csv("Iris.csv")\nerros_total = []\n\nfor n in range(10):\n    erro = []\n    treino, teste, rotulos = gera_teste_treino(conjunto, 0.2)\n    \n    for k in range(1, int((len(conjunto)) ** (1/2) + 1)):\n        \n        novos_rotulos = knn(treino, teste, k)\n        print(teste)\n        erro.append(conta_erros(rotulos, novos_rotulos))\n        \n        \n    erros_total.append(erro)\n'