# Exercícios

### 1- Utilize a função `k-Vizinhos mais próximos` e implemente as seguintes etapas:

#### - Dado o conjunto de dados `Iris.csv`, faça uma função que recebe como parâmetros: (i) conjunto de dados, (ii) porcentagem de registros que serão usados para compor o conjunto de teste.
#### - Essa função deve retornar três elementos, (i) conjunto de treinamento com rótulo, (ii) conjunto de teste sem rótulo e (iii) rótulos dos elementos do conjunto de teste.
#### - Os elementos que irão compor o conjunto de teste devem ser selecionados aleatoriamente e não devem permanecer no conjunto de treino (Fazer a checagem).
#### - Utilize essa função de geração de conjuntos de dados e o método *k-Vizinhos mais próximos*, gere os conjuntos (treino e tete) considerando 20% dos registros para o conjunto de teste, faça a classificação do conjunto de teste e verifique quantas classificações corretas foram realizadas.


In [65]:
import numpy as np
import pandas as pd
# import cupy as np

def separar_conjunto(dataset: np.ndarray, porc: float = 0.7) -> tuple[np.ndarray, np.ndarray, list]:
    total = len(dataset)
    if porc <= 0:
        porc = 0.7 # 70% como padrão
    quant_testes = int(total * porc)

    # random.permutation faz permutação aleatoria de indices até
    indices = np.random.permutation(total)

    testes_index = indices[:quant_testes]
    treino_index = indices[quant_testes:]

    # numpy fancy indexing -> https://www.programiz.com/python-programming/numpy/fancy-indexing
    treino = dataset[treino_index]
    teste = dataset[testes_index]
    teste_sem_rotulo = teste[:, :-1]
    rotulos_teste = teste[:, -1]

    return treino, teste_sem_rotulo, rotulos_teste

def knn(dataset_base: np.ndarray, dataset_classificar: np.ndarray, k: int = 1) -> list:
    if k > len(dataset_base):
        k = len(dataset_base)

    classificados = []
    for registro in dataset_classificar:
        # https://numpy.org/devdocs/reference/generated/numpy.linalg.norm.html
        dists = np.linalg.norm(dataset_base[:, :-1].astype(float) - registro.astype(float), axis = 1)
        # https://numpy.org/devdocs/reference/generated/numpy.linalg.norm.html
        indices = np.argsort(dists)[:k]
        rotulos = dataset_base[indices, -1]
        valores, cont = np.unique(rotulos, return_counts=True)
        max_cont = np.max(cont)
        possiveis_rotulos = valores[cont == max_cont]

        rotulado = None
        if len(possiveis_rotulos) == 1:
            rotulado = possiveis_rotulos[0]
        else:
            for i in indices:
                if dataset_base[i, -1] in possiveis_rotulos:
                    rotulado = dataset_base[i, -1]
                    break
        classificados.append(rotulado)

    return classificados

In [182]:
dataset = pd.read_csv('Iris.csv')
treino, teste, rotulos = separar_conjunto(dataset.to_numpy(), 0.2)

classificados = knn(treino, teste, k=3)
erro = 0
for p, r in zip(classificados, rotulos):
    if p != r:
        erro += 1
total = len(teste)
acertos = total-erro
razao = acertos/total
print(f'{int(razao*100)}% de acerto.\n{len(treino)} de registros para treino. \n{total} de registros utilizados para testes. \n{erro} erros.')


100% de acerto.
120 de registros para treino. 
30 de registros utilizados para testes. 
0 erros.


### 2- Implemente um código que realize 10 iterações do código anterior, sempre gerando os conjuntos dentro de cada iteração.

In [215]:
dataset = pd.read_csv('Iris.csv')
print(f'Tamanho do dataset: {len(dataset)}\n')
for i in range(10):
    treino, teste, rotulos = separar_conjunto(dataset.to_numpy(), 0.2)
    classificados = knn(treino, teste, k=3)

    erro = sum([p != r for p, r in zip(classificados, rotulos)])
    total = len(teste)
    acertos = total - erro
    razao = acertos / total

    print(f'Iteração {i+1}: {int(razao * 100)}% de acerto. {len(treino)} registos para treino. {total} de teste. {erro} erros.')


Tamanho do dataset: 150

Iteração 1: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 2: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 3: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 4: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 5: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 6: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 7: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 8: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 9: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
Iteração 10: 100% de acerto. 120 registos para treino. 30 de teste. 0 erros.
