# **<span style="font-family: 'Palatino Linotype', serif;">Não perca a classe!</span>**

*<span style="font-family: 'Angilla Tattoo'">Grandes sábios aqueles que adentram a Taverna do Sol, adoradora da grande estrela, fonte do grande patrono, Apolo.  \o/   <br> <br> Nossos algoritmos são oráculos, nossos dados são ossos ancestrais. <br> Sepulcro de Delfos </span>*

---

**Modelos 1 - classificador KNN**
==========================================================

**Autores:** Sepulcro de Delfos
* Ana Luz 
* Caio Ruas
* Caio Matheus
* Giovana Martins


## Introdução

Durante as aulas na disciplina de Aprendizado de Máquinas, aprendemos que KNN é um algoritmo regressor que utiliza a distância entre os pontos para classificar novos dados. Neste caderno, nosso objetivo é transformar o algoritmo regressor feito em sala para um algoritmo classificador, alterando também o sistema da métrica de distância de distância euclidiana para distância de manhattan.

## Código feito em sala de aula

A sessão a seguir apresenta o código feito em sala de aula, que será utilizado como base para a implementação do classificador KNN.

Ocorreu a preparação dos dados, sendo que utilizamos um datasetdo seaborn chamadado "penguins". Seguido da codificação do algorítimo regressor de KNN, finalizando com um teste com um novo penguin.

In [62]:
import numpy as np
import statistics as st
import seaborn as sns

NOME_DATASET = "penguins"
FEATURES = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]
TARGET = ["body_mass_g"]

df = sns.load_dataset(NOME_DATASET)
df = df.dropna()  # remove linhas com células vazia

X = df.reindex(FEATURES, axis=1)
y = df.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()  # o método `ravel` deixa os dados em 1 dimensão




In [63]:
def calcula_distancia(coordenada_1, coordenada_2):

    distancia = 0
    for c1, c2 in zip(coordenada_1, coordenada_2):
        distancia += (c1 - c2) ** 2
    distancia = distancia ** 0.5

    return distancia


def treinar_knn(modelo, X, y, num_vizinhos):

    modelo["atributos"] = X
    modelo["target"] = y
    modelo["num_vizinhos"] = num_vizinhos


def previsao_knn(modelo, X):
    
    distancias = []
    
    for pinguin in modelo["atributos"]:
        distancia_calculada = calcula_distancia(pinguin,X)
        distancias.append(distancia_calculada)
    
    indices = np.argsort(distancias)[:modelo["num_vizinhos"]]
    
    targets = modelo["target"][indices]
    
    y_previsto = st.mean(targets)
        
    
    return y_previsto


In [64]:
modelo = {}

treinar_knn(modelo, X, y, 3)

x_novo = [43, 20, 180]

y_previsto = previsao_knn(modelo, x_novo)

print(y_previsto)

3641.6666666666665


## Transformações

Para realizar as transformações mencionadas a cima, foram dividas as etapas nas seguintes alterações:

1. A função de distância euclidiana foi substituída pela função de distância de manhattan.
2. A função de predição foi alterada para retornar a classe mais frequente entre os vizinhos mais próximos, para transformar de um regressor para um classificador.

Primeiramente preparamos os dados, note que agora nosso target possui classes, não sendo mais númerico. Essa situação já prever que não poderemos realizar a média dos vizinhos mais póximos para fornecer uma previsão. Então como calassificar? A forma utilizada nesse algorítimo é analizar a frequeência que as classificações possíveis aparecem nos vizinhos mais próximos. Portanto, olhamos os n vizinhos mais próximos e qual classificação aparecer mais vezes será a classificação desse novo penguin.

In [55]:
NOME_DATASET = "penguins"
FEATURES = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]
TARGET = ["species"] #Repare que aqui trocamos por um target com classes

df = sns.load_dataset(NOME_DATASET)
df = df.dropna()  # remove linhas com células vazia

X = df.reindex(FEATURES, axis=1)
y = df.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()  # o método `ravel` deixa os dados em 1 dimensão
classes = df["species"].unique() #observamos as classes que o target possui
print(f"Classe que temos no target:{classes}")

Classe que temos no target:['Adelie' 'Chinstrap' 'Gentoo']


1. A função de distância euclidiana foi substituída pela função de distância de manhattan.

In [65]:
def calcula_distancia_manhattan(coordenada_1, coordenada_2):

    distancia = 0
    for c1, c2 in zip(coordenada_1, coordenada_2):
        distancia += abs(c1 - c2)
    return distancia



2. A função de predição foi alterada para retornar a classe mais frequente entre os vizinhos mais próximos.

In [66]:
from collections import Counter

def classificadoe_KNN(modelo, X):
    distancias = []
    
    for pinguin in modelo["atributos"]:
        distancia_calculada = calcula_distancia(pinguin,X)
        distancias.append(distancia_calculada)
    
    indices = np.argsort(distancias)[:modelo["num_vizinhos"]]
    
    targets = modelo["target"][indices]
    lista_targets= list(targets)

    #votação = lista_targets.count()
    #y_previsto = votação.idxmax() 

    contagem_votos = Counter(lista_targets)
    y_previsto = contagem_votos.most_common(1)[0][0]      
    
    return y_previsto

Teste para classificar espécie:

In [67]:
modelo = {}

treinar_knn(modelo, X, y, 3)

x_novo = [43, 20, 180]

y_classificado = classificadoe_KNN(modelo, x_novo)

print(f"O pinguin {x_novo} foi classificado como pertecente a espécie {y_classificado}")

O pinguin [43, 20, 180] foi classificado como pertecente a espécie 3550.0


## Discussão
Percebemos que a lógica por traz do algorítimo KNN não se trata de um modelo rígido, mas uma análise dos dados mais próximos para tentar prever informações sobre o novo dado. Então, não precisamos ficar restritos a targets numéricos, conseguimos abordar dados categóricos, buscando métodos como frequência, ou seja a moda, para fornecer uma previsão. Além disso, é importante perceber que o cálculo da distância também tem suas flexibilidade, em que trocamos o cálculo de distância que fornecia o menor valor possível entre dois pontos (distância euclidiana), para uma fórmula que fornece a distância percorrendo por "grid de ruas", o que faz com que ela não sofra muitas variações já em seus cáculos não apresenta o quadrado das difernças, observe a baixo:

Distância Euclidiana

A distância euclidiana entre dois pontos é dada pela fórmula:

$$
d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$$

Distância de Manhattan

A distância de Manhattan entre os mesmos pontos é calculada como:

$$
d = |x_2 - x_1| + |y_2 - y_1|
$$

Resumo das Diferenças

| Característica         | Distância Euclidiana                      | Distância de Manhattan               |
|-----------------------|-------------------------------------------|--------------------------------------|
| **Interpretação**     | Distância direta entre dois pontos       | Distância seguindo uma grade de ruas |
| **Sensibilidade**     | Sensível a grandes variações (elevado ao quadrado) | Menos sensível a grandes variações   |

## Conclusão
Concluimos que algorítimos possuem lógicas que não precisam ser restritas a um único modelo, mas pode atender a diferentes propostas, como no caso analisado em que uma mesma lógica KNN foi usado para uma regressão e para uma classificação. Também temos modos diferntes de pensar em distâncias que oferecem diferentes sencibilidades, as quais vamos sentir necessidade dependendo dos dados e objetivos propostos.

## Referências

**O que é a distância de Manhattan?**. Disponível em:https://www.datacamp.com/pt/tutorial/manhattan-distance

ASSAR, Daniel. **Aprendizado de Máquina: k-NN e Métricas**. [2024]. Material didático.

**O que é e como funciona o algoritmo KNN?**. Disponível em: https://didatica.tech/o-que-e-e-como-funciona-o-algoritmo-knn/

**collections — Tipos de dados de contêineres**.Disponível em: https://docs.python.org/pt-br/3/library/collections.html#collections.Counter

