# Machine Learning
### Modelos 2

Nesta tarefa, faremos o algoritmo knn classificador sem usar o sklearn. Para isso, usaremos o dataset padrão do seaborn de pinguins.

Primeiro, importemos o dataset.

In [74]:
import seaborn as sns

df = sns.load_dataset('penguins')
df = df.dropna()
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
...,...,...,...,...,...,...,...
338,Gentoo,Biscoe,47.2,13.7,214.0,4925.0,Female
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


Primeiro definimos os atributos a serem analisados e o alvo. A partir do comprimento do bico, profundidade, tamanho da asa e massa, preveremos a espécie.

In [75]:
FEATURES = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm", "body_mass_g"]
TARGET = ["species"]

X = df.reindex(FEATURES, axis=1)
y = df.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()  # o método `ravel` deixa os dados em 1 dimensão

Calculamos a distância Manhattan

In [76]:
def calcula_distancia(coordenada_1, coordenada_2):
    """Calcula distância Manhattan entre duas coordenadas."""

    soma = 0

    for c1, c2 in zip(coordenada_1, coordenada_2):
        soma += (c1 - c2)

    return soma

Define os vizinhos

In [77]:
def cria_instancia_knn(num_vizinhos):
    """Cria uma instância de um modelo k-NN."""

    modelo = {
        "num_vizinhos": num_vizinhos,
    }

    return modelo

In [78]:
def treinar_knn(modelo, X_treino, y_treino):
    """Treina um modelo k-NN."""

    assert len(X_treino) == len(y_treino), "Os dados devem ter o mesmo tamanho"

    modelo["X_treino"] = X_treino
    modelo["y_treino"] = y_treino

Prevê o alvo como o atributo alvo mais repetido (moda).

In [79]:
import statistics as st


def previsao_knn(modelo, X_previsao):
    """Realiza a previsão de um modelo k-NN."""

    X_treino = modelo["X_treino"]
    y_treino = modelo["y_treino"]
    num_vizinhos = modelo["num_vizinhos"]

    distancias = [calcula_distancia(X_previsao, x) for x in X_treino]
    indices_ordenados = sorted(range(len(distancias)), key=lambda i: distancias[i])
    indices_mais_proximos = indices_ordenados[:num_vizinhos]
    targets_mais_proximos = [y_treino[i] for i in indices_mais_proximos]
    y_previsto = st.mode(targets_mais_proximos)

    return y_previsto

In [80]:
modelo = cria_instancia_knn(3)

treinar_knn(modelo, X, y)

Testando o modelo:

In [83]:
x_novo = [43, 20, 180, 5000]
y_previsto = previsao_knn(modelo, x_novo)
y_previsto

'Gentoo'

Então o modelo está funcionando, vamos testar se ele consegue prever corretamente um pinguim já existente

In [82]:
x_novo = [39.1, 18.7, 181, 3750]
y_previsto = previsao_knn(modelo, x_novo)
y_previsto

'Gentoo'

In [84]:
x_novo = [39.3, 20.6, 190, 3650]
y_previsto = previsao_knn(modelo, x_novo)
y_previsto

'Gentoo'

Ele não previu corretamente, eram pra ser um Adelie. Portanto, o algoritmo classificador knn usando distância manhattan não apresenta um desempenho excelente, porém é uma alternativa válida.

### Conclusão
Logo, é possível fazer com facilidade um algoritmo knn classificador com distância manhattan. Porém, ele não se mostrou como uma alternativa de excelente desempenho.

### Referências

Cassar, Daniel. LMA-203 1.0 - Tratamento de dados com pandas. Acesso em: 24 ago. 2025.

Cassar, Daniel. LMA-203 2.0 - Aprendizado de máquina. Acesso em: 24 ago. 2025.

Cassar, Daniel. LMA-203 2.1 - Divisão de dados de treino e teste. Acesso em: 24 ago. 2025.