**Modelos 01**
=========================

## Não perca a classe!

**Grahcyanne's:** Geovana Bettero e Samira Oliveira

---

**Objetivo:** Um algoritmo regressor k-NN foi implementado na sala de aula (ou será implementado, dependendo de quando você ler esta mensagem). Sua tarefa é criar um classificador k-NN. Teste seu classificador para prever a espécie de pinguim do dataset de pinguins.

**Comentários adicionais:** Observe que a tarefa é criar um classificador, não é usar um pronto. É possível resolver este problema sem a necessidade de conversão simbólico-numérica do target! Neste caso, ao invés de tirar a média dos valores para computar a previsão, você deverá ver qual é o rótulo mais frequente. Em caso de empate, crie uma regra simples para desempatar (algo como "sempre escolher o primeiro ordenado alfabeticamente"). Ler o material referenciado no notebook em caso de dúvida.

---

## Qual é a espécie?

Para descobrir, iremos implementar um algorito k-NN no dataset "penguins", disponível na biblioteca `seaborn`.

In [2]:
import seaborn as sns

df = sns.load_dataset("penguins")
df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


Os atributos esolhidos para a previsão foram:

- Island (Ilha)
- flipper_length_mm (Comprimento da nadadeira em milímetros)
- body_mass_g (Massa corporal em gramas)

Contudo, os dados contidos no atributo "Island" contém rótulos. Portanto, para utilizá-lo, realizamos a conversão simbólico-numérica com o codificador one-hot:

In [4]:
from sklearn.preprocessing import OneHotEncoder
import pandas as pd

x = df["island"].values.reshape(-1, 1)

encoder = OneHotEncoder(sparse=False)

encoder.fit(x)

colunas = encoder.categories_

dados_convertidos = encoder.transform(x)

colunas_extras = pd.DataFrame(dados_convertidos, columns=encoder.get_feature_names_out(["island"]))

df_completo = pd.concat([df, colunas_extras], axis=1)

df_completo

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,island_Biscoe,island_Dream,island_Torgersen
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male,0.0,0.0,1.0
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female,0.0,0.0,1.0
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female,0.0,0.0,1.0
3,Adelie,Torgersen,,,,,,0.0,0.0,1.0
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female,0.0,0.0,1.0
...,...,...,...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,,1.0,0.0,0.0
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female,1.0,0.0,0.0
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male,1.0,0.0,0.0
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female,1.0,0.0,0.0


In [5]:
FEATURES = ["island_Biscoe", "island_Dream", "island_Torgersen", "flipper_length_mm", "body_mass_g"]
TARGET = ["species"]

df_completo = df_completo.reindex(FEATURES + TARGET, axis=1)
df_completo = df_completo.dropna()

X = df_completo.reindex(FEATURES, axis=1)
y = df_completo.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()

In [6]:
import numpy as np
import statistics as st

def treinar_knn(modelo, x, y):
    modelo["x"] = x
    modelo["y"] = y
    
    
def calcular_distancias(a, b):
    diferenca = a - b
    diff_quadrado = diferenca**2
    soma = np.sum(diff_quadrado, axis=1)
    dist = soma ** (1/2)
    return dist


def previsao_knn(modelo, x):
    distancias = calcular_distancias(modelo["x"], x)
    indices_ordenados = np.argsort(distancias)
    k_primeiros_indices = indices_ordenados[:modelo["num_vizinhos"]]
    targets_vizinhos = modelo["y"][k_primeiros_indices]
    previsao = st.mode(targets_vizinhos)
    return previsao

In [7]:
modelo = {"num_vizinhos": 4}
treinar_knn(modelo, X, y)
y_previsto = previsao_knn(modelo, [0.0, 0.0, 1.0, 238.0, 4250.0])
print(y_previsto)

Adelie


A função `previsao_knn` recebe como argumento um dicionário contendo a informação de quantos vizinhos queremos usar na previsão, e uma lista contendo 5 valores, sendo que os 3 primeiros definem qual a ilha escolhemos (de acordo com a legenda abaixo), o quarto item é o comprimento da nadadeira em milímetros e o quinto a massa corporal em gramas.

**Legenda:**

- **Ilha Biscoe:** 1.0, 0.0, 0.0
- **Ilha Dream:** 0.0, 1.0, 0.0
- **Ilha Torgersen:** 0.0, 0.0, 1.0

No exemplo acima, escolhemos um pinguim aleatório da ilha Torgersen, com 238.0 mm de nadadeira e 4250.0 gramas de massa, e o algoritmo previu ser da espécie "Adelie". Mas o quão acertivo é esse algoritmo? Podemos confiar nele? Vamos descobrir!

### Calculando a eficiência

Para isso, fazemos as previsões com todos os pinguins do dataframe, e verificamos se a previsão condiz com o resultado real:

In [8]:
acertos = []

for i in range(len(X)):
    y_previsto = previsao_knn(modelo, X[i])
    
    if y_previsto == y[i]:
        acertos.append(1)
        
eficiencia = 100 * len(acertos)/len(X)

print(eficiencia)

90.35087719298245


A eficiência do algoritmo é de 90%!

Outro ponto interessante de se analisar é a influência da quantidade de vizinhos na eficiência. Para isso, vamos testar a eficiência considerando 1, 5 e 10 vizinhos:

In [9]:
modelo = {"num_vizinhos": 1}
treinar_knn(modelo, X, y)
acertos_1 = []

for i in range(len(X)):
    y_previsto = previsao_knn(modelo, X[i])
    if y_previsto == y[i]:
        acertos_1.append(1)
        
eficiencia_1 = 100 * len(acertos_1)/len(X)



modelo = {"num_vizinhos": 5}
treinar_knn(modelo, X, y)
acertos_5 = []

for i in range(len(X)):
    y_previsto = previsao_knn(modelo, X[i])
    if y_previsto == y[i]:
        acertos_5.append(1)
        
eficiencia_5 = 100 * len(acertos_5)/len(X)



modelo = {"num_vizinhos": 10}
treinar_knn(modelo, X, y)
acertos_10 = []

for i in range(len(X)):
    y_previsto = previsao_knn(modelo, X[i])
    if y_previsto == y[i]:
        acertos_10.append(1)
        
eficiencia_10 = 100 * len(acertos_10)/len(X)

print(f"Com 1 vizinho o algoritmo possui {eficiencia_1} % de eficiência.")
print(f"Com 5 vizinhos o algoritmo possui {eficiencia_5} % de eficiência.")
print(f"Com 10 vizinhos o algoritmo possui {eficiencia_10} % de eficiência.")

Com 1 vizinho o algoritmo possui 99.41520467836257 % de eficiência.
Com 5 vizinhos o algoritmo possui 82.45614035087719 % de eficiência.
Com 10 vizinhos o algoritmo possui 80.99415204678363 % de eficiência.


Dessa forma, percebe-se que ao escolher uma quantidade menor de vizinhos, a acertividade é maior.

## Referências

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

https://pandas.pydata.org/docs/reference/api/pandas.concat.html

https://chat.openai.com/: Para buscar uma forma de conectar os dataframes.