# Modelos 01
### Sistema Não-Binário
#### Karla Pascoalini e Cauê Santos

## Proponente: 

Cavaleiro Luminoso (dono da Taverna do Sol. A Taverna do Sol só abre enquanto o sol está no céu e apenas em dias que não estejam nublados. Antes de tomar qualquer bebida, é necessário levantar os braços lentamente (desta forma: \o/) em direção ao sol; se não fizer isso você é banido da Taverna para sempre)

## Objetivo: 

Um algoritmo regressor k-NN foi implementado na sala de aula (ou será implementado, dependendo de quando você ler esta mensagem). Sua tarefa é criar um classificador k-NN. Teste seu classificador para prever a espécie de pinguim do dataset de pinguins.

### Comentários adicionais: 

Observe que a tarefa é criar um classificador, não é usar um pronto. É possível resolver este problema sem a necessidade de conversão simbólico-numérica do target! Neste caso, ao invés de tirar a média dos valores para computar a previsão, você deverá ver qual é o rótulo mais frequente. Em caso de empate, crie uma regra simples para desempatar (algo como "sempre escolher o primeiro ordenado alfabeticamente"). Ler o material referenciado no notebook em caso de dúvida.

In [2]:
import seaborn as sns
import numpy as np
import statistics as st

DATASET_NAME = "penguins"
FEATURES = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]
TARGET = ["species"]

df = sns.load_dataset(DATASET_NAME)

df = df.reindex(FEATURES + TARGET, axis=1)
df = df.dropna()

X = df.reindex(FEATURES, axis=1)
y = df.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()

In [6]:
def treinar_knn(modelo, X, y):
    """Treina um modelo de k-vizinhos mais próximos
    
    Args:
      modelo:
        Dicionário com as informações do modelo.
      x:
        Atributos
      y:
        Targets
    """
    modelo["x"] = X
    modelo["y"] = y
    

def calcular_distancias(a, b):
    """Calcula a distância Euclidiana entre a e b
    
    Args:
      a: 
        um dado qualquer representado por um array de numpy
      b:
        um dado qualquer
    
    Returns:
      A distancia entre os pontos de a e b.    
    """
    
    diferenca = a - b
    diff_quadrado = diferenca**2
    soma = np.sum(diff_quadrado, axis=1)
    dist = soma ** (1/2)
    
    return dist
    
    
def previsao_knn(modelo, X):
    """Usa um modelo treinado para prever um valor dado um conjunto de atributos
    
    Args:
      modelo:
        Dicionário com as informações do modelo
      x:
        Atributos do exemplo a ser previsto
        
    Returns:
      A previsão do modelo para o exemplo x.
    """
    distancias = calcular_distancias(modelo["x"], X) #Calcula a distancia entre todos os elementos e o ponto
    indices_ordenados = np.argsort(distancias) # Ordena os items
    k_primeiros_indices = indices_ordenados[:modelo["num_vizinhos"]] # Pega os K primeiros índices/mais próximos, veja que k = modelo["num_vizinhos"]
    targets_vizinhos = modelo["y"][k_primeiros_indices] # Obtém os valores de destino usando os índices + próximos
    targets_vizinhos.sort()
    previsao = st.mode(targets_vizinhos) #Acha a moda desses valores de destino pro exemplo X
    return previsao

modelo = {"num_vizinhos": 100}
treinar_knn(modelo, X, y)
y_previsto1 = previsao_knn(modelo, [50, 10, 250])
y_previsto2 = previsao_knn(modelo, [20, 40, 200])
y_previsto3 = previsao_knn(modelo, [51, 17, 190])
print(f'Com o comprimento e profudindade do bico iguais a 5 e 20, e o tamanho da nadadeira como 250, temos que o penguin é da espécie {y_previsto1}')
print()
print(f'Com o comprimento e profundidade do bico iguais a 100 e 25, e o tamanho da nadadeira como 10, temos que o penguin é da espécie {y_previsto2}')
print()
print(f'Com o comprimento e profundidade do bico iguais a 51 e 17, e o tamanho da nadadeira como 190, temos que o penguin é da espécie {y_previsto3}')

Com o comprimento e profudindade do bico iguais a 5 e 20, e o tamanho da nadadeira como 250, temos que o penguin é da espécie Gentoo

Com o comprimento e profundidade do bico iguais a 100 e 25, e o tamanho da nadadeira como 10, temos que o penguin é da espécie Adelie

Com o comprimento e profundidade do bico iguais a 51 e 17, e o tamanho da nadadeira como 190, temos que o penguin é da espécie Chinstrap


O algoritmo usado foi um k-Nearest Neighbors de classificação (Para dados categóricos), pois era necessário encontrar as espécies utilizando os dados numéricos dos membros dos penguins.
O Dataset inicialmente foi treinado, com 100 vizinhos próximos, utilizando os 3 atributos numéricos e o target nominal, depois, foi colocado no algoritmo de previsão da espécie usando o padrão do dataset todo.
Inicialmente calcularam-se as distâncias entre todos os elementos e o ponto em observação, ordena os índices das distancias, seleciona os k índices mais próximos e obtém seus valores.
Então eles foram organizados usando o .sort() para comparar os mais próximos, a previsão então considera a moda dos targets vizinhos mais próximos.
Nas variáveis "y_previstox", identificamos 3 números, definidos pelos comprimentos dos membros do penguin, com eles números, o algoritmo compara com o dataset treinado e prevê o target.