k-vizinhos mais próximos
========================



## Modelos preditivos



Quando criamos modelos preditivos, nosso objetivo é prever um (ou mais) target(s) usando um modelo que recebe um (ou mais) atributo(s). Um desafio neste caso é encontrar um modelo preditivo que seja capaz de prever *razoavelmente bem* o target desejado dados os atributos. &ldquo;Razoavelmente bem&rdquo; será quantificado no futuro através de métricas.

Quando o target a ser previsto é um target categórico, dizemos que o problema é um problema de *classificação*.

Quando o target a ser previsto é um target numérico, dizemos que o problema é um problema de *regressão*.

Existem diversas maneiras de se obter modelos preditivos. Aqui utilizaremos de estratégias de aprendizado de máquina. Algoritmos de aprendizado de máquina são capazes de induzir modelos preditivos observando conjuntos de dados contendo atributos e target.



## O algoritmo $k$​-vizinhos mais próximos



O algoritmo $k$​-vizinhos mais próximos ($k$​-NN) é um algoritmo de aprendizado de máquina baseado na hipótese que dados similares ocupam regiões próximas no espaço de entrada (isto é, no espaço dos atributos). Este algoritmo pode ser utilizado tanto para regressão quanto para classificação.

O princípio de funcionamento deste algoritmo será discutido em aula, mas de maneira resumida, quando um modelo treinado por este algoritmo é usado para realizar a previsão de um certo exemplo $x$, ele checa a distância deste exemplo $x$ com todos os exemplos usados para treinar o modelo. Os $k$ exemplos mais próximos de $x$ são usados para calcular a previsão do exemplo $x$.

Para uma fundamentação teórica, leia as páginas 53 a 58 da referência [1]. Pode ser interessante também ler o capítulo 12 da referência [2] assistir aos vídeos das referências [3, 4].



## Implementando um regressor $k$​-NN



Como parte da disciplina, vamos implementar um regressor $k$-NN em Python para entender o funcionamento de um algoritmo de aprendizado de máquina do começo ao fim. Para isso, usaremos o conjunto de dados de pinguins disponível no `seaborn`. Como atributos, vamos utilizar as medidas do bico e da nadadeira dos pinguins e como target vamos utilizar o peso dos pinguins.



In [22]:
import seaborn as sns

DATASET_NAME = "penguins"
FEATURES = ["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]
TARGET = ["body_mass_g"]

df = sns.load_dataset(DATASET_NAME)

df = df.reindex(FEATURES + TARGET, axis=1)
df = df.dropna()

X = df.reindex(FEATURES, axis=1)
y = df.reindex(TARGET, axis=1)

X = X.values
y = y.values.ravel()

In [34]:
X

array([[ 39.1,  18.7, 181. ],
       [ 39.5,  17.4, 186. ],
       [ 40.3,  18. , 195. ],
       ...,
       [ 50.4,  15.7, 222. ],
       [ 45.2,  14.8, 212. ],
       [ 49.9,  16.1, 213. ]])

In [38]:
import numpy as np 
np.sum((X - [40, 20, 180])**2, axis=1).shape

(342,)

Faremos juntos a implementação na sala de aula. Você pode conferir uma implementação gravada em vídeo na referência [5].



In [39]:
# funções

def treinar_knn(modelo, x, y):
    """Treina um modelo de k-vizinhos mais próximos
    
    Args:
      modelo:
        Dicionário com as informações do modelo.
      x:
        Atributos
      y:
        Targets
    """
    modelo["x"] = x
    modelo["y"] = y
    

def calcular_distancias(a, b):
    """Calcula a distância Euclidiana entre a e b
    
    Args:
      a: 
        um dado qualquer representado por um array de numpy
      b:
        um dado qualquer
    
    Returns:
      A distancia entre os pontos de a e b.    
    """
    
    diferenca = a - b
    diff_quadrado = diferenca**2
    soma = np.sum(diff_quadrado, axis=1)
    dist = soma ** (1/2)
    
    return dist
    
    
def previsao_knn(modelo, x):
    """Usa um modelo treinado para prever um valor dado um conjunto de atributos
    
    Args:
      modelo:
        Dicionário com as informações do modelo
      x:
        Atributos do exemplo a ser previsto
        
    Returns:
      A previsão do modelo para o exemplo x.
    """
    distancias = calcular_distancias(modelo["x"], x)
    indices_ordenados = np.argsort(distancias)
    k_primeiros_indices = indices_ordenados[:modelo["num_vizinhos"]]
    targets_vizinhos = modelo["y"][k_primeiros_indices]
    previsao = np.mean(targets_vizinhos)
    return previsao

In [40]:
# script

modelo = {"num_vizinhos": 3}
treinar_knn(modelo, X, y)
y_previsto = previsao_knn(modelo, [43, 20, 180])
print(y_previsto)

3641.6666666666665


## Referências



1.  FACELI, Katti; LORENA, AC; GAMA, João; et al. Inteligência Artificial: uma abordagem de Aprendizado de Máquina. 2. ed., 2021.

2.  GRUS, Joel. Data Science from Scratch: First Principles with Python. 2. ed. Sebastopol, CA: O’Reilly Media, 2019.

3.  [https://www.youtube.com/watch?v=HVXime0nQeI](https://www.youtube.com/watch?v=HVXime0nQeI)

4.  [https://www.youtube.com/watch?v=4Dpf76AB9Js](https://www.youtube.com/watch?v=4Dpf76AB9Js)

5.  [https://www.youtube.com/watch?v=rTEtEy5o3X0](https://www.youtube.com/watch?v=rTEtEy5o3X0)

