# KNN

O $k$-Nearest Neighbors (KNN) é um algoritmo de aprendizado de máquina supervisionado que pode ser usado tanto para classificação quanto para regressão. No entanto, é mais usado em problemas de classificação.

O KNN opera no princípio de encontrar os "vizinhos" mais próximos no conjunto de treinamento de um novo exemplo de teste e predizer a saída com base nesses vizinhos. Ele armazena todos os casos disponíveis e classifica os novos casos com base em uma medida de similaridade (por exemplo, função de distância).

O $k$ no KNN algoritmo é o número de vizinhos mais próximos que consideramos ao classificar um novo exemplo de teste. Por exemplo, se $k=3$, o algoritmo KNN escolheria os 3 vizinhos mais próximos no conjunto de dados de treinamento e faria uma previsão para o exemplo de teste baseado nessas 3 observações.

**EXEMPLO**

Certamente, aqui está a informação na forma de uma tabela:

| ID | Idade | Sexo | Horas de Estudo Semanal | Assistência (%) | Atividades Extracurriculares | Média Final |
|----|-------|------|-------------------------|-----------------|-----------------------------|-------------|
| 1  | 15    | M    | 5                       | 90              | N                           | 70          |
| 2  | 16    | F    | 8                       | 95              | S                           | 85          |
| 3  | 15    | F    | 4                       | 80              | N                           | 68          |
| 4  | 16    | M    | 10                      | 98              | S                           | 92          |
| 5  | 17    | F    | 9                       | 90              | N                           | 88          |
| 6  | 15    | M    | 4                       | 85              | N                           | 72          |
| 7  | 16    | F    | 7                       | 80              | S                           | 78          |
| 8  | 17    | M    | 8                       | 92              | S                           | 90          |
| 9  | 16    | F    | 7                       | 88              | N                           | 83          |
| 10 | 15    | M    | 5                       | 85              | S                           | 76          |
| 11 | 16    | F    | 6                       | 80              | S                           | 79          |
| 12 | 17    | M    | 9                       | 95              | S                           | 92          |
| 13 | 16    | F    | 8                       | 85              | N                           | 87          |
| 14 | 15    | M    | 4                       | 78              | N                           | 70          |
| 15 | 16    | F    | 7                       | 85              | S                           | 81          |
| 16 | 17    | M    | 10                      | 98              | S                           | 94          |
| 17 | 16    | F    | 6                       | 82              | N                           | 80          |
| 18 | 15    | M    | 4                       | 80              | S                           | 73          |
| 19 | 16    | F    | 7                       | 87              | S                           | 84          |
| 20 | 17    | M    | 9                       | 92              | N                           | 91          |

## Considerações

Algumas coisas a considerar antes de usar o KNN.

1. **Velocidade de computação e exigência de recursos**: Como o KNN é um algoritmo baseado em instância, ele mantém todo o conjunto de treinamento de dados na memória. Isso pode ser problemático para grandes conjuntos de dados, já que requer uma quantidade significativa de espaço de armazenamento. Além disso, cada novo exemplo de teste requer uma comparação de distância com todos os exemplos de treinamento, o que pode ser computacionalmente caro para grandes conjuntos de dados.

2. **Sensibilidade a ruídos e outliers**: O KNN é altamente sensível a ruídos e outliers no conjunto de dados. Isso ocorre porque um objeto pode ser classificado de forma diferente devido à presença de exemplos de treinamento ruidosos ou outliers próximos.

3. **Normalização dos dados**: O KNN usa medidas de distância para identificar os vizinhos mais próximos. Diferentes escalas de atributos podem resultar em distorções nas medidas de distância, portanto, é necessário normalizar os dados antes de usar o algoritmo KNN. Por exemplo, se um atributo varia de 0 a 1 e outro varia de 0 a 1000, o último terá um peso maior na determinação da distância.

4. **Determinação do valor de $k$**: O número de vizinhos a serem considerados, $k$, é um hiperparâmetro que deve ser escolhido cuidadosamente. Um valor muito pequeno de $k$ significa que o ruído nos dados terá um impacto maior no resultado e um valor muito grande tornará o algoritmo sensível a pontos de dados que estão muito distantes.

5. **Dados faltantes**: O KNN não lida bem com dados faltantes. A falta de um valor em um atributo para um dado ponto pode causar problemas de cálculo de distância.

6. **Interpretabilidade**: Embora o KNN possa ser eficaz para fazer previsões, ele não fornece um modelo explícito da relação entre características, o que torna difícil interpretar as razões por trás de uma determinada previsão.

## O Algoritmo na Prática

**Bibliotecas**

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import pandas as pd

**Ingestão**

In [9]:
data = {
    'Idade': [15, 16, 15, 16, 17, 15, 16, 17, 16, 15, 16, 17, 16, 15, 16, 17, 16, 15, 16, 17],
    'Sexo': ['M', 'F', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M', 'F', 'M'],
    'Horas de Estudo Semanal': [5, 8, 4, 10, 9, 4, 7, 8, 7, 5, 6, 9, 8, 4, 7, 10, 6, 4, 7, 9],
    'Assistência': [90, 95, 80, 98, 90, 85, 80, 92, 88, 85, 80, 95, 85, 78, 85, 98, 82, 80, 87, 92],
    'Atividades Extracurriculares': ['N', 'S', 'N', 'S', 'N', 'N', 'S', 'S', 'N', 'S', 'S', 'S', 'N', 'N', 'S', 'S', 'N', 'S', 'S', 'N'],
    'Média Final': [70, 85, 68, 92, 88, 72, 78, 90, 83, 76, 79, 92, 87, 70, 81, 94, 80, 73, 84, 91]
}
df = pd.DataFrame(data)

**Preparação**

In [10]:
# Transformação das variáveis categóricas em numéricas
le = LabelEncoder()
df['Sexo'] = le.fit_transform(df['Sexo']) # M=1, F=0
df['Atividades Extracurriculares'] = le.fit_transform(df['Atividades Extracurriculares']) # S=1, N=0

# Separação dos dados em recursos (X) e rótulo de classificação (y)
X = df[['Idade', 'Sexo', 'Horas de Estudo Semanal', 'Assistência', 'Atividades Extracurriculares']]
y = df['Média Final']

# Divisão dos dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

**Treinamento**

In [11]:
# Criação do modelo KNN e treinamento
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=3)

**Testes**

In [12]:
# Previsão e avaliação do modelo
y_pred = knn.predict(X_test)
print(f'Acurácia: {accuracy_score(y_test, y_pred)}')

Acurácia: 0.0
