# Disciplina Aprendizado de Máquina - Dra. Mariana

## Atividade Prática: Algoritmo k-Nearest Neighbors (kNN) - 17/03/25

### Objetivo da Atividade:
- Compreender o processo de classificação através do algoritmo kNN.
- Experimentar o uso do algoritmo kNN com diferentes valores de k, compreendendo o impacto deste hiperparâmetro na decisão do modelo.
- Analisar o efeito de aspectos como normalização de dados e dimensão do vetor de atributos sobre a saída do classificador kNN.


In [None]:
# Instalação das bibliotecas necessárias

!pip install pandas
!pip install numpy
!pip install matplotlib
!pip install seaborn
!pip install mlxtend

In [None]:
# Importação das bibliotecas necessárias

# manipulação e visualização de dados

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Biblioteca para criar o modelo de ML
from sklearn import preprocessing, model_selection, neighbors
from sklearn.preprocessing import StandardScaler

# Biblioteca para plotar o modelo
from mlxtend.plotting import plot_decision_regions

# QUESTÃO A - Dados  NÃO normalizados (Dados_Originais_2Features)

In [None]:
#CARREGAR OS DADOS

train_data = pd.read_csv('C:/Users/Carolina/Desktop/AtividadePraticaKNN/Dados_Originais_2Features/TrainingData_2F_Original.txt', sep='\t')
test_data = pd.read_csv('C:/Users/Carolina/Desktop/AtividadePraticaKNN/Dados_Originais_2Features/TestingData_2F_Original.txt', sep='\t')

print(train_data.columns)

In [None]:
# Separar características (X) e rótulos (y)
X_train = train_data[['total.sulfur.dioxide', 'citric.acid']]
y_train = train_data['class']
X_test = test_data[['total.sulfur.dioxide', 'citric.acid']]
y_test = test_data['class']

In [None]:
# Treinar com diferentes números de k

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Variando o valor de k
k_values = [1, 3, 5, 7]
for k in k_values:
    # Criar o modelo k-NN
    knn = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
    
    # Treinar o modelo
    knn.fit(X_train, y_train)
    
    # Fazer previsões
    y_pred = knn.predict(X_test)
    
    # Avaliar o modelo
    accuracy = accuracy_score(y_test, y_pred)
    print(f'Acurácia para k={k}: {accuracy}')

# QUESTÃO A - Dados Normalizados(Dados_Normalizados_2Features)

In [None]:
# CARREGAR OS DADOS

train_data2 = pd.read_csv('C:/Users/Carolina/Desktop/AtividadePraticaKNN/Dados_Normalizados_2Features/TrainingData_2F_Norm.txt', sep='\t')
test_data2 = pd.read_csv('C:/Users/Carolina/Desktop/AtividadePraticaKNN/Dados_Normalizados_2Features/TestingData_2F_Norm.txt', sep='\t')

# Verificar as primeiras linhas dos dados
print(train_data2.head())
print(test_data2.head())



In [None]:
# Separando as características (X) e rótulos (y)
X_train = train_data2.drop(columns=['class', 'ID'])  # 'class' é a coluna de rótulo e 'ID' é irrelevante para o modelo
y_train = train_data2['class']  # A coluna 'class' é o rótulo

X_test = test_data2.drop(columns=['class', 'ID'])  # 'class' é a coluna de rótulo e 'ID' é irrelevante para o modelo
y_test = test_data2['class']  # A coluna 'class' é o rótulo


In [136]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Definir os valores de k a serem testados
k_values = [1, 3, 5, 7, 9]

# Iterar sobre os valores de k
for k in k_values:
    # Criar o modelo k-NN com o valor atual de k
    knn = KNeighborsClassifier(n_neighbors=k, metric='euclidean')
    
    # Treinar o modelo com o conjunto de treinamento
    knn.fit(X_train, y_train)
    
    # Fazer previsões no conjunto de teste
    y_pred = knn.predict(X_test)
    
    # Calcular a acurácia do modelo
    accuracy = accuracy_score(y_test, y_pred)
    print(f'Acurácia para k={k}: {accuracy:.4f}')



Acurácia para k=1: 0.5000
Acurácia para k=3: 0.2500
Acurácia para k=5: 0.7500
Acurácia para k=7: 1.0000
Acurácia para k=9: 1.0000


# Comparação dos Modelos - Normalizados e Não Normalizados para K (1-7)

| Valor de k | Acurácia (Dados Não Normalizados) | Acurácia (Dados Normalizados) |
|------------|------------------------------------|-------------------------------|
| 1          | 0.75                               | 0.50                      |
| 3          | 0.50                               | 0.25                        |
| 5          | 0.25                               | 0.75                        |
| 7          | 0.25                               | 1.00                        |


 
A análise dos resultados revela que, para os dados não normalizados, o modelo apresentou um bom desempenho quando k=1, sugerindo que ele consegue se ajustar bem aos dados nesse cenário. No entanto, à medida que o valor de k aumenta para 3 e 5, a acurácia sofre uma queda significativa, indicando que o aumento de vizinhos impacta negativamente a capacidade do modelo de capturar padrões relevantes. Esse efeito se torna ainda mais evidente quando k=7, onde a acurácia diminui drasticamente, demonstrando que o modelo não consegue identificar corretamente as relações nos dados sem normalização para valores mais altos de k. Por outro lado, ao utilizar dados normalizados, o desempenho do modelo com k=1 é inferior em comparação ao cenário sem normalização, e a acurácia diminui ainda mais para k=3, sugerindo que a transformação pode ter causado perda de ajuste nos dados iniciais. Entretanto, conforme o valor de k aumenta para 5 e 7, a acurácia melhora consideravelmente, indicando que a normalização ajudou o modelo a se ajustar melhor a valores mais elevados de k. Essa variação sugere que, sem normalização, o modelo é muito sensível a k pequenos, levando a uma baixa capacidade de generalização, enquanto, com a normalização, a influência de k se torna mais consistente, favorecendo o uso de valores maiores para um melhor desempenho.

# QUESTÃO B

In [5]:
import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier


In [8]:
import pandas as pd

# Criar o DataFrame de treinamento (TrainingData_2F_Original)
training_data = pd.DataFrame({
    "ID": ["T1", "T2", "T3", "T4", "T5", "T6", "T7", "T8", "T9", "T10",
           "T11", "T12", "T13", "T14", "T15", "T16", "T17", "T18", "T19", "T20",
           "T21", "T22", "T23", "T24", "T25", "T26", "T27", "T28", "T29", "T30",
           "T31", "T32", "T33", "T34", "T35", "T36", "T37", "T38", "T39", "T40",
           "T41", "T42", "T43", "T44"],
    "total.sulfur.dioxide": [90, 110, 61, 77.5, 39, 18, 22, 18, 31, 71,
                              30, 60, 104, 43, 11, 34, 92, 9, 40, 37,
                              26, 52, 48, 63, 28, 34, 25, 12, 13, 25,
                              63, 43, 42, 51, 17, 78, 70, 54, 18, 21,
                              16, 61, 136, 40],
    "citric.acid": [0.38, 0.3, 0.41, 0, 0.35, 0.38, 0.6, 0.6, 0.26, 0.65,
                     0.02, 0.22, 0.32, 0.49, 0.02, 0.08, 0.2, 0.04, 0.15, 0.14,
                     0.4, 0.35, 0.39, 0, 0.24, 0.47, 0.01, 0.48, 0.49, 0.49,
                     0.25, 0.68, 0.05, 0.32, 0.42, 0.49, 0.23, 0.55, 0.23, 0.07,
                     0.45, 0.06, 0.28, 0.49],
    "class": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
              0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
              0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
              1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
              1, 1, 1, 1]
})

# Criar o DataFrame de teste (TestingData_2F_Original)
test_data = pd.DataFrame({
    "ID": ["N1", "N2", "N3", "N4"],
    "total.sulfur.dioxide": [26, 72, 13, 32],
    "citric.acid": [0, 0.3, 0.5, 0.68],
    "class": [0, 0, 1, 1]
})


In [9]:
X_train = training_data[["total.sulfur.dioxide", "citric.acid"]]
y_train = training_data["class"]

X_test = test_data[["total.sulfur.dioxide", "citric.acid"]]
y_test = test_data["class"]


In [10]:
from sklearn.neighbors import KNeighborsClassifier

# Criar e treinar o modelo KNN
knn = KNeighborsClassifier(n_neighbors=5, metric="euclidean")
knn.fit(X_train, y_train)


In [11]:
N1 = X_test.iloc[[0]]  # Garantir que mantém o formato de DataFrame

# Obter os k vizinhos mais próximos
distances, indices = knn.kneighbors(N1)

# Mapear os índices dos dados de treinamento
neighbor_ids = training_data.iloc[indices.flatten()]["ID"].values

# Exibir os resultados
print(f"IDs dos 5 vizinhos mais próximos de N1: {neighbor_ids}")
print(f"Distâncias dos vizinhos: {distances.flatten()}")


IDs dos 5 vizinhos mais próximos de N1: ['T21' 'T27' 'T30' 'T25' 'T11']
Distâncias dos vizinhos: [0.4        1.00005    1.11359777 2.01434853 4.00005   ]


In [12]:
for i in range(len(X_test)):
    instance = X_test.iloc[[i]]
    distances, indices = knn.kneighbors(instance)

    neighbor_ids = training_data.iloc[indices.flatten()]["ID"].values

    print(f"\nOs 5 vizinhos mais próximos de {test_data.iloc[i]['ID']} são:")
    for j in range(len(neighbor_ids)):
        print(f"ID: {neighbor_ids[j]}, Distância: {distances.flatten()[j]:.3f}")



Os 5 vizinhos mais próximos de N1 são:
ID: T21, Distância: 0.400
ID: T27, Distância: 1.000
ID: T30, Distância: 1.114
ID: T25, Distância: 2.014
ID: T11, Distância: 4.000

Os 5 vizinhos mais próximos de N2 são:
ID: T10, Distância: 1.059
ID: T37, Distância: 2.001
ID: T4, Distância: 5.508
ID: T36, Distância: 6.003
ID: T31, Distância: 9.000

Os 5 vizinhos mais próximos de N3 são:
ID: T29, Distância: 0.010
ID: T28, Distância: 1.000
ID: T15, Distância: 2.057
ID: T41, Distância: 3.000
ID: T35, Distância: 4.001

Os 5 vizinhos mais próximos de N4 são:
ID: T9, Distância: 1.085
ID: T26, Distância: 2.011
ID: T16, Distância: 2.088
ID: T11, Distância: 2.106
ID: T25, Distância: 4.024


# QUESTÃO C

In [32]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Carregar os dados de treino e teste para o dataset de 11 features
dados_11features_treino = pd.read_csv('C:/Users/Carolina/Desktop/AtividadePraticaKNN/Dados_Normalizados_11Features/TrainingData_11F_Norm.txt', sep='\t')
dados_11features_teste = pd.read_csv('C:/Users/Carolina/Desktop/AtividadePraticaKNN/Dados_Normalizados_11Features/TestingData_11F_Norm.txt', sep='\t')

# Remover a coluna 'ID' e separar variáveis independentes (X) e dependentes (y) para treino e teste
X_train_11 = dados_11features_treino.drop(['class', 'ID'], axis=1)  # Remover a coluna 'class' e 'ID'
y_train_11 = dados_11features_treino['class']  # Coluna 'class' como variável dependente

X_test_11 = dados_11features_teste.drop(['class', 'ID'], axis=1)  # Remover a coluna 'class' e 'ID' no conjunto de teste
y_test_11 = dados_11features_teste['class']  # Coluna 'class' como variável dependente no conjunto de teste

# Treinar o modelo KNN com k=5
knn_11 = KNeighborsClassifier(n_neighbors=5)
knn_11.fit(X_train_11, y_train_11)

# Aplicar o modelo no conjunto de teste
y_pred_11 = knn_11.predict(X_test_11)

# Avaliar a acurácia do modelo
accuracy_11 = accuracy_score(y_test_11, y_pred_11)
print(f'Acurácia do modelo com 11 features: {accuracy_11}')

# Identificar os K-vizinhos mais próximos da instância N4 no conjunto de teste
instancia_n4_11 = X_test_11.iloc[3]  # Supondo que N4 seja a 4ª instância
vizinhos_11 = knn_11.kneighbors([instancia_n4_11])
print(f'K-vizinhos mais próximos para a instância N4 (com 11 features): {vizinhos_11}')

# Alterar o valor do atributo 'citric.acid' para 0.3 e 0.85 na instância N4
instancia_n4_11_0_3 = instancia_n4_11.copy()
instancia_n4_11_0_3['citric.acid'] = 0.3

instancia_n4_11_0_85 = instancia_n4_11.copy()
instancia_n4_11_0_85['citric.acid'] = 0.85

# Criar DataFrames para as instâncias alteradas, incluindo os nomes das colunas corretamente
instancia_n4_11_0_3_df = pd.DataFrame([instancia_n4_11_0_3], columns=X_train_11.columns)
instancia_n4_11_0_85_df = pd.DataFrame([instancia_n4_11_0_85], columns=X_train_11.columns)

# Verificar novamente a predição 
pred_11_0_85 = knn_11.predict(instancia_n4_11_0_85_df)

print(f'Predição para a instância N4 com citric.acid=0.3: {pred_11_0_3}')
print(f'Predição para a instância N4 com citric.acid=0.85: {pred_11_0_85}')



Acurácia do modelo com 11 features: 0.75
K-vizinhos mais próximos para a instância N4 (com 11 features): (array([[1.92418424, 2.04533371, 2.04690547, 2.46220227, 2.49820516]]), array([[29,  0,  7,  6,  5]], dtype=int64))
Predição para a instância N4 com citric.acid=0.3: [0]
Predição para a instância N4 com citric.acid=0.85: [0]


