Treine modelos usando o algoritmo KNN para o conjunto de dados
Dados_Originais_2Features (não normalizados), variando o valor de k entre 1, 3, 5, 7. Para cada modelo treinado,
avalie seu desempenho nos dados de teste, reportando a acurácia. Repita o
mesmo procedimento com os dados Dados_Normalizados_2Features.
Compare as acurácias obtidas nos modelos treinados a partir destes dois
conjuntos de dados, analisando se a normalização impactou de alguma forma os resultados. 

Observe se a mudança no valor de k causou algum impacto no desempenho destes modelos (com e sem normalização dos dados) e, em caso positivo, se as variações no desempenho são as mesmas entre os modelos treinados com mesmo k, mas com dados distintos (dados originais e dados normalizados).

In [43]:
import pandas as pd
from sklearn.neighbors import KNeighborsClassifier


In [44]:
# Load training data
training_data = pd.read_csv(("DO2F/TrainingData.txt"), sep='\t')
training_data_normalized = pd.read_csv(("DN2F/TrainingData.txt"), sep='\t')

# Load test data
test_data = pd.read_csv("DO2F/TestingData.txt", sep='\t')
test_data_normalized = pd.read_csv("DN2F/TestingData.txt", sep='\t')

In [54]:
# Prepare training data
X_train_original = training_data[['total.sulfur.dioxide', 'citric.acid']]
X_train_normalized = training_data_normalized[['total.sulfur.dioxide', 'citric.acid']]

y_train = training_data['class']

# Prepare test data
X_test_original = test_data[['total.sulfur.dioxide', 'citric.acid']]
X_test_normalized = test_data_normalized[['total.sulfur.dioxide', 'citric.acid']]

y_test = test_data['class']

In [None]:
k_values = [1, 3, 5, 7]
results = []

# Original data
for k in k_values:
    # Training
    knn_original = KNeighborsClassifier(n_neighbors=k)
    knn_original.fit(X_train_original, y_train)
    
    # Predict and calculate accuracy
    y_pred_original = knn_original.predict(X_test_original)
    accuracy_original = (y_pred_original == y_test).mean()
    
    results.append({'k': k, 'type': 'Original', 'accuracy': accuracy_original})

# Normalized data
for k in k_values:
    # Training
    knn_normalized = KNeighborsClassifier(n_neighbors=k)
    knn_normalized.fit(X_train_normalized, y_train)
    
    # Predict and calculate accuracy
    y_pred_normalized = knn_normalized.predict(X_test_normalized)
    accuracy_normalized = (y_pred_normalized == y_test).mean()
    
    results.append({'k': k, 'type': 'Normalized', 'accuracy': accuracy_normalized})

# Results
results_df = pd.DataFrame(results)
print("\nComparação das Acurácias:")
print("="*30)
comparison = results_df.pivot(index='k', columns='type', values='accuracy')
print(comparison)


Comparação das Acurácias:
type  Normalized  Original
k                         
1           0.50      0.75
3           0.25      0.50
5           0.75      0.25
7           1.00      0.25


------------------

Considerando o modelo treinado com k=5 utilizando dados não normalizados e com 2 atributos, verifique quem são os k vizinhos mais próximos da instância de teste N1 (liste os respectivos IDs). 

Verifique como estes vizinhos estão dispostos no espaço de entrada em relação à instância de teste N1 e aos eixos x e y. Após tirar suas conclusões, analise se as mesmas se aplicam às instâncias de teste N2, N3 e N4.

In [47]:
# Original data
k = 5
i = 0

knn_original = KNeighborsClassifier(n_neighbors=k)
knn_original.fit(X_train_original, y_train)
distances_all, indices_all = knn_original.kneighbors(X_test_original)

print(f"Índices dos {k} vizinhos mais próximos:", indices_all[i] + 1)
print(f"Distâncias dos {k} vizinhos mais próximos:", distances_all[i])

Índices dos 5 vizinhos mais próximos: [21 27 30 25 11]
Distâncias dos 5 vizinhos mais próximos: [0.4        1.00005    1.11359777 2.01434853 4.00005   ]


In [48]:
# Normalized data
k = 5
i = 0

knn_normalized = KNeighborsClassifier(n_neighbors=k)
knn_normalized.fit(X_train_normalized, y_train)
distances_all, indices_all = knn_normalized.kneighbors(X_test_normalized)

print(f"Índices dos {k} vizinhos mais próximos:", indices_all[i] + 1)
print(f"Distâncias dos {k} vizinhos mais próximos:", distances_all[i])

Índices dos 5 vizinhos mais próximos: [27 11 40 15 16]
Distâncias dos 5 vizinhos mais próximos: [0.017      0.04244997 0.11049434 0.12151132 0.13376472]


-----------------------------------------------------------------------------

Treine dois modelos usando o algoritmo KNN com k=5 para os datasets Dados_Normalizados_2Features e Dados_Normalizados_11Features.

In [49]:
# Prepare training data for 2 features (already loaded)
X_train_2f = training_data_normalized[['total.sulfur.dioxide', 'citric.acid']]
y_train_2f = training_data_normalized['class']

# Load 11-feature normalized data
training_data_11f = pd.read_csv("DN11F/TrainingData.txt", sep='\t')
test_data_11f = pd.read_csv("DN11F/TestingData.txt", sep='\t')

# Prepare training data for 11 features
feature_columns_11f = [col for col in training_data_11f.columns if (col != 'ID') and (col != 'class')]   
X_train_11f = training_data_11f[feature_columns_11f]
y_train_11f = training_data_11f['class']

# Training
knn_2f = KNeighborsClassifier(n_neighbors=5)
knn_2f.fit(X_train_2f, y_train_2f)

knn_11f = KNeighborsClassifier(n_neighbors=5)
knn_11f.fit(X_train_11f, y_train_11f)

Aplique os modelos treinados nos respectivos dados de teste, verificando os k-vizinhos mais próximos e a classe predita para a instância N4.

In [50]:
# Prepare test data for both models
X_test_2f = test_data_normalized[['total.sulfur.dioxide', 'citric.acid']]
X_test_11f = test_data_11f[feature_columns_11f]

N4_index = 3

print("ANÁLISE DA INSTÂNCIA N4:")
print("="*40)

# Predict with 2-feature model
distances_2f, indices_2f = knn_2f.kneighbors(X_test_2f)
prediction_2f = knn_2f.predict(X_test_2f)

print(f"Modelo com 2 atributos:")
print(f"Índices dos 5 vizinhos mais próximos de N4: {indices_2f[N4_index] + 1}")
print(f"Distâncias dos vizinhos: {distances_2f[N4_index]}")
print(f"Classe predita para N4: {prediction_2f[N4_index]}\n")

# Predict with 11-feature model
distances_11f, indices_11f = knn_11f.kneighbors(X_test_11f)
prediction_11f = knn_11f.predict(X_test_11f)

print(f"Modelo com 11 atributos:")
print(f"Índices dos 5 vizinhos mais próximos de N4: {indices_11f[N4_index] + 1}")
print(f"Distâncias dos vizinhos: {distances_11f[N4_index]}")
print(f"Classe predita para N4: {prediction_11f[N4_index]}\n")

print(f"Classe real de N4: {test_data_11f.loc[N4_index, 'class']}")

ANÁLISE DA INSTÂNCIA N4:
Modelo com 2 atributos:
Índices dos 5 vizinhos mais próximos de N4: [32  7  8 38 30]
Distâncias dos vizinhos: [0.087      0.14200352 0.16131956 0.25770138 0.28436948]
Classe predita para N4: 1

Modelo com 11 atributos:
Índices dos 5 vizinhos mais próximos de N4: [30  1  8  7  6]
Distâncias dos vizinhos: [1.92418424 2.04533371 2.04690547 2.46220227 2.49820516]
Classe predita para N4: 0

Classe real de N4: 1


 Faça perturbações no valor do atributo “citric acid” para a instância N4, substituindo o valor original (1.0) por 0.3 e posteriormente por 0.85 (ou seja, gere duas novas instâncias sintéticas com esta alteração). Repita a classificação destas instâncias sintéticas com os dois modelos (isto é, modelo baseado em 2 atributos e em 11 atributos).

 Compare os resultados, analisando como a alteração de um atributo impactou o cálculo das distâncias euclidianas e a seleção dos k-vizinhos mais próximos em cada caso.

In [51]:
citric_acid_index = 1

# Create synthetic instances with perturbed citric acid values
perturbations = [0.3, 0.85]

print("ANÁLISE DA INSTÂNCIA N4 (COM PERTURBAÇÕES):")
print("="*40)

for perturb_value in perturbations:
    print(f"Perturbação: citric acid = {perturb_value}")
    N4_perturbed_2f = X_test_2f.iloc[N4_index].copy()
    N4_perturbed_2f[citric_acid_index] = perturb_value

    # Create perturbed instance for 11-feature model
    N4_perturbed_11f = X_test_11f.iloc[N4_index].copy()
    N4_perturbed_11f['citric.acid'] = perturb_value

    # Predict with 2-feature model
    # reshape to 2D array, since N4_perturbed_2f is a Series (1D array)
    N4_perturbed_2f_array = N4_perturbed_2f.to_numpy().reshape(1, -1)
    distances_2f, indices_2f = knn_2f.kneighbors(N4_perturbed_2f_array)
    prediction_2f = knn_2f.predict(N4_perturbed_2f_array)

    print(f"Modelo com 2 atributos:")
    print(f"Índices dos 5 vizinhos mais próximos de N4: {indices_2f[0] + 1}")
    print(f"Distâncias dos vizinhos: {distances_2f[0]}")
    print(f"Classe predita para N4: {prediction_2f[0]}\n")

    # Predict with 11-feature model (reshape to 2D array)
    N4_perturbed_11f_array = N4_perturbed_11f.to_numpy().reshape(1, -1)
    distances_11f, indices_11f = knn_11f.kneighbors(N4_perturbed_11f_array)
    prediction_11f = knn_11f.predict(N4_perturbed_11f_array)

    print(f"Modelo com 11 atributos:")
    print(f"Índices dos 5 vizinhos mais próximos de N4: {indices_11f[0] + 1}")
    print(f"Distâncias dos vizinhos: {distances_11f[0]}")
    print(f"Classe predita para N4: {prediction_11f[0]}\n")

print(f"Classe real de N4: {test_data_11f.loc[N4_index, 'class']}\n")


ANÁLISE DA INSTÂNCIA N4 (COM PERTURBAÇÕES):
Perturbação: citric acid = 0.3
Modelo com 2 atributos:
Índices dos 5 vizinhos mais próximos de N4: [25  9 19 20 39]
Distâncias dos vizinhos: [0.06140033 0.08238932 0.10104454 0.10176935 0.11637869]
Classe predita para N4: 0

Modelo com 11 atributos:
Índices dos 5 vizinhos mais próximos de N4: [30  1  8  6  7]
Distâncias dos vizinhos: [1.9498423  2.01394886 2.12476399 2.47257538 2.52729895]
Classe predita para N4: 0

Perturbação: citric acid = 0.85
Modelo com 2 atributos:
Índices dos 5 vizinhos mais próximos de N4: [ 7  8 30 44 14]
Distâncias dos vizinhos: [0.08523497 0.11456003 0.14023552 0.14356183 0.15559563]
Classe predita para N4: 0

Modelo com 11 atributos:
Índices dos 5 vizinhos mais próximos de N4: [30  1  8  7  6]
Distâncias dos vizinhos: [1.90821513 2.01831365 2.04375194 2.45958127 2.47613186]
Classe predita para N4: 0

Classe real de N4: 1



  N4_perturbed_2f[citric_acid_index] = perturb_value
  N4_perturbed_2f[citric_acid_index] = perturb_value
