In [1]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

Separação dos Dados em Treino e Teste

In [6]:
from sklearn.model_selection import train_test_split

# Separando as variáveis independentes (X) e a variável dependente (y)
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

# Dividir os dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Mostrar as variáveis de treino e teste
X_train.shape, X_test.shape


((124, 13), (54, 13))

Treinamento e Avaliação do Classificador KNN com 𝑘= 3 e k=5

In [7]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Modelo KNN com k = 3
knn_3 = KNeighborsClassifier(n_neighbors=3)
knn_3.fit(X_train, y_train)
y_pred_3 = knn_3.predict(X_test)
accuracy_3 = accuracy_score(y_test, y_pred_3)

# Modelo KNN com k = 5
knn_5 = KNeighborsClassifier(n_neighbors=5)
knn_5.fit(X_train, y_train)
y_pred_5 = knn_5.predict(X_test)
accuracy_5 = accuracy_score(y_test, y_pred_5)

# Resultado
print(f'Performance com k=3: {accuracy_3:.4f}')
print(f'Performance com k=5: {accuracy_5:.4f}')


Performance com k=3: 0.7407
Performance com k=5: 0.7407


Análise com valores 17 e 24 de random_state

In [8]:
# avaliar o treinar e o modelo
def treinar_e_avaliar(random_state, k):
    # Dividir os dados com o random_state fornecido
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

    # Treinar o modelo KNN com o valor de k fornecido
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)

    # Avaliar o modelo
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)

    return accuracy

# Testes
results = {}

results[42] = {
    'k=3': treinar_e_avaliar(42, 3),
    'k=5': treinar_e_avaliar(42, 5)
}

results[17] = {
    'k=3': treinar_e_avaliar(17, 3),
    'k=5': treinar_e_avaliar(17, 5)
}

results[24] = {
    'k=3': treinar_e_avaliar(24, 3),
    'k=5': treinar_e_avaliar(24, 5)
}

for seed, accuracies in results.items():
    print(f"\nResultados para random_state = {seed}:")
    for k, accuracy in accuracies.items():
        print(f'{k}: {accuracy:.4f}')



Resultados para random_state = 42:
k=3: 0.7407
k=5: 0.7407

Resultados para random_state = 17:
k=3: 0.6481
k=5: 0.6667

Resultados para random_state = 24:
k=3: 0.7407
k=5: 0.6667


Comparação final

In [11]:
# comparação
import pandas as pd

for seed, accuracies in results.items():
    comparacao_resultados['random_state'].append(seed)
    comparacao_resultados['k=3'].append(accuracies['k=3'])
    comparacao_resultados['k=5'].append(accuracies['k=5'])

# Criar DataFrame para exibição
df_comparacao = pd.DataFrame(comparacao_resultados)
df_comparacao.set_index('random_state', inplace=True)

# Exibir o DataFrame
df_comparacao


Unnamed: 0_level_0,k=3,k=5
random_state,Unnamed: 1_level_1,Unnamed: 2_level_1
42,0.740741,0.740741
17,0.648148,0.666667
24,0.740741,0.666667
42,0.740741,0.740741
17,0.648148,0.666667
24,0.740741,0.666667
