In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separando variáveis X e y
X = vinhos.drop(columns=['classe'])
y = vinhos['classe']

###Random_state 42

In [4]:
# Divisão dos dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=42)

print("Modelo com random_state = 42")

# Resultados
print("Tamanho do conjunto de treino:", X_treino.shape)
print("Tamanho do conjunto de teste:", X_teste.shape)

# Modelo com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_treino, y_treino)  # Treinamento
y_pred_k3 = knn_k3.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k3 = accuracy_score(y_teste, y_pred_k3)  # Avaliação

# Modelo com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_treino, y_treino)  # Treinamento
y_pred_k5 = knn_k5.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k5 = accuracy_score(y_teste, y_pred_k5)  # Avaliação

# Exibindo os resultados
print(f"Acurácia do modelo com k=3: {accuracy_k3:.4f}")
print(f"Acurácia do modelo com k=5: {accuracy_k5:.4f}")

# Comparação
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Modelo com random_state = 42
Tamanho do conjunto de treino: (124, 13)
Tamanho do conjunto de teste: (54, 13)
Acurácia do modelo com k=3: 0.7407
Acurácia do modelo com k=5: 0.7407
Ambos os modelos apresentaram o mesmo desempenho.


###Random state 17

In [5]:
# Divisão dos dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=17)

print("Modelo com random_state = 17")

# Resultados
print("Tamanho do conjunto de treino:", X_treino.shape)
print("Tamanho do conjunto de teste:", X_teste.shape)

# Modelo com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_treino, y_treino)  # Treinamento
y_pred_k3 = knn_k3.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k3 = accuracy_score(y_teste, y_pred_k3)  # Avaliação

# Modelo com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_treino, y_treino)  # Treinamento
y_pred_k5 = knn_k5.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k5 = accuracy_score(y_teste, y_pred_k5)  # Avaliação

# Exibindo os resultados
print(f"Acurácia do modelo com k=3: {accuracy_k3:.4f}")
print(f"Acurácia do modelo com k=5: {accuracy_k5:.4f}")

# Comparação
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Modelo com random_state = 17
Tamanho do conjunto de treino: (124, 13)
Tamanho do conjunto de teste: (54, 13)
Acurácia do modelo com k=3: 0.6481
Acurácia do modelo com k=5: 0.6667
O modelo com k=5 apresentou melhor desempenho.


###Random state 24

In [6]:
# Divisão dos dados em treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.3, random_state=24)

print("Modelo com random_state = 24")

# Resultados
print("Tamanho do conjunto de treino:", X_treino.shape)
print("Tamanho do conjunto de teste:", X_teste.shape)

# Modelo com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_treino, y_treino)  # Treinamento
y_pred_k3 = knn_k3.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k3 = accuracy_score(y_teste, y_pred_k3)  # Avaliação

# Modelo com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_treino, y_treino)  # Treinamento
y_pred_k5 = knn_k5.predict(X_teste)  # Previsões no conjunto de teste
accuracy_k5 = accuracy_score(y_teste, y_pred_k5)  # Avaliação

# Exibindo os resultados
print(f"Acurácia do modelo com k=3: {accuracy_k3:.4f}")
print(f"Acurácia do modelo com k=5: {accuracy_k5:.4f}")

# Comparação
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Modelo com random_state = 24
Tamanho do conjunto de treino: (124, 13)
Tamanho do conjunto de teste: (54, 13)
Acurácia do modelo com k=3: 0.7407
Acurácia do modelo com k=5: 0.6667
O modelo com k=3 apresentou melhor desempenho.


#4. Estrutura de Cross-Validation com KFold / 5. Análise dos Resultados

In [7]:
from sklearn.model_selection import KFold
import numpy as np

# Configuração dos valores de random_state
random_states = [42, 17, 24]

# Loop para cada random_state
for random_state in random_states:
    print(f"\nRandom State: {random_state}")
    # Configuração do KFold
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)

    # Armazenamento das acurácias para cada valor de k
    accuracies_k3 = []
    accuracies_k5 = []

    # K-Fold Cross-Validation
    for train_index, test_index in kf.split(X):
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y.iloc[train_index], y.iloc[test_index]

        # Modelo com k=3
        knn_k3 = KNeighborsClassifier(n_neighbors=3)
        knn_k3.fit(X_train, y_train)
        y_pred_k3 = knn_k3.predict(X_test)
        accuracy_k3 = accuracy_score(y_test, y_pred_k3)
        accuracies_k3.append(accuracy_k3)

        # Modelo com k=5
        knn_k5 = KNeighborsClassifier(n_neighbors=5)
        knn_k5.fit(X_train, y_train)
        y_pred_k5 = knn_k5.predict(X_test)
        accuracy_k5 = accuracy_score(y_test, y_pred_k5)
        accuracies_k5.append(accuracy_k5)

    # Cálculo da média e desvio padrão
    mean_k3 = np.mean(accuracies_k3)
    std_k3 = np.std(accuracies_k3)
    mean_k5 = np.mean(accuracies_k5)
    std_k5 = np.std(accuracies_k5)

    # Exibindo os resultados
    print(f"  k=3: Média da Acurácia = {mean_k3:.4f}, Desvio Padrão = {std_k3:.4f}")
    print(f"  k=5: Média da Acurácia = {mean_k5:.4f}, Desvio Padrão = {std_k5:.4f}")

    # Comparação de desempenho
    if mean_k3 > mean_k5:
        print("  Melhor desempenho geral: k=3")
    elif mean_k3 < mean_k5:
        print("  Melhor desempenho geral: k=5")
    else:
        print("  Ambos os modelos tiveram desempenho igual.")



Random State: 42
  k=3: Média da Acurácia = 0.7036, Desvio Padrão = 0.1392
  k=5: Média da Acurácia = 0.6641, Desvio Padrão = 0.1001
  Melhor desempenho geral: k=3

Random State: 17
  k=3: Média da Acurácia = 0.6987, Desvio Padrão = 0.1040
  k=5: Média da Acurácia = 0.6876, Desvio Padrão = 0.1121
  Melhor desempenho geral: k=3

Random State: 24
  k=3: Média da Acurácia = 0.7127, Desvio Padrão = 0.0968
  k=5: Média da Acurácia = 0.7127, Desvio Padrão = 0.0940
  Ambos os modelos tiveram desempenho igual.
