In [9]:
# Etapa 5: Análise dos Resultados
best_k = {}
for random_state in random_states:
    print(f"Análise para random_state={random_state}:")
    best_k[random_state] = max(experiment_results[random_state],
                               key=lambda k: experiment_results[random_state][k]['mean_accuracy'])
    print(f"Melhor valor de k: {best_k[random_state]}")

Análise para random_state=42:
Melhor valor de k: 3
Análise para random_state=17:
Melhor valor de k: 3
Análise para random_state=24:
Melhor valor de k: 3


In [None]:
# Etapa 4: Experimentos com diferentes random_state
random_states = [42, 17, 24]
experiment_results = {}

for random_state in random_states:
    print(f"Resultado para random_state={random_state}:")
    experiment_results[random_state] = knn_cross_validation(X, y, random_state)
    for k, result in experiment_results[random_state].items():
        print(f"K={k} -> Acurácia média: {result['mean_accuracy']
              :.4f}, Desvio padrão: {result['std_accuracy']:.4f}")
    print("\n")

Resultado para random_state=42:
K=3 -> Acurácia média: 0.7036, Desvio padrão: 0.1392
K=5 -> Acurácia média: 0.6641, Desvio padrão: 0.1001


Resultado para random_state=17:
K=3 -> Acurácia média: 0.6987, Desvio padrão: 0.1040
K=5 -> Acurácia média: 0.6876, Desvio padrão: 0.1121


Resultado para random_state=24:
K=3 -> Acurácia média: 0.7127, Desvio padrão: 0.0968
K=5 -> Acurácia média: 0.7127, Desvio padrão: 0.0940




In [7]:
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Função de Cross-Validation com KFold


def knn_cross_validation(X, y, random_state, k_values=[3, 5]):
    results = {}  # Armazenar as acurácias médias e desvio padrão para cada configuração de k

    # Configuração do KFold com 10 splits
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)

    for k in k_values:
        accuracies = []  # Lista para armazenar as acurácias de cada fold para o valor de k
        # Loop sobre os splits do KFold
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            # Treinando o modelo KNN
            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)

            # Fazendo previsões
            y_pred = knn.predict(X_test)

            # Calculando a acurácia
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        # Calculando a média e o desvio padrão da acurácia para este valor de k
        mean_accuracy = sum(accuracies) / len(accuracies)
        std_accuracy = (
            sum([(x - mean_accuracy)**2 for x in accuracies]) / len(accuracies))**0.5

        results[k] = {'mean_accuracy': mean_accuracy,
                      'std_accuracy': std_accuracy}

    return results

In [6]:
# Etapa 2: Pré-processamento dos Dados
X = vinhos.drop('classe', axis=1)  # Variáveis independentes
y = vinhos['classe']  # Variável dependente

# Exibir as primeiras linhas para verificar a separação
X.head(), y.head()

(   alcool  acido_malico  cinzas  alcalinidade_de_cinzas  magnesio  \
 0   14.23          1.71    2.43                    15.6       127   
 1   13.20          1.78    2.14                    11.2       100   
 2   13.16          2.36    2.67                    18.6       101   
 3   14.37          1.95    2.50                    16.8       113   
 4   13.24          2.59    2.87                    21.0       118   
 
    fenois_totais  flavanoides  fenois_nao_flavanoides  proantocianinas  \
 0           2.80         3.06                    0.28             2.29   
 1           2.65         2.76                    0.26             1.28   
 2           2.80         3.24                    0.30             2.81   
 3           3.85         3.49                    0.24             2.18   
 4           2.80         2.69                    0.39             1.82   
 
    intensidade_de_cor  matiz  od280_od315_de_vinhos_diluidos  prolina  
 0                5.64   1.04                        

In [5]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Exibir as primeiras linhas para verificar o carregamento
vinhos.head()

Unnamed: 0,classe,alcool,acido_malico,cinzas,alcalinidade_de_cinzas,magnesio,fenois_totais,flavanoides,fenois_nao_flavanoides,proantocianinas,intensidade_de_cor,matiz,od280_od315_de_vinhos_diluidos,prolina
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735
