In [None]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Pré-processamento dos Dados
Separe as variáveis da seguinte forma:

*   X: Todas as colunas, exceto classe.
*   y: Coluna classe, que será a variável-alvo para a classificação.



In [None]:
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

# Configuração do Experimento
Realize três experimentos, alterando o random_state para os valores 42, 17 e 24. Para cada experimento, aplique o KNN com k=3 e k=5.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

  for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)

    print(f"Experimento com random_state={random_state} e k={k}: Acurácia = {accuracy}")

Experimento com random_state=42 e k=3: Acurácia = 0.7407407407407407
Experimento com random_state=42 e k=5: Acurácia = 0.7407407407407407
Experimento com random_state=17 e k=3: Acurácia = 0.6481481481481481
Experimento com random_state=17 e k=5: Acurácia = 0.6666666666666666
Experimento com random_state=24 e k=3: Acurácia = 0.7407407407407407
Experimento com random_state=24 e k=5: Acurácia = 0.6666666666666666


# Estrutura de Cross-Validation com KFold
Para cada valor de random_state, siga estas instruções:

*  Use KFold para dividir o dataset em 10 folds, com shuffle=True e o random_state especificado.
* Para cada fold, divida os dados em treino e teste.
* Treine o classificador KNN para cada valor de k (3 e 5) e avalie o desempenho usando accuracy_score.
* Armazene as acurácias de cada fold para calcular a média e o desvio padrão para cada valor de k.

In [None]:
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
import numpy as np

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separar as variáveis
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

random_states = [42, 17, 24]
k_values = [3, 5]

for random_state in random_states:
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
    for k in k_values:
        accuracies = []
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        mean_accuracy = np.mean(accuracies)
        std_accuracy = np.std(accuracies)
        print(f"Experimento com random_state={random_state} e k={k}:")
        print(f"Acurácias: {accuracies}")
        print(f"Média da Acurácia: {mean_accuracy}")
        print(f"Desvio Padrão da Acurácia: {std_accuracy}")
        print("-" * 20)

Experimento com random_state=42 e k=3:
Acurácias: [0.8333333333333334, 0.8333333333333334, 0.7777777777777778, 0.5, 0.7222222222222222, 0.6111111111111112, 0.6666666666666666, 0.4444444444444444, 0.7647058823529411, 0.8823529411764706]
Média da Acurácia: 0.70359477124183
Desvio Padrão da Acurácia: 0.13918691592617136
--------------------
Experimento com random_state=42 e k=5:
Acurácias: [0.7222222222222222, 0.7222222222222222, 0.6666666666666666, 0.6111111111111112, 0.6666666666666666, 0.5555555555555556, 0.7222222222222222, 0.4444444444444444, 0.8235294117647058, 0.7058823529411765]
Média da Acurácia: 0.6640522875816993
Desvio Padrão da Acurácia: 0.10007472964927165
--------------------
Experimento com random_state=17 e k=3:
Acurácias: [0.6111111111111112, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.5555555555555556, 0.7222222222222222, 0.8235294117647058, 0.9411764705882353]
Média da Acurácia: 0.6986928104575163
Desvio Padrão 

# Análise dos Resultados
Após realizar o k-fold cross-validation, siga as instruções abaixo:

* Calcule a média e o desvio padrão da acurácia para cada valor de k em cada experimento.
* Identifique o melhor valor de k para cada random_state.
* Caso haja empate nas acurácias médias para k=3 e k=5, registre o empate nos resultados.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

# ... (código anterior permanece inalterado)

random_states = [42, 17, 24]
k_values = [3, 5]

results = {}

for random_state in random_states:
    results[random_state] = {}
    kf = KFold(n_splits=10, shuffle=True, random_state=random_state)
    for k in k_values:
        accuracies = []
        for train_index, test_index in kf.split(X):
            X_train, X_test = X.iloc[train_index], X.iloc[test_index]
            y_train, y_test = y.iloc[train_index], y.iloc[test_index]

            knn = KNeighborsClassifier(n_neighbors=k)
            knn.fit(X_train, y_train)
            y_pred = knn.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            accuracies.append(accuracy)

        mean_accuracy = np.mean(accuracies)
        std_accuracy = np.std(accuracies)
        results[random_state][k] = {'mean': mean_accuracy, 'std': std_accuracy, 'accuracies': accuracies}
        print(f"Experimento com random_state={random_state} e k={k}:")
        print(f"Acurácias: {accuracies}")
        print(f"Média da Acurácia: {mean_accuracy}")
        print(f"Desvio Padrão da Acurácia: {std_accuracy}")
        print("-" * 20)

# Análise final
print("\nAnálise Final:")
for random_state, k_results in results.items():
    mean_accuracy_k3 = k_results[3]['mean']
    mean_accuracy_k5 = k_results[5]['mean']

    if mean_accuracy_k3 > mean_accuracy_k5:
        best_k = 3
    elif mean_accuracy_k5 > mean_accuracy_k3:
        best_k = 5
    else:
        best_k = "Empate entre k=3 e k=5"

    print(f"Experimento com random_state={random_state}: Melhor k = {best_k}")
    print(f"    Média k=3: {mean_accuracy_k3:.4f}")
    print(f"    Média k=5: {mean_accuracy_k5:.4f}")

Experimento com random_state=42 e k=3:
Acurácias: [0.8333333333333334, 0.8333333333333334, 0.7777777777777778, 0.5, 0.7222222222222222, 0.6111111111111112, 0.6666666666666666, 0.4444444444444444, 0.7647058823529411, 0.8823529411764706]
Média da Acurácia: 0.70359477124183
Desvio Padrão da Acurácia: 0.13918691592617136
--------------------
Experimento com random_state=42 e k=5:
Acurácias: [0.7222222222222222, 0.7222222222222222, 0.6666666666666666, 0.6111111111111112, 0.6666666666666666, 0.5555555555555556, 0.7222222222222222, 0.4444444444444444, 0.8235294117647058, 0.7058823529411765]
Média da Acurácia: 0.6640522875816993
Desvio Padrão da Acurácia: 0.10007472964927165
--------------------
Experimento com random_state=17 e k=3:
Acurácias: [0.6111111111111112, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.6666666666666666, 0.5555555555555556, 0.7222222222222222, 0.8235294117647058, 0.9411764705882353]
Média da Acurácia: 0.6986928104575163
Desvio Padrão 