In [None]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

vinhos

Unnamed: 0,classe,alcool,acido_malico,cinzas,alcalinidade_de_cinzas,magnesio,fenois_totais,flavanoides,fenois_nao_flavanoides,proantocianinas,intensidade_de_cor,matiz,od280_od315_de_vinhos_diluidos,prolina
0,1,14.23,1.71,2.43,15.6,127,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.20,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050
2,1,13.16,2.36,2.67,18.6,101,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.50,16.8,113,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,3,13.71,5.65,2.45,20.5,95,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740
174,3,13.40,3.91,2.48,23.0,102,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750
175,3,13.27,4.28,2.26,20.0,120,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835
176,3,13.17,2.59,2.37,20.0,120,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840


In [None]:
# Separação dos Dados em Treino e Teste
# Divida o conjunto de dados em treino e teste, utilizando uma proporção de 70% para treino e 30% para teste.
# Defina random_state=42 para garantir a replicabilidade dos resultados.

from sklearn.model_selection import train_test_split

# Separar as features (X) e o target (y)
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

# Dividir os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Imprimir as dimensões dos conjuntos de treino e teste
print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

X_train shape: (124, 13)
y_train shape: (124,)
X_test shape: (54, 13)
y_test shape: (54,)


In [None]:
# Treinamento e Avaliação do Classificador KNN
# Treine um classificador KNN com ( k = 3 ) e avalie sua acurácia no conjunto de teste.
# Em seguida, treine um segundo classificador KNN com ( k = 5 ) e avalie sua acurácia no conjunto de teste.
# Apresente (print) o valor de accuracy_score para cada experimento e para cada modelo com ( k = 3 ) e ( k = 5 ).
# Compare os resultados para identificar qual dos modelos (com ( k = 3 ) ou ( k = 5 )) apresenta melhor desempenho.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Criar e treinar o classificador KNN com k=3
knn_3 = KNeighborsClassifier(n_neighbors=3)
knn_3.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_3 = knn_3.predict(X_test)

# Calcular a acurácia do modelo com k=3
accuracy_3 = accuracy_score(y_test, y_pred_3)
print(f"Acurácia do modelo com k=3: {accuracy_3}")

# Criar e treinar o classificador KNN com k=5
knn_5 = KNeighborsClassifier(n_neighbors=5)
knn_5.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_5 = knn_5.predict(X_test)

# Calcular a acurácia do modelo com k=5
accuracy_5 = accuracy_score(y_test, y_pred_5)
print(f"Acurácia do modelo com k=5: {accuracy_5}")

# Comparar os resultados
if accuracy_3 > accuracy_5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_5 > accuracy_3:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.7407407407407407
Ambos os modelos apresentaram o mesmo desempenho.


In [None]:
# Análise com Diferentes Valores de random_state
# Repita o procedimento acima (divisão dos dados, treinamento e avaliação dos modelos com ( k = 3 ) e ( k = 5 )) para os seguintes valores de random_state: 17 e 24.
# Para cada random_state, registre e apresente (print) a acurácia obtida com ( k = 3 ) e ( k = 5 ) e compare os resultados.

random_states = [17, 24]

for random_state in random_states:
    print(f"\nResultados para random_state = {random_state}:")

    for k in [3, 5]:
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Acurácia do modelo com k={k}: {accuracy}")


Resultados para random_state = 17:
Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.7407407407407407

Resultados para random_state = 24:
Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.7407407407407407


In [None]:
# Comparação Final
# Ao final, faça uma análise comparativa dos três experimentos, considerando os diferentes valores de random_state e de ( k ).
# Indique qual configuração de random_state e ( k ) obteve o melhor desempenho geral.

# Create a dictionary to store the results
results = {}

# Loop através de estados aleatórios e valores k
for random_state in [17, 24, 42]:  # Incluindo o random_state original
    for k in [3, 5]:
        # Treinando e avaliando o modelo
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)

        # Armazenando resultados
        results[(random_state, k)] = accuracy
        print(f"Random state: {random_state}, k: {k}, Accuracy: {accuracy}")

# Procurando a melhor configuração...
best_random_state, best_k = max(results, key=results.get)
best_accuracy = results[(best_random_state, best_k)]

print(f"\nMelhor configuração: random_state = {best_random_state}, k = {best_k}, Acurácia = {best_accuracy}")

Random state: 17, k: 3, Accuracy: 0.7407407407407407
Random state: 17, k: 5, Accuracy: 0.7407407407407407
Random state: 24, k: 3, Accuracy: 0.7407407407407407
Random state: 24, k: 5, Accuracy: 0.7407407407407407
Random state: 42, k: 3, Accuracy: 0.7407407407407407
Random state: 42, k: 5, Accuracy: 0.7407407407407407

Melhor configuração: random_state = 17, k = 3, Acurácia = 0.7407407407407407
