In [1]:
import pandas as pd

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [2]:
from sklearn.model_selection import train_test_split

# Separar as features (X) e o target (y)
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [3]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Criar e treinar o classificador KNN com k=3
knn_3 = KNeighborsClassifier(n_neighbors=3)
knn_3.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_3 = knn_3.predict(X_test)

# Avaliar a acurácia do modelo com k=3
accuracy_3 = accuracy_score(y_test, y_pred_3)
print(f"Acurácia do modelo com k=3: {accuracy_3}")

# Criar e treinar o classificador KNN com k=5
knn_5 = KNeighborsClassifier(n_neighbors=5)
knn_5.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred_5 = knn_5.predict(X_test)

# Avaliar a acurácia do modelo com k=5
accuracy_5 = accuracy_score(y_test, y_pred_5)
print(f"Acurácia do modelo com k=5: {accuracy_5}")

# Comparar os resultados
if accuracy_3 > accuracy_5:
    print("O modelo com k=3 apresentou melhor desempenho.")
elif accuracy_5 > accuracy_3:
    print("O modelo com k=5 apresentou melhor desempenho.")
else:
    print("Ambos os modelos apresentaram o mesmo desempenho.")

Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.7407407407407407
Ambos os modelos apresentaram o mesmo desempenho.


In [4]:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separar as features (X) e o target (y)
X = vinhos.drop('classe', axis=1)
y = vinhos['classe']

random_states = [17, 24]

for random_state in random_states:
    print(f"\nResultados para random_state = {random_state}:")
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

    for k in [3, 5]:
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Acurácia do modelo com k={k}: {accuracy}")

    #Comparação para o mesmo random_state
    if accuracy_3 > accuracy_5:
        print("O modelo com k=3 apresentou melhor desempenho.")
    elif accuracy_5 > accuracy_3:
        print("O modelo com k=5 apresentou melhor desempenho.")
    else:
        print("Ambos os modelos apresentaram o mesmo desempenho.")


Resultados para random_state = 17:
Acurácia do modelo com k=3: 0.6481481481481481
Acurácia do modelo com k=5: 0.6666666666666666
Ambos os modelos apresentaram o mesmo desempenho.

Resultados para random_state = 24:
Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.6666666666666666
Ambos os modelos apresentaram o mesmo desempenho.


In [5]:
results = {}

for random_state in [42, 17, 24]:
    results[random_state] = {}
    print(f"\nResultados para random_state = {random_state}:")
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=random_state)

    for k in [3, 5]:
        knn = KNeighborsClassifier(n_neighbors=k)
        knn.fit(X_train, y_train)
        y_pred = knn.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Acurácia do modelo com k={k}: {accuracy}")
        results[random_state][k] = accuracy

# Análise comparativa
best_random_state = None
best_k = None
best_accuracy = 0

for random_state, k_results in results.items():
    for k, accuracy in k_results.items():
        print(f"random_state={random_state}, k={k}, accuracy={accuracy}")
        if accuracy > best_accuracy:
            best_accuracy = accuracy
            best_random_state = random_state
            best_k = k

print(f"\nMelhor desempenho geral:")
print(f"random_state = {best_random_state}, k = {best_k}, Acurácia = {best_accuracy}")


Resultados para random_state = 42:
Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.7407407407407407

Resultados para random_state = 17:
Acurácia do modelo com k=3: 0.6481481481481481
Acurácia do modelo com k=5: 0.6666666666666666

Resultados para random_state = 24:
Acurácia do modelo com k=3: 0.7407407407407407
Acurácia do modelo com k=5: 0.6666666666666666
random_state=42, k=3, accuracy=0.7407407407407407
random_state=42, k=5, accuracy=0.7407407407407407
random_state=17, k=3, accuracy=0.6481481481481481
random_state=17, k=5, accuracy=0.6666666666666666
random_state=24, k=3, accuracy=0.7407407407407407
random_state=24, k=5, accuracy=0.6666666666666666

Melhor desempenho geral:
random_state = 42, k = 3, Acurácia = 0.7407407407407407
