In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score


# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [12]:
# Criando um DataFrame de exemplo com os nomes das colunas
# Substitua pelos seus dados reais
data = {
    'classe': [1, 2, 1, 2, 1, 3, 3, 2, 1, 3],
    'alcool': [13.2, 12.8, 13.5, 12.7, 14.2, 12.9, 13.7, 12.5, 14.0, 13.1],
    'acido_malico': [1.2, 2.4, 1.9, 2.1, 1.3, 2.2, 1.8, 2.3, 1.1, 2.0],
    'cinzas': [2.1, 2.3, 2.2, 2.4, 2.0, 2.1, 2.5, 2.3, 2.1, 2.4],
    'alcalinidade_de_cinzas': [15, 16, 14, 17, 13, 15, 16, 14, 12, 15],
    'magnesio': [100, 102, 98, 101, 95, 99, 103, 96, 97, 100],
    'fenois_totais': [2.8, 2.6, 2.9, 2.5, 3.0, 2.7, 3.1, 2.4, 3.2, 2.8],
    'flavanoides': [3.1, 2.8, 3.3, 2.7, 3.5, 3.0, 3.6, 2.9, 3.7, 3.2],
    'fenois_nao_flavanoides': [0.3, 0.4, 0.3, 0.5, 0.2, 0.3, 0.2, 0.4, 0.1, 0.3],
    'proantocianinas': [1.6, 1.7, 1.5, 1.8, 1.4, 1.6, 1.3, 1.7, 1.2, 1.5],
    'intensidade_de_cor': [5.1, 4.8, 5.3, 4.7, 5.5, 5.0, 5.6, 4.9, 5.7, 5.2],
    'matiz': [1.2, 1.1, 1.3, 1.0, 1.4, 1.2, 1.5, 1.1, 1.6, 1.3],
    'od280_od315_de_vinhos_diluidos': [3.0, 2.9, 3.2, 2.8, 3.4, 3.1, 3.5, 2.7, 3.6, 3.3],
    'prolina': [750, 800, 720, 810, 690, 770, 850, 730, 880, 760]
}
df = pd.DataFrame(data, columns=column_names_pt_br)

# Separando features (X) e a classe (y)
X = df.drop(columns=['classe'])
y = df['classe']

# Dividindo os dados em treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Exibindo os resultados
print("Tamanho do conjunto de treino:", X_train.shape)
print("Tamanho do conjunto de teste:", X_test.shape)
print("Primeiros dados de X_train:\n", X_train.head())


Tamanho do conjunto de treino: (7, 13)
Tamanho do conjunto de teste: (3, 13)
Primeiros dados de X_train:
    alcool  acido_malico  cinzas  alcalinidade_de_cinzas  magnesio  \
0    13.2           1.2     2.1                      15       100   
7    12.5           2.3     2.3                      14        96   
2    13.5           1.9     2.2                      14        98   
9    13.1           2.0     2.4                      15       100   
4    14.2           1.3     2.0                      13        95   

   fenois_totais  flavanoides  fenois_nao_flavanoides  proantocianinas  \
0            2.8          3.1                     0.3              1.6   
7            2.4          2.9                     0.4              1.7   
2            2.9          3.3                     0.3              1.5   
9            2.8          3.2                     0.3              1.5   
4            3.0          3.5                     0.2              1.4   

   intensidade_de_cor  matiz  od28

In [13]:
# Modelo KNN com k=3
knn_k3 = KNeighborsClassifier(n_neighbors=3)
knn_k3.fit(X_train, y_train)
y_pred_k3 = knn_k3.predict(X_test)
accuracy_k3 = accuracy_score(y_test, y_pred_k3)
print(f"Acurácia do modelo KNN com k=3: {accuracy_k3:.2f}")

# Modelo KNN com k=5
knn_k5 = KNeighborsClassifier(n_neighbors=5)
knn_k5.fit(X_train, y_train)
y_pred_k5 = knn_k5.predict(X_test)
accuracy_k5 = accuracy_score(y_test, y_pred_k5)
print(f"Acurácia do modelo KNN com k=5: {accuracy_k5:.2f}")

# Comparação dos resultados
if accuracy_k3 > accuracy_k5:
    print("O modelo com k=3 apresenta melhor desempenho.")
elif accuracy_k3 < accuracy_k5:
    print("O modelo com k=5 apresenta melhor desempenho.")
else:
    print("Ambos os modelos apresentam a mesma acurácia.")


Acurácia do modelo KNN com k=3: 0.00
Acurácia do modelo KNN com k=5: 0.33
O modelo com k=5 apresenta melhor desempenho.


In [15]:
# Função para realizar o experimento
def executar_experimento(random_state):
    # Divisão dos dados
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3, random_state=random_state
    )

    # Modelo KNN com k=3
    knn_k3 = KNeighborsClassifier(n_neighbors=3)
    knn_k3.fit(X_train, y_train)
    y_pred_k3 = knn_k3.predict(X_test)
    accuracy_k3 = accuracy_score(y_test, y_pred_k3)

    # Modelo KNN com k=5
    knn_k5 = KNeighborsClassifier(n_neighbors=5)
    knn_k5.fit(X_train, y_train)
    y_pred_k5 = knn_k5.predict(X_test)
    accuracy_k5 = accuracy_score(y_test, y_pred_k5)

    # Resultados
    print(f"\nRandom State: {random_state}")
    print(f"Acurácia com KNN (k=3): {accuracy_k3:.2f}")
    print(f"Acurácia com KNN (k=5): {accuracy_k5:.2f}")

    # Comparação dos resultados
    if accuracy_k3 > accuracy_k5:
        print("Melhor desempenho: KNN com k=3")
    elif accuracy_k3 < accuracy_k5:
        print("Melhor desempenho: KNN com k=5")
    else:
        print("Ambos os modelos apresentam a mesma acurácia.")

    return accuracy_k3, accuracy_k5

# Executando para diferentes random_state
resultados = {}
for rs in [42, 17, 24]:
    resultados[rs] = executar_experimento(rs)

# Resumo final
print("\nResumo das Acurácias:")
for rs, (acc_k3, acc_k5) in resultados.items():
    print(f"Random State {rs}: KNN (k=3) = {acc_k3:.2f}, KNN (k=5) = {acc_k5:.2f}")



Random State: 42
Acurácia com KNN (k=3): 0.00
Acurácia com KNN (k=5): 0.33
Melhor desempenho: KNN com k=5

Random State: 17
Acurácia com KNN (k=3): 0.33
Acurácia com KNN (k=5): 0.33
Ambos os modelos apresentam a mesma acurácia.

Random State: 24
Acurácia com KNN (k=3): 0.33
Acurácia com KNN (k=5): 0.33
Ambos os modelos apresentam a mesma acurácia.

Resumo das Acurácias:
Random State 42: KNN (k=3) = 0.00, KNN (k=5) = 0.33
Random State 17: KNN (k=3) = 0.33, KNN (k=5) = 0.33
Random State 24: KNN (k=3) = 0.33, KNN (k=5) = 0.33


In [16]:
# Função para realizar o experimento
def executar_experimento(random_state):
    # Divisão dos dados
    X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3, random_state=random_state
    )

    # Modelo KNN com k=3
    knn_k3 = KNeighborsClassifier(n_neighbors=3)
    knn_k3.fit(X_train, y_train)
    y_pred_k3 = knn_k3.predict(X_test)
    accuracy_k3 = accuracy_score(y_test, y_pred_k3)

    # Modelo KNN com k=5
    knn_k5 = KNeighborsClassifier(n_neighbors=5)
    knn_k5.fit(X_train, y_train)
    y_pred_k5 = knn_k5.predict(X_test)
    accuracy_k5 = accuracy_score(y_test, y_pred_k5)

    # Resultados
    print(f"\nRandom State: {random_state}")
    print(f"Acurácia com KNN (k=3): {accuracy_k3:.2f}")
    print(f"Acurácia com KNN (k=5): {accuracy_k5:.2f}")

    # Comparação dos resultados
    if accuracy_k3 > accuracy_k5:
        print("Melhor desempenho: KNN com k=3")
    elif accuracy_k3 < accuracy_k5:
        print("Melhor desempenho: KNN com k=5")
    else:
        print("Ambos os modelos apresentam a mesma acurácia.")

    return accuracy_k3, accuracy_k5

# Executando para diferentes random_state
resultados = {}
for rs in [42, 17, 24]:
    resultados[rs] = executar_experimento(rs)

# Resumo final e análise comparativa
melhor_random_state = None
melhor_k = None
melhor_acuracia = 0

print("\nResumo das Acurácias:")
for rs, (acc_k3, acc_k5) in resultados.items():
    print(f"Random State {rs}: KNN (k=3) = {acc_k3:.2f}, KNN (k=5) = {acc_k5:.2f}")

    # Avaliando o melhor desempenho
    if acc_k3 > melhor_acuracia:
        melhor_acuracia = acc_k3
        melhor_random_state = rs
        melhor_k = 3
    if acc_k5 > melhor_acuracia:
        melhor_acuracia = acc_k5
        melhor_random_state = rs
        melhor_k = 5

# Melhor configuração
print("\nMelhor Configuração:")
print(f"Random State: {melhor_random_state}, k = {melhor_k}, Acurácia = {melhor_acuracia:.2f}")



Random State: 42
Acurácia com KNN (k=3): 0.00
Acurácia com KNN (k=5): 0.33
Melhor desempenho: KNN com k=5

Random State: 17
Acurácia com KNN (k=3): 0.33
Acurácia com KNN (k=5): 0.33
Ambos os modelos apresentam a mesma acurácia.

Random State: 24
Acurácia com KNN (k=3): 0.33
Acurácia com KNN (k=5): 0.33
Ambos os modelos apresentam a mesma acurácia.

Resumo das Acurácias:
Random State 42: KNN (k=3) = 0.00, KNN (k=5) = 0.33
Random State 17: KNN (k=3) = 0.33, KNN (k=5) = 0.33
Random State 24: KNN (k=3) = 0.33, KNN (k=5) = 0.33

Melhor Configuração:
Random State: 42, k = 5, Acurácia = 0.33
