# Classificação de Vinhos - KNN com Variação de Parâmetros

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

## 1. Separação dos Dados em Treino e Teste

### Carregando o BD e dividindo em Teste e treino

In [12]:
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [13]:
X = vinhos.iloc[:, 1:]
y = vinhos['classe']

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

### Testando se realmente dividiu os grupos

In [15]:
print(f"Tamanho do conjunto de treino: {X_train.shape[0]} amostras")
print(f"Tamanho do conjunto de teste: {X_test.shape[0]} amostras")

Tamanho do conjunto de treino: 124 amostras
Tamanho do conjunto de teste: 54 amostras


## 2. Treinamento e Avaliação do Classificador KNN

### Treinamento

In [25]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

def train_and_evaluate_knn(X_train, X_test, y_train, y_test, k_values):
    results = {}

    for k in k_values:
        knn = KNeighborsClassifier(n_neighbors=k)

        knn.fit(X_train, y_train)

        y_pred = knn.predict(X_test)

        accuracy = accuracy_score(y_test, y_pred)

        results[k] = accuracy
        print(f"Acurácia com k={k}: {accuracy:.9f}")

    return results

k_values = [3, 5]

results = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k_values)


Acurácia com k=3: 0.740740741
Acurácia com k=5: 0.740740741


Deixei com 9 casas decimais ára ver se eles diferenciam, mas a diferença, se é que existe, deve ser muito pequena.

### Teste de melhor desempenho

In [26]:
best_k = max(results, key=results.get)
print(f"\nMelhor desempenho foi obtido com k={best_k} (Acurácia: {results[best_k]:.9f})")


Melhor desempenho foi obtido com k=3 (Acurácia: 0.740740741)


## 3. Análise com Diferentes Valores de random_state

### Treinamento com Random_States = 17

In [33]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=17)

print("Para o random state = 17: \n")

def train_and_evaluate_knn(X_train, X_test, y_train, y_test, k_values):
    results = {}

    for k in k_values:
        knn = KNeighborsClassifier(n_neighbors=k)

        knn.fit(X_train, y_train)

        y_pred = knn.predict(X_test)

        accuracy = accuracy_score(y_test, y_pred)

        results[k] = accuracy
        print(f"Acurácia com k={k}: {accuracy:.9f}")

    return results

k_values = [3, 5]

results = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k_values)

best_k = max(results, key=results.get)
print(f"\nMelhor desempenho foi obtido com k={best_k} (Acurácia: {results[best_k]:.9f})")

Para o random state = 17: 

Acurácia com k=3: 0.648148148
Acurácia com k=5: 0.666666667

Melhor desempenho foi obtido com k=5 (Acurácia: 0.666666667)


### Treinamento com Random_States = 24

In [36]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=24)

print("Para o random state = 24: \n")

def train_and_evaluate_knn(X_train, X_test, y_train, y_test, k_values):
    results = {}

    for k in k_values:
        knn = KNeighborsClassifier(n_neighbors=k)

        knn.fit(X_train, y_train)

        y_pred = knn.predict(X_test)

        accuracy = accuracy_score(y_test, y_pred)

        results[k] = accuracy
        print(f"Acurácia com k={k}: {accuracy:.9f}")

    return results

k_values = [3, 5]

results = train_and_evaluate_knn(X_train, X_test, y_train, y_test, k_values)

best_k = max(results, key=results.get)
print(f"\nMelhor desempenho foi obtido com k={best_k} (Acurácia: {results[best_k]:.9f})")

Para o random state = 24: 

Acurácia com k=3: 0.740740741
Acurácia com k=5: 0.666666667

Melhor desempenho foi obtido com k=3 (Acurácia: 0.740740741)


## 4. Comparação Final

**Análise Final**

O random_state 24 e 42 com k=3 e o random_state 42 com k=5

obtiveram os melhores desempenhos, com uma acurácia de 74,07%.