# Importação de bibliotecas e da base

In [13]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas, definindo a coluna 'classe' como object
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Treinamento do modelo

In [21]:
classes = vinhos['classe']
features = vinhos.drop('classe', axis=1)
scaler = MinMaxScaler()

# Aplicando a normalização
features_normalized = scaler.fit_transform(features)

# aplicando K-Means com 4 clusters
kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(features_normalized)

print(f'Inércia do modelo K-Means: {kmeans.inertia_:.4f}')

# exibir a contagem dos clusters
print("\nDistribuição dos clusters:")
print(vinhos['cluster'].value_counts())

# comparando clusters com as classes originais
print("\nComparação entre clusters e classes originais:")
comparacao_groupby = vinhos.groupby('cluster')['classe'].value_counts()
print(comparacao_groupby)

Inércia do modelo K-Means: 44.8876

Distribuição dos clusters:
cluster
2    59
1    50
0    36
3    33
Name: count, dtype: int64

Comparação entre clusters e classes originais:
cluster  classe
0        2         34
         1          2
1        3         48
         2          2
2        1         57
         2          2
3        2         33
Name: count, dtype: int64


