In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Ler o arquivo CSV com as colunas especificadas
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

In [2]:
# Ler o arquivo CSV com as colunas especificadas
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Dropar a coluna 'classe', pois ela não será usada no agrupamento
X = vinhos.drop('classe', axis=1)

# Reescala linear dos dados para o intervalo (0, 1)
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Mostrar as primeiras linhas dos dados normalizados
print(pd.DataFrame(X_scaled, columns=X.columns).head())

     alcool  acido_malico    cinzas  alcalinidade_de_cinzas  magnesio  \
0  0.842105      0.191700  0.572193                0.257732  0.619565   
1  0.571053      0.205534  0.417112                0.030928  0.326087   
2  0.560526      0.320158  0.700535                0.412371  0.336957   
3  0.878947      0.239130  0.609626                0.319588  0.467391   
4  0.581579      0.365613  0.807487                0.536082  0.521739   

   fenois_totais  flavanoides  fenois_nao_flavanoides  proantocianinas  \
0       0.627586     0.573840                0.283019         0.593060   
1       0.575862     0.510549                0.245283         0.274448   
2       0.627586     0.611814                0.320755         0.757098   
3       0.989655     0.664557                0.207547         0.558360   
4       0.627586     0.495781                0.490566         0.444795   

   intensidade_de_cor     matiz  od280_od315_de_vinhos_diluidos   prolina  
0            0.372014  0.455285         

In [3]:
# Aplicar K-Means com 4 clusters
kmeans = KMeans(n_clusters=4, random_state=42)

# Atribuir o cluster para cada amostra e adicionar a coluna 'cluster'
vinhos['cluster'] = kmeans.fit_predict(X_scaled)

# Apresentar o valor da inércia (soma das distâncias quadradas dos pontos aos centróides)
print(f'Inércia do modelo K-Means: {kmeans.inertia_}')

Inércia do modelo K-Means: 44.887604580852816


In [4]:
# Contagem dos clusters
print(vinhos['cluster'].value_counts())

cluster
2    59
1    50
0    36
3    33
Name: count, dtype: int64


In [5]:
# Comparar clusters com as classes originais usando groupby
comparacao = vinhos.groupby('cluster')['classe'].value_counts()
print(comparacao)

# Alternativamente, usando pd.crosstab
comparacao = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print(comparacao)

cluster  classe
0        2         34
         1          2
1        3         48
         2          2
2        1         57
         2          2
3        2         33
Name: count, dtype: int64
cluster   0   1   2   3
classe                 
1         2   0  57   0
2        34   2   2  33
3         0  48   0   0
