# Exercício Prático: Clustering com K-Means - Vinhos (UCI)

## Objetivo

Neste exercício sobre aprendizagem não supervisionada (agrupamento), você aplicará o algoritmo K-Means no dataset de vinhos da UCI. O objetivo é agrupar os dados em 4 clusters e analisar a distribuição desses clusters em relação às classes originai

## Importações

In [3]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

In [4]:
# Leitura do dataset Wine da UCI
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

## 1: Normalização dos Dados


In [5]:
X = vinhos.drop('classe', axis=1)  # Remove a coluna 'classe'
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)


## 2: Aplicação do K-Means

In [6]:
kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(X_scaled)

# Exibir a inércia do modelo
print(f'Inércia do modelo K-Means: {kmeans.inertia_}')

Inércia do modelo K-Means: 44.88760458085281


## 3: Análise dos Clusters

In [7]:
cluster_counts = vinhos['cluster'].value_counts()
print("\nDistribuição dos Clusters:")
print(cluster_counts)


Distribuição dos Clusters:
cluster
2    59
1    50
0    36
3    33
Name: count, dtype: int64


## 4: Comparação com Classes Originais

In [8]:
comparacao_groupby = vinhos.groupby('cluster')['classe'].value_counts()
print("\nComparação entre Clusters e Classes Originais (groupby):")
print(comparacao_groupby)

comparacao_crosstab = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print("\nComparação entre Clusters e Classes Originais (crosstab):")
print(comparacao_crosstab)


Comparação entre Clusters e Classes Originais (groupby):
cluster  classe
0        2         34
         1          2
1        3         48
         2          2
2        1         57
         2          2
3        2         33
Name: count, dtype: int64

Comparação entre Clusters e Classes Originais (crosstab):
cluster   0   1   2   3
classe                 
1         2   0  57   0
2        34   2   2  33
3         0  48   0   0
