# Agrupamento com K-Means no Dataset de Vinhos
Este notebook implementa o algoritmo **K-Means** para agrupar o conjunto de dados de vinhos em **4 clusters**. A seguir, comparamos os clusters gerados pelo modelo com as classes originais presentes no conjunto de dados.

### Objetivos:
1. Reescalar os dados para o intervalo (0, 1) utilizando MinMaxScaler.
2. Agrupar os dados em 4 clusters usando o algoritmo K-Means.
3. Analisar a distribuição dos clusters e compará-los com as classes originais.


In [1]:
#Importação das bibliotecas

import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans


In [2]:
#Carregamento e pré-processamento de dados

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Nome das colunas em português BR
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Carregar os dados
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separar a variável target 'classe' e as features
X = vinhos.drop('classe', axis=1)

# Normalização dos dados
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)


In [4]:
# Aplicação do K-Means
kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(X_scaled)

# Exibição do valor da inércia
print(f"Inércia do modelo K-Means: {kmeans.inertia_}")


Inércia do modelo K-Means: 44.887604580852816


In [5]:
#Análise dos clusters

# Contagem dos clusters
print("Contagem de dados por cluster:")
print(vinhos['cluster'].value_counts())


Contagem de dados por cluster:
cluster
2    59
1    50
0    36
3    33
Name: count, dtype: int64


In [6]:
#Comparação com classes originais

# Comparação dos clusters com as classes originais
# Usando groupby()
comparacao_groupby = vinhos.groupby('cluster')['classe'].value_counts()
print("\nComparação usando groupby():")
print(comparacao_groupby)

# Usando pd.crosstab
comparacao_crosstab = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print("\nComparação usando crosstab:")
print(comparacao_crosstab)



Comparação usando groupby():
cluster  classe
0        2         34
         1          2
1        3         48
         2          2
2        1         57
         2          2
3        2         33
Name: count, dtype: int64

Comparação usando crosstab:
cluster   0   1   2   3
classe                 
1         2   0  57   0
2        34   2   2  33
3         0  48   0   0
