In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans

# URL do dataset que será utilizado
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'

# Definição dos nomes das colunas em português
column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]

# Carregamento do dataset com as colunas nomeadas e definição do tipo para a coluna 'classe'
vinhos = pd.read_csv(url, names=column_names_pt_br, dtype={'classe': object})

# Separação da variável 'classe' para deixar apenas as características numéricas
X = vinhos.drop('classe', axis=1)

# Normalização dos dados para o intervalo entre 0 e 1
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Configuração e execução do algoritmo K-Means
# O modelo é ajustado para identificar 4 clusters nos dados normalizados
kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(X_scaled)

# Exibição da inércia, que indica a soma das distâncias internas nos clusters
print(f'Inércia do modelo K-Means: {kmeans.inertia_}')

# Exibição da distribuição de amostras por cluster
print("Distribuição dos clusters:")
print(vinhos['cluster'].value_counts())

# Análise da correspondência entre clusters e classes originais
# Usando groupby para verificar a distribuição das classes dentro de cada cluster
comparacao_groupby = vinhos.groupby('cluster')['classe'].value_counts()
print("\nDistribuição das classes dentro de cada cluster (usando groupby):")
print(comparacao_groupby)

# Usando crosstab para criar uma tabela cruzada entre clusters e classes originais
comparacao_crosstab = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print("\nRelação entre classes originais e clusters (usando crosstab):")
print(comparacao_crosstab)

# Exibir novamente os resultados do groupby, que mostra a contagem de classes por cluster
print("\nContagem de classes por cluster (usando groupby):")
print(comparacao_groupby)

# Mostrar novamente a tabela cruzada com a relação entre clusters e classes originais
print("\nTabela cruzada entre classes e clusters:")
print(comparacao_crosstab)
