In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# URL do dataset Wine
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data'


column_names_pt_br = [
    'classe',
    'alcool',
    'acido_malico',
    'cinzas',
    'alcalinidade_de_cinzas',
    'magnesio',
    'fenois_totais',
    'flavanoides',
    'fenois_nao_flavanoides',
    'proantocianinas',
    'intensidade_de_cor',
    'matiz',
    'od280_od315_de_vinhos_diluidos',
    'prolina'
]


vinhos = pd.read_csv(url, names=column_names_pt_br)

vinhos.head()

# 2. Normalização dos Dados (Reescala para o intervalo [0, 1])
X = vinhos.drop('classe', axis=1)

scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

pd.DataFrame(X_scaled, columns=X.columns).head()

kmeans = KMeans(n_clusters=4, random_state=42)
vinhos['cluster'] = kmeans.fit_predict(X_scaled)

print(f'Inércia do modelo K-Means: {kmeans.inertia_}')

# 4. Análise dos Clusters
print(vinhos['cluster'].value_counts())

# 5. Comparação com as Classes Originais
comparacao = vinhos.groupby('cluster')['classe'].value_counts()
print(comparacao)

comparacao_crosstab = pd.crosstab(vinhos['classe'], vinhos['cluster'])
print(comparacao_crosstab)

# 6. Análise Visual dos Clusters (opcional, mas recomendado)
# Redução de dimensionalidade com PCA para 2 componentes principais
# pca = PCA(n_components=2)
# X_pca = pca.fit_transform(X_scaled)

# plt.figure(figsize=(8, 6))
# plt.scatter(X_pca[:, 0], X_pca[:, 1], c=vinhos['cluster'], cmap='viridis', s=50)
# plt.title('Visualização dos Clusters com PCA')
# plt.xlabel('Primeira Componente Principal')
# plt.ylabel('Segunda Componente Principal')
# plt.colorbar(label='Cluster')
# plt.show()


ModuleNotFoundError: No module named 'pandas'