In [None]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.compose import ColumnTransformer
import matplotlib.pyplot as plt

# Carregar dados do CSV
data = pd.read_csv('seu_arquivo.csv')

# Pré-processamento, se necessário (por exemplo, normalização)

# Lista das colunas a serem normalizadas com o StandardScaler (colunas 1 a 4)
numeric_columns = ['Feature1', 'Feature2', 'Feature3', 'Feature4']

# Lista das colunas a serem codificadas com o LabelEncoder (colunas 5, 7, 8, 9 e 10)
categorical_columns = ['Feature5', 'Feature7', 'Feature8', 'Feature9', 'Feature10']

# Criar um ColumnTransformer para aplicar o StandardScaler nas colunas numéricas e o LabelEncoder nas colunas categóricas
ct = ColumnTransformer(
    [
        ('standard_scaler', StandardScaler(), numeric_columns),  # Aplicar o StandardScaler nas colunas numéricas
        ('label_encoder', LabelEncoder(), categorical_columns)  # Aplicar o LabelEncoder nas colunas categóricas
    ],
    remainder='passthrough'  # Passar as colunas não modificadas
)

# Aplicar a transformação aos dados
data_transformed = ct.fit_transform(data)

# Converter a matriz resultante de volta em um DataFrame, se necessário
data_transformed_df = pd.DataFrame(data_transformed, columns=data.columns)

# Agora você tem os dados transformados com o StandardScaler aplicado nas colunas numéricas e o LabelEncoder aplicado nas colunas categóricas especificadas

# Escolher o número de clusters (K) usando o método Lloyd
silhouette = []
inertia = []
range_n_clusters = [2,3,4,5,6,7,8,9,10,11,12,13,14,15,16]
for n_clusters in range_n_clusters:
    kmeans = KMeans(n_clusters=n_clusters)
    kmeans.fit(data_transformed)
    inertia.append(kmeans.inertia_)
    silhouette.append(silhouette_score(data_transformed,kmeans.predict(data_transformed)))

# Plotar o gráfico do método Lloyd

fig, ax1 = plt.subplots()

color = 'tab:red'
ax1.set_xlabel('Number of clusters')
ax1.set_ylabel('Inertia', color=color)
ax1.plot(range(2, 17), inertia, marker='o', color=color)
ax1.tick_params(axis='y', labelcolor=color)    

ax2 = ax1.twinx()  
color = 'tab:blue'
ax2.set_ylabel('Silhouette Score', color=color)  
ax2.plot(range(2, 17), silhouette, marker='x', color=color)
ax2.tick_params(axis='y', labelcolor=color)

fig.tight_layout()  
plt.title('Inertia and Silhouette Score Comparison')
plt.show()

In [None]:
from sklearn.decomposition import PCA
from mpl_toolkits.mplot3d import Axes3D

# Com base no gráfico, escolha o número ideal de clusters e execute K-Means
k = 4  # Por exemplo, digamos que o número ideal de clusters seja 3
kmeans = KMeans(n_clusters=k)
clusters = kmeans.fit_predict(data_transformed)

# Adicione os rótulos de cluster de volta ao DataFrame original
data['Cluster'] = clusters

# Se desejar, você pode salvar os resultados em um novo arquivo CSV
data.to_csv('resultados.csv', index=False)

#PCA
pca = PCA(n_components=3)
data_pca = pca.fit_transform(data_transformed)

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')

# Extrair os componentes principais (PC1, PC2, PC3) dos dados reduzidos
PC1 = data_pca[:, 0]
PC2 = data_pca[:, 1]
PC3 = data_pca[:, 2]

# Plotar os dados nos eixos principais
ax.scatter(PC1, PC2, PC3)

# Configurar os rótulos dos eixos
ax.set_xlabel('PC1')
ax.set_ylabel('PC2')
ax.set_zlabel('PC3')

plt.title('PCA Plot')
plt.show()