# Clusterização

## Algoritmos: K-Means e Affinity Propagation

## Métricas de performance: Silhouette Score

# -----------------------------------------------------

## K-Means

### Imports

In [None]:
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

In [None]:
x_train = pd.read_csv('../../dataset/Clusterizacao/X_dataset.csv')

In [None]:
#Busca do melhor K

# Lista de valores de K para testar
k_values = range(2, 11)  # Testar de 2 a 10 clusters
best_k_train = None
best_ss_score_train = -1

# Loop para encontrar o melhor K baseado no Silhouette Score
for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(x_train)  # Ajustar aos dados de treino
    
    # Calcular o Silhouette Score
    ss_score = silhouette_score(x_train, kmeans.labels_)
    
    # Verificar se o score é o melhor até agora
    if ss_score > best_ss_score_train:
        best_ss_score_train = ss_score
        best_k = k

# Exibir os resultados
print(f"Melhor K (dados de treino): {best_k}")
print(f"Melhor Silhouette Score (dados de treino): {best_ss_score_train}")


In [None]:
kmeans = KMeans(n_clusters=best_k, random_state=42)
cluster_labels = kmeans.fit_predict(x_train)

# Calcular silhouette score
ss_kmeans_clusters = silhouette_score(x_train, cluster_labels)

print(f"Silhouette Score: {ss_kmeans_clusters}")

## Affinity Propagation

###  Imports

In [None]:
from matplotlib import pyplot as plt
from sklearn import datasets as dt
from sklearn.cluster import AffinityPropagation

import numpy as np

In [None]:
# testing parameter
p = np.arange( -1, -61, -1 )
ss_list = []
fig = plt.figure()
ss1=-1
pref = 0

# Testando diferentes valores de 'preference'
for i in range(len(p)):
    # Definir o modelo
    model = AffinityPropagation(preference=p[i])
    
    # Treinamento do modelo
    model.fit(x_train)
    
    # Obter os rótulos de clustering
    labels = model.labels_

    # Avaliar a performance
    ss = silhouette_score(x_train, labels)
    
    # Armazenar o melhor silhouette score e o respectivo preference
    if ss > ss1:
        ss1 = ss
        pref = p[i]
        best_n_clusters = len(set(labels))

    # Armazenar o silhouette score para visualização futura
    ss_list.append(ss)


print('O melhor ss:', ss1)
print('O melhor preference:', pref)
    

In [None]:
model = AffinityPropagation(preference=-47)
model.fit( x_train )
# clustering data
labels = model.predict( x_train )

In [None]:
# Calcular silhouette score
ss_affinity_propagation_clusters = silhouette_score(x_train,labels)
print(f"Silhouette Score: {ss_affinity_propagation_clusters}")

# -----------------------------------------------------

# Tabela

In [None]:
import pandas as pd

In [None]:
#Tabela regressão sobre os dados de treinamento
dados = {
    "Algoritmo": ["K-Means","Affinity Propagation"],
    "Número de clusters": [best_k,best_n_clusters],
    "Avarege Silhouette Score": [ss_kmeans_clusters,ss_affinity_propagation_clusters]
}

# Criar o DataFrame (a tabela)
tabela = pd.DataFrame(dados)

# Exibir a tabela
print(tabela)