<a href="https://colab.research.google.com/github/carloscesar182/ai_advanced_course/blob/main/Notebooks/MLAdvTechniques/BestCluster.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# pegar as 3 principais metricas e comparar (kmeans, dbscan e agglomerative)
# também identificar o número ideal de clusters
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler

In [None]:
# criar uma função de comparar algoritmos
def compare_algorithms(X, max_clusters): # X passa os dados, max_cluster passa os clusters. Vai de 2 até max
    results = [] # lista para armazenar os resultados que a função vai processar
    cluster_range = range(2, max_clusters +1)

    # k-means
    for n_clusters in cluster_range:
        kmeans = KMeans(n_clusters=n_clusters, random_state=0, n_init='auto')
        clusters = kmeans.fit_predict(X) # chama método fit passando os dados de X
        silhouette_avg = silhouette_score(X, clusters) # procura o silhoutte score dos dados
        results.append(('Kmeans', n_clusters, silhouette_avg)) # adiciona o resultado na lista que criamos (results)

    # agglomerative
    for n_clusters in cluster_range:
        agglomerative = AgglomerativeClustering(n_clusters=n_clusters) # chama o método
        clusters = agglomerative.fit_predict(X) # chama o fit com os mesmos dados e armazena na variável clusters
        silhouette_avg = silhouette_score(X, clusters) # armazena o silhouette score na variável silhouette_avg
        results.append(('AgglomerativeClustering', n_clusters, silhouette_avg)) # adiciona o resultado na lista results[]

    # dbscan
    # ignora a variavel n_clusters e adiciona os dados numa nova variável eps_values pq o dbscan define o num cluster automaticamente
    eps_values = np.arange(0.1, 0.9, 0.1) # np_arange vai de 0.1 a 0.9 aumentando de 1 em 1
    for eps in eps_values:
        dbscan = DBSCAN(eps=eps, min_samples=5)
        clusters = dbscan.fit_predict(X) # chama o fit passando X pra variável clusters
        # como dbscan não tem a obrigação de gerar clusters, é provável que no intervalo ele gere valor sem cluster nenhum
        if len(set(clusters)) > 1: # se comprimento maior que 1:
            silhouette_avg = silhouette_score(X, clusters)
            results.append(('DBSCAN', eps, silhouette_avg))

    return results # results pq é a variável que está acumulando os resultados das métricas

In [None]:
# carregar o dataset
iris = datasets.load_iris()
scaler = StandardScaler()
scaler_data = scaler.fit_transform(iris.data)

# chamar a função que criamos acima pra retornar uma lista com os resultados
results = compare_algorithms(scaler_data, 10)
df = pd.DataFrame(results, columns=['Agrupador', 'Clusters', 'Score'])
print(df)

In [None]:
# filtrar o índice onde a coluna score é maior
max_score_index = df['Score'].idxmax()
print(df.loc[max_score_index])