Aprendizado Não Supervisionado - CLUSTERING / AGRUPAMENTO

O K-Means é um algoritmo de aprendizado de máquina não supervisionado que agrupa dados em um número k de clusters. O número de clusters é definido pelo usuário e o algoritmo tentará agrupar os dados mesmo que esse número não seja o ideal para o caso específico. Portanto, temos que criar uma técnica que nos ajude a decidir quantos clusters devemos usar para o modelo K-Means.



In [None]:
# Importando os pacotes:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Importando o algoritmo K-Means:
from sklearn.cluster import KMeans

# Métrica de avaliação para modelos de clustering:
from sklearn.metrics import silhouette_score

# Vamos utilizar o dataset Iris dentro do pacote datasets do sklearn:
from sklearn import datasets

# O pacote warnings inibe a visualização de avisos nos outputs do Colab.
import warnings
warnings.filterwarnings('ignore')

Para exemplificar, utilizaremos o "lendário" dataset "IRIS".

https://en.wikipedia.org/wiki/Iris_flower_data_set

https://www.kaggle.com/datasets/arshid/iris-flower-dataset


O conjunto de dados da flor Iris é um conjunto de dados multivariados introduzido pelo estatístico e biólogo britânico Ronald Fisher em seu artigo de 1936.

 Também chamado de conjunto de dados "Iris de Anderson" pois Edgar Anderson coletou os dados para quantificar a variação morfológica das flores Iris de três espécies relacionadas.

 O conjunto de dados consiste em 50 amostras de cada uma das três espécies de Iris (Iris Setosa, Iris Virginica e Iris Versicolor).

 Foram medidas quatro características de cada amostra: o comprimento e a largura das sépalas e pétalas, em centímetros.

 Exemplo de Classificação usando o Iris Dataset, no canal Programação Dinâmica:
 https://www.youtube.com/watch?v=DeAuVrhKw58


In [None]:
# Importando a base de dados
# Criamos a variável iris para receber o conjunto de dados
iris = datasets.load_iris()

In [None]:
iris

In [None]:
type(iris)

In [None]:
# Convertendo a variável iris em um dicionário Python
iris = dict(iris)

In [None]:
iris

In [None]:
type(iris)

In [None]:
# Visualizando os atributos de entrada (features) que correspondem às dimensões das pétalas e sépalas das flores:
iris['data']

In [None]:
# Visualizando a coluna target que corresponde às classes das flores:
# Utilizaremos essa coluna no final do exercício para comparar com os clusters criados pelo algoritmo K-Means:
iris['target']

In [None]:
# Criamos o dataframe df apenas com as colunas referentes às features:
df = pd.DataFrame(iris['data'])
df

**Método Elbow**

O método Elbow é uma técnica muito popular e a ideia é executar o agrupamento k-means para um intervalo de clusters k (digamos de 1 a 10) e para cada valor, estamos calculando a soma das distâncias ao quadrado de cada ponto até seu centro atribuído (distorções).

In [None]:
distorcoes = []

K = range(1,10) # Adotando 10 clusters.
for k in K:
    modelo01 = KMeans(n_clusters=k)
    modelo01.fit(df)    # Treinamos o modelo com o algoritmo K-Means por 10 vezes
    distorcoes.append(modelo01.inertia_)

# Observação:
# O método "inertia_" permite calcular as distorções, ou seja,
# Soma das distâncias ao quadrado das amostras até o centro do cluster (centroides) mais próximo,
# ponderadas pelos pesos das amostras, se fornecidas

In [None]:
distorcoes

Observando a Curva de Elbow

In [None]:
plt.figure(figsize=(10,5))
plt.plot(K, distorcoes, '-bx')

# Define os labels do eixos do gráfico:
plt.xlabel('K: número de clusters')
plt.ylabel('Distorção')

# Define um título para o gráfico:
plt.title('Método Elbow aplicado para o valor otimizado de k')

# Mostra o gráfico:
plt.show()

In [None]:
# O número de clusters (grupos) foi adotado com base na curva acima.
modelo_KMeans = KMeans(n_clusters=3)
modelo_KMeans.fit(df)

In [None]:
# A partir do modelo treinado, fazemos as predições dos clusters e criamos uma coluna chamada "k_means"
df['clusters'] = modelo_KMeans.predict(df)

In [None]:
df

In [None]:
# Adicionando a coluna "target" com os dados originais do dataset, para podermos comparar...
df['target'] = iris['target']

In [None]:
df.head()

In [None]:
# Comparando graficamente os dados originais e a coluna de clusters criada pelo algoritmo K-Means
fig, axes = plt.subplots(1, 2, figsize=(12,5))

axes[0].scatter(df[0], df[1], c=df['target'], cmap=plt.cm.Set1)
axes[1].scatter(df[0], df[1], c=df['clusters'], cmap=plt.cm.Set2)
axes[0].set_title('Coluna "target" original', fontsize=13)
axes[1].set_title('Clusters criados pelo algoritmo K_Means', fontsize=13)

Avaliação do modelo de Clustering

Silhouette Score é uma ferramenta para avaliar a adequação dos resultados de agrupamento, fornecendo uma medida quantitativa de quão bem definidos e distintos são os agrupamentos.

Fontes de pesquisa:

https://www.educative.io/answers/what-is-silhouette-score

https://en.wikipedia.org/wiki/Silhouette_(clustering)



In [None]:
silhouette = silhouette_score(df, df['clusters'])
print(f"Silhouette score: {silhouette:.4f}")

**DESAFIO:**

Utilizando o dataset "Mall Customers", disponível em https://www.kaggle.com/datasets/kandij/mall-customers, agrupar os clientes com base nas características de receita anual (Annual Income (k$)) e pontuação de gastos (Spending Score).

- Determine o valor ideal de k, com base no método Elbow.
- Treine o modelo usando o algoritmo K-Means e avalie a qualidade dos clusters, utilizando a métrica Silhoutte Score.

Referências:

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

https://www.youtube.com/watch?v=FqIGui0rwh4 (How to Choose the Number of Clusters)

https://www.analyticsvidhya.com/blog/2021/01/in-depth-intuition-of-k-means-clustering-algorithm-in-machine-learning/

https://medium.com/pizzadedados/kmeans-e-metodo-do-cotovelo-94ded9fdf3a9

https://www.kaggle.com/code/eriveltonguedes/7-clusteriza-o-k-means-erivelton
