Aprendizado Não Supervisionado - CLUSTERING / AGRUPAMENTO

Como visto na aula anterior, o K-Means é um algoritmo de aprendizado de máquina não supervisionado que agrupa dados em um número k de clusters. O número de clusters é definido pelo usuário e o algoritmo tentará agrupar os dados mesmo que esse número não seja o ideal para o caso específico. Portanto, temos que criar uma técnica que nos ajude a decidir quantos clusters devemos usar para o modelo K-Means.

Referências:

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

https://www.youtube.com/watch?v=FqIGui0rwh4 (How to Choose the Number of Clusters)

https://www.analyticsvidhya.com/blog/2021/01/in-depth-intuition-of-k-means-clustering-algorithm-in-machine-learning/

https://medium.com/pizzadedados/kmeans-e-metodo-do-cotovelo-94ded9fdf3a9

https://www.kaggle.com/code/eriveltonguedes/7-clusteriza-o-k-means-erivelton


In [None]:
# Importando os pacotes:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.cluster import KMeans
from sklearn import datasets

import warnings
warnings.filterwarnings('ignore')

Para exemplificar, utilizaremos o "lendário" dataset "IRIS".

https://en.wikipedia.org/wiki/Iris_flower_data_set

https://www.kaggle.com/datasets/arshid/iris-flower-dataset


O conjunto de dados da flor Iris é um conjunto de dados multivariados introduzido pelo estatístico e biólogo britânico Ronald Fisher em seu artigo de 1936.

 Também chamado de conjunto de dados "Iris de Anderson" pois Edgar Anderson coletou os dados para quantificar a variação morfológica das flores Iris de três espécies relacionadas.

 O conjunto de dados consiste em 50 amostras de cada uma das três espécies de Iris (Iris Setosa, Iris Virginica e Iris Versicolor).

 Foram medidas quatro características de cada amostra: o comprimento e a largura das sépalas e pétalas, em centímetros.

 Exemplo de Classificação usando o Iris Dataset, no canal Programação Dinâmica:
 https://www.youtube.com/watch?v=DeAuVrhKw58


In [None]:
# Importando a base de dados
iris = datasets.load_iris()
iris

In [None]:
type(iris)

In [None]:
df = pd.DataFrame(iris['data'])
df

In [None]:
iris['target']

**Método Elbow**

O método Elbow é uma técnica muito popular e a ideia é executar o agrupamento k-means para um intervalo de clusters k (digamos de 1 a 10) e para cada valor, estamos calculando a soma das distâncias ao quadrado de cada ponto até seu centro atribuído (distorções).

In [None]:
distorcoes = []
K = range(1,10)
for k in K:
    modelo01 = KMeans(n_clusters=k)
    modelo01.fit(df)
    distorcoes.append(modelo01.inertia_)

# Observação:
# O método "inertia_" permite calcular as distorções, ou seja,
# Soma das distâncias ao quadrado das amostras até o centro do cluster (centroides) mais próximo,
# ponderadas pelos pesos das amostras, se fornecidas

In [None]:
distorcoes

Observando a Curva de Elbow

In [None]:
plt.figure(figsize=(10,5))
plt.plot(K, distorcoes, '-bx')

# Define os labels do eixos do gráfico:
plt.xlabel('K: número de clusters')
plt.ylabel('Distorção')

# Define um título para o gráfico:
plt.title('Método Elbow aplicado para o valor otimizado de k')

# Mostra o gráfico:
plt.show()

In [None]:
kmeanModel = KMeans(n_clusters=3)
kmeanModel.fit(df)

In [None]:
# A partir do modelo treinado, fazemos as predições dos clusters e criamos uma coluna chamada "k_means"
df['k_means'] =kmeanModel.predict(df)

In [None]:
df.head()

In [None]:
# Adicionando a coluna "target" com os dados originais do dataset, para podermos comparar...
df['target'] = iris['target']

In [None]:
df.head()

In [None]:
# Comparando graficamente os dados originais e a coluna de clusters criada pelo algoritmo K-Means

fig, axes = plt.subplots(1, 2, figsize=(12,5))

axes[0].scatter(df[0], df[1], c=df['target'], cmap=plt.cm.Set1)
axes[1].scatter(df[0], df[1], c=df['k_means'], cmap=plt.cm.Set2)
axes[0].set_title('Coluna "target" original', fontsize=13)
axes[1].set_title('Clusters criados pelo algoritmo K_Means', fontsize=13)