# Clusterização


---

Agrupamento de grupos com base em semelhanças encontradas.

## Implementando o algoritmo de K-means



*   Carregar o dataset de iris;
*   Analisar os dados coletados;
*   Realizar o tratamento de dados;
*   Aplicar modelo ML de K-means;
*   Visualizar os resultados obtidos.



### Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

### Verificando versões das bibliotecas

In [None]:
import sklearn
import plotly

print(f''' Verificando as versões das bibliotecas:\n
pandas: {pd.__version__}
numpy: {np.__version__}
sklearn: {sklearn.__version__}
plotly: {plotly.__version__}

''')

 Verificando as versões das bibliotecas:

pandas: 1.3.5
numpy: 1.21.6
sklearn: 1.0.2
plotly: 5.5.0




### Coletando dados

In [None]:
iris = pd.read_csv('/content/iris.csv', sep=';')

### Analisando os dados coletados

In [None]:
# Visualizando arquivos da base de dados
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# Gerando algumas estatísticas da base de dados
iris.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [None]:
# Número de classes existentes no dataframe
iris['Class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

In [None]:
# Contando número de classes
len(iris['Class'].unique())

3

In [None]:
# Avaliando número de linhas e colunas do dataset
iris.shape

(150, 5)

In [None]:
# Verificando se existe valor nulo ou ausente
iris.isna().sum()

sepal length    0
sepal width     0
petal length    0
petal width     0
Class           0
dtype: int64

In [None]:
# Verificando informações da base de dados
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal length  150 non-null    float64
 1   sepal width   150 non-null    float64
 2   petal length  150 non-null    float64
 3   petal width   150 non-null    float64
 4   Class         150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


## Criando clusters com os dados das pétalas

### Coletando dados das pétalas

In [None]:
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# Criando variável X com as colunas petal lenght petal width
X_petala = iris.iloc[:, [2, 3]].values
X_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

## Normalizando os dados

In [None]:
iris.describe()

Unnamed: 0,sepal length,sepal width,petal length,petal width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [None]:
normalizar_dados = StandardScaler()
X_petala = normalizar_dados.fit_transform(X_petala)
X_petala[:10]

array([[-1.3412724 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.39813811, -1.31297673],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.17067529, -1.05003079],
       [-1.3412724 , -1.18150376],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.2844067 , -1.4444497 ]])

## Calculando o número de cluster

In [None]:
wcss_petala = []
for i in range(1, 11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0)
  kmeans_petala.fit(X_petala)
  wcss_petala.append(kmeans_petala.inertia_)

In [None]:
# Visualizando os valores de wcss
for i in range(len(wcss_petala)):
  print('Cluster:', i , '- valor do WCSS: ', wcss_petala[i])

Cluster: 0 - valor do WCSS:  300.0000000000001
Cluster: 1 - valor do WCSS:  54.14584701344988
Cluster: 2 - valor do WCSS:  18.046983891906276
Cluster: 3 - valor do WCSS:  12.307440251261843
Cluster: 4 - valor do WCSS:  9.181131495513899
Cluster: 5 - valor do WCSS:  7.215096212730807
Cluster: 6 - valor do WCSS:  6.026593155951448
Cluster: 7 - valor do WCSS:  5.173315218915379
Cluster: 8 - valor do WCSS:  4.423975871969686
Cluster: 9 - valor do WCSS:  3.9139417830543204


### Definindo o melhor número de clusters para as pétalas

In [None]:
grafico_cotovelo_petala = px.line(x=range(1, 11), y=wcss_petala)
grafico_cotovelo_petala.update_xaxes(title_text='Número de Clusters')
grafico_cotovelo_petala.update_yaxes(title_text='Valor de WCSS')
grafico_cotovelo_petala.update_layout(title_text='Definindo o Número de Clusters', title_x=0.5)
grafico_cotovelo_petala.show()

### Executando o algoritmo K-means para as pétalas

In [None]:
kmeans_petala = KMeans(n_clusters=3, random_state=0)
label_cluster_petala = kmeans_petala.fit_predict(X_petala)

In [None]:
# Verifica a classificação dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

### Verificando o centroide de cada cluster

In [None]:
centroides_petala = kmeans_petala.cluster_centers_
centroides_petala

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

### Visualizando dados agrupados com dados das pétalas

In [None]:
grafico_petala = px.scatter(x = X_petala[:, 0], y=X_petala[:, 1], color = label_cluster_petala)
grafico_centroide_petala = px.scatter(x = centroides_petala[:, 0], y=centroides_petala[:, 1], size=[7, 7, 7])
grafico_final = go.Figure(data=grafico_petala.data + grafico_centroide_petala.data)
grafico_final.update_xaxes(title_text='Comprimento')
grafico_final.update_yaxes(title_text='Largura')
grafico_final.update_layout(title_text='Clusters', title_x=0.5)
grafico_final.show()

In [None]:
centroides_petala

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

### Criando clusters com os dados das sépalas

#### Coletando dados das sépalas

In [None]:
iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# Realizando o agrupamento sépala
X_sepala = iris.iloc[:, [0,1]].values
X_sepala = normalizar_dados.fit_transform(X_sepala)
X_sepala[:5]

array([[-0.90068117,  1.03205722],
       [-1.14301691, -0.1249576 ],
       [-1.38535265,  0.33784833],
       [-1.50652052,  0.10644536],
       [-1.02184904,  1.26346019]])

### Calculando valor do wcss 

In [None]:
wcss_sepala = []
for i in range(1, 11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0)
  kmeans_petala.fit(X_sepala)
  wcss_sepala.append(kmeans_petala.inertia_)

In [None]:
# Visualizando os valores de wcss
grafico_cotovelo_sepala = px.line(x=range(1, 11), y=wcss_sepala)
grafico_cotovelo_sepala.update_xaxes(title_text='Número de Clusters')
grafico_cotovelo_sepala.update_yaxes(title_text='Valor de WCSS')
grafico_cotovelo_sepala.update_layout(title_text='Definindo o Número de Clusters', title_x=0.5)
grafico_cotovelo_sepala.show()

### Definindo melhor número de clusters das sépalas

In [None]:
kmeans_sepalas = KMeans(n_clusters=3, random_state=0)
label_cluster_sepalas = kmeans_sepalas.fit_predict(X_sepala)

### Executando o algoritmo K-means para as sépalas

In [None]:
label_cluster_sepalas

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 2, 2, 2, 0, 2, 0, 2, 0, 2, 0, 0, 0, 0, 0, 0, 2,
       0, 0, 0, 0, 2, 0, 0, 0, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 0, 2, 2, 0, 2, 0, 2,
       2, 0, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 0, 2, 2, 2,
       0, 0, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int32)

In [None]:
# Verifica a classificação dos clusters


### Visualizando dados agrupados com dados das sépalas

In [None]:
centroides_sepala = kmeans_sepalas.cluster_centers_
centroides_sepala

array([[-0.04825457, -0.89224112],
       [-0.97822861,  0.89321545],
       [ 1.20144049,  0.14411561]])

In [None]:
# Visualização centroides
centroides_sepala

array([[-0.04825457, -0.89224112],
       [-0.97822861,  0.89321545],
       [ 1.20144049,  0.14411561]])

In [None]:
grafico_sepala = px.scatter(x = X_sepala[:, 0], y=X_sepala[:, 1], color = label_cluster_sepalas)
grafico_centroide_sepala = px.scatter(x = centroides_sepala[:, 0], y=centroides_sepala[:, 1], size=[7, 7, 7])
grafico_final = go.Figure(data=grafico_sepala.data + grafico_centroide_sepala.data)
grafico_final.update_xaxes(title_text='Comprimento')
grafico_final.update_yaxes(title_text='Largura')
grafico_final.update_layout(title_text='Clusters', title_x=0.5)
grafico_final.show()

## Criando função para visualização de dados

In [None]:
def gera_grafico(X, y, color, X_centroide, Y_centroide):

  grafico = px.scatter(x = X,
                       y = y,
                       color = color)
  grafico_centroide = px.scatter(x = X_centroide,
                                 y = Y_centroide,
                                 size=[7, 7, 7])
  grafico_final = go.Figure(data=grafico.data + grafico_centroide.data)
  grafico_final.update_xaxes(title_text='Comprimento')
  grafico_final.update_yaxes(title_text='Largura')
  grafico_final.update_layout(title_text='Clusters', title_x=0.5)
  grafico_final.show()

### Executando a função para as pétalas


In [None]:
gera_grafico(
  X_petala[:, 0],
  X_petala[:, 1],
  label_cluster_petala,
  centroides_petala[:, 0],
  centroides_petala[:, 1])

### Executando a função para as sépalas

In [None]:
X = X_sepala[:, 0]
y = X_sepala[:, 1]
color = label_cluster_sepalas
X_centroide = centroides_sepala[:, 0]
Y_centroide = centroides_sepala[:, 1]

gera_grafico(X, y, color, X_centroide, Y_centroide)