<a href="https://colab.research.google.com/github/barbozasjulia/ml-cluster-petalas/blob/main/pratica_kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd # biblioteca de tabelas e importar dados
import numpy as np # biblioteca de cálculos matemáticos
import plotly.express as px # criação de gráficos dinâmicos
import plotly.graph_objects as go # criação e concatenação de gráficos
from sklearn.preprocessing import StandardScaler # para realizar a padronização dos dados
from sklearn.cluster import KMeans

In [None]:
# abrindo o arquivo de dados
iris = pd.read_csv('iris.csv', sep = ',') # iris: variável para atribuir a leitura do arquivo; tipo de separador ',' (vírgula)

In [None]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [None]:
iris.shape # (registros, colunas)

(150, 5)

In [None]:
# verificar quantos dados diferentes há na coluna 'species' (espécie de flores diferentes)
iris['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

# realizando agrupamento pela pétala

In [None]:
# criando a variável x_petala com as colunas petal_length (coluna 2) e petal_width (coluna 3)
# .iloc[linhas, colunas] -> seleciona linhas e colunas por números; lembrar que começa pelo 0
# [:, [2, 3]] ':' -> todos os registros da linha; [2,3] -> colunas 2 e 3; values para pegar os valores
x_petala = iris.iloc[:,[2,3]].values
#visualizar dados e limitar a 10 registros
x_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

# normalizando os dados

Como os dados estão em uma escala muito diferente, precisamos normalizar os dados colocando no mesmo padrão e na mesma escala.
Como o KMeans realiza os cálculos baseado na distância, devemos padronizar os dados a fim de que um atributo não seja considerado mais importanto do que outro.

In [None]:
normalizar_dados = StandardScaler() # 'escalador padrão'
x_petala = normalizar_dados.fit_transform(x_petala)
x_petala[:10]

array([[-1.3412724 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.39813811, -1.31297673],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.17067529, -1.05003079],
       [-1.3412724 , -1.18150376],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.2844067 , -1.4444497 ]])

# calculando o número ed cluster

Para calcular o número de cluster vamos utilizar o método do cotovelo.
WCSS é a soma da distância quadrada entre cada ponto e o centróide num cluster.

In [None]:
wcss_petala = []
for i in range(1,11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0) # executa o kmeans para todos os clusters e random_state=0 para fixar e obter os mesmos resultados
  kmeans_petala.fit(x_petala) # realiza o treinamento
  wcss_petala.append(kmeans_petala.inertia_) # adiciona na lista os valores de wcss

In [None]:
# visualizando os valores de wcss para número de cluster
for i in range(len(wcss_petala)):
  print('Cluster: ', i, ' - Valor do WCSS: ', wcss_petala[i])

Cluster:  0  - Valor do WCSS:  300.0000000000001
Cluster:  1  - Valor do WCSS:  54.14584701344988
Cluster:  2  - Valor do WCSS:  18.046983891906276
Cluster:  3  - Valor do WCSS:  12.307440251261843
Cluster:  4  - Valor do WCSS:  9.181131495513899
Cluster:  5  - Valor do WCSS:  7.215096212730807
Cluster:  6  - Valor do WCSS:  6.026593155951448
Cluster:  7  - Valor do WCSS:  5.173315218915379
Cluster:  8  - Valor do WCSS:  4.423975871969686
Cluster:  9  - Valor do WCSS:  3.9139417830543204


# criando gráfico para melhor visualização


In [None]:
grafico_cotovelo_petala = px.line(x= range(1,11), y=wcss_petala) # gráfico de linha
grafico_cotovelo_petala.show()
# 3 cluster seria suficiente

In [None]:
kmeans_petala = KMeans(n_clusters=3, random_state=0)
label_cluster_petala = kmeans_petala.fit_predict(x_petala)

In [None]:
# verifica a classificação dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [None]:
centroides_petala = kmeans_petala.cluster_centers_
centroides_petala

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

# gráfico de agrupamento das características de comprimento e largura das pétalas

In [None]:
grafico_petala = px.scatter(x = x_petala[:,0], y=x_petala[:,1], color= label_cluster_petala) # scatter = espalhar, dispersar, disseminar
grafico_centroide_petala = px.scatter(x = centroides_petala[:,0], y= centroides_petala[:,1], size = [7,7,7]) # size é o tamanho de cada centroide
grafico_final_petala = go.Figure(data = grafico_petala.data + grafico_centroide_petala.data) # concatenar os dois gráficos
grafico_final_petala.show()