<a href="https://colab.research.google.com/github/EngRenan/Kmeans/blob/main/Kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Pratica de Kmeans a partir de identificação de petalas e sepalas de flores. Conceitos aplicados de Kmeans, centroides, cluster, etc

# Bibliotecas necessárias

In [2]:
# Importando bibliotecas
import pandas as pd
import numpy as np
import plotly.express as px # Usado para criar gráficos dinamicos
import plotly.graph_objects as go # Para criação e concatenização de graficos
from sklearn.preprocessing import StandardScaler # Para realizar pradronização dos dados
from sklearn.cluster import KMeans


In [6]:
# Abrindo arquivo
base_iris = pd.read_csv('base_iris.csv', sep=';')

# Mostrando tabela
base_iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [8]:
# Tamanho arquivo
base_iris.shape

(150, 5)

In [9]:
# Verificando classe das flores
base_iris['Class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

# Realizando agrupamento pela Pétala

In [10]:
# Criando variavel x com as colunas petal lenght petal width
x_petala = base_iris.iloc[:,[2,3]].values
x_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

# Normalizando os dados

Como os dados estão em escala diferente, será necessário normalizar os dados colocando no mesmo padrão e na mesma escala. Como o Kmeans realiza o calculo baseado na distancia, necessita padronizar os dados afim de que um atributo nao seja considerado mais importanque que outro. 

In [11]:
normalizar_dados = StandardScaler()
x_petala = normalizar_dados.fit_transform(x_petala)
x_petala[:10]

array([[-1.3412724 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.39813811, -1.31297673],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.17067529, -1.05003079],
       [-1.3412724 , -1.18150376],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.2844067 , -1.4444497 ]])

# Calculando numero de Cluster

Para calcular o numero de cluster, será necessário utilizar o "metodo do cotovelo"

WCSS é a soma da distancia quandrada entre cada ponto e o centroide em um cluster

In [12]:
wcss_petala = [] # Cria uma lista vazia
for i in range(1,11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0) # Excecuta o kmeans para todos os clusters e random_state =0 para fixar e obter os mesmos resultados
  kmeans_petala.fit(x_petala) # Realiza o treinamento
  wcss_petala.append(kmeans_petala.inertia_) # Adiciona na lista os valores de wcss

In [13]:
# Visualizando os valores de wcss
for i in range(len(wcss_petala)):
  print('Cluster:', i, '-valor do wcss:', wcss_petala[i] )

Cluster: 0 -valor do wcss: 300.0000000000001
Cluster: 1 -valor do wcss: 54.14584701344988
Cluster: 2 -valor do wcss: 18.046983891906276
Cluster: 3 -valor do wcss: 12.307440251261843
Cluster: 4 -valor do wcss: 9.181131495513899
Cluster: 5 -valor do wcss: 7.215096212730807
Cluster: 6 -valor do wcss: 6.026593155951448
Cluster: 7 -valor do wcss: 5.173315218915379
Cluster: 8 -valor do wcss: 4.423975871969686
Cluster: 9 -valor do wcss: 3.9139417830543204


# Criando gráfico para visualização

In [14]:
grafico_cotovelo_petala = px.line(x=range(1,11), y=wcss_petala)
grafico_cotovelo_petala.show()

In [15]:
kmeans_petala = KMeans(n_clusters=3, random_state=0)
label_cluster_petala = kmeans_petala.fit_predict(x_petala)

In [16]:
# Verifica a classificação dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [17]:
centroide_petala = kmeans_petala.cluster_centers_
centroide_petala

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

# Gráfico de agrupamento das caracteristicas do tamanho do comprimento das petalas

In [20]:
grafico_petala = px.scatter(x=x_petala[:,0],
                            y=x_petala[:,1],
                            color = label_cluster_petala)

grafico_centroide_petala = px.scatter(x = centroide_petala[:,0],
                                      y = centroide_petala[:,1],
                                      size = [7,7,7])

grafico_final_petala = go.Figure(data = grafico_petala.data + grafico_centroide_petala.data)
grafico_final_petala.show()

# Realizando agrupamento com dados da sépala

In [21]:
# Realizando agrupamento sepala
x_sepala = base_iris.iloc[:,[0,1]].values
x_sepala[:10]

array([[5.1, 3.5],
       [4.9, 3. ],
       [4.7, 3.2],
       [4.6, 3.1],
       [5. , 3.6],
       [5.4, 3.9],
       [4.6, 3.4],
       [5. , 3.4],
       [4.4, 2.9],
       [4.9, 3.1]])

In [22]:
# Calcular o wcss
wcss_sepala = [] # Criando lista vazia
for i in range(1,11):
  kmeans_sepala = KMeans(n_clusters=i, random_state=0) # Executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados. 
  kmeans_sepala.fit(x_sepala) # Realiza o treinamento
  wcss_sepala.append(kmeans_sepala.inertia_) # Adiciona na lista os valores de wcss

In [24]:
# Visualizando os valores de wcss
for i in range(len(wcss_sepala)):
  print('Cluster:', i , '- valor do wcss', wcss_sepala[i] )

Cluster: 0 - valor do wcss 130.18093333333337
Cluster: 1 - valor do wcss 57.98240604207879
Cluster: 2 - valor do wcss 37.12370212765957
Cluster: 3 - valor do wcss 27.98254281735862
Cluster: 4 - valor do wcss 20.971913367009606
Cluster: 5 - valor do wcss 17.238695238095236
Cluster: 6 - valor do wcss 14.631909607059608
Cluster: 7 - valor do wcss 12.911711915446565
Cluster: 8 - valor do wcss 11.059663725936947
Cluster: 9 - valor do wcss 9.449454365079365


In [25]:
#Visualizando grafico 
grafico_cotovelo = px.line(x = range(1,11),
                           y = wcss_sepala)

grafico_cotovelo.show()

In [27]:
# Executando o algoritmo K-means
kmeans_sepala = KMeans(n_clusters=3, random_state=0)
label_cluster_sepala = kmeans_sepala.fit_predict(x_sepala)

# Verifica a classificação dos clusters
label_cluster_sepala

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 2, 2, 2, 0, 2, 0, 2, 0, 2, 0, 0, 0, 0, 0, 0, 2,
       0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2,
       2, 0, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int32)

In [28]:
centroides_sepala = kmeans_sepala.cluster_centers_
centroides_sepala

array([[5.77358491, 2.69245283],
       [5.006     , 3.418     ],
       [6.81276596, 3.07446809]])

# Gráfico de agrupamento das caracteristicas do tamanho e comprimento das sepalas

In [29]:
grafico = px.scatter(x=x_sepala[:,0],
                            y=x_sepala[:,1],
                            color = label_cluster_sepala)

grafico_centroide = px.scatter(x = centroides_sepala[:,0],
                                      y = centroides_sepala[:,1],
                                      size = [7,7,7])

grafico_final = go.Figure(data = grafico.data + grafico_centroide.data)
grafico_final.show()