<a href="https://colab.research.google.com/github/celiosantana/simpleKMeansClusters/blob/main/Clusteriza%C3%A7%C3%A3o_de_dados_utilizando_o_Kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Clusteriação Utilizando o K-Means

Para tal será analisada a base de dados de Flores Iris que contem 4 características de flores utilizado pelo estatístico e biólogo Ronald Fisher em 1936 no paper The use of multiple measurements in taxonomic problems. Os dados foram uitlizados para fazer uma análise de dados multi-variados.

##Importando as Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as po
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

##Verificando as versões das bibliotecas usadas



In [2]:
import sklearn as sk
import plotly as ptl

print(f''' Verificando versões das Bibliotecas: \n 
pandas: {pd.__version__}
numpy: {np.__version__}
sklearn: {sk.__version__}
plotly: {ptl.__version__}
''')

 Verificando versões das Bibliotecas: 
 
pandas: 1.5.3
numpy: 1.22.4
sklearn: 1.2.2
plotly: 5.13.1



## Importando os dados

In [3]:
iris = pd.read_csv('/content/iris.csv', sep=',')
iris.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### Analizando os Dados


In [9]:
iris.describe() #Estatistica Gerais dos Dados

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal.length  150 non-null    float64
 1   sepal.width   150 non-null    float64
 2   petal.length  150 non-null    float64
 3   petal.width   150 non-null    float64
 4   variety       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [6]:
iris['variety'].unique() #Indicando quais são as variedades de flores

array(['Setosa', 'Versicolor', 'Virginica'], dtype=object)

In [7]:
len(iris['variety'].unique()) #indicando quantas variedades são

3

In [8]:
iris.shape #Indica a quantidade de linhas e colunas da tabela

(150, 5)

In [10]:
iris.isna().sum() #Verificar quantos valores são em branco nulos

sepal.length    0
sepal.width     0
petal.length    0
petal.width     0
variety         0
dtype: int64

##Criando os dados das petalas (colunas 3 e 4)

In [5]:
xPetalas = iris.iloc[:,[2,3]].values
xPetalas[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

##Normalizando os dados

Aqui vamos usar o ZScore para a normalização

   Z = x - media(X)/desvio padrão(X)

In [15]:
'''Normalizar os dados nos auxilia a ter um distribuição mais regular dos dados 
trazendo-os para uma escala comum.
  Para este exemplo vamos usar o padrão Zscore onde:

    Z = (x-Media(x))/desvioPadrão(x)

  O npvp valor de cada coluna das petalas (temos 2 aqui) será

  (O valor dele antigo-Média da coluna)/DesvioPadrão(Coluna) 

  Para este caso não era necessário normalizar, mas pode ser que existam dados
  mais discrepantes que precisem normalizar
'''

normalizarDados = StandardScaler() #Vamos usar o StandardScalerm da biblioteca sklearn
xPetalasNormalizado = normalizarDados.fit_transform(xPetalas) #Dados Normalizados
xPetalasNormalizado[:10] 

array([[-1.34022653, -1.3154443 ],
       [-1.34022653, -1.3154443 ],
       [-1.39706395, -1.3154443 ],
       [-1.2833891 , -1.3154443 ],
       [-1.34022653, -1.3154443 ],
       [-1.16971425, -1.05217993],
       [-1.34022653, -1.18381211],
       [-1.2833891 , -1.3154443 ],
       [-1.34022653, -1.3154443 ],
       [-1.2833891 , -1.44707648]])

## Calculando o número de Clusters

Verificar o WCSS do dos dados

In [22]:
wcssPetalas = []

''' Abaixo iremos verificar os valores de WCSS considerando de 1 até 10 
(for 1 até 10) cluster. Neste caso, sabemos que existem apenas 3 variedades de 
flores, mas suponhamos que não sabemos disso. Agora, eu vou calcular o WCSS com
estes valores e verificar onde fica a melhor posição no "cotovelo" do gráfico
'''

for i in range (1,11):
  kmeansPetala = KMeans(n_clusters=i, random_state=0) #teremos sempre os mesmos parâmetros evitando variabilidade
  kmeansPetala.fit(xPetalasNormalizado)
  wcssPetalas.append(kmeansPetala.inertia_)  #inertia é o valor do WCSS esperado



In [23]:
#Visualizando os valores do WCSS

for i in range(len(wcssPetalas)):
  print('Cluster', i, 'Valor do WCSS: ', wcssPetalas[i])

Cluster 0 Valor do WCSS:  300.0
Cluster 1 Valor do WCSS:  54.16878133149558
Cluster 2 Valor do WCSS:  18.02696261254407
Cluster 3 Valor do WCSS:  12.283372197379123
Cluster 4 Valor do WCSS:  9.152134379409805
Cluster 5 Valor do WCSS:  7.187603589633753
Cluster 6 Valor do WCSS:  5.994729609966573
Cluster 7 Valor do WCSS:  5.144963679454987
Cluster 8 Valor do WCSS:  4.402436506349908
Cluster 9 Valor do WCSS:  3.8964398329646883


## Definindo melhor valor de WCSS

In [31]:
graficoCotoveloPetalas = px.line(x=range(1,11),y=wcssPetalas)
graficoCotoveloPetalas.update_xaxes(title_text = 'Numero de Clusters')
graficoCotoveloPetalas.update_yaxes(title_text = 'valor do WCSS')
graficoCotoveloPetalas.update_layout(title_text = 'Gráfico de cotovelo do Cluster das Pétalas', title_x =0.5)
graficoCotoveloPetalas.show() #Pelo gráfico o WCSS indica que o ideal é criar 3 clusters

##Executando o algoritmo de KMeans

In [39]:
kmeansPetalaFinal = KMeans(n_clusters=3, random_state=0) #Fazendo o Kmeans com 3 Clusters
labelClustersPetala = kmeansPetalaFinal.fit_predict(xPetalasNormalizado)





In [40]:
#Verificando a lista de clusters
labelClustersPetala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

##Visualizar os Centroides das Petalas

In [37]:
centroidesPetalas = kmeansPetalaFinal.cluster_centers_ #Identificando os centroides
centroidesPetalas

array([[-1.30498732, -1.25489349],
       [ 1.02799959,  1.12797813],
       [ 0.3058728 ,  0.16541778]])

###Visualizando os dados

In [47]:
#Criando o gráfico geral com os pontos
graficoPetala = px.scatter(x = xPetalasNormalizado[:,0], y= xPetalasNormalizado[:,1], color = labelClustersPetala)

#Criando um novo gráfico contendo os centroides em destaque
graficoCentroidePetala = px.scatter(x = centroidesPetalas[:,0], y = centroidesPetalas[:,1], size=[7,7,7])

#Juntando os dous gráficos
graficoFinal = po.Figure(data = graficoPetala.data + graficoCentroidePetala.data)

#Colocando os Rótulos
graficoFinal.update_xaxes(title_text = 'Comprimento Petala')
graficoFinal.update_yaxes(title_text = 'Largura Petala')
graficoFinal.update_layout(title_text = 'Clusters', title_x =0.5)

#Mostrando os Gráficos
graficoFinal.show()

In [46]:
centroidesPetalas

array([[-1.30498732, -1.25489349],
       [ 1.02799959,  1.12797813],
       [ 0.3058728 ,  0.16541778]])

#Tratando dados das Sépalas

##Criando os Dados

In [48]:
xSepalas = iris.iloc[:,[0,1]].values
xSepalasNormalizada = normalizarDados.fit_transform(xSepalas)
xSepalasNormalizada

array([[-0.90068117,  1.01900435],
       [-1.14301691, -0.13197948],
       [-1.38535265,  0.32841405],
       [-1.50652052,  0.09821729],
       [-1.02184904,  1.24920112],
       [-0.53717756,  1.93979142],
       [-1.50652052,  0.78880759],
       [-1.02184904,  0.78880759],
       [-1.74885626, -0.36217625],
       [-1.14301691,  0.09821729],
       [-0.53717756,  1.47939788],
       [-1.26418478,  0.78880759],
       [-1.26418478, -0.13197948],
       [-1.87002413, -0.13197948],
       [-0.05250608,  2.16998818],
       [-0.17367395,  3.09077525],
       [-0.53717756,  1.93979142],
       [-0.90068117,  1.01900435],
       [-0.17367395,  1.70959465],
       [-0.90068117,  1.70959465],
       [-0.53717756,  0.78880759],
       [-0.90068117,  1.47939788],
       [-1.50652052,  1.24920112],
       [-0.90068117,  0.55861082],
       [-1.26418478,  0.78880759],
       [-1.02184904, -0.13197948],
       [-1.02184904,  0.78880759],
       [-0.7795133 ,  1.01900435],
       [-0.7795133 ,

## Calculando o WCSS

In [49]:
wcssSepalas = []

# Abaixo irmos verificar os valores de WCSS considerando de 1 até 10 (for 1 até 10) cluster;
# Neste caso, sabemos que existem apenas 3 variedades de flores, mas suponhamos que não sabemos disso
# Agora, eu vou calcular o WCSS com estes valores e verificar onde fica a melhor posição no "cotovelo" do gráfico

for i in range (1,11):
  kmeansSepala = KMeans(n_clusters=i, random_state=0) #teremos sempre os mesmos parâmetros evitando variabilidade
  kmeansSepala.fit(xSepalasNormalizada)
  wcssSepalas.append(kmeansSepala.inertia_)  #inertia é o valor do WCSS esperado























## Visualizando os Dados do WCSS das Sepalas

In [51]:
#Visualizando Dados das Sepalas

graficoCotoveloSepala = px.line(x=range(1,11),y=wcssSepalas)
graficoCotoveloSepala.update_xaxes(title_text = 'Numero de Clusters')
graficoCotoveloSepala.update_yaxes(title_text = 'valor do WCSS')
graficoCotoveloSepala.update_layout(title_text = 'Gráfico de cotovelo do Cluster das Sépalas', title_x =0.5)
graficoCotoveloSepala.show() #Pelo gráfico o WCSS indica que o ideal é criar 3 clusters

##Definindo o Melhor número de Clusters

In [52]:
kmeansSepalaFinal = KMeans(n_clusters=3, random_state=0)
labelClustersSepala = kmeansSepalaFinal.fit_predict(xSepalasNormalizada)
centroidesSepala = kmeansSepalaFinal.cluster_centers_
centroidesSepala





array([[-1.00206653,  0.90625492],
       [-0.10143926, -0.94652188],
       [ 1.10971635,  0.09821729]])

## Executando o KMeans para as Sépalas

In [54]:
graficoSepala = px.scatter(x = xSepalasNormalizada[:,0], y= xSepalasNormalizada[:,1], color = labelClustersSepala)
graficoCentroideSepala = px.scatter(x = centroidesSepala[:,0], y = centroidesSepala[:,1], size=[7,7,7])
graficoFinalSep = po.Figure(data = graficoSepala.data + graficoCentroideSepala.data)
graficoFinalSep.update_xaxes(title_text = 'Comprimento Sepala')
graficoFinalSep.update_yaxes(title_text = 'Largura Sepala')
graficoFinalSep.update_layout(title_text = 'Clusters', title_x =0.5)
graficoFinalSep.show()