<a href="https://colab.research.google.com/github/oldairjsilva/IGTI/blob/main/Pratica_kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px # Criacao de graficos dinamicos
import plotly.graph_objects as go # Para criacao e concatenizacao de graficos
from sklearn.preprocessing import StandardScaler # para realizar a padronizacao dos dados
from sklearn.cluster import KMeans

In [4]:
# Abrindo o arquivo de dados
base_iris = pd.read_csv('base_iris.csv', sep = ',')

In [7]:
base_iris.head()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [6]:
base_iris.shape

(150, 5)

In [8]:
# Verifica as classes das flores
base_iris['variety'].unique()

array(['Setosa', 'Versicolor', 'Virginica'], dtype=object)

## Realizando o agrupamento pelas pétalas

In [10]:
# criando variavel X com as colunas petal length petal width
X_petala = base_iris.iloc[:, [2,3]].values
X_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

## Normalizando os dados
Como os dados estão em uma escala muito diferente, precisamos normalizar os dados colocando no mesmo padrão e na mesma escala. Como o Kmeans realiza os calculos baseado na distância, devemos padronizar os dados afim de que um atributo não seja considerado mais importante do que o outro.

In [11]:
normalizar_dados = StandardScaler()
X_petala = normalizar_dados.fit_transform(X_petala)
X_petala[:10]

array([[-1.34022653, -1.3154443 ],
       [-1.34022653, -1.3154443 ],
       [-1.39706395, -1.3154443 ],
       [-1.2833891 , -1.3154443 ],
       [-1.34022653, -1.3154443 ],
       [-1.16971425, -1.05217993],
       [-1.34022653, -1.18381211],
       [-1.2833891 , -1.3154443 ],
       [-1.34022653, -1.3154443 ],
       [-1.2833891 , -1.44707648]])

## Calculando o número de Cluster
Para calcular o número de cluster vamos utilizar o metodo do cotovelo
WCSS é a soma da distância quadrada entre cada ponto e o centróide em um cluster

In [12]:
wcss_petala = [] # Cria uma lista vazia
for i in range(1,11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0) # Executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados
  kmeans_petala.fit(X_petala) # realiza o treinamento
  wcss_petala.append(kmeans_petala.inertia_) # adiciona na lista os valores de wcsss

In [13]:
# Visualizando os valores de wcss
for i in range(len(wcss_petala)):
  print('Cluster:', i, '- Valor do wcss:', wcss_petala[i])

Cluster: 0 - Valor do wcss: 300.0
Cluster: 1 - Valor do wcss: 54.16878133149558
Cluster: 2 - Valor do wcss: 18.02696261254407
Cluster: 3 - Valor do wcss: 12.283372197379123
Cluster: 4 - Valor do wcss: 9.152134379409805
Cluster: 5 - Valor do wcss: 7.187603589633753
Cluster: 6 - Valor do wcss: 5.994729609966573
Cluster: 7 - Valor do wcss: 5.144963679454987
Cluster: 8 - Valor do wcss: 4.407079387903799
Cluster: 9 - Valor do wcss: 3.8964398329646883


## Criando gráfico para melhor visualização

In [14]:
grafico_cotovelo_petala = px.line(x = range(1, 11), y = wcss_petala)
grafico_cotovelo_petala.show()

In [15]:
kmeans_petala = KMeans(n_clusters=3, random_state=0)
label_cluster_petala = kmeans_petala.fit_predict(X_petala)

In [16]:
# Verifica a classificação dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [17]:
centroides_petala = kmeans_petala.cluster_centers_
centroides_petala

array([[-1.30498732, -1.25489349],
       [ 1.02799959,  1.12797813],
       [ 0.3058728 ,  0.16541778]])

## Gráfico de agrupamento das características do tamanho e comprimento das pétalas

In [19]:
grafico_petala = px.scatter(x = X_petala[:,0], y = X_petala[:,1], color = label_cluster_petala)
grafico_centroide_petala = px.scatter(x = centroides_petala[:,0], y = centroides_petala[:,1], size = [7,7,7])
grafico_final_petala = go.Figure(data = grafico_petala.data + grafico_centroide_petala.data)
grafico_final_petala.show()

## Realizando o agrupamento com dados da sépala


In [22]:
# Realizando o agrupamento sépala
X_sepala = base_iris.iloc[:, [0,1]].values
X_sepala[:10]

array([[5.1, 3.5],
       [4.9, 3. ],
       [4.7, 3.2],
       [4.6, 3.1],
       [5. , 3.6],
       [5.4, 3.9],
       [4.6, 3.4],
       [5. , 3.4],
       [4.4, 2.9],
       [4.9, 3.1]])

In [23]:
# Calcular o wcss
wcss_sepala = [] # Cria uma lista vazia
for i in range(1, 11):
  kmeans_sepala = KMeans(n_clusters=i, random_state=0) # Executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados
  kmeans_sepala.fit(X_sepala) # Realiza o treinamento
  wcss_sepala.append(kmeans_sepala.inertia_) # adiciona na lista os valores de wcss

In [24]:
# Visualizando os valores de wcss
for i in range(len(wcss_sepala)):
  print('Cluster:', i, '- Valor do wcss:', wcss_sepala[i])

Cluster: 0 - Valor do wcss: 130.4752666666667
Cluster: 1 - Valor do wcss: 58.204092789066735
Cluster: 2 - Valor do wcss: 37.05070212765956
Cluster: 3 - Valor do wcss: 27.9902120383037
Cluster: 4 - Valor do wcss: 21.00466066066066
Cluster: 5 - Valor do wcss: 17.33982216563924
Cluster: 6 - Valor do wcss: 14.756476273726271
Cluster: 7 - Valor do wcss: 12.788763481527546
Cluster: 8 - Valor do wcss: 11.053846569074203
Cluster: 9 - Valor do wcss: 9.638851368076377


In [25]:
grafico_cotovelo = px.line(x = range(1,11), y = wcss_sepala)
grafico_cotovelo.show()

In [26]:
# Executando o algoritmo k-means
kmeans_sepala = KMeans(n_clusters=3, random_state=0)
label_cluster_sepala = kmeans_sepala.fit_predict(X_sepala)

In [27]:
# Verifica a classificação dos clusters
label_cluster_sepala

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 2, 2, 2, 0, 2, 0, 2, 0, 2, 0, 0, 0, 0, 0, 0, 2,
       0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2,
       2, 0, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int32)

In [28]:
centroides_sepala = kmeans_sepala.cluster_centers_
centroides_sepala

array([[5.77358491, 2.69245283],
       [5.006     , 3.428     ],
       [6.81276596, 3.07446809]])

## Gráfico de agrupamento das características do tamanho e comprimento das sépalas

In [29]:
grafico = px.scatter(x = X_sepala[:,0], y = X_sepala[:,1], color = label_cluster_sepala)
grafico_centroide = px.scatter(x = centroides_sepala[:,0], y = centroides_sepala[:,1], size = [7,7,7])
grafico_final = go.Figure(data = grafico.data + grafico_centroide.data)
grafico_final.show()

## Gráfico de agrupamento das características do tamanho e comprimento das petalas

In [30]:
grafico = px.scatter(x = X_petala[:,0], y = X_petala[:,1], color = label_cluster_petala)
grafico_centroide_petala = px.scatter(x = centroides_petala[:,0], y = centroides_petala[:,1], size = [7,7,7])
grafico_final_petala = go.Figure(data = grafico_petala.data + grafico_centroide_petala.data)
grafico_final_petala.show()