<a href="https://colab.research.google.com/github/milamazim/data-science/blob/main/kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px #Criação de graficos dinamicos
import plotly.graph_objects as go #Para criação e concacenizacao de graficos
from sklearn.preprocessing import StandardScaler #Padronizacao dos dados
from sklearn.cluster import KMeans

In [None]:
#Abrindo o arquivo de dados
base_iris = pd.read_csv('base_iris.csv', sep = ';')

In [None]:
base_iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
base_iris.shape

(150, 5)

In [None]:
#Verifica as classes das flores
base_iris['Class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

# **Realiza o agrupamento pelas pétalas**

In [None]:
# criando variavel X com as colunas petal lenght petal width
X_petala = base_iris.iloc[:,[2,3]].values
X_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

# **Normalizando os dados**

Como os dados estão em uma escala muito diferente, precisamos normalizar os dados colocando no mesmo padrão e na mesma escala.
Como o Kmeans realiza os calculos baseados na distancia, devemos padronizar os dados afim de que um atributo nao seja considerado mais importante do que o outro

In [None]:
normalizar_dados = StandardScaler()
X_petala = normalizar_dados.fit_transform(X_petala)
X_petala[:10]

array([[-1.3412724 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.39813811, -1.31297673],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.17067529, -1.05003079],
       [-1.3412724 , -1.18150376],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.2844067 , -1.4444497 ]])

# **Calculando o número de cluster**

Para calcular o número de cluster vamos utilizar o metodo do cotovelo

WCSS é a soma da distancia quadrada entre cada ponto e o centroide em um cluster

In [None]:
wcss_petala = [] # cria uma lista vazia
for i in range (1,11): # nao pode ter 0 clusters e precisa rodar 10x
  kmeans_petala = KMeans(n_clusters=i, random_state=0) # executa o kmeans para todos os clusters e random_state=0 para fixar e obter os mesmos resultados
  kmeans_petala.fit(X_petala) # realiza o treinamento
  wcss_petala.append(kmeans_petala.inertia_) # adiciona na lista os valores de wcss

In [None]:
# visualizando os valores de wcss
for i in range (len(wcss_petala)):
  print('Cluster: ', i, '- Valor do wcss: ', wcss_petala[i])

Cluster:  0 - Valor do wcss:  300.0000000000001
Cluster:  1 - Valor do wcss:  54.14584701344988
Cluster:  2 - Valor do wcss:  18.046983891906276
Cluster:  3 - Valor do wcss:  12.307440251261843
Cluster:  4 - Valor do wcss:  9.181131495513899
Cluster:  5 - Valor do wcss:  7.215096212730807
Cluster:  6 - Valor do wcss:  6.026593155951448
Cluster:  7 - Valor do wcss:  5.173315218915379
Cluster:  8 - Valor do wcss:  4.419290104197288
Cluster:  9 - Valor do wcss:  3.9139417830543204


# **Criando gráfico para melhor visualização**

In [None]:
grafico_cotovelo_petala = px.line( x= range(1,11), y=wcss_petala)
grafico_cotovelo_petala.show()

In [None]:
kmeans_petala = KMeans(n_clusters=3, random_state=0)
label_cluster_petala = kmeans_petala.fit_predict(X_petala)

In [None]:
# verifica a classificacao dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [None]:
centroides_petala = kmeans_petala.cluster_centers_
centroides_petala

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

# **Gráfico de agrupamento das caracteristicas do tamanho e comprimento das petalas**

In [None]:
grafico_petala = px.scatter(x= X_petala[:,0], y=X_petala[:,1], color= label_cluster_petala)
grafico_centroide_petala = px.scatter(x= centroides_petala[:,0], y=centroides_petala[:,1], size=[7,7,7])
grafico_final_petala = go.Figure(data= grafico_petala.data + grafico_centroide_petala.data)
grafico_final_petala.show()