#Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px #Criação de gráficos dinámicos
import plotly.graph_objects as go #Criação e concatenização de gráficos
from sklearn.preprocessing import StandardScaler #Para realizar a padronização dos dados
from sklearn.cluster import KMeans

#Abrindo o arquivo de dados

In [None]:

base_iris = pd.read_csv('base_iris.csv', sep = ';')

#Verificações iniciais do conjunto de dados

In [None]:
base_iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
base_iris.shape

(150, 5)

In [None]:
# Verifica as classes das flores
base_iris['Class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

#Realizando o agrupamento pelas pétalas

In [None]:
# Criando a variável X com as colunas petal length e petal width
X_petala = base_iris.iloc[:,[2,3]].values
X_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

#Normalizando os dados das pétalas
Como os dados estão em uma escala muito diferente, precisamos normalizar os dados colocando no mesmo padrão e na mesma escala. Como o Kmeans realiza os calculos baseado na distancia, devemos padronizar os dados afim de que um atributo não seja considerado mais importanet do que o outro.

In [None]:
normalizar_dados = StandardScaler()
X_petala = normalizar_dados.fit_transform(X_petala)
X_petala[:10]

array([[-1.3412724 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.39813811, -1.31297673],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.17067529, -1.05003079],
       [-1.3412724 , -1.18150376],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.2844067 , -1.4444497 ]])

#Calculando o número de cluster das pétalas
Para calcular o número de cluster vamos utilizar o metodo do cotovelo

WCSS é a soma da distância quadrada entre cada ponto e o centróide em um cluster

In [None]:
wcss_petala = [] #cria lista vazia
for i in range(1,11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0) #executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados
  kmeans_petala.fit(X_petala) #realiza o treinamento
  wcss_petala.append(kmeans_petala.inertia_) #adiciona na lista os valores de wcss

In [None]:
#Visualizando so valores de wcss
for i in range(len(wcss_petala)):
  print('Cluster', i, '- Valor do wcss', wcss_petala[i])

Cluster 0 - Valor do wcss 300.0000000000001
Cluster 1 - Valor do wcss 54.145847013449895
Cluster 2 - Valor do wcss 18.04698389190628
Cluster 3 - Valor do wcss 12.307440251261848
Cluster 4 - Valor do wcss 9.181131495513899
Cluster 5 - Valor do wcss 7.215096212730809
Cluster 6 - Valor do wcss 6.026593155951451
Cluster 7 - Valor do wcss 5.173315218915382
Cluster 8 - Valor do wcss 4.42397587196969
Cluster 9 - Valor do wcss 3.9139417830543226


#Criando os gráficos para uma melhor visualização das pétalas

In [None]:
grafico_cotovelo_petala = px.line(x=range(1,11), y=wcss_petala)
grafico_cotovelo_petala.show()

In [None]:
kmeans_petala = KMeans(n_clusters=3, random_state=0)
label_cluster_petala = kmeans_petala.fit_predict(X_petala)

In [None]:
#Verifica a classificação dos clusters
label_cluster_petala

In [None]:
centroides_petala = kmeans_petala.cluster_centers_
centroides_petala

#Gráfico de agrupamento das características do tamanho e comprimento das pétalas

In [None]:
grafico_petala = px.scatter(x = X_petala[:,0], y = X_petala[:,1], color = label_cluster_petala)
grafico_petala.show()

In [None]:
grafico_centroide_petala = px.scatter(x = centroides_petala[:,0], y = centroides_petala[:,1], size = [7,7,7])
grafico_centroide_petala.show()

In [None]:
#juntando os dois gráficos
grafico_final_petala = go.Figure(data = grafico_petala.data + grafico_centroide_petala.data)
grafico_final_petala.show()

#Realizando o agrupamento com dados da sépala

In [None]:
X_sepala = base_iris.iloc[:,[0,1]].values
X_sepala[:10]

array([[5.1, 3.5],
       [4.9, 3. ],
       [4.7, 3.2],
       [4.6, 3.1],
       [5. , 3.6],
       [5.4, 3.9],
       [4.6, 3.4],
       [5. , 3.4],
       [4.4, 2.9],
       [4.9, 3.1]])

#Normalizando os dados das sépalas - PULAR E FAZER DEPOIS PRA VER

In [118]:
#pular e fazer depois
normalizar_dados_sepala = StandardScaler()
X_sepala = normalizar_dados_sepala.fit_transform(X_sepala)
X_sepala[:10]

array([[-0.90068117,  1.03205722],
       [-1.14301691, -0.1249576 ],
       [-1.38535265,  0.33784833],
       [-1.50652052,  0.10644536],
       [-1.02184904,  1.26346019],
       [-0.53717756,  1.95766909],
       [-1.50652052,  0.80065426],
       [-1.02184904,  0.80065426],
       [-1.74885626, -0.35636057],
       [-1.14301691,  0.10644536]])

#Calculando o número de cluster das pétalas

In [None]:
wcss_sepala = [] #cria lista vazia
for i in range(1,11):
  kmeans_sepala = KMeans(n_clusters=i, random_state=0) #executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados
  kmeans_sepala.fit(X_sepala) #realiza o treinamento
  wcss_sepala.append(kmeans_sepala.inertia_) #adiciona na lista os valores de wcss

In [None]:
#Visualizando so valores de wcss
for i in range(len(wcss_sepala)):
  print('Cluster', i, '- Valor do wcss', wcss_sepala[i])

#Criando os gráficos para uma melhorar visualização das sépalas

In [None]:
grafico_cotovelo_sepala = px.line(x=range(1,11), y=wcss_sepala)
grafico_cotovelo_sepala.show()

In [127]:
kmeans_sepala = KMeans(n_clusters=3, random_state=0)
label_cluster_sepala = kmeans_sepala.fit_predict(X_sepala)





In [123]:
#Verifica a classificação dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [124]:
centroides_sepala = kmeans_sepala.cluster_centers_
centroides_sepala

array([[-0.04825457, -0.89224112],
       [-0.97822861,  0.89321545],
       [ 1.20144049,  0.14411561]])

#Gráfico de agrupamento das características do tamanho e comprimento das sépala

In [None]:
grafico_sepala = px.scatter(x = X_sepala[:,0], y = X_sepala[:,1], color = label_cluster_sepala)
grafico_sepala.show()

In [None]:
grafico_centroide_sepala = px.scatter(x = centroides_sepala[:,0], y = centroides_sepala[:,1], size = [7,7,7])
grafico_centroide_sepala.show()

In [125]:
#juntando os dois gráficos
grafico_final_sepala = go.Figure(data = grafico_sepala.data + grafico_centroide_sepala.data)
grafico_final_sepala.show()