<a href="https://colab.research.google.com/github/emrodrigues77/data-science/blob/main/FDA_Pratica_K_Means_Iris.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px # Criação de gráficos dinâmicos
import plotly.graph_objects as go # Criação e concatenação de gráficos
from sklearn.preprocessing import StandardScaler # Padronização dos Dados
from sklearn.cluster import KMeans

# Abrindo arquivo de dados
base_iris = pd.read_csv('base_iris.csv', sep = ';')

base_iris.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
base_iris.shape

(150, 5)

In [None]:
base_iris['Class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

# Realizando o agrupamento pelas pétalas

In [None]:
# Criando variável com as colunas petal_length e petal_width
X_petala = base_iris.iloc[:, [2,3]].values
X_petala[:10]

array([[1.4, 0.2],
       [1.4, 0.2],
       [1.3, 0.2],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.7, 0.4],
       [1.4, 0.3],
       [1.5, 0.2],
       [1.4, 0.2],
       [1.5, 0.1]])

# Normalizando dados
Como os dados estão em uma escala muito diferente, precisamos normalizar os dados colocando no mesmo padrão e na mesma escala.
Como o KMeans realiza cálculos baseados na distância, devemos padronizar os dafos afim de que um atributo não seja considerado mais importante do que o outro.


In [None]:
normalizar_dados = StandardScaler()
X_petala = normalizar_dados.fit_transform(X_petala)
X_petala[:10]

array([[-1.3412724 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.39813811, -1.31297673],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.17067529, -1.05003079],
       [-1.3412724 , -1.18150376],
       [-1.2844067 , -1.31297673],
       [-1.3412724 , -1.31297673],
       [-1.2844067 , -1.4444497 ]])

# Calculando o número de clusters
Para calcular o número de clusters, vamos utilizar o método do cotovelo.
WCSS é a soma da distância quadrada entre cada ponto e o centróide em um cluster.

In [None]:
wcss_petala = [] # Cria uma lista vazia
for i in range (1, 11):
  kmeans_petala = KMeans(n_clusters=i, random_state=0, n_init='auto') # Executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados
  kmeans_petala.fit(X_petala) # Realiza o treinamento
  wcss_petala.append(kmeans_petala.inertia_) #adiciona na lista de valores wcss
  
# Visualizando os valores de wcss
for i in range(len(wcss_petala)):
  print("Cluster: ", i, " - WCSS:", wcss_petala[i])


Cluster:  0  - WCSS: 300.0000000000001
Cluster:  1  - WCSS: 54.14584701344988
Cluster:  2  - WCSS: 18.046983891906276
Cluster:  3  - WCSS: 12.307440251261843
Cluster:  4  - WCSS: 11.201792709742834
Cluster:  5  - WCSS: 8.266940694153863
Cluster:  6  - WCSS: 8.082162153853693
Cluster:  7  - WCSS: 5.269105150349284
Cluster:  8  - WCSS: 4.810901217178008
Cluster:  9  - WCSS: 4.09013989501109


# Criando gráfico para melhor visualização

In [None]:
grafico_cotovelo_petala = px.line(x = range(1, 11), y=wcss_petala)
grafico_cotovelo_petala.show()

In [None]:
kmeans_petala = KMeans(n_clusters=3, random_state=0, n_init='auto')
label_cluster_petala = kmeans_petala.fit_predict(X_petala)

# Verifica a classificação dos clusters
label_cluster_petala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int32)

In [None]:
centroides_petala = kmeans_petala.cluster_centers_
centroides_petala

array([[-1.30487835, -1.25512862],
       [ 1.02813193,  1.12749028],
       [ 0.30564587,  0.16609419]])

# Gráfico de agrupamento das características do tamanho e comprimento das pétalas

In [None]:
grafico_petala = px.scatter(x = X_petala[:,0], y = X_petala[:,1], color = label_cluster_petala)
grafico_centroide_petala = px.scatter(x = centroides_petala[:, 0], y = centroides_petala[:, 1], size = [3, 3, 3])
grafico_final_petala = go.Figure(data = grafico_petala.data + grafico_centroide_petala.data)
grafico_final_petala.show()

# Realizando o agrupamento com os dados pela sépalas

In [None]:
# Criando variável com as colunas sepal_length e sepal_width
X_sepala = base_iris.iloc[:, [0,1]].values
X_sepala[:10]

array([[5.1, 3.5],
       [4.9, 3. ],
       [4.7, 3.2],
       [4.6, 3.1],
       [5. , 3.6],
       [5.4, 3.9],
       [4.6, 3.4],
       [5. , 3.4],
       [4.4, 2.9],
       [4.9, 3.1]])

In [None]:
wcss_sepala = [] # Cria uma lista vazia
for i in range (1, 11):
  kmeans_sepala = KMeans(n_clusters=i, random_state=0, n_init='auto') # Executa o kmeans para todos os clusters e random_state = 0 para fixar e obter os mesmos resultados
  kmeans_sepala.fit(X_sepala) # Realiza o treinamento
  wcss_sepala.append(kmeans_sepala.inertia_) #adiciona na lista de valores wcss
  
# Visualizando os valores de wcss
for i in range(len(wcss_sepala)):
  print("Cluster: ", i, " - WCSS:", wcss_sepala[i])


Cluster:  0  - WCSS: 130.18093333333337
Cluster:  1  - WCSS: 57.99647879763823
Cluster:  2  - WCSS: 37.141172208013636
Cluster:  3  - WCSS: 28.181941457586632
Cluster:  4  - WCSS: 21.440240797199642
Cluster:  5  - WCSS: 17.238695238095236
Cluster:  6  - WCSS: 15.500179043179045
Cluster:  7  - WCSS: 13.065063987028505
Cluster:  8  - WCSS: 11.62964732036184
Cluster:  9  - WCSS: 10.6581757918552


In [None]:
grafico_cotovelo_sepala = px.line(x = range(1, 11), y=wcss_sepala)
grafico_cotovelo_sepala.show()

In [None]:
kmeans_sepala = KMeans(n_clusters=3, random_state=0, n_init='auto')
label_cluster_sepala = kmeans_sepala.fit_predict(X_sepala)

# Verifica a classificação dos clusters
label_cluster_sepala

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 1, 2, 1, 2, 1, 2, 2, 2, 2, 2, 2, 1,
       2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 2, 2, 1, 1, 1, 1, 2, 1, 2, 1, 2, 1, 1, 2, 2, 1, 1, 1, 1,
       1, 2, 2, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 2], dtype=int32)

In [None]:
centroides_sepala = kmeans_sepala.cluster_centers_
centroides_sepala

array([[5.00392157, 3.4       ],
       [6.82391304, 3.07826087],
       [5.8       , 2.7       ]])

# Gráfico de agrupamento das características do tamanho e comprimento das sépalas

In [None]:
grafico_sepala = px.scatter(x = X_sepala[:,0], y = X_sepala[:,1], color = label_cluster_sepala)
grafico_centroide_sepala = px.scatter(x = centroides_sepala[:, 0], y = centroides_sepala[:, 1], size = [3, 3, 3])
grafico_final_sepala = go.Figure(data = grafico_sepala.data + grafico_centroide_sepala.data)
grafico_final_sepala.show()