# Clusterização: K-Means - Grupos de Flores

## Importação das bibliotecas

In [None]:
# Pacotes de preparação dos dados
import numpy as np
import pandas as pd

# Pacotes gráficos
import matplotlib.pyplot as plt
import seaborn as sns

# Pacotes de modelagem
import sklearn
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

## Importação da base de dados

In [None]:
df_iris = pd.read_csv('iris.csv')
df_iris.head()

## Preparação dos Dados

### Missing Values

In [None]:
df_iris.isnull().sum()

### Duplicações

In [None]:
df_iris.duplicated().sum()

### Tipos de Variáveis

In [None]:
df_iris.info()

## Análise Exploratória dos Dados

### Dispersão por Classe

In [None]:
sns.pairplot(df_iris, hue='Tipo_Orquidea')

## Desenvolvimento do Modelo: K-Means

### Padronização da Escala

In [None]:
# Seleção das variáveis
df_modelo = df_iris[['comprimento_petala',
                     'comprimento_sepala']].copy()

# Padronização da Escala
x_scaler = StandardScaler()
x_scaler.fit(df_modelo)

df_modelo_scaled = pd.DataFrame(x_scaler.transform(df_modelo),
                                index=df_modelo.index,
                                columns=df_modelo.columns)

In [None]:
df_modelo.describe()

In [None]:
df_modelo_scaled.describe()

In [None]:
# Plotando comprimento_petala por largura_petala
fig = plt.figure(figsize=(8,8))
plt.scatter(df_modelo['comprimento_petala'],
            df_modelo['comprimento_sepala']);
plt.xlabel('comprimento_petala');
plt.ylabel('comprimento_sepala');

In [None]:
# Plotando comprimento_petala por largura_petala
# com escala padronizada
fig = plt.figure(figsize=(8,8))
plt.scatter(df_modelo_scaled['comprimento_petala'],
            df_modelo_scaled['comprimento_sepala']);
plt.xlabel('comprimento_petala Padronizada');
plt.ylabel('comprimento_sepala Padronizada');

### Treinamento do Modelo

In [None]:
modelo_km = KMeans(n_clusters=2, 
                   random_state=42)
modelo_km.fit(df_modelo_scaled)

### Análise dos clusters criados

In [None]:
cluster_predito = modelo_km.predict(df_modelo_scaled)
cluster_predito

In [None]:
modelo_km.cluster_centers_

In [None]:
fig = plt.figure(figsize=(8,8))

# Plotando comprimento_petala por largura_petala
sns.scatterplot(x=df_modelo_scaled['comprimento_petala'],
                y=df_modelo_scaled['comprimento_sepala'],
                hue=cluster_predito, s=50)

# Marcando os centróides
sns.scatterplot(x=modelo_km.cluster_centers_[:,0],
                y=modelo_km.cluster_centers_[:,1], 
                marker='x', s=300, 
                linewidth=4, color='red', zorder=10);

### Cálculo da Inércia
A Inércia é a soma das distâncias entre cada observação e centróide do cluster ao qual ela pertence, ao quadrado.

In [None]:
modelo_km.inertia_

### Identificação do número de clusters

In [None]:
# Utilizando o Método do Cotovelo (Elbow-curve)
range_n_clusters = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
inercia = []

for num_clusters in range_n_clusters:
    kmeans = KMeans(n_clusters=num_clusters, max_iter=50)
    kmeans.fit(df_modelo_scaled)
    inercia.append(kmeans.inertia_)

fig = plt.figure(figsize=(8,5))
graf = sns.lineplot(x=range_n_clusters,
             y=inercia)
graf.figure.suptitle('Inércia por Número de Clusters');
graf.set_xlabel('Número de Clusters');
graf.set_ylabel('Inércia');

### Novo Modelo K-Means com 3 Clusters (K=3)

In [None]:
modelo_km3 = KMeans(n_clusters=3, 
                    random_state=42)

modelo_km3.fit(df_modelo_scaled)

### Análise dos novos clusters criados

In [None]:
cluster_predito = modelo_km3.predict(df_modelo_scaled)

fig = plt.figure(figsize=(8,8))
# Plotando comprimento_sepala por comprimento_petala
sns.scatterplot(x=df_modelo_scaled['comprimento_petala'],
                y=df_modelo_scaled['comprimento_sepala'],
                hue=cluster_predito,
                s=50)

# Marcando os centróides
sns.scatterplot(x=modelo_km3.cluster_centers_[:,0],
                y=modelo_km3.cluster_centers_[:,1], 
                marker='x', s=300, 
                linewidth=4, color='red', zorder=10);

### Interpretação e Caracterização dos Clusters
**ATENÇÃO**: deve-se utilizar o método `predict` do modelo desenvolvido sobre o **DataFrame com as variáveis padronizadas** para identificar os clusters das observações no DataFrame original.

In [None]:
df_modelo['cluster'] = modelo_km3.predict(df_modelo_scaled)

In [None]:
df_modelo.groupby('cluster').describe().T

In [None]:
# Análise dos clusters em relação ao Comprimento da Pétala
fig = plt.figure(figsize=(8,8))
sns.boxplot(x='cluster',
            y='comprimento_petala', 
            data=df_modelo);

In [None]:
# Análise dos clusters em relação ao Comprimento da Sépala
fig = plt.figure(figsize=(8,8))
sns.boxplot(x='cluster',
            y='comprimento_sepala', 
            data=df_modelo);

### Opcional: Avaliação em relação a um *Target*
Em alguns casos, pode ser interessante desenvolver um modelo de cluster para construir grupos e avaliar esses grupos em relação a um *Target* que pode não estar disponível em todas as situações.

In [None]:
df_iris.head()

In [None]:
df_cluster_flor = pd.concat([df_modelo[['cluster']],
                             df_iris[['Tipo_Orquidea']]], 
                            axis=1)
df_cluster_flor.head()

In [None]:
df_cluster_flor.pivot_table(values='Tipo_Orquidea', 
                            index='cluster')