<a href="https://colab.research.google.com/github/marcelofschiavo/ds-cookbook/blob/main/07_ML_Clustering_(Nao_Supervisionado).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 07. Aprendizado N√£o Supervisionado (Clustering)

Nos notebooks 05 e 06 (Supervisionados), n√≥s t√≠nhamos um 'gabarito' (a coluna 'y', como 'pediu_demissao' ou 'salario') e o modelo aprendia a prever esse gabarito.

Aqui, no N√£o Supervisionado, **n√£o temos gabarito**.
Nosso objetivo √© dar os dados "bagun√ßados" ao modelo e pedir: "Encontre grupos naturais aqui".

**Objetivo:** Segmentar os funcion√°rios em "Personas" distintas (grupos) com base em seus comportamentos e atributos (Ex: 'Sal√°rio', 'Satisfa√ß√£o', 'Tempo de Empresa'), para que o RH possa criar a√ß√µes de engajamento direcionadas.

**Tipo de Problema:** Clustering (Agrupamento).

In [None]:
"""
## Setup: Carregar Bibliotecas e Dados

Nesta c√©lula, importamos as bibliotecas que usaremos (Pandas e Scikit-learn).
O 'KMeans' e 'silhouette_score' s√£o novos aqui.
"""
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score # M√©trica de avalia√ß√£o de cluster
import warnings

# Ignorar avisos futuros (apenas para limpar o output)
warnings.filterwarnings('ignore')

# --- Carregue seus dados aqui ---
# (Substitua 'dados_empresa_limpos.csv' pelo nome do seu arquivo)
try:
    df = pd.read_csv('dados_empresa_limpos.csv')
    print("DataFrame 'df' carregado com sucesso!")
    print(f"Total de {df.shape[0]} linhas e {df.shape[1]} colunas.")

except FileNotFoundError:
    print("------------------------------------------------------------------")
    print(">>> ERRO: Arquivo 'dados_empresa_limpos.csv' n√£o encontrado. <<<")
    print("... Criando um DataFrame de EXEMPLO para o resto do notebook n√£o quebrar.")
    print("------------------------------------------------------------------")

    # Criar um 'df' de exemplo para clustering
    data = {
        'salario': np.random.randint(3000, 15000, 500),
        'satisfacao': np.random.rand(500).round(2),
        'tempo_empresa': np.random.randint(1, 10, 500),
        'avaliacao_performance': np.random.rand(500).round(2),
        'departamento': np.random.choice(['TI', 'Vendas', 'RH'], 500),
        'pediu_demissao': np.random.choice([0, 1], 500, p=[0.85, 0.15])
    }
    df = pd.DataFrame(data)
    print("DataFrame de exemplo carregado.")

print("\nAmostra dos dados:")
print(df.head())

## Conceito 1: Prepara√ß√£o (Escolha das Features e Scaling)

üß† **Intui√ß√£o:**
"Primeiro, escolhemos os 'ingredientes' das nossas personas. O que define um funcion√°rio? Vamos usar `salario`, `satisfacao` e `tempo_empresa`.
Segundo (e **CR√çTICO**): o K-Means (nosso modelo) funciona medindo *dist√¢ncia*. Para ele, uma varia√ß√£o de R$ 1000 no sal√°rio parece *infinitamente* maior que uma varia√ß√£o de 0.1 na satisfa√ß√£o.
Precisamos 'equalizar' (padronizar) todas as colunas, colocando-as na mesma r√©gua, para que o modelo as trate com pesos justos."

üéì **Defini√ß√£o T√©cnica:**
1.  **Sele√ß√£o de Features:** Escolhemos as vari√°veis quantitativas que far√£o sentido para a segmenta√ß√£o.
2.  **One-Hot Encoding:** Se quisermos usar `departamento`, precisamos transform√°-lo em n√∫meros (dummies) como antes.
3.  **Padroniza√ß√£o (StandardScaler):** O K-Means usa Dist√¢ncia Euclidiana, sendo, portanto, *altamente sens√≠vel* √† escala das features. A padroniza√ß√£o (m√©dia 0, desvio 1) √© **obrigat√≥ria** para que features com escalas maiores (como 'salario') n√£o dominem o algoritmo.

üç≥ **Receita:**

In [None]:
from sklearn.preprocessing import StandardScaler

# 1. Selecionar as features que definem as personas
features_para_cluster = [
    'salario',
    'satisfacao',
    'tempo_empresa',
    'avaliacao_performance'
]
# Vamos adicionar 'departamento' tamb√©m, para mostrar o encoding
df_cluster = pd.get_dummies(df[features_para_cluster + ['departamento']], drop_first=True, dtype=int)


# 2. Padronizar TODAS as features (StandardScaler)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df_cluster)

print("Shape dos dados escalados:", X_scaled.shape)
print("\nAmostra dos dados escalados (primeiras 5 linhas):")
print(X_scaled[:5])

üìä **Resultado:**
"Temos uma matriz 'X_scaled' (um array NumPy) onde todas as colunas t√™m m√©dia ~0 e desvio padr√£o 1, prontas para o K-Means."

## Conceito 2: Encontrando o 'K' (Elbow Method / M√©todo do Cotovelo)

üß† **Intui√ß√£o:**
"Qual o n√∫mero ideal de 'Personas' (clusters)? 2? 3? 5?
O 'M√©todo do Cotovelo' √© um teste para nos ajudar a decidir. Ele roda o algoritmo v√°rias vezes (com K=1, K=2, K=3, ...) e mede o 'erro' (in√©rcia) de cada um.
N√≥s plotamos esse erro. No come√ßo, o erro cai *muito* (passar de 1 para 2 grupos ajuda). Mas em certo ponto, adicionar mais grupos n√£o ajuda tanto. Esse ponto de 'retorno decrescente' √© o 'cotovelo' (Elbow) e √© um √≥timo candidato para K."

üéì **Defini√ß√£o T√©cnica:**
O **Elbow Method** √© uma heur√≠stica para encontrar o n√∫mero √≥timo de clusters (K). Ele plota a **In√©rcia** (ou WCSS - Within-Cluster Sum of Squares) em fun√ß√£o do n√∫mero de clusters (K). A In√©rcia √© a soma das dist√¢ncias ao quadrado de cada ponto at√© o centro do seu cluster. Procuramos o "cotovelo" (joelho) da curva, que √© o ponto onde o WCSS come√ßa a diminuir mais lentamente.

üç≥ **Receita:**

In [None]:
from sklearn.cluster import KMeans

inertia_list = []
K_range = range(1, 11) # Vamos testar de 1 a 10 clusters

for k in K_range:
    kmeans = KMeans(
        n_clusters=k,
        init='k-means++', # M√©todo inteligente para espalhar os centros iniciais
        random_state=42,
        n_init=10 # Rodar 10x com centros diferentes e pegar o melhor
    )
    kmeans.fit(X_scaled)
    inertia_list.append(kmeans.inertia_) # 'inertia_' √© o WCSS

# Plotar o gr√°fico do cotovelo
plt.figure(figsize=(8, 5))
plt.plot(K_range, inertia_list, 'bx-') # 'bx-' = linha azul com marcadores 'x'
plt.xlabel('N√∫mero de Clusters (K)')
plt.ylabel('In√©rcia (WCSS)')
plt.title('M√©todo do Cotovelo (Elbow Method)')
plt.grid(True)
plt.show()

üìä **Resultado:**
"Olhe o gr√°fico. Onde a 'queda' para de ser √≠ngreme e vira um 'cotovelo'? Geralmente √© em K=3, K=4 ou K=5. Vamos supor que o cotovelo mais claro foi em **K=4**. Vamos usar K=4 para o nosso modelo final."

## Conceito 3: Treinando o Modelo Final (K-Means)

üß† **Intui√ß√£o:**
"Agora que escolhemos nosso K (ex: K=4) no M√©todo do Cotovelo, rodamos o K-Means uma √∫ltima vez.
O algoritmo faz o seguinte:
1. Joga 4 '√≠m√£s' (centroides) aleat√≥rios nos nossos dados.
2. Cada ponto de dado √© 'puxado' para o √≠m√£ mais pr√≥ximo.
3. O '√≠m√£' se move para o centro dos pontos que ele puxou.
4. Repete (2 e 3) at√© que os grupos n√£o mudem mais.
No final, temos nossos 4 grupos (clusters) formados."

üéì **Defini√ß√£o T√©cnica:**
Instanciamos e treinamos (com `.fit()`) o modelo K-Means usando o n√∫mero de clusters (K) escolhido. O `n_init=10` √© importante: ele roda o algoritmo 10 vezes com posi√ß√µes iniciais diferentes e escolhe a melhor (menor in√©rcia), evitando cair em um "√≥timo local" ruim. Ap√≥s o `.fit()`, os r√≥tulos dos clusters (0, 1, 2, 3) estar√£o dispon√≠veis em `kmeans.labels_`.

üç≥ **Receita:**

In [None]:
# Vamos definir o K escolhido (ex: 4)
K_ESCOLHIDO = 4

# 1. Criar o modelo final
kmeans_final = KMeans(
    n_clusters=K_ESCOLHIDO,
    init='k-means++',
    random_state=42,
    n_init=10
)

# 2. Treinar e obter os r√≥tulos (labels)
cluster_labels = kmeans_final.fit_predict(X_scaled)

# 3. Adicionar os r√≥tulos de volta ao DataFrame *original*
#    Isso √© vital para a interpreta√ß√£o!
df_original_com_clusters = df.copy()
df_original_com_clusters['Cluster'] = cluster_labels

print(f"Contagem de pessoas em cada Cluster (K={K_ESCOLHIDO}):")
print(df_original_com_clusters['Cluster'].value_counts().sort_index())
print("\nAmostra do DataFrame com Clusters:")
print(df_original_com_clusters.head())

üìä **Resultado:**
"Nosso DataFrame original agora tem uma nova coluna 'Cluster' (com valores de 0 a 3), dizendo a qual persona cada funcion√°rio pertence."

## Conceito 4: Avalia√ß√£o (Silhouette Score)

üß† **Intui√ß√£o:**
"O 'cotovelo' foi meio subjetivo. Ser√° que K=4 foi *realmente* bom?
O 'Silhouette Score' √© uma nota de -1 a +1 que nos diz o qu√£o bons s√£o os clusters.
* **+1:** Perfeito! Clusters s√£o densos (pontos pr√≥ximos) e muito bem separados (longe uns dos outros).
* **0:** Ruim. Clusters est√£o sobrepostos, os grupos n√£o s√£o claros.
* **-1:** P√©ssimo. Os pontos foram parar no cluster errado.
Queremos o valor mais pr√≥ximo de +1 poss√≠vel."

üéì **Defini√ß√£o T√©cnica:**
O Coeficiente de Silhueta (`silhouette_score`) mede a qualidade do clustering. Ele calcula para cada ponto:
a) A dist√¢ncia m√©dia para os pontos no *mesmo* cluster (coes√£o).
b) A dist√¢ncia m√©dia para os pontos no cluster *mais pr√≥ximo* (separa√ß√£o).
O score √© $(b - a) / max(a, b)$. Um 'a' pequeno e um 'b' grande (score perto de 1) √© o ideal.

üç≥ **Receita:**

In [None]:
from sklearn.metrics import silhouette_score

# Usamos os dados ESCALADOS e os r√≥tulos (labels) que o K-Means gerou
score = silhouette_score(X_scaled, cluster_labels)
print(f"O Silhouette Score para K={K_ESCOLHIDO} foi de: {score:.4f}")

üìä **Resultado:**
"Um score de 0.5 a 0.7 √© considerado um clustering forte. Um score de 0.2 a 0.4 √© razo√°vel/fraco. Abaixo de 0.2, os clusters n√£o s√£o bem definidos."

## Conceito 5: Interpreta√ß√£o (Criando as Personas)

üß† **Intui√ß√£o:**
"Esta √© a parte mais importante. O modelo nos deu 'Cluster 0', 'Cluster 1', 'Cluster 2', 'Cluster 3'. E da√≠? Isso n√£o diz nada para o RH.
N√≥s precisamos *humanizar* esses n√∫meros. Vamos 'tirar a m√©dia' de cada cluster.
* Cluster 0: M√©dia de Sal√°rio ALTA, m√©dia de Satisfa√ß√£o ALTA.
* Cluster 1: M√©dia de Sal√°rio BAIXA, m√©dia de Satisfa√ß√£o BAIXA.
Agora sim! Podemos dar nomes a eles."

üéì **Defini√ß√£o T√©cnica:**
A interpreta√ß√£o dos clusters (o passo mais crucial) √© feita analisando os centroides de cada cluster. A forma mais f√°cil de fazer isso √© usando `.groupby()` no DataFrame original (com os valores reais, *n√£o* escalados) pela coluna 'Cluster' que criamos, e calculando a `.mean()` de cada feature.

üç≥ **Receita:**

In [None]:
# Agrupar pela coluna 'Cluster' e calcular a m√©dia das features que usamos
# (Inclu√≠mos 'pediu_demissao' para ver o risco de turnover de cada persona!)
features_para_analise = features_para_cluster + ['pediu_demissao']

# Usamos .drop() para remover colunas de texto que n√£o podem ter m√©dia
df_personas = df_original_com_clusters.drop(columns=['departamento']).groupby('Cluster').mean()

# Adicionar o tamanho de cada cluster para contexto
df_personas['Tamanho (N)'] = df_original_com_clusters['Cluster'].value_counts()

print("--- Tabela de Personas (M√©dias por Cluster) ---")
# Formatando a tabela para melhor visualiza√ß√£o
print(df_personas.style.format({
    'salario': 'R$ {:,.2f}',
    'satisfacao': '{:.2%}',
    'tempo_empresa': '{:.1f} anos',
    'avaliacao_performance': '{:.2%}',
    'pediu_demissao': '{:.2%}'
}).background_gradient(cmap='viridis', subset=['salario', 'satisfacao', 'avaliacao_performance']).background_gradient(cmap='coolwarm', subset=['pediu_demissao']))

üìä **Resultado (A Tabela de Personas):**
"Esta tabela √© o resultado final do projeto. Agora podemos dar os nomes:
* **Cluster 0 (Ex):** Sal√°rio ALTO, Satisfa√ß√£o ALTA, Tempo de Empresa ALTO, Turnover BAIXO. -> **Persona: 'Veteranos Engajados'**.
* **Cluster 1 (Ex):** Sal√°rio BAIXO, Satisfa√ß√£o BAIXA, Tempo de Empresa BAIXO, Turnover ALTO. -> **Persona: 'Novatos em Risco'**.
* **Cluster 2 (Ex):** Sal√°rio M√âDIO, Satisfa√ß√£o M√âDIA, Perf. ALTA, Turnover M√âDIO. -> **Persona: 'Talentos Estagnados'**.
* ... e assim por diante."

## Conceito 6 (B√¥nus): Visualiza√ß√£o dos Clusters (2D)

üß† **Intui√ß√£o:**
"Uma imagem vale mais que mil palavras. Vamos 'desenhar' os clusters. Escolhemos as duas features mais importantes (ex: 'salario' e 'satisfacao') e plotamos um gr√°fico de dispers√£o (scatterplot), colorindo cada ponto com a cor do seu cluster. Isso ajuda o RH a *ver* as 'bolhas' de personas que acabamos de identificar."

üéì **Defini√ß√£o T√©cnica:**
A visualiza√ß√£o de clusters √© uma etapa qualitativa de valida√ß√£o. Como nossos dados t√™m muitas dimens√µes (ex: 5 ou 6 features), n√£o podemos visualiz√°-los diretamente.
A t√©cnica mais simples √© plotar um gr√°fico de dispers√£o 2D usando as duas features mais interpret√°veis (ou as mais importantes, segundo o `feature_importance_` de um modelo Random Forest).
Usamos o `hue='Cluster'` (do Seaborn) para mapear a coluna de r√≥tulo do cluster (0, 1, 2, 3) a um esquema de cores, permitindo-nos ver a separa√ß√£o (ou sobreposi√ß√£o) dos grupos.

üç≥ **Receita:**

In [None]:
plt.figure(figsize=(10, 7))
sns.scatterplot(
    data=df_original_com_clusters,
    x='salario',
    y='satisfacao',
    hue='Cluster', # A m√°gica acontece aqui
    palette='viridis', # Esquema de cores
    s=100, # Tamanho dos pontos
    alpha=0.7 # Transpar√™ncia
)
plt.title('Clusters de Funcion√°rios (Personas)')
plt.xlabel('Sal√°rio')
plt.ylabel('N√≠vel de Satisfa√ß√£o')
plt.legend(title='Persona (Cluster)')
plt.grid(linestyle='--', alpha=0.5)
plt.show()

üìä **Resultado:**
"O gr√°fico mostra visualmente as 'fronteiras' que o K-Means encontrou. Idealmente, veremos grupos de cores distintas (Ex: um 'bols√£o' verde no canto inferior esquerdo, um 'bols√£o' roxo no canto superior direito). Se as cores estiverem muito misturadas, isso refor√ßa um Silhouette Score baixo e sugere que, pelo menos *nestas duas dimens√µes*, os grupos n√£o s√£o bem definidos."