# Análise de Clusters (KMeans) em Métricas Financeiras

Este notebook unifica os exemplos anteriores e executa KMeans com K = 4, 5 e 6 em três conjuntos de dados:
- Empresas do Brasil
- Empresas dos EUA
- Empresas dos EUA + Brasil

O código original foi mantido. Apenas os títulos e comentários explicativos foram traduzidos para português.


## Configuração Comum

As próximas células importam as funções utilitárias e definem configurações comuns (mantidas como no código original).


In [None]:
from src.kmean_modeling import calculate_inertia, apply_kmeans_and_visualize
from src.data_processing import fetch_financial_metrics
from src.preprocessing import create_preprocessor, preview_transformation
import pandas as pd
import os
os.environ["LOKY_MAX_CPU_COUNT"] = "4"  # Ajuste para o número de núcleos físicos


## Exemplo: Brasil

Conjunto de tickers de empresas brasileiras. Mantemos o mesmo fluxo de pré-processamento e aplicação de KMeans, variando K em 4, 5 e 6.


### Definir Tickers (Brasil)


In [None]:
tickers_br = [
    'VALE3.SA', 'PETR4.SA', 'ITUB4.SA', 'BBDC4.SA', 'BBAS3.SA', 
    'ABEV3.SA', 'RENT3.SA', 'WEGE3.SA', 'ELET3.SA', 'SUZB3.SA', 
    'B3SA3.SA', 'GGBR4.SA', 'EGIE3.SA', 'HAPV3.SA', 'RDOR3.SA', 
    'TOTS3.SA', 'RADL3.SA', 'PRIO3.SA', 'LREN3.SA', 'MGLU3.SA', 
    'VIVT3.SA', 'SBSP3.SA', 'FLRY3.SA', 'GOAU4.SA', 'CPLE6.SA', 
    'ENGI11.SA', 'SANB11.SA', 'BPAC11.SA', 'CXSE3.SA', 'ASAI3.SA'
]


### Coletar Métricas Financeiras (Brasil)


In [None]:
data_br = fetch_financial_metrics(tickers_br)
data_br.head()


### Pré-processamento (apenas ROE e Dívida/Patrimônio) — Brasil


In [None]:
num_cols = ['roe', 'debt_to_equity']
for col in num_cols:
    data_br[col] = pd.to_numeric(data_br[col], errors='coerce')
    data_br[col].fillna(data_br[col].median(), inplace=True)

preprocessor_br = create_preprocessor(num_cols=num_cols)
scaled_features_br = preview_transformation(preprocessor_br, data_br[num_cols])

df_processed_br = pd.DataFrame(scaled_features_br, columns=num_cols)
df_processed_br['ticker'] = data_br['ticker'].values
df_processed_br.head()


### KMeans e Visualizações — Brasil (K = 4, 5, 6)


In [None]:
results_br_4 = apply_kmeans_and_visualize(df_processed_br, data_br, optimal_k=4)
results_br_5 = apply_kmeans_and_visualize(df_processed_br, data_br, optimal_k=5)
results_br_6 = apply_kmeans_and_visualize(df_processed_br, data_br, optimal_k=6)


## Exemplo: EUA

Conjunto de tickers de empresas norte-americanas. Fluxo idêntico, variando K em 4, 5 e 6.


### Definir Tickers (EUA)


In [None]:
tickers_usa = [
    'AAPL', 'MSFT', 'GOOGL', 'AMZN', 'NVDA', 'TSLA', 'META',
    'BRK-B', 'JPM', 'V', 'JNJ', 'WMT', 'UNH', 'LLY', 'XOM', 'MA',
    'PG', 'HD', 'BAC', 'DIS', 'NFLX', 'ADBE', 'CRM', 'CSCO', 'NKE',
    'KO', 'MCD', 'PFE', 'ORCL'
]


### Coletar Métricas Financeiras (EUA)


In [None]:
data_usa = fetch_financial_metrics(tickers_usa)
data_usa.head()


### Pré-processamento (apenas ROE e Dívida/Patrimônio) — EUA


In [None]:
num_cols = ['roe', 'debt_to_equity']
for col in num_cols:
    data_usa[col] = pd.to_numeric(data_usa[col], errors='coerce')
    data_usa[col].fillna(data_usa[col].median(), inplace=True)

preprocessor_usa = create_preprocessor(num_cols=num_cols)
scaled_features_usa = preview_transformation(preprocessor_usa, data_usa[num_cols])

df_processed_usa = pd.DataFrame(scaled_features_usa, columns=num_cols)
df_processed_usa['ticker'] = data_usa['ticker'].values
df_processed_usa.head()


### KMeans e Visualizações — EUA (K = 4, 5, 6)


In [None]:
results_usa_4 = apply_kmeans_and_visualize(df_processed_usa, data_usa, optimal_k=4)
results_usa_5 = apply_kmeans_and_visualize(df_processed_usa, data_usa, optimal_k=5)
results_usa_6 = apply_kmeans_and_visualize(df_processed_usa, data_usa, optimal_k=6)


## Exemplo: EUA + Brasil

Conjunto unificado de tickers (EUA e Brasil). Fluxo idêntico, variando K em 4, 5 e 6.


### Definir Tickers (EUA + Brasil)


In [None]:
tickers_usa_br = [
    'AAPL', 'MSFT', 'GOOGL', 'AMZN', 'NVDA', 'TSLA', 'META',
    'BRK-B', 'JPM', 'V', 'JNJ', 'WMT', 'UNH', 'LLY', 'XOM', 'MA',
    'PG', 'HD', 'BAC', 'DIS', 'NFLX', 'ADBE', 'CRM', 'CSCO', 'NKE',
    'KO', 'MCD', 'PFE', 'ORCL',
    'VALE3.SA', 'PETR4.SA', 'ITUB4.SA', 'BBDC4.SA', 'BBAS3.SA', 
    'ABEV3.SA', 'RENT3.SA', 'WEGE3.SA', 'ELET3.SA', 'SUZB3.SA', 
    'B3SA3.SA', 'GGBR4.SA', 'EGIE3.SA', 'HAPV3.SA', 'RDOR3.SA', 
    'TOTS3.SA', 'RADL3.SA', 'PRIO3.SA', 'LREN3.SA', 'MGLU3.SA', 
    'VIVT3.SA', 'SBSP3.SA', 'FLRY3.SA', 'GOAU4.SA', 'CPLE6.SA', 
    'ENGI11.SA', 'SANB11.SA', 'BPAC11.SA', 'CXSE3.SA', 'ASAI3.SA'
]


### Coletar Métricas Financeiras (EUA + Brasil)


In [None]:
data_usa_br = fetch_financial_metrics(tickers_usa_br)
data_usa_br.head()


### Pré-processamento (apenas ROE e Dívida/Patrimônio) — EUA + Brasil


In [None]:
num_cols = ['roe', 'debt_to_equity']
for col in num_cols:
    data_usa_br[col] = pd.to_numeric(data_usa_br[col], errors='coerce')
    data_usa_br[col].fillna(data_usa_br[col].median(), inplace=True)

preprocessor_usa_br = create_preprocessor(num_cols=num_cols)
scaled_features_usa_br = preview_transformation(preprocessor_usa_br, data_usa_br[num_cols])

df_processed_usa_br = pd.DataFrame(scaled_features_usa_br, columns=num_cols)
df_processed_usa_br['ticker'] = data_usa_br['ticker'].values
df_processed_usa_br.head()


### KMeans e Visualizações — EUA + Brasil (K = 4, 5, 6)


In [None]:
results_usa_br_4 = apply_kmeans_and_visualize(df_processed_usa_br, data_usa_br, optimal_k=4)
results_usa_br_5 = apply_kmeans_and_visualize(df_processed_usa_br, data_usa_br, optimal_k=5)
results_usa_br_6 = apply_kmeans_and_visualize(df_processed_usa_br, data_usa_br, optimal_k=6)


## Análise por Cluster (opcional)

As células abaixo (copiadas e traduzidas dos notebooks) ajudam a explorar estatísticas descritivas, boxplots e contagem de outliers por cluster. Você pode reexecutá-las para qualquer um dos resultados gerados acima.


### Cabeçalhos dos Clusters (exibir primeiras linhas por cluster)

Altere a variável `results_ref` para um dos resultados: `results_br_4`, `results_br_5`, `results_br_6`, `results_usa_4`, `results_usa_5`, `results_usa_6`, `results_usa_br_4`, `results_usa_br_5`, `results_usa_br_6`.


In [None]:
# Selecione qual resultado você quer inspecionar
results_ref = results_br_4  # mude aqui conforme necessário

for cluster_id in sorted(results_ref['Cluster'].unique()):
    print(f"\nCluster {cluster_id}:")
    display(results_ref[results_ref['Cluster'] == cluster_id].head())


### Estatísticas descritivas por cluster

Exibe média, mediana, desvio padrão, mínimo e máximo para `roe` e `debt_to_equity` do `results_ref` selecionado.


In [None]:
for cluster_id in sorted(results_ref['Cluster'].unique()):
    print(f"\nCluster {cluster_id}:")
    cluster_df = results_ref[results_ref['Cluster'] == cluster_id]
    print("Média:")
    print(cluster_df[['roe', 'debt_to_equity']].mean())
    print("Mediana:")
    print(cluster_df[['roe', 'debt_to_equity']].median())
    print("Desvio padrão:")
    print(cluster_df[['roe', 'debt_to_equity']].std())
    print("Mínimo:")
    print(cluster_df[['roe', 'debt_to_equity']].min())
    print("Máximo:")
    print(cluster_df[['roe', 'debt_to_equity']].max())


### Boxplots por cluster

Visualiza a distribuição e possíveis outliers de `roe` e `debt_to_equity` por cluster no `results_ref`.


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

for var in ['roe', 'debt_to_equity']:
    plt.figure(figsize=(8,5))
    sns.boxplot(x='Cluster', y=var, data=results_ref)
    plt.title(f'Distribuição de {var} por Cluster')
    plt.show()


### Contagem de outliers por cluster (método do IQR)

Conta outliers por cluster para cada variável no `results_ref`.


In [None]:
def count_outliers(series):
    q1 = series.quantile(0.25)
    q3 = series.quantile(0.75)
    iqr = q3 - q1
    lower = q1 - 1.5 * iqr
    upper = q3 + 1.5 * iqr
    return ((series < lower) | (series > upper)).sum()

for cluster_id in sorted(results_ref['Cluster'].unique()):
    cluster_df = results_ref[results_ref['Cluster'] == cluster_id]
    print(f"\nCluster {cluster_id} - Outliers:")
    for var in ['roe', 'debt_to_equity']:
        n_out = count_outliers(cluster_df[var])
        print(f"{var}: {n_out} outliers")
