# An√°lise Explorat√≥ria dos Dados (EDA)

*Para melhor leitura, oculte ambas barras laterais do Kaggle (toggle sidebars).*

## Introdu√ß√£o

O mercado de cr√©dito brasileiro passa por uma transforma√ß√£o estrutural com a consolida√ß√£o das Duplicatas Escriturais entre 2025 e 2026. Esse novo ambiente regulat√≥rio fortalece a seguran√ßa jur√≠dica e a transpar√™ncia, permitindo que receb√≠veis sejam registrados, validados e negociados com maior agilidade e rastreabilidade.

Com essa evolu√ß√£o, opera√ß√µes lastreadas em receb√≠veis ‚Äî como antecipa√ß√£o de duplicatas e linhas de capital de giro ‚Äî passam a exigir avalia√ß√µes cada vez mais precisas sobre a sa√∫de financeira do cedente. Empresas com fragilidades estruturais de liquidez, gera√ß√£o de caixa ou solv√™ncia ampliam significativamente o risco operacional e a probabilidade de inadimpl√™ncia comercial, afetando diretamente a performance da duplicata cedida.

Nesse contexto, este projeto prop√µe um MVP (Produto M√≠nimo Vi√°vel) de um sistema automatizado de an√°lise financeira, combinando:

* **Engenharia de Dados** (estat√≠sticas, regras determin√≠sticas e compara√ß√£o setorial)
* **Modelos de IA Generativa** (interpreta√ß√£o narrativa, recomenda√ß√µes e contextualiza√ß√£o regulat√≥ria)

O objetivo √© traduzir indicadores financeiros complexos em insights acion√°veis, suportando decis√µes relacionadas √† concess√£o de cr√©dito, gest√£o de risco e an√°lise da capacidade de pagamento de empresas. O sistema integra hist√≥rico temporal, benchmarking setorial e m√©tricas-chave de desempenho operacional.

Este MVP busca validar a hip√≥tese de que √© poss√≠vel produzir an√°lises de cr√©dito com profundidade equivalente √† de um especialista humano, mas com escala e velocidade de processamento compat√≠veis com opera√ß√µes de receb√≠veis em ambiente digital. O resultado final √© um relat√≥rio rico, contextualizado e audit√°vel ‚Äî muito al√©m do simples ‚ÄúAprovado/Reprovado‚Äù ‚Äî oferecendo diagn√≥stico financeiro e recomenda√ß√µes pr√°ticas de mitiga√ß√£o de risco na opera√ß√£o de duplicatas.



## Objetivo 

Em opera√ß√µes com duplicata escritural, a an√°lise de risco concentra-se na capacidade financeira do sacado/cedente, especialmente sua liquidez, gera√ß√£o de caixa e estabilidade operacional. O pipeline deste MVP foi projetado para simular esse processo.

O objetivo do MVP √©:

> **Avaliar a sa√∫de financeira de empresas, produzindo diagn√≥sticos automatizados que apoiem decis√µes de antecipa√ß√£o de duplicatas, gest√£o de caixa e concess√£o de cr√©dito lastreado em receb√≠veis.**

Isso inclui:

* Extra√ß√£o e processamento de indicadores financeiros hist√≥ricos
* Aplica√ß√£o de regras estat√≠sticas determin√≠sticas (liquidez, FCO, EBITDA, margens)
* Benchmarking por setor e an√°lise de dispers√£o e risco estrutural
* Gera√ß√£o de classifica√ß√µes e alertas objetivos (ex.: risco de liquidez, deteriora√ß√£o operacional)
* Produ√ß√£o de um relat√≥rio narrativo e contextualizado via IA Generativa, baseado em m√©tricas audit√°veis
* Adequa√ß√£o dos processos em um produto test√°vel.



## Etapas

O projeto completo est√° [dispon√≠vel no GitHub](https://github.com/monicaneli/Analise_de_Indicadores_Financeiros_Automatizada).

* **An√°lise Explorat√≥ria dos Dados:** investiga√ß√£o do comportamento hist√≥rico, extra√ß√£o de estat√≠sticas e defini√ß√£o das regras de classifica√ß√£o (neste notebook).
* **Valida√ß√£o das Regras:** aplica√ß√£o das regras em duas empresas para verificar ader√™ncia e estabilidade dos crit√©rios (neste notebook).
* **Desenvolvimento do Backend:** implementa√ß√£o de uma API em Python (FastAPI) contendo todas as regras, c√°lculos estat√≠sticos e diagn√≥sticos ‚Äî tanto em n√≠vel de empresa quanto setorial, quando dispon√≠vel.
* **Pipeline no n8n:** cria√ß√£o de um fluxo automatizado com formul√°rio para escolha da empresa, gera√ß√£o do relat√≥rio, salvamento do HTML no GitHub (pasta do projeto) e retorno do link `raw.githack` para visualiza√ß√£o do relat√≥rio.



## Tratamento de Dados e Premissas

A base de dados apresenta **integridade completa**, sem valores nulos. Optou-se pela **manuten√ß√£o integral dos outliers**, considerando que, na an√°lise de cr√©dito e risco corporativo, valores extremos frequentemente representam:

* estresse financeiro,
* reestrutura√ß√µes,
* choques operacionais,
* risco de liquidez ou alavancagem at√≠pica.

Ou seja, tratam-se de sinais relevantes para diagn√≥stico, e n√£o ru√≠do estat√≠stico.

Para sustentar essa abordagem, assumiram-se as seguintes premissas:

1. **Integridade da Fonte:** valores extremos s√£o considerados representa√ß√µes fi√©is dos dados cont√°beis reportados, n√£o erros de ingest√£o ou diferen√ßas de escala monet√°ria (ex.: milhares vs. milh√µes).

2. **Homogeneidade Setorial:** sup√µe-se que empresas do mesmo setor possuem modelos de neg√≥cio compar√°veis o suficiente para an√°lise estat√≠stica conjunta, de forma que um *outlier* reflita desempenho an√¥malo ‚Äî e n√£o incompatibilidade estrutural.

3. **Consist√™ncia Temporal e Regulat√≥ria:** oscila√ß√µes abruptas ao longo da s√©rie hist√≥rica (9 a 15 anos) podem ser decorrentes de eventos n√£o recorrentes ou mudan√ßas regulat√≥rias; a interpreta√ß√£o deve ser contextualizada para evitar diagn√≥sticos incorretos.

4. **Viabilidade Estat√≠stica:** apenas setores com mais de uma empresa (Tecnologia da Informa√ß√£o, Eletr√¥nicos e Bancos) foram considerados na an√°lise setorial para garantir robustez nos quartis. Foi utilizado o maior per√≠odo hist√≥rico comum entre empresas (2009‚Äì2022). Observa√ß√µes isoladas do ano de 2023, presentes apenas para duas empresas, foram exclu√≠das.

5. **Limita√ß√£o Metodol√≥gica:** as regras de classifica√ß√£o s√£o rigidamente programadas em Python neste notebook. A IA Generativa √© utilizada exclusivamente para s√≠ntese textual e recomenda√ß√µes, garantindo que o relat√≥rio final permane√ßa fundamentado em c√°lculos audit√°veis e transparentes.



### Extra√ß√£o de Regras de Classifica√ß√£o de Risco

A estrat√©gia de an√°lise utiliza a intelig√™ncia estat√≠stica extra√≠da dos agrupamentos setoriais de duas formas complementares:

- Primeiramente, a distribui√ß√£o dos dados hist√≥ricos serviu para calibrar as Matrizes de Classifica√ß√£o de Risco, definindo limiares absolutos de seguran√ßa (como os 'Pisos Recorrentes' de liquidez) aplic√°veis individualmente a cada empresa para validar sua solv√™ncia.
  
- Simultaneamente, realizamos um Benchmarking Relativo, posicionando os indicadores da empresa avaliada dentro dos quartis do seu respectivo setor. Essa dupla checagem permite distinguir uma empresa financeiramente saud√°vel (vis√£o absoluta) de uma empresa que, embora solvente, pode estar operando com efici√™ncia ou margens inferiores √† m√©dia de seus pares (vis√£o relativa de competitividade).

Essa abordagem reduz complexidade, aumenta interpretabilidade e foca diretamente nas m√©tricas que influenciam o risco da opera√ß√£o, permitindo decis√µes mais r√°pidas e sustentadas em dados.

### Perfis de Classifica√ß√£o
Baseando-se na consist√™ncia hist√≥rica de seus indicadores (Liquidez, Margens e Gera√ß√£o de Caixa) e na resili√™ncia demonstrada nos piores cen√°rios (an√°lise de piso/quartis), as empresas s√£o classificadas em quatro n√≠veis de sa√∫de financeira, listados abaixo na tabela.

Com base nas matrizes de risco estabelecidas, as regras ser√£o aplicadas no diagn√≥stico automatizado das empresas do dataset, permitindo valid√°-las em cen√°rios opostos de sa√∫de financeira.

| **Perfil** | **Conceito** | **Caracter√≠sticas Principais** | **Sugest√£o de Cr√©dito** |
| :--- | :--- | :--- | :--- |
| **üîµ Forte** | Robustez / Sobra | Opera com ampla folga ("colch√£o"). Suporta crises sem comprometer pagamentos. | Aprova√ß√£o Facilitada.<br>Taxas competitivas. |
| **üü° Adequado** | Equil√≠brio | Gest√£o eficiente ("Just in Time"). Paga em dia, mas sem excessos de caixa. | Aprova√ß√£o Padr√£o.<br>Monitoramento de rotina. |
| **üü† Moderado** | No Limite / Inst√°vel | Margem de seguran√ßa estreita. Hist√≥rico de oscila√ß√µes ou "buracos" de caixa pontuais. | Aprova√ß√£o Condicionada.<br>Exigir travas/garantias e prazo curto. |
| **üî¥ Elevado** | Insolv√™ncia | Estrutura comprometida. Depende de rolagem de d√≠vida para n√£o quebrar. | Recusa Recomendada.<br>Ou colateraliza√ß√£o total (100%). |

## Gloss√°rio de M√©tricas

Para garantir uma avalia√ß√£o de cr√©dito r√°pida e precisa, o sistema monitora quatro pilares fundamentais da sa√∫de financeira:

**Liquidez Corrente (Solv√™ncia Imediata)**: Mede se a empresa tem recursos dispon√≠veis agora para pagar todas as suas d√≠vidas que vencem no curto prazo (at√© 1 ano).

**Fluxo de Caixa Operacional - FCO**: O dinheiro que efetivamente entrou na conta da empresa proveniente de suas vendas e servi√ßos, descontando os pagamentos operacionais.

**Margem L√≠quida (Efici√™ncia Final)**: A porcentagem da receita que sobra como lucro limpo ap√≥s pagar absolutamente todos os custos, impostos, juros e despesas.

**EBITDA (Potencial Operacional)**: Sigla para "Lucro antes de juros, impostos, deprecia√ß√£o e amortiza√ß√£o". Mostra quanto a opera√ß√£o principal da empresa gera de dinheiro bruto, ignorando d√≠vidas ou impostos. √â o indicador que revela se o neg√≥cio √© saud√°vel e lucrativo.

## Fonte e Estrutura dos Dados

A an√°lise baseia-se no dataset "[Financial Statements of Major Companies (2009-2023)](https://www.kaggle.com/datasets/rish59/financial-statements-of-major-companies2009-2023/data)", uma compila√ß√£o de dados financeiros extra√≠dos de relat√≥rios anuais oficiais (10-K) e balan√ßos patrimoniais. Trata-se de uma base de dados pequena com 161 observa√ß√µes e 24 vari√°veis financeiras. A amostra compreende 12 empresas distintas distribu√≠das em 8 setores econ√¥micos, com um horizonte temporal que varia de 9 a 15 anos por companhia. 

A estrutura setorial √© heterog√™nea, composta por clusters competitivos (Tecnologia da Informa√ß√£o com 3 empresas; Bancos e Eletr√¥nicos com 2 empresas) e segmentos de empresa √∫nica (como Alimentos, Fintech e Log√≠stica). Essa configura√ß√£o permite validar o modelo de cr√©dito tanto via benchmarking relativo (nos setores m√∫ltiplos) quanto via an√°lise de tend√™ncia hist√≥rica (nos setores unit√°rios).



| **Coluna**                               | **Descri√ß√£o**                                                                 |
|-------------------------------------------|-------------------------------------------------------------------------------|
| **Year**                                  | Ano da observa√ß√£o.                                                            |
| **Company**                               | Nome da empresa conforme listado no mercado de a√ß√µes.                          |
| **Category**                              | Categoria / setor econ√¥mico da empresa.                                        |
| **Market Cap(in B USD)**                  | Valor de mercado (Market Cap) em bilh√µes de d√≥lares (USD).                    |
| **Revenue**                               | Receita total em milh√µes de USD.                                              |
| **Gross Profit**                          | Lucro bruto em milh√µes de USD.                                                |
| **Net Income**                            | Lucro l√≠quido em milh√µes de USD.                                              |
| **Earning Per Share**                     | Lucro por a√ß√£o (EPS), em USD.                                                 |
| **EBITDA**                                | EBITDA em milh√µes de USD.                                                     |
| **Share Holder Equity**                   | Patrim√¥nio l√≠quido em milh√µes de USD.                                         |
| **Cash Flow from Operating**              | Fluxo de caixa das atividades operacionais (em milh√µes de USD).               |
| **Cash Flow from Investing**              | Fluxo de caixa das atividades de investimento (em milh√µes de USD).            |
| **Cash Flow from Financial Activities**   | Fluxo de caixa das atividades financeiras (em milh√µes de USD).                |
| **Current Ratio**                         | √çndice de liquidez corrente.                                                  |
| **Debt/Equity Ratio**                     | √çndice de endividamento (D√≠vida / Patrim√¥nio L√≠quido).                        |
| **ROE**                                   | Return on Equity ‚Äî Retorno sobre o Patrim√¥nio L√≠quido.                        |
| **ROA**                                   | Return on Assets ‚Äî Retorno sobre os Ativos.                                   |
| **ROI**                                   | Return on Investment ‚Äî Retorno sobre o Investimento.                          |
| **Net Profit Margin**                     | Margem de lucro l√≠quido (em %).                                               |
| **Free Cash Flow per Share**              | Fluxo de caixa livre por a√ß√£o (em USD).                                       |
| **Return on Tangible Equity**             | Retorno sobre o patrim√¥nio tang√≠vel.                                          |
| **Number of Employees**                   | N√∫mero de empregados da empresa no per√≠odo.                                   |
| **Inflation Rate(in US)**                 | Taxa de infla√ß√£o dos EUA no per√≠odo.                                          |

N√£o h√° cita√ß√£o da fonte dos dados, por√©m sup√µem-se que tenha sido obtido do [SEC](https://www.sec.gov/data-research/sec-markets-data/financial-statement-data-sets).


In [1]:
# Python 3 environment 
# comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/financial-statements-of-major-companies2009-2023/Financial Statements.csv


In [2]:
# Bibliotecas e Vari√°veis
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import iqr
from sklearn.linear_model import LinearRegression
from scipy.stats import skew
from scipy.stats import sem

# Plotly
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import plotly.subplots as sp
import plotly.io as pio
pio.renderers.default = 'notebook_connected'  # <- aqui, logo ap√≥s os imports

SEED = 42
np.random.seed(SEED)
dataset_path = "/kaggle/input/financial-statements-of-major-companies2009-2023/Financial Statements.csv"

# Padroniza√ß√£o dos nomes das colunas
nomes_cols = {
    'Year': 'Ano',
    'Company ': 'Empresa',
    'Category': 'Categoria',
    'Market Cap(in B USD)': 'Valor_de_Mercado_Bilhoes_USD',
    'Revenue': 'Receita',
    'Gross Profit': 'Lucro_Bruto',
    'Net Income': 'Lucro_Liquido',
    'Earning Per Share': 'Lucro_por_Acao',
    'EBITDA': 'EBITDA',
    'Share Holder Equity': 'Patrimonio_Liquido',
    'Cash Flow from Operating': 'Fluxo_Caixa_Operacional',
    'Cash Flow from Investing': 'Fluxo_Caixa_Investimentos',
    'Cash Flow from Financial Activities': 'Fluxo_Caixa_Financiamento',
    'Current Ratio': 'Liquidez_Corrente',
    'Debt/Equity Ratio': 'Divida_Patrimonio',
    'ROE': 'ROE',
    'ROA': 'ROA',
    'ROI': 'ROI',
    'Net Profit Margin': 'Margem_Liquida',
    'Free Cash Flow per Share': 'Fluxo_Caixa_Livre_por_Acao',
    'Return on Tangible Equity': 'Retorno_Sobre_Patrimonio_Tangivel',
    'Number of Employees': 'Numero_de_Funcionarios',
    'Inflation Rate(in US)': 'Inflacao_USA'
}

# Dicion√°rio para t√≠tulos
titulos_graficos = {
    'Ano': 'Evolu√ß√£o Anual',
    'Empresa': 'Distribui√ß√£o por Empresa',
    'Categoria': 'Distribui√ß√£o por Setor Econ√¥mico',
    'Valor_de_Mercado_Bilhoes_USD': 'Valor de Mercado (em bilh√µes de USD)',
    'Receita': 'Receita Anual',
    'Lucro_Bruto': 'Lucro Bruto',
    'Lucro_Liquido': 'Lucro L√≠quido',
    'Lucro_por_Acao': 'Lucro por A√ß√£o (EPS)',
    'EBITDA': 'EBITDA (milh√µes de USD)',
    'Patrimonio_Liquido': 'Patrim√¥nio L√≠quido',
    'Fluxo_Caixa_Operacional': 'Fluxo de Caixa Operacional (milh√µes de USD)',
    'Fluxo_Caixa_Investimentos': 'Fluxo de Caixa de Investimentos',
    'Fluxo_Caixa_Financiamento': 'Fluxo de Caixa de Financiamento',
    'Liquidez_Corrente': 'Liquidez Corrente',
    'Divida_Patrimonio': 'D√≠vida/Patrim√¥nio (Debt to Equity)',
    'ROE': 'Retorno sobre Patrim√¥nio (ROE)',
    'ROA': 'Retorno sobre Ativos (ROA)',
    'ROI': 'Retorno sobre Investimento (ROI)',
    'Margem_Liquida': 'Margem de Lucro L√≠quida (%)',
    'Fluxo_Caixa_Livre_por_Acao': 'Fluxo de Caixa Livre por A√ß√£o',
    'Retorno_Sobre_Patrimonio_Tangivel': 'Retorno sobre Patrim√¥nio Tang√≠vel',
    'Numero_de_Funcionarios': 'N√∫mero de Funcion√°rios',
    'Inflacao_USA': 'Infla√ß√£o nos EUA'
}

# Dicion√°rio de renomea√ß√£o dos setores/categorias
map_categorias = {
    "IT": "Tecnologia da Informa√ß√£o",
    "FINTECH": "Fintech",
    "BANK": "Bancos",
    "MANUFACTURING": "Manufatura",
    "FINANCE": "Servi√ßos Financeiros",
    "FOOD": "Alimentos",
    "ELEC": "Eletr√¥nicos",
    "LOGI": "Log√≠stica"
}

unidades_dict = {
    'Liquidez_Corrente': '',
    'Margem_Liquida': '%',
    'Fluxo_Caixa_Operacional': 'milh√µes de USD',
    'EBITDA': 'milh√µes de USD',
    'ROE': '%',
    'ROA': '%',
    'ROI': '%'
}

In [3]:
# Dataset: Financial Statements of Major Companies(2009-2023)
df = pd.read_csv(dataset_path)
#data.info()

In [4]:
# Transforma√ß√µes no dataset
df = df.rename(columns=nomes_cols)

# Renomer setores economicos/categorias
df["Categoria"] = df["Categoria"].str.upper()
df["Categoria"] = df["Categoria"].map(map_categorias)


colunas_remover = [
    'Valor_de_Mercado_Bilhoes_USD', 
    'Receita', 
    'Lucro_Bruto', 
    'Lucro_Liquido', 
    'Lucro_por_Acao', 
    'Patrimonio_Liquido',
    'Fluxo_Caixa_Investimentos', 
    'Fluxo_Caixa_Financiamento',
    'Divida_Patrimonio', 
    'ROE', 
    'ROA', 
    'ROI',
    'Fluxo_Caixa_Livre_por_Acao',
    'Retorno_Sobre_Patrimonio_Tangivel', 
    'Numero_de_Funcionarios',
    'Inflacao_USA'
]

# Remover colunas n√£o analisadas
df.drop(columns=colunas_remover, inplace=True)

df.to_csv("some_financial_statements_companies_2009_2023.csv", index=False)

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 161 entries, 0 to 160
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Ano                      161 non-null    int64  
 1   Empresa                  161 non-null    object 
 2   Categoria                161 non-null    object 
 3   EBITDA                   161 non-null    float64
 4   Fluxo_Caixa_Operacional  161 non-null    float64
 5   Liquidez_Corrente        161 non-null    float64
 6   Margem_Liquida           161 non-null    float64
dtypes: float64(4), int64(1), object(2)
memory usage: 8.9+ KB


In [5]:
# Fun√ß√µes auxiliares

# Colors
colors = [
    '#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', 
    '#9467bd', '#8c564b', '#e377c2', '#489295'
]

sector_color_map = {sector: color for sector, color in zip(df['Categoria'].unique(), colors)}

# Classifica√ß√£o reduzida para benchmarking
def classificar_benchmark(cat):
    n = empresas_por_categoria[cat]
    if n == 1:
        return "An√°lise Hist√≥rica"
    else:
        return "Benchmarking M√©dio"

# Criar uma coluna de categoria de liquidez (para as 3 cores)
def classificar_liquidez(valor):
    if valor < 1:
        return "Liquidez Cr√≠tica (<1)"
    elif valor <= 2:
        return "Liquidez Adequada (1‚Äì2)"
    else:
        return "Liquidez Alta (>2)"


def gerar_frase_tendencia(resultado):
    """
    Gera frase descritiva autom√°tica com base no resultado da fun√ß√£o analisar_tendencia_setor().
    """

    if "erro" in resultado:
        return f"N√£o foi poss√≠vel analisar a tend√™ncia: {resultado['erro']}"

    setor = resultado["setor"]
    coluna = resultado["coluna_analisada"]
    yoy = resultado["yoy_percent"]
    cagr = resultado["cagr_percent"]
    slope = resultado["tendencia_slope"]
    interpretacao = resultado["interpretacao"]
    anos = resultado["anos_analisados"]
    mult = resultado["multiplas_empresas"]

    # Nome amig√°vel da m√©trica
    nome_met = titulos_graficos[coluna]
    unidade = unidades_dict[coluna]
    
    # Parte 1 ‚Äî introdu√ß√£o
    if mult:
        intro = (f"No setor {setor.upper()}, considerando a m√©dia das empresas, "
                 f"a {nome_met.upper()} apresentou ")
    else:
        intro = (f"No setor {setor.upper()}, representado por uma √∫nica empresa, "
                 f"a {nome_met.upper()} apresentou ")

    # Parte 2 ‚Äî tend√™ncia (slope)
    slope_fmt = round(slope, 2)
    
    if slope > 0:
        tendencia_txt = f"tend√™ncia de alta (regress√£o linear = {slope_fmt} {unidade}/ano)"
    elif slope < 0:
        tendencia_txt = f"tend√™ncia de queda (regress√£o linear = {slope_fmt} {unidade}/ano)"
    else:
        tendencia_txt = f"tend√™ncia est√°vel (regress√£o linear = {slope_fmt} {unidade}/ano)"


    # Parte 3 ‚Äî intensidade via CAGR
    if pd.isna(cagr):
        intensidade = "em ritmo vari√°vel"
        cagr_txt = "NA (n√£o aplic√°vel devido a valores negativos ou zero)"
    else:
        if abs(cagr) >= 10:
            intensidade = "de forma acentuada"
        elif abs(cagr) >= 3:
            intensidade = "de forma moderada"
        else:
            intensidade = "de forma leve"
        cagr_txt = f"{cagr:.2f}%"

    # Parte 4 ‚Äî frase final
    frase = (
        f"{intro}{tendencia_txt} {intensidade} nos √∫ltimos {len(anos)} anos "
        f"({anos[0]}‚Äì{anos[-1]}). "
        f"O CAGR do per√≠odo foi de {cagr_txt}, "
        f"e a varia√ß√£o total (YoY acumulado) foi de {yoy:.2f}%."
    )

    return frase



# Para uso com qualquer m√©trica (Lucro L√≠quido, Receita, EBITDA‚Ä¶).
def analisar_tendencia_empresa(df, empresa, coluna, anos=3):
    """
    Calcula tend√™ncia da m√©trica para os √∫ltimos N anos.
    M√©todos: YoY, CAGR e Regress√£o Linear.
    """
    df_emp = df[df['Empresa'] == empresa].sort_values('Ano')

    # √∫ltimos N anos dispon√≠veis
    df_last = df_emp.tail(anos)

    if len(df_last) < 2:
        return "Hist√≥rico insuficiente para an√°lise."

    valores = df_last[coluna].values
    anos_vals = df_last['Ano'].values

    # YoY: varia√ß√£o entre primeiros e √∫ltimos
    yoy = (valores[-1] - valores[0]) / valores[0]

    # CAGR: M√©dia anual ao longo de v√°rios anos  
    if (valores > 0).all():
        n = len(df_last) - 1
        cagr = (valores[-1] / valores[0]) ** (1/n) - 1
    else:
        cagr = pd.NA #CAGR n√£o aplic√°vel devido a valores negativos ou zero

    # Regress√£o linear (tend√™ncia estat√≠stica) / S√©ries vol√°teis ‚Äî identifica tend√™ncia real
    X = anos_vals.reshape(-1, 1)
    y = valores
    model = LinearRegression().fit(X, y)
    slope = model.coef_[0]  # inclina√ß√£o

    return {
        "anos_analisados": anos_vals.tolist(),
        "valores": valores.tolist(),
        "yoy_percent": yoy * 100,
        "cagr_percent": cagr * 100,
        "tendencia_slope": slope,
        "interpretacao": (
            "Queda" if slope < 0 else "Alta"
        )
    }

def analisar_tendencia_setor(df, setor, coluna, anos=3):
    """
    Calcula tend√™ncia hist√≥rica de uma m√©trica em um setor.
    Funciona para setores com 1 ou m√∫ltiplas empresas.
    """

    # Filtrar setor
    df_setor = df[df['Categoria'] == setor].copy()

    if df_setor.empty:
        return {"erro": "Setor n√£o encontrado no dataset."}

    # Setor com v√°rias empresas ‚Üí agrega (m√©dia por ano)
    if df_setor['Empresa'].nunique() > 1:
        df_agg = (
            df_setor
            .groupby('Ano')[coluna]
            .mean()
            .reset_index()
            .sort_values('Ano')
        )
    else:
        # Apenas 1 empresa no setor
        df_agg = (
            df_setor[['Ano', coluna]]
            .dropna()
            .sort_values('Ano')
        )

    # Os √∫ltimos N anos dispon√≠veis
    df_last = df_agg.tail(anos)

    if len(df_last) < 2:
        return {"erro": "Hist√≥rico insuficiente para calcular tend√™ncia."}

    valores = df_last[coluna].values
    anos_vals = df_last['Ano'].values

    # YoY: varia√ß√£o entre primeiros e √∫ltimos
    yoy = (valores[-1] - valores[0]) / valores[0]

    # CAGR: M√©dia anual ao longo de v√°rios anos  
    if (valores > 0).all():
        n = len(valores) - 1
        cagr = (valores[-1] / valores[0]) ** (1/n) - 1
    else:
        cagr = pd.NA #CAGR n√£o aplic√°vel devido a valores negativos ou zero

    # Regress√£o linear (tend√™ncia estat√≠stica) / S√©ries vol√°teis ‚Äî identifica tend√™ncia rea
    model = LinearRegression()
    model.fit(anos_vals.reshape(-1, 1), valores)
    slope = model.coef_[0]

    return {
        "setor": setor,
        "coluna_analisada": coluna,
        "anos_analisados": anos_vals.tolist(),
        "valores": valores.tolist(),
        "yoy_percent": yoy * 100,
        "cagr_percent": cagr * 100,
        "tendencia_slope": slope,
        "interpretacao": "Alta" if slope > 0 else "Queda",
        "multiplas_empresas": df_setor['Empresa'].nunique() > 1
    }


def plot_metrica_por_setores(df, setores, coluna_valor="Liquidez_Corrente", titulo_plot="Evolu√ß√£o da Liquidez Corrente por Setor", paleta_cores=None):
    """
    Gera um gr√°fico composto (linha do tempo + boxplot) comparando a evolu√ß√£o
    da liquidez corrente das empresas de determinados setores.

    ----------------------------------------------
    PAR√ÇMETROS
    ----------------------------------------------
    df : pandas.DataFrame
        DataFrame contendo os dados completos.

    setores : list
        Lista de categorias/setores que ser√£o filtrados no gr√°fico.

    coluna_valor : str (default="Liquidez_Corrente")
        Nome da coluna num√©rica que ser√° plotada.
        
    titulo_plot : str
        T√≠tulo principal do gr√°fico.
    
    paleta_cores : list ou None
        Lista de cores hexadecimais que ser√£o atribu√≠das √†s empresas.
        Se None, gera cores autom√°ticas.
        
    ----------------------------------------------
    RETORNO
    ----------------------------------------------
    fig : plotly.graph_objects.Figure
        Figura Plotly pronta para exibi√ß√£o.
    """
    
    coluna_empresa="Empresa"
    coluna_categoria="Categoria"
    coluna_ano="Ano"
    height=500
    
    # Filtrar os setores desejados
    df_setores = df[df[coluna_categoria].isin(setores)].copy()

    # Ordenar empresas pelo maior hist√≥rico (anos)
    empresa_ordem = (
        df_setores.groupby(coluna_empresa)[coluna_ano]
        .nunique()
        .sort_values(ascending=False)
        .index
    )

    # Atribuir cores fixas para cada empresa
    empresas_lista = list(empresa_ordem)

    if paleta_cores is None:
        # Cores autom√°ticas se nada for passado
        paleta_cores = ["#96273d", "#1f77b4", "#ff7f0e", "#2ca02c", "#9467bd", "#8c564b", "#d62728"]

    # garantir que h√° cor suficiente
    if len(paleta_cores) < len(empresas_lista):
        raise ValueError(
            "N√∫mero insuficiente de cores em paleta_cores "
            f"({len(paleta_cores)}) para {len(empresas_lista)} empresas."
        )

    cores_empresas = dict(zip(empresas_lista, paleta_cores))

    # Criar subplots
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=("", ""), #("Evolu√ß√£o", "Distribui√ß√£o"),
        horizontal_spacing=0.12
    )

    # COLUNA 1 ‚Äî Timeline
    for emp in empresa_ordem:
        df_emp = df_setores[df_setores[coluna_empresa] == emp]

        fig.add_trace(
            go.Scatter(
                x=df_emp[coluna_ano],
                y=df_emp[coluna_valor],
                mode="lines+markers",
                marker=dict(size=9, color=cores_empresas[emp]),
                line=dict(width=2, color=cores_empresas[emp]),
                name=emp,

                # customdata para hover
                customdata=np.stack([
                    df_emp[coluna_empresa],
                    df_emp[coluna_categoria],
                    df_emp[coluna_valor]
                ], axis=-1),

                hovertemplate=(
                    "<b>%{customdata[0]}</b><br>"
                    "Ano: %{x}<br>"+
                    titulos_graficos[coluna_valor]+": %{customdata[2]:.2f}<br>"
                    "Categoria: %{customdata[1]}<extra></extra>"
                ),
            ),
            row=1, col=1
        )

    # COLUNA 2 ‚Äî Boxplots
    empresa_ordem = df_setores.groupby(coluna_empresa)[coluna_valor].median().sort_values(ascending=False).index
    for emp in empresa_ordem:
        df_emp = df_setores[df_setores[coluna_empresa] == emp]

        fig.add_trace(
            go.Box(
                y=df_emp[coluna_valor],
                name=emp,
                marker_color=cores_empresas[emp],
                boxmean=True,
                showlegend=False
            ),            
            row=1, col=2
        )

    # Layout final
    fig.update_layout(
        title=dict(
            text=titulo_plot,
            x=0.0, xanchor="left",
            font=dict(size=20)
        ),
        legend=dict(
            orientation="h",
            yanchor="top",
            y=1.12,
            xanchor="left",
            x=0.0
        ),
        height=height,
        plot_bgcolor="white"
    )

    fig.update_xaxes(showgrid=True, gridcolor="lightgray")
    fig.update_yaxes(showgrid=True, gridcolor="lightgray")

    fig.update_yaxes(title_text=titulos_graficos[coluna_valor], row=1, col=1)
    fig.update_yaxes(title_text=titulos_graficos[coluna_valor], row=1, col=2)

    return fig


def plot_metric_by_sector(df, metric, sector_color_map, reference_line=None):
    """
    Gr√°fico com 2 subplots:
    1) Evolu√ß√£o temporal (m√©dia + min‚Äìmax) para setores com m√∫ltiplas empresas
    2) Boxplot da distribui√ß√£o dos indicadores (tamb√©m apenas setores com m√∫ltiplas empresas)

    Setores com apenas 1 empresa s√£o exclu√≠dos pois n√£o possuem varia√ß√£o intra-setorial.
    """

    # ---------------------------
    # Identificar setores v√°lidos
    # ---------------------------
    setor_counts = df.groupby("Categoria")["Empresa"].nunique()

    setores_multiplos = setor_counts[setor_counts > 1].index.tolist()

    if len(setores_multiplos) == 0:
        print("N√£o h√° setores com mais de uma empresa. Nada a plotar.")
        return

    # Ordena√ß√£o pela mediana da m√©trica
    medianas = df.groupby("Categoria")[metric].median()
    setores_ordenados = sorted(setores_multiplos, key=lambda s: medianas[s])
    
    unidade = unidades_dict[metric]
    
    # ---------------------------
    # Criar figura
    # ---------------------------
    fig = make_subplots(
        rows=2, cols=1,
        subplot_titles=(
            f"Evolu√ß√£o Temporal por Setores ‚Äî {titulos_graficos[metric]}",
            f"Compara√ß√£o Estat√≠stica entre Setores ‚Äî {titulos_graficos[metric]}"
        ),
        shared_xaxes=False,
        vertical_spacing=0.15
    )

    # --------------------------------------------
    # SUBPLOT 1 ‚Äî Evolu√ß√£o temporal (mean + min/max)
    # --------------------------------------------
    for setor in setores_ordenados:
        df_sec = df[df["Categoria"] == setor]

        agg = df_sec.groupby("Ano")[metric].agg(["mean", "min", "max"]).reset_index()
        color = sector_color_map.get(setor, "#333333")

        rgba = tuple(int(color.lstrip('#')[i:i+2], 16) for i in (0, 2, 4)) + (0.2,)

        # Max (linha invis√≠vel para sombra)
        fig.add_trace(go.Scatter(
            x=agg["Ano"], y=agg["max"],
            mode="lines",
            line=dict(width=0),
            showlegend=False,
            hoverinfo="skip"
        ), row=1, col=1)

        # Min (com fill shadow)
        fig.add_trace(go.Scatter(
            x=agg["Ano"], y=agg["min"],
            mode="lines",
            line=dict(width=0),
            fill="tonexty",
            fillcolor=f"rgba{rgba}",
            showlegend=False,
            hoverinfo="skip"
        ), row=1, col=1)

        # M√©dia (linha principal)
        fig.add_trace(go.Scatter(
            x=agg["Ano"], y=agg["mean"],
            mode="lines+markers",
            name=setor,
            line=dict(color=color, width=2),
            hovertemplate=f"<b>{setor}</b><br>Ano: %{{x}}<br>M√©dia {metric}: %{{y:.2f}}<extra></extra>"
        ), row=1, col=1)

    # Linha de refer√™ncia, se houver
    if reference_line is not None:
        fig.add_hline(
            y=reference_line,
            line_dash="dash",
            line_color="gray",
            opacity=0.7,
            row=1,
            col=1
        )

    # --------------------------------------------
    # SUBPLOT 2 ‚Äî Boxplots (somente setores m√∫ltiplos)
    # --------------------------------------------
    for setor in setores_ordenados:
        df_sec = df[df["Categoria"] == setor]
        color = sector_color_map.get(setor, "#333333")

        fig.add_trace(go.Box(
            y=df_sec[metric],
            name=setor,
            marker_color=color,
            boxpoints="all",
            jitter=0.3,
            pointpos=-1.8,
            boxmean=True,
            showlegend=False
        ), row=2, col=1)

    # ---------------------------
    # Layout
    # ---------------------------
    fig.update_layout(
        height=900,
        template="plotly_white",
        hovermode="x unified"
    )

    fig.update_yaxes(title_text=f"{titulos_graficos[metric]}", row=1, col=1)
    fig.update_yaxes(title_text=f"{titulos_graficos[metric]}", row=2, col=1)

    fig.update_xaxes(title_text="Ano", row=1, col=1)
    fig.update_xaxes(title_text="Setores", row=2, col=1)

    fig.show()



def plotar_distribuicao_setorial(df, metrica, mapa_cores_setor, height=600):
    """
    Gera boxplots comparativos separando setores com m√∫ltiplas empresas 
    dos setores com empresa √∫nica (monop√≥lios na amostra).
    
    Par√¢metros:
    - df: DataFrame contendo as colunas 'Categoria', 'Empresa' e a m√©trica.
    - metrica: String com o nome da coluna num√©rica a ser analisada (ex: 'Liquidez_Corrente').
    - mapa_cores_setor: Dicion√°rio {Nome_Setor: Cor_Hex}.
    - height: Padr√£o de 600
    """
    
    # N√∫mero de empresas √∫nicas existem em cada categoria
    contagem_setor = df.groupby('Categoria')['Empresa'].nunique()
    
    setores_multi = contagem_setor[contagem_setor > 1].index.tolist()
    setores_uni = contagem_setor[contagem_setor == 1].index.tolist()

    # Ordena a lista de nomes baseada no valor da mediana correspondente
    medianas_por_setor = df.groupby('Categoria')[metrica].median()
    setores_multi.sort(key=lambda x: medianas_por_setor[x], reverse=True)
    setores_uni.sort(key=lambda x: medianas_por_setor[x], reverse=True)
    
    # Ordenar setores
    #setores_multi.sort()
    #setores_uni.sort()

    # Estrutura de Subplots
    fig = make_subplots(
        rows=1, cols=2,
        subplot_titles=(
            f"<b>Setores com M√∫ltiplas Empresas</b><br><span style='font-size:10px'>Distribui√ß√£o entre as empresas de cada setor</span>", 
            f"<b>Setores com Empresa √önica</b><br><span style='font-size:10px'>Distribui√ß√£o hist√≥rica da mesma empresa</span>"
        ),
        #shared_yaxes=True, 
        horizontal_spacing=0.05,
        column_widths=[0.6, 0.4] # D√° mais espa√ßo para o gr√°fico da esquerda se houver mais setores multi
    )

    # Boxplots para Setores MULTI-Empresa
    for setor in setores_multi:
        df_filtrado = df[df['Categoria'] == setor]
        cor = mapa_cores_setor.get(setor, '#333333') # Fallback para cinza se n√£o achar a cor
        
        fig.add_trace(go.Box(
            y=df_filtrado[metrica],
            name=setor,
            marker_color=cor,
            boxpoints='all', # Mostra todos os pontos (economistas gostam de ver a amostra real)
            jitter=0.3,      # Espalha os pontos para n√£o sobrepor
            pointpos=-1.8,   # Coloca os pontos ao lado do box, n√£o em cima
            boxmean=True,    # Linha tracejada mostrando a M√©dia (al√©m da mediana)
            notched=False,   # True mostraria intervalo de confian√ßa da mediana (√∫til para N grande)
            showlegend=False # Legenda redundante pois o eixo X j√° tem os nomes
        ), row=1, col=1)

    #Boxplots para Setores UNI-Empresa
    for setor in setores_uni:
        df_filtrado = df[df['Categoria'] == setor]
        cor = mapa_cores_setor.get(setor, '#333333')
        nome_empresa = df_filtrado['Empresa'].iloc[0]
        
        fig.add_trace(go.Box(
            y=df_filtrado[metrica],
            name=setor, # No eixo X aparece o setor
            marker_color=cor,
            boxpoints='all',
            jitter=0.3,
            pointpos=-1.8,
            boxmean=True,
            showlegend=False,
            # Personalizando o hover para mostrar que √© uma empresa espec√≠fica
            hovertemplate=f"<b>{setor}</b><br>({nome_empresa})<br>{titulos_graficos[metrica]}: %{{y:.2f}}<extra></extra>"
        ), row=1, col=2)

    # Layout 
    fig.update_layout(
        title=f"An√°lise de Distribui√ß√£o: {titulos_graficos[metrica]} (Por Setor)",
        template="plotly_white",
        height=height,
        yaxis=dict(title=titulos_graficos[metrica], gridcolor='lightgray'),
        xaxis=dict(title=None, showgrid=False),
        xaxis2=dict(title=None, showgrid=False),
        margin=dict(t=80, b=50, l=50, r=50)
    )

    fig.update_yaxes(title_text=titulos_graficos[metrica], row=1, col=1)
    fig.update_yaxes(title_text=titulos_graficos[metrica], row=2, col=1)

    return fig


def plot_all_metrics_by_empresa(df, empresa, diagnostico_df, sector_color_map=None):
    """
    Gera painel com Gr√°fico de Linha (Evolu√ß√£o) + Boxplot (Distribui√ß√£o) lado a lado.
    Hovertemplates ajustados para leitura clara.
    """

    # ---- 1. Prepara√ß√£o dos Dados ----
    df_empresa = df[df["Empresa"] == empresa].copy()
    if df_empresa.empty:
        print(f"Empresa {empresa} n√£o encontrada.")
        return

    setor = df_empresa.iloc[0]["Categoria"]
    df_setor = df[df["Categoria"] == setor].copy()
    n_empresas_setor = df_setor["Empresa"].nunique()
    anos = sorted(df["Ano"].unique())

    # Mapeamento de nomes
    metric_map = {
        "Liquidez_Corrente": "Liquidez Corrente",
        "Fluxo_Caixa_Operacional": "Fluxo de Caixa Operacional",
        "Margem_Liquida": "Margem L√≠quida",
        "EBITDA": "EBITDA"
    }
    metrics = list(metric_map.keys())

    # ---- 2. Gerar T√≠tulos ----
    subplot_titles = []
    
    for m in metrics:
        nome_exibicao = metric_map[m]
        
        # Busca Classifica√ß√£o
        try:
            row = diagnostico_df[diagnostico_df["Indicador"].isin([nome_exibicao, m])]
            if not row.empty:
                classificacao = row["Classificacao"].values[0]
                justificativa = row["Justificativa"].values[0]
            else:
                classificacao = "N/A"
                justificativa = "Sem dados"
        except Exception:
            classificacao = "N√£o Classificado"
            justificativa = "Erro"

        # T√≠tulo Coluna 1
        titulo_main = (
            f"<b>{nome_exibicao}</b><br>"
            f"<span style='font-size:14px; color:black'>{classificacao}</span><br>"
            f"<span style='font-size:10px; color:gray'><i>{justificativa}</i></span>"
        )
        subplot_titles.append(titulo_main)
        
        # T√≠tulo Coluna 2
        subplot_titles.append(f"Distribui√ß√£o")

    # ---- 3. Cria√ß√£o da Figura ----
    fig = make_subplots(
        rows=len(metrics),
        cols=2,
        column_widths=[0.8, 0.2],
        shared_xaxes=True,
        shared_yaxes=True,
        vertical_spacing=0.10,
        horizontal_spacing=0.02,
        subplot_titles=subplot_titles
    )

    # Cores
    def hex_to_rgba(hex_code, alpha=0.2):
        hex_code = hex_code.lstrip('#')
        rgb = tuple(int(hex_code[i:i+2], 16) for i in (0, 2, 4))
        return f"rgba({rgb[0]}, {rgb[1]}, {rgb[2]}, {alpha})"

    cor_setor = sector_color_map.get(setor, "#1f77b4") if sector_color_map else "#1f77b4"
    cor_sombra = hex_to_rgba(cor_setor, alpha=0.15)

    # -------------------------------------------------------------------------
    # LOOP PRINCIPAL
    # -------------------------------------------------------------------------
    for i, metric in enumerate(metrics, start=1):
        
        show_legend_flag = True if i == 1 else False
        nome_metrica = metric_map[metric] # Nome bonito para o tooltip

        # =========================================================
        # COLUNA 1: GR√ÅFICO DE LINHAS (EVOLU√á√ÉO)
        # =========================================================
        
        # A. S√©rie da Empresa
        serie_empresa = df_empresa.set_index("Ano")[metric].reindex(anos)
        fig.add_trace(
            go.Scatter(
                x=anos, y=serie_empresa,
                mode="lines+markers",
                name=f"{empresa}",
                line=dict(color="black", dash="solid", width=3),
                marker=dict(size=8),
                legendgroup="empresa",
                showlegend=show_legend_flag,
                # --- HOVER ADJUST ---
                hovertemplate=(
                    f"<b>{empresa}</b><br>" +
                    "Ano: %{x}<br>" +
                    f"{nome_metrica}: <b>%{{y:.2f}}</b><extra></extra>"
                )
            ), row=i, col=1
        )

        # B. Comparativo Setorial
        if n_empresas_setor > 1:
            df_group = df_setor.groupby("Ano")[metric]
            mean_series = df_group.mean().reindex(anos)
            std_series = df_group.std().reindex(anos)
            n = df_group.count().reindex(anos)
            ci = 1.96 * (std_series / np.sqrt(n))
            upper, lower = mean_series + ci, mean_series - ci

            # Bandas de IC (Sem hover)
            fig.add_trace(go.Scatter(x=anos, y=upper, mode="lines", line=dict(width=0), showlegend=False, hoverinfo="skip"), row=i, col=1)
            fig.add_trace(go.Scatter(x=anos, y=lower, mode="lines", line=dict(width=0), fill="tonexty", fillcolor=cor_sombra, name="Intervalo Confian√ßa do Setor", legendgroup="ic", showlegend=show_legend_flag, hoverinfo="skip"), row=i, col=1)
            
            # M√©dia Setor
            fig.add_trace(
                go.Scatter(
                    x=anos, y=mean_series, 
                    mode="lines", 
                    name=f"M√©dia Setor ({setor})", 
                    line=dict(color=cor_setor, width=2, dash="dot"), 
                    legendgroup="setor", 
                    showlegend=show_legend_flag,
                    # --- HOVER ADJUST ---
                    hovertemplate=(
                        f"<b>M√©dia Setor ({setor})</b><br>" +
                        "Ano: %{x}<br>" +
                        f"{nome_metrica}: <b>%{{y:.2f}}</b><extra></extra>"
                    )
                ), row=i, col=1
            )

        # Linhas de refer√™ncia
        if metric == "Liquidez_Corrente":
            fig.add_hline(y=1.0, line=dict(color="red", width=1, dash="dash"), row=i, col=1)
        elif metric in ["Fluxo_Caixa_Operacional", "EBITDA", "Margem_Liquida"]:
            fig.add_hline(y=0, line=dict(color="red", width=1), row=i, col=1)

        # =========================================================
        # COLUNA 2: BOXPLOT (DISTRIBUI√á√ÉO)
        # =========================================================

        if n_empresas_setor > 1:
            # 1. Boxplot do SETOR
            fig.add_trace(
                go.Box(
                    y=df_setor[metric],
                    name=f"Setor {setor}",
                    marker_color=cor_setor,
                    boxpoints=False,
                    line=dict(width=1),
                    fillcolor=cor_sombra,
                    showlegend=False,
                    # Deixamos o padr√£o estat√≠stico, mas removemos a caixa extra lateral
                    hovertemplate=f"<b>Setor {setor}</b><br>{nome_metrica}<br>Min: %{{min:.2f}}<br>Q1: %{{q1:.2f}}<br>Mediana: %{{median:.2f}}<br>Q3: %{{q3:.2f}}<br>Max: %{{max:.2f}}<extra></extra>"
                ), row=i, col=2
            )

        # 2. Boxplot da EMPRESA (Pontos)
        fig.add_trace(
            go.Box(
                y=df_empresa[metric],
                name=empresa,
                marker_color="black",
                line=dict(color="black", width=2),
                fillcolor="rgba(0,0,0,0)",
                boxpoints='all',
                jitter=0.2,
                pointpos=0,
                showlegend=False,
                text=df_empresa['Ano'], # Passa o Ano para o hover
                # --- HOVER ADJUST (Mostra Ano e Valor do ponto) ---
                hovertemplate=(
                    f"<b>{empresa}</b><br>" +
                    "Ano: %{text}<br>" +
                    f"{nome_metrica}: <b>%{{y:.2f}}</b><extra></extra>"
                )
            ), row=i, col=2
        )

        fig.update_yaxes(showticklabels=False, row=i, col=2)
        fig.update_xaxes(showticklabels=False, row=i, col=2)
        fig.update_yaxes(title_text=nome_metrica, row=i, col=1)

    # ---- 4. Layout Final ----
    if n_empresas_setor > 1:
        titulo = f"An√°lise Fundamentalista: Empresa <b>{empresa}</b> vs Setor <b>{setor}</b>"
    else:
        titulo = f"An√°lise Fundamentalista: Empresa <b>{empresa}</b> (setor de {setor})"

    fig.update_layout(
        height=1300,
        title=dict(
            text=titulo,
            y=0.98, x=0.5, xanchor="center", font=dict(size=24)
        ),
        legend=dict(
            orientation="h", yanchor="top", y=1.13, xanchor="center", x=0.5,
            bgcolor="rgba(255,255,255,0.8)", borderwidth=0
        ),
        margin=dict(t=200, b=50, l=50, r=50),
        hovermode="closest", 
        template="plotly_white",
        showlegend=True
    )
    
    fig.update_xaxes(title_text="Ano Fiscal", row=len(metrics), col=1)

    return fig


In [6]:
# Novas Features

# Calcular n√∫mero de empresas por categoria
empresas_por_categoria = df.groupby("Categoria")["Empresa"].nunique()
df["TipoBenchmark"] = df["Categoria"].apply(classificar_benchmark)

In [7]:
# Pr√©-visualiza√ß√£o
df.drop(columns=["TipoBenchmark"]).head(3)

Unnamed: 0,Ano,Empresa,Categoria,EBITDA,Fluxo_Caixa_Operacional,Liquidez_Corrente,Margem_Liquida
0,2022,AAPL,Tecnologia da Informa√ß√£o,130541.0,122151.0,0.8794,25.3096
1,2021,AAPL,Tecnologia da Informa√ß√£o,120233.0,104038.0,1.0746,25.8818
2,2020,AAPL,Tecnologia da Informa√ß√£o,77344.0,80674.0,1.3636,20.9136


In [8]:
# Principais N√∫meros do Dataset 

print("=== RESUMO GERAL DO DATASET ===\n")

print(f"Total de linhas: {df.shape[0]}")
print(f"Total de colunas: {df.shape[1]}")
print(f"Total de empresas √∫nicas: {df['Empresa'].nunique()}")
print(f"Total de categorias (setores): {df['Categoria'].nunique()}\n")

# ============================================
# Categoria por empresa (confirmar 1 categoria por empresa)
# ============================================
print("=== CATEGORIA POR EMPRESA ===")
cat_por_empresa = df.groupby(["Empresa"])["Categoria"].unique()
print(cat_por_empresa.to_string())
print("\nInsight: Cada empresa pertence a apenas uma categoria, o que simplifica o benchmarking.\n")

# ============================================
# N√∫mero de empresas por categoria (setor)
# ============================================
print("=== N¬∫ DE EMPRESAS POR CATEGORIA ===")
empresas_por_categoria = df.groupby("Categoria")["Empresa"].nunique().sort_values()
print(empresas_por_categoria.to_string())

# Interpreta√ß√£o autom√°tica
print("\n=== INTERPRETA√á√ÉO DOS SETORES ===")
max_empresas = empresas_por_categoria.max()

categorias_1 = []  # categorias com 3+ empresas
categorias_2 = []  # categorias com 2 empresas
categorias_3 = []  # categorias com 1 empresa

for categoria, n_empresas in empresas_por_categoria.items():
    if n_empresas == 1:
        categorias_3.append(categoria)
    elif n_empresas == 2:
        categorias_2.append(categoria)
    else:
        categorias_1.append(categoria)

print(f"- Categorias {categorias_1}: com at√© {max_empresas} empresas ‚Üí benchmarking mais robusto √© poss√≠vel.")
print(f"- Categorias {categorias_2}: com 2 empresas ‚Üí poss√≠vel benchmarking b√°sico.")
print(f"- Categorias{categorias_3}: com apenas 1 empresa ‚Üí benchmarking setorial ser√° limitado.")

print("\n=== Per√≠odo hist√≥rico por empresa ===")
periodo = df.groupby("Empresa")["Ano"].nunique().sort_values()
print(periodo)

print("\nResumo Final:")
print("- O dataset cont√©m poucas empresas, mas com um bom per√≠odo hist√≥rico.")
print("- Isso permite boas an√°lises temporais, mesmo com setores pouco povoados.")
print("- Setores com apenas 1 empresa exigir√£o an√°lise hist√≥rica e n√£o comparativa.")


=== RESUMO GERAL DO DATASET ===

Total de linhas: 161
Total de colunas: 8
Total de empresas √∫nicas: 12
Total de categorias (setores): 8

=== CATEGORIA POR EMPRESA ===
Empresa
AAPL     [Tecnologia da Informa√ß√£o]
AIG                        [Bancos]
AMZN                    [Log√≠stica]
BCS                        [Bancos]
GOOG     [Tecnologia da Informa√ß√£o]
INTC                  [Eletr√¥nicos]
MCD                     [Alimentos]
MSFT     [Tecnologia da Informa√ß√£o]
NVDA                  [Eletr√¥nicos]
PCG                    [Manufatura]
PYPL                      [Fintech]
SHLDQ        [Servi√ßos Financeiros]

Insight: Cada empresa pertence a apenas uma categoria, o que simplifica o benchmarking.

=== N¬∫ DE EMPRESAS POR CATEGORIA ===
Categoria
Alimentos                   1
Fintech                     1
Log√≠stica                   1
Manufatura                  1
Servi√ßos Financeiros        1
Bancos                      2
Eletr√¥nicos                 2
Tecnologia da Informa√ß√£o    3

O gr√°fico interativo em Plotly evidencia o per√≠odo hist√≥rico dispon√≠vel para cada empresa no dataset, permitindo visualizar rapidamente a abrang√™ncia temporal das observa√ß√µes e a distribui√ß√£o das empresas entre os setores econ√¥micos. 

Embora o n√∫mero total de empresas seja reduzido, possuem 14 anos um hist√≥rico consistente de anos (2009-2022), o que possibilita an√°lises temporais mais robustas. No entanto, a baixa quantidade de empresas, de 2 a 3 empresas por categoria, limita compara√ß√µes setoriais.

Para garantir a viabilidade estat√≠stica das regras de infer√™ncia (quartis), optou-se por analisar apenas os 3 setores econ√¥micos com mais de uma empresa (Tecnologia da Informa√ß√£o, Eletr√¥nicos e Bancos) para evitar o vi√©s de an√°lise de empresa √∫nica. Foi utilizado o maior per√≠odo hist√≥rico coberto pelas empresas (2009-2022), cobrindo 14 anos sendo assim, observa√ß√µes do ano de 2023 de apenas 2 empresas foram filtrados da an√°lise

In [9]:
# Plotly: Per√≠odo hist√≥rico das empresas, setores econ√¥micos e tipos de an√°lises poss√≠veis

# Cores para os dois grupos de analises
cores = {
    "An√°lise Hist√≥rica": "#7f7f7f",    # cinza
    "Benchmarking M√©dio": "#0a9b58"    # verde
}

# --- 4. Ordena√ß√£o das empresas ---
periodos = df.groupby("Empresa")["Ano"].nunique()
empresas_ordenadas = periodos.sort_values(ascending=False).index.tolist()

# --- 5. Criar figura Plotly ---
fig = go.Figure()

for empresa in empresas_ordenadas:
    dados = df[df["Empresa"] == empresa].sort_values("Ano")
    tipo = dados["TipoBenchmark"].iloc[0]
    categoria = dados["Categoria"].iloc[0]
    cor = cores[tipo]

    fig.add_trace(go.Scatter(
        x=dados["Ano"],
        y=[empresa] * len(dados),
        mode="lines+markers",
        line=dict(color=cor, width=3),
        marker=dict(size=10, color=cor),
        name=tipo,
        hovertemplate=(
            "<b>%{y}</b><br>" +
            "Ano: %{x}<br>" +
            f"Setor Econ√¥mico/Categoria: {categoria}<br>" +
            f"Tipo de an√°lise: {tipo}" +
            "<extra></extra>"
        ),

        showlegend=False  # legenda ser√° manual
    ))

# --- 6. Legenda manual ---
fig.add_trace(go.Scatter(
    x=[None], y=[None], mode="lines",
    line=dict(color=cores["An√°lise Hist√≥rica"], width=4),
    name="Setor econ√¥mico com apenas 1 empresa"
))
fig.add_trace(go.Scatter(
    x=[None], y=[None], mode="lines",
    line=dict(color=cores["Benchmarking M√©dio"], width=4),
    name="Setor econ√¥mico com mais de 1 empresa"
))

# --- 7. Layout clean e alinhamento √† esquerda ---
fig.update_layout(
    title=dict(
        text="Per√≠odo hist√≥rico das empresas, setores econ√¥micos e tipos de an√°lises poss√≠veis",
        x=0.0,  # alinhado √† esquerda
        xanchor="left",
        font=dict(size=20)
    ),
    height=450,  # gr√°fico mais compacto
    showlegend=True,
    legend=dict(
        orientation="h",
        x=0.0,
        y=1.12,  # logo abaixo do t√≠tulo
        xanchor="left"
    ),
    plot_bgcolor="white",
    paper_bgcolor="white",
    xaxis=dict(
        showgrid=True,
        gridcolor="lightgray",
        zeroline=False
    ),
    yaxis=dict(
        title="Empresa",
        showgrid=False,
        categoryorder="array",
        categoryarray=empresas_ordenadas
    )
)

fig.show()


In [10]:
# Filtros de setores com mais de 1 empresa e no mesmo per√≠odo hist√≥rico
empresas_por_setor = df.groupby('Categoria')[['Empresa']].nunique()
setores_analise = list(empresas_por_setor[empresas_por_setor['Empresa'] > 1].index.values)

df_empresas = df[~df["Categoria"].isin(setores_analise)]
df = df[(df["Categoria"].isin(setores_analise)) & (df["Ano"] < 2023)]

## Indicadores financeiros por empresa-ano

Diferentemente de an√°lises tradicionais voltadas a financiamentos de longo prazo, aqui a prioridade √© identificar gaps de liquidez que possam comprometer o repasse dos recursos ou a performance comercial da opera√ß√£o.

A an√°lise utiliza um conjunto reduzido e orientado de indicadores ‚Äî incluindo Liquidez Corrente, Ciclo Operacional, Margens e Gera√ß√£o de Caixa ‚Äî garantindo um modelo enxuto, interpret√°vel e adequado ao contexto de cr√©dito baseado em receb√≠veis.

## Capacidade de Solv√™ncia Imediata

A an√°lise da Liquidez Corrente ‚Äî indicador prim√°rio da capacidade de pagamento de curto prazo ‚Äî evidencia estrat√©gias de gest√£o de capital de giro distintas, com n√≠veis de seguran√ßa que variam da abund√¢ncia √† estrita necessidade operacional. Valores abaixo de 1 indicam risco elevado; valores entre 1 e 2 representam situa√ß√£o saud√°vel; e valores acima de 2 indicam folga financeira e maior resili√™ncia.

No dataset utilizado a distribui√ß√£o das observa√ß√µes em rela√ß√£o aos n√≠veis de liquidez corrente, por faixas s√£o:



In [11]:
# Liquidez Corrente - distribui√ß√£o por faixas
total = df.shape[0]

pct_ate_1 = (df["Liquidez_Corrente"].le(1).mean()) * 100
pct_1_2 = (df["Liquidez_Corrente"].gt(1) & df["Liquidez_Corrente"].le(2)).mean() * 100
pct_acima_2 = (df["Liquidez_Corrente"].gt(2).mean()) * 100

print(f"{pct_ate_1:.2f}% das observa√ß√µes possuem Liquidez Corrente at√© 1.")
print(f"{pct_1_2:.2f}% das observa√ß√µes possuem Liquidez Corrente entre 1 e 2.")
print(f"{pct_acima_2:.2f}% das observa√ß√µes possuem Liquidez Corrente acima de 2.")

29.59% das observa√ß√µes possuem Liquidez Corrente at√© 1.
20.41% das observa√ß√µes possuem Liquidez Corrente entre 1 e 2.
50.00% das observa√ß√µes possuem Liquidez Corrente acima de 2.


In [12]:
# Plotly: Current Ratio / Liquidez Corrente

# Copiar o df apenas com as colunas necess√°rias
df_plot = df[['Ano', 'Empresa', 'Categoria', 'Liquidez_Corrente']].copy()
df_plot["Nivel_Liquidez"] = df_plot["Liquidez_Corrente"].apply(classificar_liquidez)

# Criar jitter para evitar sobreposi√ß√£o de pontos
#np.random.seed(42)
#df_plot["Liquidez_jitter"] = df_plot["Liquidez_Corrente"] + np.random.normal(0, 0.03, size=len(df_plot))


# Mapa de cores para os 3 n√≠veis
cores = {
    "Liquidez Cr√≠tica (<1)": "#d62728",    # vermelho
    "Liquidez Adequada (1‚Äì2)": "#2ca02c",        # verde
    "Liquidez Alta (>2)": "#ffbf00"  # amarelo
}

# Gr√°fico com cores baseadas nos n√≠veis de liquidez
fig = px.scatter(
    df_plot,
    x="Ano",
    y="Liquidez_Corrente",
    color="Nivel_Liquidez",
    color_discrete_map=cores,
    hover_data={"Liquidez_Corrente": True, "Ano": True, 'Empresa': True, 'Categoria': True}
)

# Atualizar hovertemplate
"""
fig.update_traces(
    customdata=df_plot,
    hovertemplate=(
        "<b>%{customdata[0]}</b><br>"
        "Ano: %{x}<br>"
        "Liquidez Corrente: %{customdata[0]:.2f}<br>"
        "Categoria: %{customdata[1]}<extra></extra>"
    ),
    marker=dict(size=10, opacity=0.85)
)
"""

# Adicionar linhas de threshold
thresholds = {
    "Risco de Liquidez (<1)": 1,
    "N√≠vel Adequado (1‚Äì2)": 2,
}

for label, y in thresholds.items():
    fig.add_shape(
        type="line",
        x0=df_plot["Ano"].min(),
        x1=df_plot["Ano"].max(),
        y0=y,
        y1=y,
        line=dict(dash="dash", width=1.5, color="gray"),
    )
    fig.add_annotation(
        x=df_plot["Ano"].max(),
        y=y,
        text=label,
        showarrow=False,
        xanchor="left",
        yanchor="bottom",
        font=dict(size=11, color="gray")
    )

# Layout
fig.update_layout(
    title="Liquidez Corrente das Empresas ao Longo do Tempo",
    xaxis_title="Ano",
    yaxis_title="Liquidez Corrente",
    plot_bgcolor="white",
    height=450,
    legend_title="N√≠vel de Liquidez"
)

# Ajustar eixos
fig.update_xaxes(showgrid=True, gridcolor="lightgray")
fig.update_yaxes(showgrid=True, gridcolor="lightgray")

fig.show()

- O setor de Eletr√¥nicos apresenta a posi√ß√£o de solv√™ncia mais forte da amostra em termos absolutos, com uma mediana elevada (2.79) e um piso de seguran√ßa consistente (m√≠nimo de 1.4). Contudo, a an√°lise de distribui√ß√£o revela uma alta heterogeneidade (maior IQR da amostra = 2.72). A cauda √† direita sugere que a m√©dia do setor √© inflada por empresas com excesso de caixa ("cash hoarding"), mascarando disparidades significativas entre os players.

- O setor de TI demonstra um perfil equilibrado. Embora tenha registrado m√≠nimos hist√≥ricos cr√≠ticos (0.88), opera predominantemente em uma zona de conforto (m√©dia de 2.86). Diferente de Eletr√¥nicos, a TI exibe menor volatilidade (IQR=1.67), indicando um padr√£o setorial mais coeso e previs√≠vel de gest√£o de passivos.

- O setor Banc√°rio apresenta estabilidade, com liquidez travada em 1.0. Embora indique estabilidade, a aus√™ncia de uma margem acima de 1.0 aponta para uma opera√ß√£o sem folga financeira, dependendo inteiramente da confian√ßa do mercado para rolagem de passivos.

- Em s√≠ntese, apesar de TI e Eletr√¥nicos manterem n√≠veis de liquidez nominais altos (entre 2 e 4 na maior parte do tempo), a an√°lise de tend√™ncia (CAGR) aponta para uma compress√£o gradual da liquidez nos √∫ltimos anos. Isso sinaliza uma poss√≠vel mudan√ßa estrat√©gica para estruturas de capital mais agressivas ou uma deteriora√ß√£o na convers√£o de ativos circulantes, exigindo monitoramento cont√≠nuo para garantir que essa queda n√£o cruze limiares de risco.

In [13]:
# Estat√≠sticas
df.groupby("Categoria")["Liquidez_Corrente"].agg(['std', iqr]).transpose()

Categoria,Bancos,Eletr√¥nicos,Tecnologia da Informa√ß√£o
std,0.0,2.092055,1.822715
iqr,0.0,2.727,1.671325


In [14]:
# Evolu√ß√£o Temporal: Liquidez Corrente por Setor Econ√¥mico
plot_metric_by_sector(df, "Liquidez_Corrente", sector_color_map, reference_line=1)

In [15]:
# Liquidez Corrente: An√°lise de tend√™ncia por setor, CAGR e YoY
metrica_col = "Liquidez_Corrente"
medianas = df.groupby("Categoria")[metrica_col].median().sort_values(ascending=False)

for setor in medianas.index.values:
    r = analisar_tendencia_setor(df, setor=setor, coluna=metrica_col, anos=3)
    print(f"{gerar_frase_tendencia(r)}\n")


No setor ELETR√îNICOS, considerando a m√©dia das empresas, a LIQUIDEZ CORRENTE apresentou tend√™ncia de queda (regress√£o linear = -0.34 /ano) de forma moderada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de -7.39%, e a varia√ß√£o total (YoY acumulado) foi de -14.24%.

No setor TECNOLOGIA DA INFORMA√á√ÉO, considerando a m√©dia das empresas, a LIQUIDEZ CORRENTE apresentou tend√™ncia de queda (regress√£o linear = -0.32 /ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de -14.80%, e a varia√ß√£o total (YoY acumulado) foi de -27.41%.

No setor BANCOS, considerando a m√©dia das empresas, a LIQUIDEZ CORRENTE apresentou tend√™ncia est√°vel (regress√£o linear = 0.0 /ano) de forma leve nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de 0.00%, e a varia√ß√£o total (YoY acumulado) foi de 0.00%.



#### Matriz de Classifica√ß√£o de Risco: Liquidez Corrente

As regras abaixo utilizam padr√µes estat√≠sticos observados no dataset (quartis, medianas, recorr√™ncia de valores) para classifica√ß√£o autom√°tica de uma empresa:


| **Perfil** | **Interpreta√ß√£o** | **Crit√©rios Estat√≠sticos (Regras para a Empresa)** | **L√≥gica do Ajuste** |
| :--- | :--- | :--- | :--- |
| **üîµ Forte** | Folga financeira robusta e consistente. | ‚Ä¢ **Mediana ‚â• 2.0**<br>‚Ä¢ E Piso Recorrente (Q1) ‚â• 1.0 | Empresa altamente resiliente ("Cash Rich"). Ampla capacidade de absorver choques sem comprometer pagamentos. |
| **üü° Adequado** | Efici√™ncia Operacional. Paga em dia, sem excessos. | ‚Ä¢ **1.20 ‚â§ Mediana < 2.0**<br>‚Ä¢ E Piso Recorrente (Q1) ‚â• 1.0 | A empresa opera na faixa "racional". N√£o mant√©m dinheiro parado demais (ineficiente), nem corre risco de insolv√™ncia. |
| **üü† Risco Moderado** | Zona de Aten√ß√£o. Opera no limite ou tem hist√≥rico de quebra de caixa. | ‚Ä¢ **0.95 ‚â§ Mediana < 1.20**<br>‚Ä¢ OU Piso (Q1) < 1.0 (em algum ano)<br>‚Ä¢ OU `std` da empresa > `std` do setor (se dispon√≠vel) | Aqui o risco aparece. Se a mediana √© baixa (< 1.2), qualquer volatilidade √© perigosa. Se o Q1 tocou abaixo de 1.0, o alerta acende independente da m√©dia. |
| **üî¥ Risco Elevado** | Insolv√™ncia Recorrente. Depend√™ncia de d√≠vida. | ‚Ä¢ **Teto Recorrente (Q3) < 1.0**<br>‚Ä¢ OU Mediana < 0.95 | Se nem nos melhores momentos (Q3) a empresa tem caixa para pagar as d√≠vidas de curto prazo, a estrutura de capital est√° comprometida. |





## Capacidade de Gera√ß√£o de Caixa (FCO)

A an√°lise do Fluxo de Caixa Operacional (FCO) ‚Äî indicador vital da capacidade real de honrar obriga√ß√µes sem depend√™ncia de financiamento externo aponta que:

- O setor de TI consolidou-se como o financeiramente mais robusto. Apresenta uma tend√™ncia de crescimento vigorosa e uma mudan√ßa de patamar (m√©dia pr√≥xima a 50B USD) que o descola dos demais setores. O fato de seu intervalo interquartil (IQR) praticamente n√£o se sobrepor aos outros grupos confirma uma superioridade estrutural: mesmo as empresas de menor performance em TI tendem a gerar mais caixa que a m√©dia dos outros setores.

- O setor de Eletr√¥nicos caracteriza-se pela previsibilidade. Com menor dispers√£o (IQR) e volatilidade controlada, demonstra resili√™ncia hist√≥rica. No entanto, a tend√™ncia de queda observada nos √∫ltimos 3 anos acende um sinal de alerta sobre uma poss√≠vel desacelera√ß√£o na efici√™ncia operacional ou aumento da necessidade de capital de giro recente.

- √â o setor de maior risco operacional na amostra. A presen√ßa de um Primeiro Quartil (Q1) negativo e a oscila√ß√£o hist√≥rica (per√≠odos de 2012-2014 e 2019 no vermelho) indicam que uma parcela relevante do setor n√£o sustenta suas opera√ß√µes apenas com gera√ß√£o de caixa pr√≥pria. Embora tenha se mantido no positivo recentemente, a alta dispers√£o e a depend√™ncia de outliers para sustentar a m√©dia sugerem uma fragilidade subjacente, agravada pela tend√™ncia de queda recente.

- Em suma, enquanto TI oferece a maior margem de seguran√ßa e Eletr√¥nicos oferece previsibilidade, o setor Banc√°rio exibe Volatilidade e exige monitoramento granular, dado que sua "m√©dia" esconde per√≠odos de queima de caixa e alta heterogeneidade entre os players.

In [16]:
# Estat√≠sticas
df.groupby("Categoria")["Fluxo_Caixa_Operacional"].agg(['std', iqr]).transpose().round()

Categoria,Bancos,Eletr√¥nicos,Tecnologia da Informa√ß√£o
std,29248.0,11440.0,28229.0
iqr,25878.0,19714.0,39277.0


In [17]:
# Evolu√ß√£o Temporal: Fluxo_Caixa_Operacional por Setor Econ√¥mico
plot_metric_by_sector(df, "Fluxo_Caixa_Operacional", sector_color_map, reference_line=None)

In [18]:
# Fluxo_Caixa_Operacional: An√°lise de tend√™ncia por setor, CAGR e YoY
metrica_col = "Fluxo_Caixa_Operacional"
medianas = df.groupby("Categoria")[metrica_col].median().sort_values(ascending=False)

for setor in medianas.index.values:
    r = analisar_tendencia_setor(df, setor=setor, coluna=metrica_col, anos=3)
    print(f"{gerar_frase_tendencia(r)}\n")

No setor TECNOLOGIA DA INFORMA√á√ÉO, considerando a m√©dia das empresas, a FLUXO DE CAIXA OPERACIONAL (MILH√ïES DE USD) apresentou tend√™ncia de alta (regress√£o linear = 16034.67 milh√µes de USD/ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de 21.08%, e a varia√ß√£o total (YoY acumulado) foi de 46.60%.

No setor ELETR√îNICOS, considerando a m√©dia das empresas, a FLUXO DE CAIXA OPERACIONAL (MILH√ïES DE USD) apresentou tend√™ncia de queda (regress√£o linear = -4021.0 milh√µes de USD/ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de -22.28%, e a varia√ß√£o total (YoY acumulado) foi de -39.59%.

No setor BANCOS, considerando a m√©dia das empresas, a FLUXO DE CAIXA OPERACIONAL (MILH√ïES DE USD) apresentou tend√™ncia de queda (regress√£o linear = -8318.67 milh√µes de USD/ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de -25.46%, e a varia√ß√£o total (YoY acumulado) foi de -44.44%.



### Matriz de Classifica√ß√£o de Risco: Fluxo de Caixa Operacional (FCO)
*Foco: Capacidade de sobreviv√™ncia sem financiamento externo (Sustentabilidade).*

| **Perfil** | **Descri√ß√£o** | **Crit√©rios Estat√≠sticos (Regras)** | **Interpreta√ß√£o Financeira** |
| :--- | :--- | :--- | :--- |
| **üîµ Forte** | Geradora de Caixa Recorrente. | ‚Ä¢ **Mediana > 0** (Positiva)<br>‚Ä¢ E Piso Hist√≥rico (Q1) > 0<br>‚Ä¢ E Tend√™ncia (CAGR) Positiva ou Est√°vel | A opera√ß√£o se financia sozinha em 100% dos per√≠odos analisados. A empresa n√£o depende de bancos para girar a opera√ß√£o, mesmo em anos ruins. |
| **üü° Adequado** | Sustentabilidade Operacional. | ‚Ä¢ **Mediana > 0**<br>‚Ä¢ E Piso Hist√≥rico (Q1) > 0<br>‚Ä¢ Permite-se queda pontual na tend√™ncia. | A empresa gera caixa, mas pode ter margens de manobra menores. Paga suas contas operacionais, mas grandes expans√µes exigem d√≠vida. |
| **üü† Risco Moderado** | Oscila√ß√£o de Caixa ou Queima Pontual. | ‚Ä¢ **Mediana > 0** (Na m√©dia, gera caixa)<br>‚Ä¢ MAS Piso Hist√≥rico (Q1) < 0 (Teve anos de queima)<br>‚Ä¢ OU Tend√™ncia de queda acentuada (> -10% a.a.) | Sinal de Alerta. A empresa alterna anos bons com anos onde precisa queimar reservas ou tomar d√≠vida para pagar a opera√ß√£o ("Buracos de Caixa"). |
| **üî¥ Risco Elevado** | Depend√™ncia Cr√¥nica. | ‚Ä¢ **Mediana < 0** (Queima caixa estruturalmente)<br>‚Ä¢ OU Teto Hist√≥rico (Q3) < 0 | Inviabilidade Operacional. A atividade fim da empresa consome recursos em vez de gerar. Depend√™ncia total de rolagem de d√≠vida ou inje√ß√£o de capital. |

‚ö†Ô∏è No Setor Banc√°rio, FCO pode ser vol√°til devido √† movimenta√ß√£o de dep√≥sitos. Analisar em conjunto com o Lucro L√≠quido.




## Efici√™ncia e Margem L√≠quida
A an√°lise da Margem L√≠quida ‚Äî indicador definitivo da efici√™ncia em converter receita em lucro real, revela disparidades estruturais significativas na qualidade dos resultados entre os setores:

- O setor de TI define o padr√£o de excel√™ncia da amostra. Al√©m de apresentar os maiores retornos m√©dios (24.1%), destaca-se pela baixa volatilidade (menor IQR = 5). O fato de seu piso (valor m√≠nimo) superar o primeiro quartil (Q1) do setor de Eletr√¥nicos demonstra uma superioridade estrutural: mesmo em seus piores anos, as empresas de TI tendem a ser mais eficientes que a m√©dia dos concorrentes. A tend√™ncia de alta moderada (CAGR ~6%) refor√ßa um cen√°rio de maturidade e ganho de escala.

- O setor de Eletr√¥nicos demonstra capacidade de gerar retornos explosivos, chegando a superar TI no ciclo 2017-2020. Contudo, diferentemente de TI, sua distribui√ß√£o de resultados √© heterog√™nea e arriscada. Apesar de uma mediana robusta (20.6%), a alta dispers√£o (IQR=13) e a presen√ßa de margens negativas (m√≠nima de -2.04%) indicam que a efici√™ncia n√£o √© uniforme, expondo empresas menos competitivas ao preju√≠zo. A tend√™ncia de queda recente exige cautela quanto √† compress√£o de margens.

- O setor apresenta o perfil de risco-retorno mais desafiador. Com a menor rentabilidade base (mediana de 6.88%) e a maior dispers√£o da amostra (IQR=14), o setor opera com margem de erro estreita. O dado mais cr√≠tico √© o Primeiro Quartil (Q1) negativo (-0.95%), indicando que uma parcela relevante dos exerc√≠cios fiscais resulta em preju√≠zo operacional ou cont√°bil. Embora a regress√£o linear, dos √∫ltimos 3 anos, aponte uma tend√™ncia de recupera√ß√£o recente (~11% a.a.), a amplitude total sugere uma instabilidade estrutural nos lucros.

- Em suma, enquanto TI oferece previsibilidade e crescimento de margem ("Quality"), Eletr√¥nicos apresenta retornos altos mas declinantes e com maior risco de cauda. O setor Banc√°rio mostra-se bin√°rio: oferece alto potencial de upside (m√°ximas de 30%), mas com risco real de destrui√ß√£o de valor (margens negativas) em per√≠odos de estresse.

In [19]:
# Estat√≠sticas
df.groupby("Categoria")["Margem_Liquida"].agg(['std', iqr]).transpose().round()

Categoria,Bancos,Eletr√¥nicos,Tecnologia da Informa√ß√£o
std,12.0,10.0,5.0
iqr,14.0,13.0,5.0


In [20]:
# Evolu√ß√£o Temporal: Margem_Liquida por Setor Econ√¥mico
plot_metric_by_sector(df, "Margem_Liquida", sector_color_map, reference_line=1)

In [21]:
# Margem_Liquida: An√°lise de tend√™ncia por setor, CAGR e YoY
metrica_col = "Margem_Liquida"
medianas = df.groupby("Categoria")[metrica_col].median().sort_values(ascending=False)

for setor in medianas.index.values:
    r = analisar_tendencia_setor(df, setor=setor, coluna=metrica_col, anos=3)
    print(f"{gerar_frase_tendencia(r)}\n")

No setor TECNOLOGIA DA INFORMA√á√ÉO, considerando a m√©dia das empresas, a MARGEM DE LUCRO L√çQUIDA (%) apresentou tend√™ncia de alta (regress√£o linear = 1.54 %/ano) de forma moderada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de 6.08%, e a varia√ß√£o total (YoY acumulado) foi de 12.53%.

No setor ELETR√îNICOS, considerando a m√©dia das empresas, a MARGEM DE LUCRO L√çQUIDA (%) apresentou tend√™ncia de queda (regress√£o linear = -0.88 %/ano) de forma moderada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de -3.40%, e a varia√ß√£o total (YoY acumulado) foi de -6.68%.

No setor BANCOS, considerando a m√©dia das empresas, a MARGEM DE LUCRO L√çQUIDA (%) apresentou tend√™ncia de alta (regress√£o linear = 10.99 %/ano) em ritmo vari√°vel nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de NA (n√£o aplic√°vel devido a valores negativos ou zero), e a varia√ß√£o total (YoY acumulado) foi de -946.98%.



### Matriz de Classifica√ß√£o de Risco: Margem L√≠quida (%)
*Foco: Efici√™ncia, Poder de Pre√ßo e "Colch√£o" de Lucratividade.*

| **Perfil** | **Descri√ß√£o** | **Crit√©rios Estat√≠sticos (Regras)** | **Interpreta√ß√£o Financeira** |
| :--- | :--- | :--- | :--- |
| **üîµ Forte** | Alta Efici√™ncia e Prote√ß√£o. | ‚Ä¢ **Mediana ‚â• 15%** (Ou Top Quartil do Setor)<br>‚Ä¢ E Piso Hist√≥rico (Q1) > 5% | Possui vantagem competitiva clara. Uma margem alta protege a empresa contra aumentos de custos ou infla√ß√£o sem entrar em preju√≠zo. |
| **üü° Adequado** | Rentabilidade Est√°vel. | ‚Ä¢ **5% ‚â§ Mediana < 15%**<br>‚Ä¢ E Piso Hist√≥rico (Q1) > 0% | Empresa saud√°vel padr√£o. O lucro √© consistente, mas uma crise severa de custos pode zerar o resultado temporariamente. |
| **üü† Risco Moderado** | Margens Apertadas ou Volatilidade. | ‚Ä¢ **0% < Mediana < 5%** (Break-even apertado)<br>‚Ä¢ OU Piso Hist√≥rico (Q1) < 0% (Preju√≠zos espor√°dicos)<br>‚Ä¢ OU Alta Volatilidade (`std` alto) se Mediana < 8% | Fragilidade. A empresa opera no "fio da navalha". Qualquer queda na receita ou aumento de insumo gera preju√≠zo cont√°bil imediato. |
| **üî¥ Risco Elevado** | Destrui√ß√£o de Valor. | ‚Ä¢ **Mediana < 0%** (Preju√≠zo na m√©dia)<br>‚Ä¢ OU Teto Hist√≥rico (Q3) < 2% | Situa√ß√£o de "Turnaround". A empresa n√£o consegue lucrar com sua opera√ß√£o. O risco de insolv√™ncia a m√©dio prazo √© alt√≠ssimo. |

## Capacidade Operacional (EBITDA)

A an√°lise do EBITDA ‚Äî m√©trica central para avaliar o potencial de gera√ß√£o de caixa puramente operacional ‚Äî evidencia um descolamento significativo entre o setor de tecnologia e os demais, al√©m de ciclos econ√¥micos divergentes nos √∫ltimos anos:

- O setor de TI consolida-se como o motor de crescimento da amostra. Sua superioridade √© estrutural: o intervalo de confian√ßa (zona sombreada) permanece estritamente acima dos demais setores, indicando que mesmo as empresas de TI com menor desempenho superam a m√©dia dos outros segmentos. A alta dispers√£o (maior IQR) e a assimetria observadas n√£o s√£o sinais de risco, mas reflexos de um crescimento exponencial (CAGR de 26.95% no per√≠odo), elevando o patamar m√©dio para US$ 49.4 bilh√µes.

- Historicamente posicionado como o segundo maior gerador de caixa operacional (superando os Bancos), o setor de Eletr√¥nicos demonstra consist√™ncia, com menor dispers√£o (IQR) que a TI. No entanto, o cen√°rio recente √© de alerta: o setor registrou uma tend√™ncia de queda acentuada nos √∫ltimos 3 anos (CAGR negativo de -17.59%), sugerindo perda de efici√™ncia operacional, press√£o de custos ou retra√ß√£o de demanda neste ciclo espec√≠fico.

- O setor Banc√°rio apresenta os menores valores absolutos de EBITDA (mediana de US$ 2.4 bilh√µes), o que √© esperado dada a natureza cont√°bil da atividade financeira. Apesar da menor magnitude e dispers√£o hist√≥rica, o setor destaca-se pela forte rea√ß√£o recente, com um crescimento anual composto (CAGR) impressionante de 73.94% nos √∫ltimos 3 anos, revertendo a estagna√ß√£o anterior e indicando um ciclo de recupera√ß√£o de rentabilidade operacional.

- Em suma, o cen√°rio aponta para uma hegemonia de TI, que combina alto volume com alto crescimento. Em contraste, enquanto Eletr√¥nicos possui uma base s√≥lida mas encolhe operacionalmente, o setor Banc√°rio parte de uma base menor mas acelera seu crescimento.

In [22]:
# Estat√≠sticas
df.groupby("Categoria")["EBITDA"].agg(['std', iqr]).transpose().round()

Categoria,Bancos,Eletr√¥nicos,Tecnologia da Informa√ß√£o
std,8657.0,12253.0,30364.0
iqr,15263.0,21922.0,43715.0


In [23]:
# Evolu√ß√£o Temporal: EBITDA por Setor Econ√¥mico
plot_metric_by_sector(df, "EBITDA", sector_color_map, reference_line=None)

In [24]:
# EBITDA: An√°lise de tend√™ncia por setor, CAGR e YoY
metrica_col = "EBITDA"
medianas = df.groupby("Categoria")[metrica_col].median().sort_values(ascending=False)

for setor in medianas.index.values:
    r = analisar_tendencia_setor(df, setor=setor, coluna=metrica_col, anos=3)
    print(f"{gerar_frase_tendencia(r)}\n")

No setor TECNOLOGIA DA INFORMA√á√ÉO, considerando a m√©dia das empresas, a EBITDA (MILH√ïES DE USD) apresentou tend√™ncia de alta (regress√£o linear = 20189.0 milh√µes de USD/ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de 26.95%, e a varia√ß√£o total (YoY acumulado) foi de 61.17%.

No setor ELETR√îNICOS, considerando a m√©dia das empresas, a EBITDA (MILH√ïES DE USD) apresentou tend√™ncia de queda (regress√£o linear = -3140.0 milh√µes de USD/ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de -17.59%, e a varia√ß√£o total (YoY acumulado) foi de -32.09%.

No setor BANCOS, considerando a m√©dia das empresas, a EBITDA (MILH√ïES DE USD) apresentou tend√™ncia de alta (regress√£o linear = 3454.75 milh√µes de USD/ano) de forma acentuada nos √∫ltimos 3 anos (2020‚Äì2022). O CAGR do per√≠odo foi de 73.94%, e a varia√ß√£o total (YoY acumulado) foi de 202.57%.



### Matriz de Classifica√ß√£o de Risco: EBITDA (Nominal)
*Foco: Potencial de Gera√ß√£o de Caixa Bruta e Tend√™ncia Operacional.*

| **Perfil** | **Descri√ß√£o** | **Crit√©rios Estat√≠sticos (Regras)** | **Interpreta√ß√£o Financeira** |
| :--- | :--- | :--- | :--- |
| **üîµ Forte** | Expans√£o Operacional. | ‚Ä¢ **Mediana Robusta** (limiar por setor)<br>‚Ä¢ E Tend√™ncia (CAGR) > 5% (Crescimento)<br>‚Ä¢ E Piso Hist√≥rico (Q1) > 0 | A empresa n√£o s√≥ √© operacionalmente lucrativa, como est√° ganhando escala e efici√™ncia ao longo do tempo (Perfil TI no seu dataset). |
| **üü° Adequado** | Maturidade / Estagna√ß√£o.| ‚Ä¢ **Mediana Positiva**<br>‚Ä¢ E Piso Hist√≥rico (Q1) > 0<br>‚Ä¢ Tend√™ncia Est√°vel ou Leve Queda. | Empresa "Vaca Leiteira". O EBITDA √© positivo e paga as contas, mas o neg√≥cio parou de crescer ou est√° encolhendo lentamente. |
| **üü† Risco Moderado** | Deteriora√ß√£o Operacional. | ‚Ä¢ **Mediana Positiva, mas Baixa**<br>‚Ä¢ E Tend√™ncia de Queda Acentuada (CAGR < -10%)<br>‚Ä¢ OU Piso Hist√≥rico (Q1) < 0 | O "Core Business" est√° sofrendo. A queda acentuada (como visto em Eletr√¥nicos recentemente) sugere perda de mercado ou obsolesc√™ncia. |
| **üî¥ Risco Elevado** | Preju√≠zo Operacional. | ‚Ä¢ **Mediana < 0**<br>‚Ä¢ OU Teto Hist√≥rico (Q3) pr√≥ximo a 0 | A opera√ß√£o, antes de pagar juros e impostos, j√° d√° preju√≠zo. N√£o h√° engenharia financeira que salve se o EBITDA for estruturalmente negativo. |


## Aplica√ß√£o da Classifica√ß√£o de Risco
Com base nas matrizes de risco estabelecidas, aplicou-se o diagn√≥stico automatizado √†s empresas do dataset, permitindo validar a precis√£o do modelo em cen√°rios opostos de sa√∫de financeira.

O primeiro caso analisado foi a SHLDQ (Setor: Servi√ßos Financeiros), com dados restritos ao per√≠odo de 2009 a 2018. A interrup√ß√£o da s√©rie hist√≥rica antes do t√©rmino do dataset (2023), somada aos indicadores deteriorados, corrobora a presen√ßa de empresas em situa√ß√£o de insolv√™ncia (bankruptcy) na amostra. O diagn√≥stico apontou predominantemente Risco Moderado a Elevado. 

Especificamente, a Liquidez Corrente foi classificada como Risco Moderado: embora tenha se mantido acima de 1.0 na maior parte da s√©rie, apresentou tend√™ncia clara de decl√≠nio, rompendo o piso de solv√™ncia no √∫ltimo exerc√≠cio observado.

In [25]:
# Fun√ß√µes para classifica√ß√£o de risco

def calcular_stats(df, metrica="Liquidez_Corrente"):
    x = df[metrica]
    empresa = df["Empresa"].iloc[0]

    tendencias = analisar_tendencia_empresa(df, empresa=empresa, coluna=metrica, anos=3)
    
    return pd.Series({
        "Min": min(x),
        "Max": max(x),
        "Mean": np.mean(x),
        "Median": np.median(x),
        "Std": np.std(x),
        "Q1": np.quantile(x, 0.25),
        "Q3": np.quantile(x, 0.75),
        "IQR": np.quantile(x, 0.75) - np.quantile(x, 0.25),
        "Skewness": skew(x),
        "YoY Acumulado % (3 √∫ltimos anos)": tendencias["yoy_percent"],
        "CAGR % (3 √∫ltimos anos)": tendencias["cagr_percent"],
        "Slope (Regress√£o Linear, 3 √∫ltimos anos)": tendencias["tendencia_slope"],
        "Tend√™ncia (3 √∫ltimos anos)": tendencias["interpretacao"] 
    })

def classificar_liquidez_corrente(historico_empresa_df, nome_coluna="Liquidez_Corrente"):
    """
    Classifica a Liquidez Corrente baseada na Solv√™ncia (Piso > 1) e Gordura (Mediana > 2).
    Trata exce√ß√£o para Bancos.
    """
    # 1. Calcular estat√≠sticas base
    stats = calcular_stats(historico_empresa_df, metrica=nome_coluna)
    stats["Indicador"] = "Liquidez Corrente"
    
    # 2. Extrair vari√°veis para legibilidade
    mediana = stats['Median']
    q1 = stats['Q1'] # Piso Hist√≥rico (Recorrente)
    q3 = stats['Q3'] # Teto Hist√≥rico
    
    # Tenta identificar o setor para a regra de exce√ß√£o
    # (Assumindo que a coluna 'Categoria' existe no DF)
    setor = historico_empresa_df['Categoria'].iloc[0] if 'Categoria' in historico_empresa_df.columns else ""

    # √ÅRVORE DE DECIS√ÉO (LIQUIDEZ)

    # Exce√ß√£o: Setor Banc√°rio
    # Bancos operam com liquidez ~1.0 por regula√ß√£o (Casamento de ativos/passivos)
    if setor in ['Bancos', 'Banking', 'Bank']:
        stats["Classificacao"] = "‚ö™ Neutro (Setor Banc√°rio)"
        stats["Justificativa"] = "Indicador menos relevante para Bancos devido √† estrutura de balan√ßo regulat√≥ria (Liquidez tende a 1.0)."
        return stats

    # Risco Elevado (Insolv√™ncia Estrutural)
    # Se nem no melhor cen√°rio (Q3) ela paga as contas, ou se a m√©dia √© insolvente.
    if q3 < 1.0 or mediana < 0.95:
        stats["Classificacao"] = "üî¥ Risco Elevado"
        stats["Justificativa"] = "Incapacidade estrutural de cobrir passivos de curto prazo (Insolv√™ncia recorrente)."

    # Forte (Cash Rich / Gordura)
    # Mediana alta (>2) E Piso seguro (>1). Aqui a volatilidade √© irrelevante.
    elif mediana >= 2.0 and q1 >= 1.0:
        stats["Classificacao"] = "üîµ Forte"
        stats["Justificativa"] = "Ampla folga financeira ('Colch√£o de Liquidez'). Alta resili√™ncia a crises."

    # Risco Moderado (No Limite)
    # Mediana apertada (<1.2) OU j√° teve ano com liquidez < 1 (Q1 < 1)
    elif mediana < 1.20 or q1 < 1.0:
        stats["Classificacao"] = "üü† Risco Moderado"
        stats["Justificativa"] = "Margem de seguran√ßa estreita (< 1.20) ou hist√≥rico de quebra de caixa (Q1 < 1.0)."

    # Adequado (Efici√™ncia)
    # Sobrou: 1.2 <= Mediana < 2.0 E Q1 >= 1.0
    else:
        stats["Classificacao"] = "üü° Adequado"
        stats["Justificativa"] = "Gest√£o financeira equilibrada e eficiente. Honra obriga√ß√µes sem excessos."

    return stats

# FLUXO DE CAIXA OPERACIONAL (FCO) 
def classificar_fco(historico_empresa_df, nome_coluna="Fluxo_Caixa_Operacional"):
    """
    Classifica o FCO baseado na Sustentabilidade (Gera caixa?) e Tend√™ncia.
    """
    # Calcula estat√≠sticas e tend√™ncias
    stats = calcular_stats(historico_empresa_df, metrica=nome_coluna)
    stats["Indicador"] = "Fluxo de Caixa Operacional"

    # Extra√ß√£o de vari√°veis para legibilidade
    mediana = stats['Median']
    q1 = stats['Q1']     # Piso Hist√≥rico
    q3 = stats['Q3']     # Teto Hist√≥rico
    cagr = stats['CAGR % (3 √∫ltimos anos)'] # Tend√™ncia recente
    slope = stats['Slope (Regress√£o Linear, 3 √∫ltimos anos)'] 

    # TEND√äNCIA
    # Se CAGR for NaN (devido a negativos), olhamos se a reta (slope) est√° caindo
    if pd.isna(cagr):
        tendencia_queda_forte = (slope < 0) # Simplifica√ß√£o: se reta cai, √© ruim
        tendencia_positiva = (slope > 0)
    else:
        tendencia_queda_forte = (cagr < -10)
        tendencia_positiva = (cagr >= 0)

    # √ÅRVORE DE DECIS√ÉO (FCO)
    
    # Risco Elevado (Depend√™ncia Cr√¥nica)
    # Queima caixa na m√©dia OU mesmo no melhor momento (Q3) √© negativo/zero
    if mediana < 0 or q3 <= 0:
        stats["Classificacao"] = "üî¥ Risco Elevado"
        stats["Justificativa"] = "Gera√ß√£o de caixa estruturalmente negativa."

    # Forte (Cash Cow)
    # Gera caixa sempre (Q1 > 0) e tem tend√™ncia positiva/est√°vel
    elif mediana > 0 and q1 > 0 and tendencia_positiva:
        stats["Classificacao"] = "üîµ Forte"
        stats["Justificativa"] = "Gera√ß√£o de caixa recorrente e sustent√°vel."

    # Risco Moderado (Oscila√ß√£o ou Deteriora√ß√£o)
    # Teve anos de queima (Q1 < 0) OU a tend√™ncia √© de queda forte (< -10%)
    elif q1 < 0 or tendencia_queda_forte:
        stats["Classificacao"] = "üü† Risco Moderado"
        stats["Justificativa"] = "Hist√≥rico de queima de caixa ou tend√™ncia de deteriora√ß√£o acentuada."

    # Adequado (Sustentabilidade Padr√£o)
    # Sobrou: Gera caixa na m√©dia, mas talvez com queda leve ou sem grande folga
    else:
        stats["Classificacao"] = "üü° Adequado"
        stats["Justificativa"] = "Gera√ß√£o de caixa positiva, mas com estabilidade ou queda leve."

    return stats


# MARGEM L√çQUIDA 
def classificar_margem_liquida(historico_empresa_df, nome_coluna="Margem_Liquida"):
    """
    Classifica Margem L√≠quida baseado em Efici√™ncia e Colch√£o de Lucratividade.
    """
    stats = calcular_stats(historico_empresa_df, metrica=nome_coluna)
    stats["Indicador"] = "Margem L√≠quida"

    mediana = stats['Median']
    q1 = stats['Q1'] # Piso Hist√≥rico
    q3 = stats['Q3'] # Teto Hist√≥rico
    std = stats['Std']
    
    # √ÅRVORE DE DECIS√ÉO (MARGEM)

    # Risco Elevado (Destrui√ß√£o de Valor)
    # Preju√≠zo na m√©dia OU Teto muito baixo (margem < 2% no melhor cen√°rio)
    if mediana < 0 or q3 < 2.0:
        stats["Classificacao"] = "üî¥ Risco Elevado"
        stats["Justificativa"] = "Opera√ß√£o n√£o gera lucro consistente ou opera no preju√≠zo."

    # Forte (Alta Efici√™ncia)
    # Mediana alta (>= 15%) E Piso seguro (> 5%)
    elif mediana >= 15.0 and q1 > 5.0:
        stats["Classificacao"] = "üîµ Forte"
        stats["Justificativa"] = "Alta efici√™ncia e 'colch√£o' de rentabilidade."

    # Risco Moderado (Margem Apertada/Vol√°til)
    # Break-even apertado (< 5%) OU Preju√≠zo pontual (Q1 < 0) 
    # OU Alta volatilidade se a margem n√£o for alta (Mediana < 8% e Std alto)
    elif (0 < mediana < 5.0) or (q1 < 0) or (mediana < 8.0 and std > 5.0):
        stats["Classificacao"] = "üü† Risco Moderado"
        stats["Justificativa"] = "Margens estreitas, volatilidade alta ou preju√≠zos pontuais."

    # Adequado (Est√°vel)
    # Mediana saud√°vel (entre 5% e 15%) e sempre positiva
    else:
        stats["Classificacao"] = "üü° Adequado"
        stats["Justificativa"] = "Rentabilidade est√°vel dentro da m√©dia de mercado."

    return stats

# EBITDA 
def classificar_ebitda(historico_empresa_df, nome_coluna="EBITDA"):
    """
    Classifica EBITDA baseado em Potencial Operacional e Crescimento.
    """
    stats = calcular_stats(historico_empresa_df, metrica=nome_coluna)
    stats["Indicador"] = "EBITDA"

    mediana = stats['Median']
    q1 = stats['Q1']
    q3 = stats['Q3']
    cagr = stats['CAGR % (3 √∫ltimos anos)']
    slope = stats['Slope (Regress√£o Linear, 3 √∫ltimos anos)']

    # TEND√äNCIA
    if pd.isna(cagr):
        crescimento_forte = (slope > 0) # Assumimos qualquer crescimento se vier de negativo
        queda_acentuada = (slope < 0)
    else:
        crescimento_forte = (cagr > 5.0)
        queda_acentuada = (cagr < -10.0)
        
    # √ÅRVORE DE DECIS√ÉO (EBITDA) 

    # Risco Elevado (Preju√≠zo Operacional)
    # Opera√ß√£o principal d√° preju√≠zo
    if mediana < 0 or q3 <= 0:
        stats["Classificacao"] = "üî¥ Risco Elevado"
        stats["Justificativa"] = "Opera√ß√£o principal deficit√°ria (EBITDA negativo)."

    # Forte (Expans√£o)
    # Mediana positiva, Piso positivo E Crescimento (> 5%)
    elif mediana > 0 and q1 > 0 and crescimento_forte:
        stats["Classificacao"] = "üîµ Forte"
        stats["Justificativa"] = "Opera√ß√£o rent√°vel e em expans√£o (CAGR positivo)."

    # Risco Moderado (Deteriora√ß√£o)
    # Queda acentuada recente (< -10%) OU Preju√≠zo operacional pontual (Q1 < 0)
    elif cagr < -10.0 or q1 < 0:
        stats["Classificacao"] = "üü† Risco Moderado"
        stats["Justificativa"] = "Deteriora√ß√£o operacional r√°pida ou EBITDA negativo pontual."

    # Adequado (Maturidade)
    # Positivo, est√°vel ou queda leve
    else:
        stats["Classificacao"] = "üü° Adequado"
        stats["Justificativa"] = "Gera√ß√£o operacional est√°vel (Maturidade)."

    return stats

def gerar_diagnostico_completo(df, empresa="AAPL"):

    df_empresa = df[df["Empresa"] == empresa]
    setor = df_empresa["Categoria"].iloc[0]
    
    # Classifica cada indicador
    res_liquidez = classificar_liquidez_corrente(df_empresa)
    res_fco = classificar_fco(df_empresa) 
    res_margem = classificar_margem_liquida(df_empresa) 
    res_ebitda = classificar_ebitda(df_empresa)
    
    # Junta tudo num DataFrame final para exportar pro n8n/JSON
    diagnostico = pd.DataFrame([res_liquidez, res_fco, res_margem, res_ebitda])

    ordem_col = [
        'Indicador', 
        'Classificacao',
        'Justificativa',
        'Min', 
        'Max', 
        'Mean', 
        'Median', 
        'Std', 
        'Q1', 
        'Q3', 
        'IQR', 
        'Skewness', 
        "YoY Acumulado % (3 √∫ltimos anos)", 
        "CAGR % (3 √∫ltimos anos)", 
        "Slope (Regress√£o Linear, 3 √∫ltimos anos)", 
        "Tend√™ncia (3 √∫ltimos anos)"   
    ]
    
    return diagnostico[ordem_col]

In [26]:
# Testes em empresas dos setores Uni-representados (setores com apenas 1 empresa)
#df_empresas.groupby("Categoria")["Empresa"].unique()

# Setor de Manufatura
diagnostico_df = gerar_diagnostico_completo(df_empresas, empresa="SHLDQ")
fig = plot_all_metrics_by_empresa(df_empresas, "SHLDQ", diagnostico_df, sector_color_map)
fig.show()


Em contrapartida, a an√°lise da AAPL (Setor: Tecnologia da Informa√ß√£o) revelou uma estrutura saud√°vel, com classifica√ß√µes oscilando entre Adequado e Forte. Um ponto de destaque √© a efici√™ncia de caixa: embora seus √≠ndices de liquidez corrente operem abaixo da m√©dia do setor (indicando menor ociosidade de recursos), o Piso Recorrente (Q1) permanece acima de 1.0, demonstrando seguran√ßa. A √∫nica exce√ß√£o pontual ocorreu em 2022 (0.88), sem comprometer a solv√™ncia estrutural. Nos demais indicadores de rentabilidade e gera√ß√£o de caixa, a empresa posiciona-se consistentemente na mediana ou acima de seus pares setoriais.

In [27]:
# Testes em empresas de setores com multiplas empresas

# Setor de Tecnologia da Informa√ß√£o
diagnostico_df = gerar_diagnostico_completo(df, empresa="AAPL")
fig = plot_all_metrics_by_empresa(df, "AAPL", diagnostico_df, sector_color_map)
fig.show()

## Conclus√£o e Recomenda√ß√µes

O projeto consolidou um pipeline completo de an√°lise financeira, combinando **estat√≠stica determin√≠stica**, **regras audit√°veis** e **gera√ß√£o automatizada de relat√≥rios**. A integra√ß√£o entre Jupyter Notebook, FastAPI, GitHub e n8n permitiu criar um fluxo totalmente reproduz√≠vel e escal√°vel, trazendo maior objetividade √†s decis√µes de risco.

Os principais avan√ßos incluem:

* **Padroniza√ß√£o anal√≠tica** com m√©tricas compar√°veis entre empresas e setores.
* **Classifica√ß√µes claras e replic√°veis**, sem depend√™ncia de julgamento subjetivo.
* **Diagn√≥stico hist√≥rico estruturado**, incorporando tend√™ncia, quartis, desvios e comportamento relativo ao setor.
* **Automa√ß√£o ponta a ponta**: escolha da empresa ‚Üí processamento ‚Üí gera√ß√£o do relat√≥rio ‚Üí publica√ß√£o autom√°tica no GitHub.
* **Separa√ß√£o entre c√°lculo e narrativa**, permitindo que a IA gere recomenda√ß√µes sem distorcer n√∫meros.

Para o **analista de cr√©dito**, a automa√ß√£o garante agilidade, consist√™ncia e transpar√™ncia, permitindo que o analista foque no que importa: interpreta√ß√£o, decis√£o e comunica√ß√£o com stakeholders.

### Projetos Futuros e Melhorias

* **Expans√£o da base setorial** com inclus√£o de novos clusters econ√¥micos.
* **Incorpora√ß√£o de t√©cnicas de detec√ß√£o de anomalias** para eventos incomuns.
* **Modelagem de risco preditiva** com regress√µes, an√°lise multivariada ou aprendizado de m√°quina.
* **Avalia√ß√£o de sazonalidade e ciclos de caixa**, especialmente relevante para cr√©dito rotativo e antecipa√ß√£o de receb√≠veis.
* **Dashboard interativo** (Streamlit ou Power BI) para visualiza√ß√£o de indicadores e tend√™ncias.
* **Vers√£o multi-idioma** dos relat√≥rios para uso corporativo internacional.

Em suma, este projeto demonstra como dados estruturados, regras claras e automa√ß√£o inteligente podem transformar a an√°lise de cr√©dito ‚Äî tornando-a mais r√°pida, robusta e orientada por evid√™ncias.

*Sugest√µes? Comente aqui, ser√° um prazer trocar ideias!*

*Thanks for reading!*