In [None]:
# CONFIGURAÇÃO DO AMBIENTE E IMPORTAÇÕES


import sys
from pathlib import Path

# Obter diretório atual
caminho_atual = Path.cwd()

# Subir 2 níveis para chegar na raiz do projeto
raiz_projeto = caminho_atual.parent.parent

# Adicionar raiz do projeto ao path
sys.path.insert(0, str(raiz_projeto))

print(f"Diretório atual: {caminho_atual}")
print(f"Raiz do projeto: {raiz_projeto}")
print(f"Caminho adicionado ao sys.path")

# Verificar se a pasta lib existe
caminho_lib = raiz_projeto / 'lib'
print(f"\nPasta 'lib' encontrada em: {caminho_lib}")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import plotly.express as px        
import plotly.graph_objects as go  
import altair as alt               
from datetime import datetime

print("\nBibliotecas básicas importadas!")

Diretório atual: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold
Raiz do projeto: c:\Users\caroline.coutinho\projeto_mediacao_bancaria
Caminho adicionado ao sys.path

Pasta 'lib' encontrada em: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\lib

Bibliotecas básicas importadas!


In [11]:
from lib.carregamento import (
    carregar_base_silver,
    carregar_base_gold_sp,
    carregar_base_agibank,
    carregar_base_setorial,
    carregar_base_filtrada,
    listar_arquivos_disponiveis,
    info_base
)

from lib.cores import (
    aplicar_tema_agibank,
    configurar_plotly,
    CORES_AGIBANK,
    PALETA_CATEGORICA,
    PALETA_AZUL,
    PALETA_VERDE,
    PLOTLY_COLORS,
    PLOTLY_PALETTE,
    PLOTLY_SCALE_AZUL,
    PLOTLY_SCALE_VERDE
)

from lib.visualizacoes import (
    grafico_barras,
    grafico_linha,
    grafico_pizza,
    grafico_boxplot,
    grafico_heatmap,
    grafico_distribuicao,
    grafico_comparativo_barras
)

print("Módulos customizados importados!")

Tema Agibank aplicado - Tamanho: medio
Módulos customizados importados!


In [12]:
warnings.filterwarnings('ignore')
np.random.seed(42)

np.set_printoptions(
    precision=2,
    suppress=True,
    linewidth=120,
    edgeitems=5,
    threshold=1000
)

print("Configurações NumPy aplicadas!")

Configurações NumPy aplicadas!


In [13]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)
pd.set_option('mode.use_inf_as_na', True)

print("Configurações Pandas aplicadas!")

Configurações Pandas aplicadas!


In [14]:
aplicar_tema_agibank('grande')

try:
    get_ipython().run_line_magic('matplotlib', 'inline')
except:
    pass

plt.rcParams['savefig.dpi'] = 300
plt.rcParams['savefig.bbox'] = 'tight'

print("Tema Agibank aplicado para Matplotlib e Seaborn!")

Tema Agibank aplicado - Tamanho: grande
Tema Agibank aplicado para Matplotlib e Seaborn!


In [15]:
configurar_plotly()

print("Configurações Plotly aplicadas!")

Tema Agibank aplicado ao Plotly
Configurações Plotly aplicadas!


In [16]:
alt.renderers.enable('default')
alt.data_transformers.disable_max_rows()

print("Configurações Altair aplicadas!")

Configurações Altair aplicadas!


In [17]:
ANO_ANALISE = np.int16(2025)
JANELA_ANOS = np.array([ANO_ANALISE - 1, ANO_ANALISE], dtype=np.int16)
DATAS_REFERENCIA = np.arange(f'{ANO_ANALISE}-01', f'{ANO_ANALISE+1}-01', dtype='datetime64[M]')

RAIZ_PROJETO = Path.cwd()
CAMINHO_OUTPUT = RAIZ_PROJETO / 'output'
CAMINHO_OUTPUT.mkdir(exist_ok=True)

CAMINHO_CENSO = Path(r"C:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\limpo\brasil")

print("Constantes definidas!")
print(f"Ano de análise: {ANO_ANALISE}")
print(f"Pasta de output: {CAMINHO_OUTPUT}")
print(f"Pasta dados Censo: {CAMINHO_CENSO}")

Constantes definidas!
Ano de análise: 2025
Pasta de output: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output
Pasta dados Censo: C:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\limpo\brasil


In [18]:
print("=" * 80)
print("AMBIENTE CONFIGURADO COM SUCESSO")
print("=" * 80)

try:
    plotly_v = plotly.__version__
except:
    plotly_v = "Instalado"

info_libs = np.array([
    ['Pandas', pd.__version__],
    ['NumPy', np.__version__],
    ['Matplotlib', plt.matplotlib.__version__],
    ['Seaborn', sns.__version__],
    ['Plotly', plotly_v],
    ['Altair', alt.__version__],
    ['Python', sys.version.split()[0]]
])

print(f"\nVersoes das bibliotecas:")
for lib, versao in info_libs:
    print(f"  {lib}: {versao}")

AMBIENTE CONFIGURADO COM SUCESSO

Versoes das bibliotecas:
  Pandas: 2.3.3
  NumPy: 2.3.5
  Matplotlib: 3.10.7
  Seaborn: 0.13.2
  Plotly: Instalado
  Altair: 6.0.0
  Python: 3.13.5


In [19]:
print(f"\nConfiguracoes do projeto:")
print(f"  Ano de analise: {ANO_ANALISE}")
print(f"  Pasta de output: {CAMINHO_OUTPUT}")
print(f"  Path atual: {RAIZ_PROJETO}")

paleta_mpl_np = np.array(PALETA_CATEGORICA)
paleta_plotly_np = np.array(PLOTLY_PALETTE)

print(f"\nTema visual:")
print(f"  Tema Agibank aplicado (tamanho: grande)")
print(f"  Paleta Matplotlib: {paleta_mpl_np.size} cores")
print(f"  Paleta Plotly: {paleta_plotly_np.size} cores")

print("=" * 80)


Configuracoes do projeto:
  Ano de analise: 2025
  Pasta de output: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output
  Path atual: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold

Tema visual:
  Tema Agibank aplicado (tamanho: grande)
  Paleta Matplotlib: 6 cores
  Paleta Plotly: 6 cores


In [20]:
print("\n" + "=" * 80)
print("CARREGANDO BASE AGIBANK")
print("=" * 80 + "\n")

df_agibank = carregar_base_agibank()

print(f"Base Agibank carregada: {len(df_agibank):,} registros")
info_base(df_agibank)


CARREGANDO BASE AGIBANK

Carregando Agibank de: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\sp_agibank_only_v1.csv
Separador detectado: ';'
Tentativa 1...
✅ Base Agibank carregada com sucesso (tentativa 1)!
Registros: 4,006
Colunas: 32
Base Agibank carregada: 4,006 registros
INFORMACOES DA BASE

Total de registros: 4,006
Total de colunas: 32
Periodo: 2024 a 2025
Memoria utilizada: 6.77 MB


In [21]:
print("\n" + "=" * 80)
print("CARREGANDO BASE SETORIAL (SETOR FINANCEIRO)")
print("=" * 80 + "\n")

df_setorial = carregar_base_setorial()

print(f"Base Setorial carregada: {len(df_setorial):,} registros")
info_base(df_setorial)


CARREGANDO BASE SETORIAL (SETOR FINANCEIRO)

Carregando base setorial de: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\sp_setorial_segments_v1.csv
Separador detectado: ','
Base setorial carregada com sucesso!
Registros: 45
Colunas: 3
Base Setorial carregada: 45 registros
INFORMACOES DA BASE

Total de registros: 45
Total de colunas: 3
Memoria utilizada: 0.00 MB


In [22]:
print("\n" + "=" * 80)
print("CARREGANDO BASE SP COMPLETO")
print("=" * 80 + "\n")

df_sp_completo = carregar_base_gold_sp()

print(f"Base SP completo carregada: {len(df_sp_completo):,} registros")
info_base(df_sp_completo)


CARREGANDO BASE SP COMPLETO

Carregando SP (Gold) de: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\sp_consumidor_completo_v1.csv
Separador detectado: ';'
Tentativa 1...
✅ Base SP carregada com sucesso (tentativa 1)!
Registros: 649,557
Colunas: 32
Base SP completo carregada: 649,557 registros
INFORMACOES DA BASE

Total de registros: 649,557
Total de colunas: 32
Periodo: 2024 a 2025
Memoria utilizada: 1072.07 MB


In [23]:
print("\n" + "=" * 80)
print("VERIFICANDO ARQUIVOS DO CENSO 2022")
print("=" * 80 + "\n")

print("Arquivos disponíveis na pasta do Censo:")

if CAMINHO_CENSO.exists():
    arquivos_censo = list(CAMINHO_CENSO.glob("*.csv"))
    for i, arq in enumerate(arquivos_censo, 1):
        tamanho_kb = arq.stat().st_size / 1024
        print(f"  {i}. {arq.name} ({tamanho_kb:.1f} KB)")
else:
    print("ERRO: Caminho do Censo não encontrado!")


VERIFICANDO ARQUIVOS DO CENSO 2022

Arquivos disponíveis na pasta do Censo:
  1. censo2022_brasil_e_estados.csv (1.0 KB)
  2. censo2022_brasil_limpo.csv (0.1 KB)
  3. censo2022_estados_brasil.csv (0.9 KB)
  4. censo2022_estados_completo.csv (2.2 KB)
  5. censo2022_resumo_regioes_brasil.csv (0.3 KB)


In [24]:
print("\n" + "=" * 80)
print("CARREGANDO DADOS DO CENSO 2022")
print("=" * 80 + "\n")

arquivo_censo = CAMINHO_CENSO / "censo2022_estados_completo.csv"

print(f"Carregando: {arquivo_censo.name}")

try:
    df_censo = pd.read_csv(arquivo_censo)
    
    print(f"Censo carregado com sucesso!")
    print(f"\nInformacoes do DataFrame:")
    print(f"   Linhas: {len(df_censo):,}")
    print(f"   Colunas: {len(df_censo.columns)}")
    
except Exception as e:
    print(f"ERRO ao carregar Censo: {e}")


CARREGANDO DADOS DO CENSO 2022

Carregando: censo2022_estados_completo.csv
Censo carregado com sucesso!

Informacoes do DataFrame:
   Linhas: 27
   Colunas: 8


In [25]:
print("\n" + "=" * 80)
print("COLUNAS DISPONÍVEIS NO CENSO 2022")
print("=" * 80 + "\n")

for i, col in enumerate(df_censo.columns, 1):
    tipo = df_censo[col].dtype
    print(f"   {i:2d}. {col:30s} ({tipo})")


COLUNAS DISPONÍVEIS NO CENSO 2022

    1. cod_ibge                       (int64)
    2. uf                             (object)
    3. sigla                          (object)
    4. regiao                         (object)
    5. populacao_2022                 (int64)
    6. area_km2                       (float64)
    7. densidade_hab_km2              (float64)
    8. percentual_pop_brasil          (float64)


In [26]:
print("\n" + "=" * 80)
print("PRIMEIRAS LINHAS DO CENSO 2022")
print("=" * 80 + "\n")

display(df_censo.head())


PRIMEIRAS LINHAS DO CENSO 2022



Unnamed: 0,cod_ibge,uf,sigla,regiao,populacao_2022,area_km2,densidade_hab_km2,percentual_pop_brasil
0,11,Rondônia,RO,Norte,1581196,237590.55,6.66,0.78
1,12,Acre,AC,Norte,830018,164173.43,5.06,0.41
2,13,Amazonas,AM,Norte,3941613,1559159.15,2.53,1.94
3,14,Roraima,RR,Norte,636707,224273.83,2.84,0.31
4,15,Pará,PA,Norte,8120131,1247954.67,6.51,4.0


In [27]:
print("\n" + "=" * 80)
print("INFORMAÇÕES DETALHADAS DO CENSO 2022")
print("=" * 80 + "\n")

df_censo.info()


INFORMAÇÕES DETALHADAS DO CENSO 2022

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   cod_ibge               27 non-null     int64  
 1   uf                     27 non-null     object 
 2   sigla                  27 non-null     object 
 3   regiao                 27 non-null     object 
 4   populacao_2022         27 non-null     int64  
 5   area_km2               27 non-null     float64
 6   densidade_hab_km2      27 non-null     float64
 7   percentual_pop_brasil  27 non-null     float64
dtypes: float64(3), int64(2), object(3)
memory usage: 1.8+ KB


In [28]:
print("\n" + "=" * 80)
print("RESUMO GERAL - BASES CARREGADAS")
print("=" * 80)

bases_info = {
    'Agibank': df_agibank,
    'Setorial (Financeiro)': df_setorial,
    'SP Completo': df_sp_completo,
    'Censo 2022': df_censo
}

print(f"\n{'Base':<25} {'Registros':>15} {'Colunas':>10}")
print("-" * 80)

for nome, df in bases_info.items():
    print(f"{nome:<25} {len(df):>15,} {len(df.columns):>10}")

print("=" * 80)
print("AMBIENTE PRONTO PARA ANÁLISES")
print("=" * 80)


RESUMO GERAL - BASES CARREGADAS

Base                            Registros    Colunas
--------------------------------------------------------------------------------
Agibank                             4,006         32
Setorial (Financeiro)                  45          3
SP Completo                       649,557         32
Censo 2022                             27          8
AMBIENTE PRONTO PARA ANÁLISES


In [31]:
from datetime import datetime

# Criar pasta de documentação
CAMINHO_DOC = Path.cwd() / 'documentacao'
CAMINHO_DOC.mkdir(exist_ok=True)

print(f"Pasta de documentação criada em: {CAMINHO_DOC}")

# Obter versão do Plotly
try:
    import plotly
    plotly_version = plotly.__version__
except:
    plotly_version = "Instalado"

# Criar conteúdo do markdown
conteudo_md = f"""# Documentação - Configuração e Carregamento de Dados

**Data de criação:** {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}

---

## 1. CONFIGURAÇÃO DO AMBIENTE

- **Diretório de trabalho:** `{Path.cwd()}`
- **Raiz do projeto:** `{RAIZ_PROJETO}`
- **Pasta de saída:** `{CAMINHO_OUTPUT}`
- **Pasta dados Censo:** `{CAMINHO_CENSO}`

---

## 2. BIBLIOTECAS IMPORTADAS

| Biblioteca | Versão |
|------------|--------|
| Pandas | {pd.__version__} |
| NumPy | {np.__version__} |
| Matplotlib | {plt.matplotlib.__version__} |
| Seaborn | {sns.__version__} |
| Plotly | {plotly_version} |
| Altair | {alt.__version__} |
| Python | {sys.version.split()[0]} |

---

## 3. MÓDULOS CUSTOMIZADOS CARREGADOS

### 3.1 `lib.carregamento`
Funções para carregar bases de dados:
- `carregar_base_silver()`
- `carregar_base_gold_sp()`
- `carregar_base_agibank()`
- `carregar_base_setorial()`
- `carregar_base_filtrada()`
- `listar_arquivos_disponiveis()`
- `info_base()`

### 3.2 `lib.cores`
Configurações de temas e paletas Agibank:
- `aplicar_tema_agibank()`
- `configurar_plotly()`
- Paletas de cores (CORES_AGIBANK, PALETA_CATEGORICA, etc.)

### 3.3 `lib.visualizacoes`
Funções para gráficos customizados:
- `grafico_barras()`
- `grafico_linha()`
- `grafico_pizza()`
- `grafico_boxplot()`
- `grafico_heatmap()`
- `grafico_distribuicao()`
- `grafico_comparativo_barras()`

---

## 4. CONFIGURAÇÕES APLICADAS

### 4.1 Configurações Gerais
- Warnings desabilitados
- Seed NumPy: 42 (reprodutibilidade)

### 4.2 Configurações Pandas
- Exibição de todas as colunas
- Máximo de 100 linhas
- Formato de float: 2 casas decimais
- Largura automática
- Máximo de 50 caracteres por coluna

### 4.3 Configurações NumPy
- Precisão: 2 casas decimais
- Supressão de notação científica
- Largura de linha: 120 caracteres

### 4.4 Configurações Visuais
- **Matplotlib/Seaborn:** Tema Agibank (tamanho: grande), DPI 300
- **Plotly:** Configurações customizadas Agibank
- **Altair:** Renderização padrão habilitada

---

## 5. CONSTANTES DEFINIDAS

- **Ano de análise:** {ANO_ANALISE}
- **Janela de anos:** {JANELA_ANOS[0]} - {JANELA_ANOS[1]}
- **Datas de referência:** {len(DATAS_REFERENCIA)} períodos mensais

---

## 6. BASES DE DADOS CARREGADAS

### 6.1 BASE AGIBANK
- **Registros:** {len(df_agibank):,}
- **Colunas:** {len(df_agibank.columns)}
- **Fonte:** `sp_agibank_only_v1.csv`
- **Descrição:** Reclamações específicas do Agibank em SP

**Colunas principais:**
"""

# Adicionar colunas do Agibank
for col in df_agibank.columns:
    conteudo_md += f"\n- `{col}`"

conteudo_md += f"""

---

### 6.2 BASE SETORIAL (SETOR FINANCEIRO)
- **Registros:** {len(df_setorial):,}
- **Colunas:** {len(df_setorial.columns)}
- **Fonte:** `sp_setorial_v1.csv`
- **Descrição:** Reclamações do setor financeiro em SP

**Colunas principais:**
"""

# Adicionar colunas do Setorial
for col in df_setorial.columns:
    conteudo_md += f"\n- `{col}`"

conteudo_md += f"""

---

### 6.3 BASE SP COMPLETO
- **Registros:** {len(df_sp_completo):,}
- **Colunas:** {len(df_sp_completo.columns)}
- **Fonte:** `sp_completo_v1.csv`
- **Descrição:** Todas as reclamações de SP (todos os setores)

**Colunas principais:**
"""

# Adicionar colunas do SP Completo
for col in df_sp_completo.columns:
    conteudo_md += f"\n- `{col}`"

conteudo_md += f"""

---

### 6.4 BASE CENSO 2022
- **Registros:** {len(df_censo):,}
- **Colunas:** {len(df_censo.columns)}
- **Fonte:** `censo2022_estados_completo.csv`
- **Descrição:** Dados demográficos dos estados brasileiros

**Colunas principais:**
"""

# Adicionar colunas do Censo
for col in df_censo.columns:
    conteudo_md += f"\n- `{col}`"

conteudo_md += """

---

## 7. RESUMO DAS BASES

| Base | Registros | Colunas |
|------|-----------|---------|
"""

# Adicionar resumo
bases_resumo = {
    'Agibank': df_agibank,
    'Setorial (Financeiro)': df_setorial,
    'SP Completo': df_sp_completo,
    'Censo 2022': df_censo
}

for nome, df in bases_resumo.items():
    conteudo_md += f"| {nome} | {len(df):,} | {len(df.columns)} |\n"

conteudo_md += """

---

## 8. PRÓXIMOS PASSOS

1. Análise exploratória das bases
2. Cruzamento de dados demográficos com reclamações
3. Benchmarking Agibank vs Setor
4. Análises geográficas e temporais
5. Identificação de padrões e insights

---

**Notebook:** `analises_pre.ipynb`  
**Autor:** Análise de Mediação Bancária  
**Projeto:** Mediação Bancária - Agibank
"""

# Salvar arquivo
arquivo_doc = CAMINHO_DOC / '01_configuracao_carregamento.md'
with open(arquivo_doc, 'w', encoding='utf-8') as f:
    f.write(conteudo_md)

print(f"\nDocumentação salva em: {arquivo_doc}")
print(f"Tamanho do arquivo: {arquivo_doc.stat().st_size / 1024:.1f} KB")
print("\nConteúdo salvo com sucesso!")

Pasta de documentação criada em: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\documentacao

Documentação salva em: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\documentacao\01_configuracao_carregamento.md
Tamanho do arquivo: 5.1 KB

Conteúdo salvo com sucesso!


In [32]:
print("=" * 80)
print("VERIFICAÇÃO DE DADOS DISPONÍVEIS PARA OS 10 GRÁFICOS")
print("=" * 80)

print("\n1. DADOS DO CENSO (para normalização)")
print("-" * 80)
print(f"Colunas disponíveis:")
for col in df_censo.columns:
    print(f"  - {col}")

print("\n2. DADOS DE RECLAMAÇÕES - AGIBANK")
print("-" * 80)
print(f"Total de registros: {len(df_agibank):,}")
print(f"\nColunas chave:")
colunas_chave_agibank = ['cidade', 'nota_do_consumidor', 'tempo_resposta', 
                         'avaliacao_reclamacao', 'assunto', 'procurou_empresa',
                         'ano_abertura', 'mes_abertura']
for col in colunas_chave_agibank:
    if col in df_agibank.columns:
        print(f"  OK - {col}")
    else:
        print(f"  FALTA - {col}")

print("\n3. DADOS DE RECLAMAÇÕES - SETORIAL")
print("-" * 80)
print(f"Total de registros: {len(df_setorial):,}")
print(f"\nVerificar se tem coluna 'nome_fantasia' ou 'instituicao':")
colunas_instituicao = [col for col in df_setorial.columns if 'nome' in col.lower() or 'instituicao' in col.lower()]
for col in colunas_instituicao:
    print(f"  - {col}")

print("\n4. DADOS DE RECLAMAÇÕES - SP COMPLETO")
print("-" * 80)
print(f"Total de registros: {len(df_sp_completo):,}")

print("\n5. DADOS NECESSÁRIOS PARA NORMALIZAÇÃO")
print("-" * 80)
print("Precisamos verificar se temos:")
print("  [ ] População de São Paulo (estado)")
print("  [ ] População por município de SP")
print("  [ ] População de Campinas")

print("\n6. PRIMEIRAS LINHAS DO CENSO")
print("-" * 80)
display(df_censo.head())

print("\n7. PRIMEIRAS LINHAS SETORIAL (verificar instituições)")
print("-" * 80)
display(df_setorial.head())

VERIFICAÇÃO DE DADOS DISPONÍVEIS PARA OS 10 GRÁFICOS

1. DADOS DO CENSO (para normalização)
--------------------------------------------------------------------------------
Colunas disponíveis:
  - cod_ibge
  - uf
  - sigla
  - regiao
  - populacao_2022
  - area_km2
  - densidade_hab_km2
  - percentual_pop_brasil

2. DADOS DE RECLAMAÇÕES - AGIBANK
--------------------------------------------------------------------------------
Total de registros: 4,006

Colunas chave:
  OK - cidade
  OK - nota_do_consumidor
  OK - tempo_resposta
  OK - avaliacao_reclamacao
  OK - assunto
  OK - procurou_empresa
  OK - ano_abertura
  OK - mes_abertura

3. DADOS DE RECLAMAÇÕES - SETORIAL
--------------------------------------------------------------------------------
Total de registros: 45

Verificar se tem coluna 'nome_fantasia' ou 'instituicao':

4. DADOS DE RECLAMAÇÕES - SP COMPLETO
--------------------------------------------------------------------------------
Total de registros: 649,557

5. DADOS N

Unnamed: 0,cod_ibge,uf,sigla,regiao,populacao_2022,area_km2,densidade_hab_km2,percentual_pop_brasil
0,11,Rondônia,RO,Norte,1581196,237590.55,6.66,0.78
1,12,Acre,AC,Norte,830018,164173.43,5.06,0.41
2,13,Amazonas,AM,Norte,3941613,1559159.15,2.53,1.94
3,14,Roraima,RR,Norte,636707,224273.83,2.84,0.31
4,15,Pará,PA,Norte,8120131,1247954.67,6.51,4.0



7. PRIMEIRAS LINHAS SETORIAL (verificar instituições)
--------------------------------------------------------------------------------


Unnamed: 0,segmento_de_mercado,total_reclamacoes,reclamacoes_agibank
0,"Bancos, Financeiras e Administradoras de Cartão",276693,4006
1,"Operadoras de Telecomunicações (Telefonia, Int...",57700,0
2,Bancos de Dados e Cadastros de Consumidores,42158,0
3,Empresas de Pagamento Eletrônico,27740,0
4,Comércio Eletrônico,23379,0


In [38]:
print("=" * 80)
print("ETAPA 1: PREPARAÇÃO DE DADOS DE POPULAÇÃO")
print("=" * 80)

print("\n1. População de São Paulo (Estado)")
print("-" * 80)

pop_sp_estado = df_censo[df_censo['sigla'] == 'SP']['populacao_2022'].values[0]
print(f"População SP (2022): {pop_sp_estado:,} habitantes")



ETAPA 1: PREPARAÇÃO DE DADOS DE POPULAÇÃO

1. População de São Paulo (Estado)
--------------------------------------------------------------------------------
População SP (2022): 44,411,238 habitantes


In [39]:
print("\n" + "=" * 80)
print("PREPARANDO DICIONÁRIO DE POPULAÇÃO - PRINCIPAIS CIDADES SP")
print("=" * 80)

# População estimada 2022 das principais cidades de SP
# Fonte: IBGE (podemos atualizar com dados mais precisos se você tiver)
pop_municipios_sp = {
    'SÃO PAULO': 11451245,
    'CAMPINAS': 1213792,
    'GUARULHOS': 1291784,
    'SÃO BERNARDO DO CAMPO': 844483,
    'SANTO ANDRÉ': 721368,
    'OSASCO': 699944,
    'SÃO JOSÉ DOS CAMPOS': 729737,
    'RIBEIRÃO PRETO': 711825,
    'SOROCABA': 695328,
    'SANTOS': 433311,
    'MAUÁ': 477552,
    'SÃO JOSÉ DO RIO PRETO': 464983,
    'MOGI DAS CRUZES': 450785,
    'DIADEMA': 423884,
    'JUNDIAÍ': 423006,
    'PIRACICABA': 407252,
    'CARAPICUÍBA': 404803,
    'BAURU': 379297,
    'ITAQUAQUECETUBA': 372776,
    'SÃO VICENTE': 368805
}

print(f"\nDicionário criado com {len(pop_municipios_sp)} cidades")
print("\nPrimeiras 5 cidades:")
for i, (cidade, pop) in enumerate(list(pop_municipios_sp.items())[:5], 1):
    print(f"  {i}. {cidade}: {pop:,} hab")

print("\nVerificando cidades nas bases de reclamações:")
cidades_agibank = df_agibank['cidade'].str.upper().unique()
print(f"\nCidades únicas na base Agibank: {len(cidades_agibank)}")
print(f"Amostra: {list(cidades_agibank[:10])}")

cidades_sp_completo = df_sp_completo['cidade'].str.upper().unique()
print(f"\nCidades únicas na base SP Completo: {len(cidades_sp_completo)}")

# Verificar quantas cidades temos população
cidades_com_pop = [c for c in cidades_sp_completo if c in pop_municipios_sp]
print(f"\nCidades com população no dicionário: {len(cidades_com_pop)}")
print(f"Percentual coberto: {len(cidades_com_pop)/len(cidades_sp_completo)*100:.1f}%")


PREPARANDO DICIONÁRIO DE POPULAÇÃO - PRINCIPAIS CIDADES SP

Dicionário criado com 20 cidades

Primeiras 5 cidades:
  1. SÃO PAULO: 11,451,245 hab
  2. CAMPINAS: 1,213,792 hab
  3. GUARULHOS: 1,291,784 hab
  4. SÃO BERNARDO DO CAMPO: 844,483 hab
  5. SANTO ANDRÉ: 721,368 hab

Verificando cidades nas bases de reclamações:

Cidades únicas na base Agibank: 373
Amostra: ['BOTUCATU', 'VARGEM GRANDE PAULISTA', 'PIRAJU', 'SOROCABA', 'CRAVINHOS', 'FERNANDÓPOLIS', 'UBATUBA', 'VOTUPORANGA', 'SÃO PAULO', 'FRANCA']

Cidades únicas na base SP Completo: 696

Cidades com população no dicionário: 20
Percentual coberto: 2.9%


In [42]:
print("=" * 80)
print("CARREGANDO DADOS DE POPULAÇÃO DOS MUNICÍPIOS")
print("=" * 80)

# Caminho correto fornecido
CAMINHO_CENSO_NORMALIZACAO = Path(r"C:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\normalizacao_censo")

print(f"\nCaminho: {CAMINHO_CENSO_NORMALIZACAO}")
print(f"Existe: {CAMINHO_CENSO_NORMALIZACAO.exists()}")

if CAMINHO_CENSO_NORMALIZACAO.exists():
    print("\n✅ Pasta encontrada!")
    print("\nArquivos disponíveis:")
    for arquivo in CAMINHO_CENSO_NORMALIZACAO.glob("*.csv"):
        tamanho_kb = arquivo.stat().st_size / 1024
        print(f"  - {arquivo.name} ({tamanho_kb:.1f} KB)")
else:
    print("❌ Pasta não encontrada")

CARREGANDO DADOS DE POPULAÇÃO DOS MUNICÍPIOS

Caminho: C:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\normalizacao_censo
Existe: True

✅ Pasta encontrada!

Arquivos disponíveis:
  - Censo 2022 - Crescimento Populacional - Brasil.csv (0.4 KB)
  - censo2022esp_populacao.csv (0.1 KB)
  - codigos_municipios_regioes.csv (67.4 KB)
  - tabela_uf_censo.csv (2.8 KB)


In [45]:
print("\n" + "=" * 80)
print("CARREGANDO ARQUIVO DE POPULAÇÃO DOS MUNICÍPIOS")
print("=" * 80)

arquivo_pop = CAMINHO_CENSO_NORMALIZACAO / 'censo2022esp_populacao.csv'

print(f"\nCarregando: {arquivo_pop.name}")

# Carregar com separador correto
df_pop_municipios = pd.read_csv(arquivo_pop, encoding='latin1', sep=';')

print(f"✅ Arquivo carregado!")
print(f"Linhas: {len(df_pop_municipios):,}")
print(f"Colunas: {list(df_pop_municipios.columns)}")

print("\nPrimeiras 10 linhas:")
display(df_pop_municipios.head(10))

print("\nÚltimas 5 linhas:")
display(df_pop_municipios.tail())

print("\nInformações do DataFrame:")
df_pop_municipios.info()

print("\nEstatísticas:")
print(df_pop_municipios.describe())


CARREGANDO ARQUIVO DE POPULAÇÃO DOS MUNICÍPIOS

Carregando: censo2022esp_populacao.csv
✅ Arquivo carregado!
Linhas: 1
Colunas: ['cod_ibge', 'UF', 'censo2000', 'censo2010', 'censo2022', 'tc2000_2010', 'tc2010_2022']

Primeiras 10 linhas:


Unnamed: 0,cod_ibge,UF,censo2000,censo2010,censo2022,tc2000_2010,tc2010_2022
0,35,Estado de São Paulo,37.032.403,41.262.199,44.411.238,109,61



Últimas 5 linhas:


Unnamed: 0,cod_ibge,UF,censo2000,censo2010,censo2022,tc2000_2010,tc2010_2022
0,35,Estado de São Paulo,37.032.403,41.262.199,44.411.238,109,61



Informações do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   cod_ibge     1 non-null      int64 
 1   UF           1 non-null      object
 2   censo2000    1 non-null      object
 3   censo2010    1 non-null      object
 4   censo2022    1 non-null      object
 5   tc2000_2010  1 non-null      object
 6   tc2010_2022  1 non-null      object
dtypes: int64(1), object(6)
memory usage: 188.0+ bytes

Estatísticas:
       cod_ibge
count      1.00
mean      35.00
std         NaN
min       35.00
25%       35.00
50%       35.00
75%       35.00
max       35.00


In [46]:
print("=" * 80)
print("VERIFICANDO TODOS OS ARQUIVOS DA PASTA CENSO")
print("=" * 80)

print("\nArquivos disponíveis:")
arquivos_censo = list(CAMINHO_CENSO_NORMALIZACAO.glob("*.csv"))

for i, arquivo in enumerate(arquivos_censo, 1):
    tamanho_kb = arquivo.stat().st_size / 1024
    print(f"\n{i}. {arquivo.name} ({tamanho_kb:.1f} KB)")
    
    # Tentar carregar e mostrar primeiras linhas
    try:
        df_temp = pd.read_csv(arquivo, encoding='latin1', sep=';', nrows=3)
        print(f"   Linhas totais: {len(pd.read_csv(arquivo, encoding='latin1', sep=';'))}")
        print(f"   Colunas: {list(df_temp.columns)}")
        print(f"   Primeiras linhas:")
        display(df_temp)
    except Exception as e:
        print(f"   Erro ao carregar: {e}")

VERIFICANDO TODOS OS ARQUIVOS DA PASTA CENSO

Arquivos disponíveis:

1. Censo 2022 - Crescimento Populacional - Brasil.csv (0.4 KB)
   Linhas totais: 13
   Colunas: ['ï»¿Ano da pesquisa', 'PopulaÃ§Ã£o(pessoas)', 'Recorte GeogrÃ¡fico', 'Unnamed: 3', 'Unnamed: 4']
   Primeiras linhas:


Unnamed: 0,ï»¿Ano da pesquisa,PopulaÃ§Ã£o(pessoas),Recorte GeogrÃ¡fico,Unnamed: 3,Unnamed: 4
0,1872,9930478,Brasil,,
1,1890,14333915,Brasil,,
2,1900,17438434,Brasil,,



2. censo2022esp_populacao.csv (0.1 KB)
   Linhas totais: 1
   Colunas: ['cod_ibge', 'UF', 'censo2000', 'censo2010', 'censo2022', 'tc2000_2010', 'tc2010_2022']
   Primeiras linhas:


Unnamed: 0,cod_ibge,UF,censo2000,censo2010,censo2022,tc2000_2010,tc2010_2022
0,35,Estado de São Paulo,37.032.403,41.262.199,44.411.238,109,61



3. codigos_municipios_regioes.csv (67.4 KB)
   Linhas totais: 647
   Colunas: ['cod_ibge', 'municipio', 'area_km', 'cod_ra', 'ra', 'cod_rm', 'rm', 'cod_drs', 'drs', 'cod_r_saude', 'r_saude']
   Primeiras linhas:


Unnamed: 0,cod_ibge,municipio,area_km,cod_ra,ra,cod_rm,rm,cod_drs,drs,cod_r_saude,r_saude
0,35,Estado de São Paulo,24821948.0,,Estado de São Paulo,,Estado de São Paulo,,Estado de São Paulo,,Estado de São Paulo
1,3500000,Sem especificação de município,,,Sem especificação de município,,Sem especificação de município,,Sem especificação de município,,Sem especificação de município
2,3500105,Adamantina,411987.0,11.0,RA Presidente Prudente,9.0,Demais municípios,5.0,DRS Marília,35091.0,Adamantina



4. tabela_uf_censo.csv (2.8 KB)
   Erro ao carregar: Error tokenizing data. C error: Expected 1 fields in line 3, saw 3



In [53]:
print("=" * 80)
print("CARREGANDO DADOS DE POPULAÇÃO - IBGE CENSO 2022")
print("=" * 80)

# Caminho do arquivo
arquivo_pop = CAMINHO_CENSO_NORMALIZACAO / 'habitantes_municipio_sp.xlsx'

print(f"\nArquivo: {arquivo_pop.name}")
print(f"Caminho: {arquivo_pop}")
print(f"Existe: {arquivo_pop.exists()}")

if arquivo_pop.exists():
    print("\nCarregando Excel...")
    
    # Carregar Excel
    df_pop_municipios = pd.read_excel(arquivo_pop)
    
    print(f"✅ Arquivo carregado!")
    print(f"Linhas: {len(df_pop_municipios):,}")
    print(f"Colunas: {list(df_pop_municipios.columns)}")
    
    print("\nPrimeiras 10 linhas:")
    display(df_pop_municipios.head(10))
    
    print("\nÚltimas 5 linhas:")
    display(df_pop_municipios.tail())
    
    print("\nInformações:")
    df_pop_municipios.info()
    
else:
    print("❌ Arquivo não encontrado")

print("\n" + "=" * 80)

CARREGANDO DADOS DE POPULAÇÃO - IBGE CENSO 2022

Arquivo: habitantes_municipio_sp.xlsx
Caminho: C:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\gold\normalizacao_censo\habitantes_municipio_sp.xlsx
Existe: True

Carregando Excel...
✅ Arquivo carregado!
Linhas: 646
Colunas: ['São Paulo', 'Unnamed: 1', 'Unnamed: 2']

Primeiras 10 linhas:


Unnamed: 0,São Paulo,Unnamed: 1,Unnamed: 2
0,Municípios,Gentílico,População no último censo
1,Adamantina,paulista,34687 pessoas
2,Adolfo,paulista,4351 pessoas
3,Aguaí,paulista,32072 pessoas
4,Águas da Prata,paulista,7369 pessoas
5,Águas de Lindóia,paulista,17930 pessoas
6,Águas de Santa Bárbara,paulista,7177 pessoas
7,Águas de São Pedro,paulista,2780 pessoas
8,Agudos,paulista,37680 pessoas
9,Alambari,paulista,6141 pessoas



Últimas 5 linhas:


Unnamed: 0,São Paulo,Unnamed: 1,Unnamed: 2
641,Vista Alegre do Alto,paulista,8109 pessoas
642,Vitória Brasil,paulista,1794 pessoas
643,Votorantim,paulista,127923 pessoas
644,Votuporanga,paulista,96634 pessoas
645,Zacarias,paulista,2692 pessoas



Informações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 646 entries, 0 to 645
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   São Paulo   646 non-null    object
 1   Unnamed: 1  646 non-null    object
 2   Unnamed: 2  646 non-null    object
dtypes: object(3)
memory usage: 15.3+ KB



In [69]:
print("=" * 80)
print("DADOS JÁ ESTÃO LIMPOS - VERIFICANDO COBERTURA")
print("=" * 80)

print(f"✅ Total de municípios: {len(df_pop_municipios):,}")
print(f"✅ População total SP: {df_pop_municipios['populacao_limpa'].sum():,}")

print("\nMaiores municípios:")
display(df_pop_municipios[['municipio_upper', 'populacao_limpa']].nlargest(10, 'populacao_limpa'))

# Converter para arrays NumPy
municipios_array = df_pop_municipios['municipio_upper'].to_numpy()
populacao_array = df_pop_municipios['populacao_limpa'].to_numpy()

print(f"\n✅ Arrays NumPy criados!")
print(f"   Shape municipios: {municipios_array.shape}")
print(f"   Shape população: {populacao_array.shape}")

print("\n" + "=" * 80)
print("VERIFICANDO COBERTURA NAS BASES DE RECLAMAÇÕES")
print("=" * 80)

# SP Completo
cidades_sp_array = df_sp_completo['cidade'].str.upper().to_numpy()
mask_ibge = np.isin(cidades_sp_array, municipios_array)
cobertura_sp = np.sum(mask_ibge) / len(cidades_sp_array) * 100

print(f"\nSP Completo:")
print(f"  Total reclamações: {len(cidades_sp_array):,}")
print(f"  Reclamações com população: {np.sum(mask_ibge):,}")
print(f"  Cobertura: {cobertura_sp:.1f}%")

# Agibank
cidades_agibank_array = df_agibank['cidade'].str.upper().to_numpy()
mask_ibge_agibank = np.isin(cidades_agibank_array, municipios_array)
cobertura_agibank = np.sum(mask_ibge_agibank) / len(cidades_agibank_array) * 100

print(f"\nAgibank:")
print(f"  Total reclamações: {len(cidades_agibank_array):,}")
print(f"  Reclamações com população: {np.sum(mask_ibge_agibank):,}")
print(f"  Cobertura: {cobertura_agibank:.1f}%")

print("\n" + "=" * 80)
print("✅ DADOS DE POPULAÇÃO PRONTOS")

DADOS JÁ ESTÃO LIMPOS - VERIFICANDO COBERTURA
✅ Total de municípios: 645
✅ População total SP: 44,411,238

Maiores municípios:


Unnamed: 0,municipio_upper,populacao_limpa
565,SÃO PAULO,11451999
215,GUARULHOS,1291771
109,CAMPINAS,1139047
547,SÃO BERNARDO DO CAMPO,810729
537,SANTO ANDRÉ,748919
390,OSASCO,728615
584,SOROCABA,723682
490,RIBEIRÃO PRETO,698642
560,SÃO JOSÉ DOS CAMPOS,697054
559,SÃO JOSÉ DO RIO PRETO,480393



✅ Arrays NumPy criados!
   Shape municipios: (645,)
   Shape população: (645,)

VERIFICANDO COBERTURA NAS BASES DE RECLAMAÇÕES

SP Completo:
  Total reclamações: 649,557
  Reclamações com população: 646,854
  Cobertura: 99.6%

Agibank:
  Total reclamações: 4,006
  Reclamações com população: 3,969
  Cobertura: 99.1%

✅ DADOS DE POPULAÇÃO PRONTOS


In [71]:
print("=" * 80)
print("SALVANDO DADOS PREPARADOS")
print("=" * 80)

# Salvar DataFrame de população limpo
arquivo_pop_limpo = CAMINHO_CENSO_NORMALIZACAO / 'populacao_municipios_sp_2022_limpo.csv'
df_pop_municipios.to_csv(arquivo_pop_limpo, index=False, encoding='utf-8-sig')

print(f"✅ População salva em: {arquivo_pop_limpo.name}")

# Criar dicionário para lookup rápido (NumPy)
dict_populacao = dict(zip(municipios_array, populacao_array))

print(f"✅ Dicionário de população criado: {len(dict_populacao):,} municípios")

print("\n" + "=" * 80)
print("RESUMO FINAL - DADOS PREPARADOS")
print("=" * 80)

print("\nBASES CARREGADAS:")
print(f"  ✅ Agibank: {len(df_agibank):,} reclamações")
print(f"  ✅ Setorial: {len(df_setorial):,} registros")
print(f"  ✅ SP Completo: {len(df_sp_completo):,} reclamações")
print(f"  ✅ Censo Estados: {len(df_censo):,} estados")
print(f"  ✅ População Municípios: {len(df_pop_municipios):,} municípios")

print("\nCOBERTURA:")
print(f"  ✅ SP Completo: {cobertura_sp:.1f}%")
print(f"  ✅ Agibank: {cobertura_agibank:.1f}%")

print("\nARQUIVOS SALVOS:")
print(f"  ✅ {arquivo_pop_limpo.name}")

print("\n" + "=" * 80)

SALVANDO DADOS PREPARADOS
✅ População salva em: populacao_municipios_sp_2022_limpo.csv
✅ Dicionário de população criado: 645 municípios

RESUMO FINAL - DADOS PREPARADOS

BASES CARREGADAS:
  ✅ Agibank: 4,006 reclamações
  ✅ Setorial: 45 registros
  ✅ SP Completo: 649,557 reclamações
  ✅ Censo Estados: 27 estados
  ✅ População Municípios: 645 municípios

COBERTURA:
  ✅ SP Completo: 99.6%
  ✅ Agibank: 99.1%

ARQUIVOS SALVOS:
  ✅ populacao_municipios_sp_2022_limpo.csv



In [74]:
print("=" * 80)
print("PRÓXIMOS PASSOS - 10 GRÁFICOS ESTRATÉGICOS")
print("=" * 80)

print("\nNÍVEL 1: BRASIL - CONTEXTO MACRO")
print("  [ ] Gráfico 1 - Mapa de Calor Brasil 2025")

print("\nNÍVEL 2: SÃO PAULO - MERCADO ESTRATÉGICO")
print("  [ ] Gráfico 2 - Top Municípios SP (Duplo)")
print("  [ ] Gráfico 3 - Top Instituições SP")

print("\nNÍVEL 3: CAMPINAS - FOCO LOCAL")
print("  [ ] Gráfico 4 - Top Instituições Campinas")

print("\nNÍVEL 4: SETOR FINANCEIRO - DIAGNÓSTICO")
print("  [ ] Gráfico 5 - Pontos Fracos do Setor")
print("  [ ] Gráfico 6 - Benchmarks do Setor")

print("\nNÍVEL 5: AGIBANK - DIAGNÓSTICO INTERNO")
print("  [ ] Gráfico 7 - Pontos Fracos Agibank")
print("  [ ] Gráfico 8 - Pontos Fortes Agibank")

print("\nNÍVEL 6: MATRIZ ESTRATÉGICA")
print("  [ ] Gráfico 9 - Matriz de Oportunidades")
print("  [ ] Gráfico 10 - Plano de Ação")


PRÓXIMOS PASSOS - 10 GRÁFICOS ESTRATÉGICOS

NÍVEL 1: BRASIL - CONTEXTO MACRO
  [ ] Gráfico 1 - Mapa de Calor Brasil 2025

NÍVEL 2: SÃO PAULO - MERCADO ESTRATÉGICO
  [ ] Gráfico 2 - Top Municípios SP (Duplo)
  [ ] Gráfico 3 - Top Instituições SP

NÍVEL 3: CAMPINAS - FOCO LOCAL
  [ ] Gráfico 4 - Top Instituições Campinas

NÍVEL 4: SETOR FINANCEIRO - DIAGNÓSTICO
  [ ] Gráfico 5 - Pontos Fracos do Setor
  [ ] Gráfico 6 - Benchmarks do Setor

NÍVEL 5: AGIBANK - DIAGNÓSTICO INTERNO
  [ ] Gráfico 7 - Pontos Fracos Agibank
  [ ] Gráfico 8 - Pontos Fortes Agibank

NÍVEL 6: MATRIZ ESTRATÉGICA
  [ ] Gráfico 9 - Matriz de Oportunidades
  [ ] Gráfico 10 - Plano de Ação


In [66]:
print("=" * 80)
print("GRÁFICO 1: MAPA DE CALOR BRASIL - PREPARAÇÃO DOS DADOS")
print("=" * 80)

print("\nEtapa 1: Identificar coluna de UF/Estado nas bases")
print("-" * 80)

# Verificar se temos coluna de estado/UF
print("\nColunas do df_sp_completo:")
colunas_estado = [col for col in df_sp_completo.columns if any(x in col.lower() for x in ['uf', 'estado', 'sigla'])]
print(f"Colunas relacionadas a estado: {colunas_estado}")

print("\nColunas do df_agibank:")
colunas_estado_agi = [col for col in df_agibank.columns if any(x in col.lower() for x in ['uf', 'estado', 'sigla'])]
print(f"Colunas relacionadas a estado: {colunas_estado_agi}")


GRÁFICO 1: MAPA DE CALOR BRASIL - PREPARAÇÃO DOS DADOS

Etapa 1: Identificar coluna de UF/Estado nas bases
--------------------------------------------------------------------------------

Colunas do df_sp_completo:
Colunas relacionadas a estado: ['uf']

Colunas do df_agibank:
Colunas relacionadas a estado: ['uf']


In [67]:
print("=" * 80)
print("GRÁFICO 1: PREPARANDO DADOS POR ESTADO")
print("=" * 80)

print("\nEtapa 2: Verificar dados da coluna UF")
print("-" * 80)

# Verificar valores únicos de UF
ufs_sp_completo = df_sp_completo['uf'].unique()
print(f"\nUFs no df_sp_completo: {ufs_sp_completo}")
print(f"Total: {len(ufs_sp_completo)}")

# Contar reclamações por UF
print("\nReclamações por UF:")
contagem_uf = df_sp_completo['uf'].value_counts()
print(contagem_uf)

print("\n" + "-" * 80)
print("PROBLEMA IDENTIFICADO:")
print("-" * 80)
print("A base 'df_sp_completo' só tem dados de SP!")
print("Para fazer o mapa do Brasil, precisamos de dados de TODOS os estados.")

print("\nVamos verificar se temos base nacional:")
print("\nOpções:")
print("  1. Carregar base Silver (Brasil completo)")
print("  2. Usar apenas dados de SP e comparar com censo")
print("  3. Fazer gráfico diferente (Top Estados com SP em destaque)")

print("\nQual opção você prefere?")
print("  A - Carregar base nacional (mais completo)")
print("  B - Focar em SP vs outros estados do Sudeste")
print("  C - Pular Gráfico 1 e ir direto para Gráfico 2 (SP)")

GRÁFICO 1: PREPARANDO DADOS POR ESTADO

Etapa 2: Verificar dados da coluna UF
--------------------------------------------------------------------------------

UFs no df_sp_completo: ['SP']
Total: 1

Reclamações por UF:
uf
SP    649557
Name: count, dtype: int64

--------------------------------------------------------------------------------
PROBLEMA IDENTIFICADO:
--------------------------------------------------------------------------------
A base 'df_sp_completo' só tem dados de SP!
Para fazer o mapa do Brasil, precisamos de dados de TODOS os estados.

Vamos verificar se temos base nacional:

Opções:
  1. Carregar base Silver (Brasil completo)
  2. Usar apenas dados de SP e comparar com censo
  3. Fazer gráfico diferente (Top Estados com SP em destaque)

Qual opção você prefere?
  A - Carregar base nacional (mais completo)
  B - Focar em SP vs outros estados do Sudeste
  C - Pular Gráfico 1 e ir direto para Gráfico 2 (SP)


In [75]:
print("=" * 80)
print("NORMALIZAÇÃO - MERGE DE DADOS COM POPULAÇÃO")
print("=" * 80)

print("\n1. NORMALIZAÇÃO SP COMPLETO")
print("-" * 80)

# Padronizar nome das cidades para merge
df_sp_completo['cidade_upper'] = df_sp_completo['cidade'].str.upper()

# Fazer merge com população
df_sp_normalizado = df_sp_completo.merge(
    df_pop_municipios[['municipio_upper', 'populacao_limpa']],
    left_on='cidade_upper',
    right_on='municipio_upper',
    how='left'
)

# Renomear coluna
df_sp_normalizado.rename(columns={'populacao_limpa': 'populacao_municipio'}, inplace=True)

print(f"✅ Merge realizado!")
print(f"Total de registros: {len(df_sp_normalizado):,}")
print(f"Registros com população: {df_sp_normalizado['populacao_municipio'].notna().sum():,}")
print(f"Registros sem população: {df_sp_normalizado['populacao_municipio'].isna().sum():,}")

# Calcular taxa por 100k habitantes
df_sp_normalizado['reclamacoes_100k'] = (
    (df_sp_normalizado.groupby('cidade_upper')['cidade_upper'].transform('count') / 
     df_sp_normalizado['populacao_municipio']) * 100000
)

print(f"\n✅ Taxa por 100k habitantes calculada!")

print("\n2. NORMALIZAÇÃO AGIBANK")
print("-" * 80)

# Padronizar nome das cidades
df_agibank['cidade_upper'] = df_agibank['cidade'].str.upper()

# Fazer merge
df_agibank_normalizado = df_agibank.merge(
    df_pop_municipios[['municipio_upper', 'populacao_limpa']],
    left_on='cidade_upper',
    right_on='municipio_upper',
    how='left'
)

df_agibank_normalizado.rename(columns={'populacao_limpa': 'populacao_municipio'}, inplace=True)

print(f"✅ Merge realizado!")
print(f"Total de registros: {len(df_agibank_normalizado):,}")
print(f"Registros com população: {df_agibank_normalizado['populacao_municipio'].notna().sum():,}")

# Calcular taxa por 100k
df_agibank_normalizado['reclamacoes_100k'] = (
    (df_agibank_normalizado.groupby('cidade_upper')['cidade_upper'].transform('count') / 
     df_agibank_normalizado['populacao_municipio']) * 100000
)

print(f"✅ Taxa por 100k habitantes calculada!")

print("\n" + "=" * 80)
print("DADOS NORMALIZADOS!")
print("=" * 80)

NORMALIZAÇÃO - MERGE DE DADOS COM POPULAÇÃO

1. NORMALIZAÇÃO SP COMPLETO
--------------------------------------------------------------------------------
✅ Merge realizado!
Total de registros: 649,557
Registros com população: 646,854
Registros sem população: 2,703

✅ Taxa por 100k habitantes calculada!

2. NORMALIZAÇÃO AGIBANK
--------------------------------------------------------------------------------
✅ Merge realizado!
Total de registros: 4,006
Registros com população: 3,969
✅ Taxa por 100k habitantes calculada!

DADOS NORMALIZADOS!


In [78]:
print("=" * 80)
print("VERIFICANDO COLUNAS DOS DATAFRAMES NORMALIZADOS")
print("=" * 80)

print("\nColunas do df_sp_normalizado:")
for i, col in enumerate(df_sp_normalizado.columns, 1):
    print(f"  {i:2d}. {col}")

print("\nColunas do df_agibank_normalizado:")
for i, col in enumerate(df_agibank_normalizado.columns, 1):
    print(f"  {i:2d}. {col}")

VERIFICANDO COLUNAS DOS DATAFRAMES NORMALIZADOS

Colunas do df_sp_normalizado:
   1. regiao
   2. uf
   3. cidade
   4. sexo
   5. faixa_etaria
   6. ano_abertura
   7. mes_abertura
   8. data_abertura
   9. data_resposta
  10. data_finalizacao
  11. prazo_resposta
  12. tempo_resposta
  13. nome_fantasia
  14. segmento_de_mercado
  15. area
  16. assunto
  17. grupo_problema
  18. problema
  19. como_comprou_contratou
  20. procurou_empresa
  21. respondida
  22. situacao
  23. avaliacao_reclamacao
  24. nota_do_consumidor
  25. data_source
  26. file_origin
  27. processed_at
  28. file_month
  29. is_agibank
  30. quality_score
  31. cidade_suspeita_gold
  32. cidade_ranking
  33. cidade_upper
  34. municipio_upper
  35. populacao_municipio
  36. reclamacoes_100k

Colunas do df_agibank_normalizado:
   1. regiao
   2. uf
   3. cidade
   4. sexo
   5. faixa_etaria
   6. ano_abertura
   7. mes_abertura
   8. data_abertura
   9. data_resposta
  10. data_finalizacao
  11. prazo_resposta


In [79]:
print("=" * 80)
print("CRIANDO AGREGAÇÕES POR MUNICÍPIO - CORRIGIDO")
print("=" * 80)

print("\n1. AGREGAÇÃO SP COMPLETO POR MUNICÍPIO")
print("-" * 80)

# Agregar dados por município
df_municipios_sp = df_sp_normalizado.groupby('cidade_upper').agg({
    'cidade': 'count',  # Total de reclamações (contar qualquer coluna)
    'populacao_municipio': 'first',
    'nota_do_consumidor': 'mean',
    'tempo_resposta': 'mean',
    'avaliacao_reclamacao': lambda x: (x == 'Resolvido').sum() / len(x) * 100
}).reset_index()

df_municipios_sp.columns = ['municipio', 'total_reclamacoes', 'populacao', 'nota_media', 'tempo_medio', 'pct_resolvido']

df_municipios_sp['reclamacoes_100k'] = (
    df_municipios_sp['total_reclamacoes'] / df_municipios_sp['populacao'] * 100000
)

df_municipios_sp = df_municipios_sp[df_municipios_sp['populacao'].notna()].copy()

print(f"✅ Agregação SP concluída: {len(df_municipios_sp):,} municípios")

print("\n2. AGREGAÇÃO AGIBANK POR MUNICÍPIO")
print("-" * 80)

df_municipios_agibank = df_agibank_normalizado.groupby('cidade_upper').agg({
    'cidade': 'count',
    'populacao_municipio': 'first',
    'nota_do_consumidor': 'mean',
    'tempo_resposta': 'mean',
    'avaliacao_reclamacao': lambda x: (x == 'Resolvido').sum() / len(x) * 100
}).reset_index()

df_municipios_agibank.columns = ['municipio', 'total_reclamacoes', 'populacao', 'nota_media', 'tempo_medio', 'pct_resolvido']

df_municipios_agibank['reclamacoes_100k'] = (
    df_municipios_agibank['total_reclamacoes'] / df_municipios_agibank['populacao'] * 100000
)

df_municipios_agibank = df_municipios_agibank[df_municipios_agibank['populacao'].notna()].copy()

print(f"✅ Agregação Agibank concluída: {len(df_municipios_agibank):,} municípios")

print("\n📍 VERIFICANDO CAMPINAS:")
print("-" * 80)

# Campinas SP
campinas_sp = df_municipios_sp[df_municipios_sp['municipio'] == 'CAMPINAS']
if len(campinas_sp) > 0:
    print(f"\n✅ Campinas - SP Completo:")
    display(campinas_sp)
else:
    print("\n❌ Campinas não encontrada no SP Completo")

# Campinas Agibank
campinas_agi = df_municipios_agibank[df_municipios_agibank['municipio'] == 'CAMPINAS']
if len(campinas_agi) > 0:
    print(f"\n✅ Campinas - Agibank:")
    display(campinas_agi)
else:
    print("\n❌ Campinas não encontrada no Agibank")

print("\n" + "=" * 80)
print("✅ DADOS NORMALIZADOS E AGREGADOS!")
print("=" * 80)

print("\nTop 10 municípios SP (volume):")
display(df_municipios_sp.nlargest(10, 'total_reclamacoes')[['municipio', 'total_reclamacoes', 'populacao', 'reclamacoes_100k', 'nota_media']])

print("\nTop 10 municípios Agibank:")
display(df_municipios_agibank.nlargest(10, 'total_reclamacoes')[['municipio', 'total_reclamacoes', 'populacao', 'reclamacoes_100k', 'nota_media']])

CRIANDO AGREGAÇÕES POR MUNICÍPIO - CORRIGIDO

1. AGREGAÇÃO SP COMPLETO POR MUNICÍPIO
--------------------------------------------------------------------------------
✅ Agregação SP concluída: 636 municípios

2. AGREGAÇÃO AGIBANK POR MUNICÍPIO
--------------------------------------------------------------------------------
✅ Agregação Agibank concluída: 361 municípios

📍 VERIFICANDO CAMPINAS:
--------------------------------------------------------------------------------

✅ Campinas - SP Completo:


Unnamed: 0,municipio,total_reclamacoes,populacao,nota_media,tempo_medio,pct_resolvido,reclamacoes_100k
111,CAMPINAS,18330,1139047.0,2.52,6.28,0.0,1609.24



✅ Campinas - Agibank:


Unnamed: 0,municipio,total_reclamacoes,populacao,nota_media,tempo_medio,pct_resolvido,reclamacoes_100k
65,CAMPINAS,78,1139047.0,1.92,6.59,0.0,6.85



✅ DADOS NORMALIZADOS E AGREGADOS!

Top 10 municípios SP (volume):


Unnamed: 0,municipio,total_reclamacoes,populacao,reclamacoes_100k,nota_media
623,SÃO PAULO,227446,11451999.0,1986.08,2.53
229,GUARULHOS,20522,1291771.0,1588.67,2.52
111,CAMPINAS,18330,1139047.0,1609.24,2.52
598,SOROCABA,14270,723682.0,1971.86,2.55
424,OSASCO,13420,728615.0,1841.85,2.52
604,SÃO BERNARDO DO CAMPO,13229,810729.0,1631.74,2.5
578,SANTO ANDRÉ,12996,748919.0,1735.3,2.55
528,RIBEIRÃO PRETO,11769,698642.0,1684.55,2.51
614,SÃO JOSÉ DOS CAMPOS,11415,697054.0,1637.61,2.61
321,JUNDIAÍ,8714,443221.0,1966.06,2.51



Top 10 municípios Agibank:


Unnamed: 0,municipio,total_reclamacoes,populacao,reclamacoes_100k,nota_media
333,SÃO PAULO,928,11451999.0,8.1,1.68
125,GUARULHOS,99,1291771.0,7.66,2.38
318,SOROCABA,88,723682.0,12.16,1.91
282,RIBEIRÃO PRETO,84,698642.0,12.02,1.8
116,FRANCA,81,352536.0,22.98,1.77
65,CAMPINAS,78,1139047.0,6.85,1.92
253,PIRACICABA,76,423323.0,17.95,1.37
222,OSASCO,59,728615.0,8.1,2.11
321,SÃO BERNARDO DO CAMPO,55,810729.0,6.78,1.83
329,SÃO JOSÉ DOS CAMPOS,49,697054.0,7.03,1.17


In [105]:
print("=" * 80)
print("ANÁLISE COMPLETA - O QUE TEMOS E O QUE FALTA")
print("=" * 80)

print("\nBASES PRINCIPAIS (ORIGINAIS):")
print("-" * 80)
print("\n1. df_agibank (4,006 registros)")
print("   - Reclamações do Agibank em SP")
print("   - Período: 2024-2025")
print("   - Status: ❌ Sem população (mas tem df_agibank_normalizado)")

print("\n2. df_sp_completo (649,557 registros)")
print("   - TODAS as reclamações de SP (todos os setores)")
print("   - Período: 2024-2025")
print("   - Status: ❌ Sem população (mas tem df_sp_normalizado)")

print("\n3. df_setorial (45 registros)")
print("   - Agregado por segmento de mercado")
print("   - Apenas totais, SEM detalhes por instituição")
print("   - Status: ⚠️ Não serve para gráficos detalhados")

print("\n4. df_censo (27 registros)")
print("   - População dos 27 estados brasileiros")
print("   - Fonte: Censo 2022")
print("   - Status: ✅ Pronto para usar")

print("\n5. df_pop_municipios (645 registros)")
print("   - População dos 645 municípios de SP")
print("   - Fonte: IBGE Cidades 2022")
print("   - Status: ✅ Base de referência")

print("\n\nBASES NORMALIZADAS (JÁ CRIADAS):")
print("-" * 80)
print("\n6. df_sp_normalizado (649,557 registros)")
print("   - df_sp_completo + população dos municípios")
print("   - Tem coluna: populacao_municipio, reclamacoes_100k")
print("   - Status: ✅ Pronto para análises")

print("\n7. df_agibank_normalizado (4,006 registros)")
print("   - df_agibank + população dos municípios")
print("   - Tem coluna: populacao_municipio, reclamacoes_100k")
print("   - Status: ✅ Pronto para análises")

print("\n\nBASES AGREGADAS (JÁ CRIADAS):")
print("-" * 80)
print("\n8. df_municipios_sp (636 municípios)")
print("   - Agregação de df_sp_normalizado por município")
print("   - Métricas: total, população, nota, tempo, % resolvido, taxa/100k")
print("   - Status: ✅ Pronto para gráficos")

print("\n9. df_municipios_agibank (361 municípios)")
print("   - Agregação de df_agibank_normalizado por município")
print("   - Métricas: total, população, nota, tempo, % resolvido, taxa/100k")
print("   - Status: ✅ Pronto para gráficos")

print("\n10. campinas_sp e campinas_agi (1 linha cada)")
print("   - Dados específicos de Campinas extraídos")
print("   - Status: ✅ Pronto para gráficos")

print("\n\nO QUE FALTA:")
print("-" * 80)
print("\n1. BASE BRASIL COMPLETA")
print("   - Precisamos para: Gráfico 1 (Mapa do Brasil)")
print("   - Ação: Carregar df_brasil = carregar_base_silver()")
print("   - Depois: Normalizar por estado")

print("\n2. FILTRO SETOR FINANCEIRO")
print("   - Precisamos para: Gráficos 3, 5, 6")
print("   - Ação: Filtrar df_sp_normalizado por segmento financeiro")
print("   - Depois: Agregar por instituição")

print("\n3. DADOS POR INSTITUIÇÃO")
print("   - df_setorial só tem totais agregados")
print("   - Precisamos: Extrair de df_sp_normalizado")
print("   - Para: Gráficos 3 e 6 (Top Instituições)")

print("\n\nJÁ PODEMOS FAZER:")
print("-" * 80)
print("  - Gráfico 2: Top Municípios SP (df_municipios_sp)")
print("  - Gráfico 4: Campinas (campinas_sp, campinas_agi)")
print("  - Gráfico 7: Pontos Fracos Agibank (df_agibank_normalizado)")
print("  - Gráfico 8: Pontos Fortes Agibank (df_agibank_normalizado)")
print("  - Gráfico 9: Matriz (combinação dos anteriores)")
print("  - Gráfico 10: Plano de Ação (consolidação)")

print("\n\nESTRATÉGIA SUGERIDA:")
print("-" * 80)
print("1. Fazer Gráficos 7 e 8 (Agibank) - 100% pronto")
print("2. Fazer Gráfico 4 (Campinas) - 100% pronto")
print("3. Fazer Gráfico 2 (SP) - 100% pronto")
print("4. Filtrar setor financeiro e fazer Gráficos 3, 5, 6")
print("5. Carregar Brasil e fazer Gráfico 1")
print("6. Fazer Gráficos 9 e 10 (consolidação)")

ANÁLISE COMPLETA - O QUE TEMOS E O QUE FALTA

BASES PRINCIPAIS (ORIGINAIS):
--------------------------------------------------------------------------------

1. df_agibank (4,006 registros)
   - Reclamações do Agibank em SP
   - Período: 2024-2025
   - Status: ❌ Sem população (mas tem df_agibank_normalizado)

2. df_sp_completo (649,557 registros)
   - TODAS as reclamações de SP (todos os setores)
   - Período: 2024-2025
   - Status: ❌ Sem população (mas tem df_sp_normalizado)

3. df_setorial (45 registros)
   - Agregado por segmento de mercado
   - Apenas totais, SEM detalhes por instituição
   - Status: ⚠️ Não serve para gráficos detalhados

4. df_censo (27 registros)
   - População dos 27 estados brasileiros
   - Fonte: Censo 2022
   - Status: ✅ Pronto para usar

5. df_pop_municipios (645 registros)
   - População dos 645 municípios de SP
   - Fonte: IBGE Cidades 2022
   - Status: ✅ Base de referência


BASES NORMALIZADAS (JÁ CRIADAS):
------------------------------------------------

In [None]:
print("=" * 80)
print("ETAPA 1: FILTRAR E NORMALIZAR SETOR FINANCEIRO")
print("=" * 80)

print("\nIdentificando setor financeiro em df_sp_normalizado...")

# Verificar valores únicos de segmento
print("\nSegmentos únicos:")
segmentos_unicos = df_sp_normalizado['segmento_de_mercado'].value_counts()
print(segmentos_unicos.head(20))

print("\nPalavras-chave para filtrar setor financeiro:")
palavras_chave_financeiro = [
    'banco', 'financ', 'crédito', 'cartão', 'fintech',
    'investimento', 'seguro', 'consórcio', 'empréstimo',
    'pagamento', 'corretora', 'capital'
]

# Criar máscara para setor financeiro
mask_financeiro = df_sp_normalizado['segmento_de_mercado'].str.contains(
    '|'.join(palavras_chave_financeiro),
    case=False,
    na=False
)

print(f"\nTotal registros SP: {len(df_sp_normalizado):,}")
print(f"Registros setor financeiro: {mask_financeiro.sum():,}")
print(f"Percentual: {mask_financeiro.sum()/len(df_sp_normalizado)*100:.1f}%")

ETAPA 1: FILTRAR E NORMALIZAR SETOR FINANCEIRO

Identificando setor financeiro em df_sp_normalizado...

Segmentos únicos:
segmento_de_mercado
Bancos, Financeiras e Administradoras de Cartão                            276693
Operadoras de Telecomunicações (Telefonia, Internet, TV por assinatura)     57700
Bancos de Dados e Cadastros de Consumidores                                 42158
Empresas de Pagamento Eletrônico                                            27740
Comércio Eletrônico                                                         23379
Energia Elétrica                                                            23316
Seguros, Capitalização e Previdência                                        23193
Provedores de Conteúdo e Outros Serviços na Internet                        22918
Empresas de Recuperação de Crédito                                          22386
Transporte Aéreo                                                            20320
Empresas de Intermediação de Serviços 

In [107]:
print("=" * 80)
print("VERIFICANDO O QUE FOI DESCARTADO DO FILTRO FINANCEIRO")
print("=" * 80)

# Pegar os registros que FORAM DESCARTADOS
df_descartados = df_sp_normalizado[~mask_financeiro].copy()

print(f"\nTotal descartado: {len(df_descartados):,}")

print("\nPrincipais segmentos DESCARTADOS:")
segmentos_descartados = df_descartados['segmento_de_mercado'].value_counts().head(15)
print(segmentos_descartados)

print("\n" + "=" * 80)
print("ANÁLISE: O FILTRO ESTÁ CORRETO?")
print("=" * 80)

descartados_corretos = [
    'Telecomunicações',
    'Transporte',
    'Energia',
    'Água',
    'Educação',
    'Saúde',
    'Turismo'
]

print("\nSegmentos que DEVEM ser descartados:")
for seg in descartados_corretos:
    count = df_descartados['segmento_de_mercado'].str.contains(seg, case=False, na=False).sum()
    print(f"  {seg}: {count:,} registros descartados ✅")

print("\n" + "=" * 80)
print("VERIFICANDO SEGMENTOS MANTIDOS (FINANCEIROS)")
print("=" * 80)

print("\nSegmentos MANTIDOS no df_financeiro_sp:")
print(df_financeiro_sp['segmento_de_mercado'].value_counts())

VERIFICANDO O QUE FOI DESCARTADO DO FILTRO FINANCEIRO

Total descartado: 255,391

Principais segmentos DESCARTADOS:
segmento_de_mercado
Operadoras de Telecomunicações (Telefonia, Internet, TV por assinatura)    57700
Comércio Eletrônico                                                        23379
Energia Elétrica                                                           23316
Provedores de Conteúdo e Outros Serviços na Internet                       22918
Transporte Aéreo                                                           20320
Empresas de Intermediação de Serviços / Negócios                           20149
Operadoras de Planos de Saúde e Administradoras de Benefícios              13903
Fabricantes - Eletroeletrônicos,  Produtos de Telefonia e Informática       7767
Viagens, Turismo e Hospedagem                                               7619
Agua e Saneamento                                                           7107
Programas de Fidelidade                               

In [85]:
print("=" * 80)
print("CRIANDO df_financeiro_sp")
print("=" * 80)

# Criar base do setor financeiro
df_financeiro_sp = df_sp_normalizado[mask_financeiro].copy()

print(f"\n✅ df_financeiro_sp criado!")
print(f"Registros: {len(df_financeiro_sp):,}")
print(f"Colunas: {len(df_financeiro_sp.columns)}")

print("\nSegmentos MANTIDOS (Financeiros):")
print(df_financeiro_sp['segmento_de_mercado'].value_counts())

CRIANDO df_financeiro_sp

✅ df_financeiro_sp criado!
Registros: 394,166
Colunas: 36

Segmentos MANTIDOS (Financeiros):
segmento_de_mercado
Bancos, Financeiras e Administradoras de Cartão           276693
Bancos de Dados e Cadastros de Consumidores                42158
Empresas de Pagamento Eletrônico                           27740
Seguros, Capitalização e Previdência                       23193
Empresas de Recuperação de Crédito                         22386
Administradoras de Consórcios                               1420
Corretoras e Distribuidoras de Títulos e Investimentos       576
Name: count, dtype: int64


In [86]:
print("=" * 80)
print("AGREGANDO POR INSTITUIÇÃO - SETOR FINANCEIRO")
print("=" * 80)

# Agregar por instituição
df_instituicoes_financeiro = df_financeiro_sp.groupby('nome_fantasia').agg({
    'cidade': 'count',
    'nota_do_consumidor': 'mean',
    'tempo_resposta': 'mean',
    'avaliacao_reclamacao': lambda x: (x == 'Resolvido').sum() / len(x) * 100,
    'segmento_de_mercado': 'first'
}).reset_index()

df_instituicoes_financeiro.columns = ['instituicao', 'total_reclamacoes', 'nota_media', 'tempo_medio', 'pct_resolvido', 'segmento']

# Ordenar por volume
df_instituicoes_financeiro = df_instituicoes_financeiro.sort_values('total_reclamacoes', ascending=False).reset_index(drop=True)

print(f"\n✅ Agregação concluída!")
print(f"Total de instituições financeiras: {len(df_instituicoes_financeiro):,}")

print("\n" + "=" * 80)
print("TOP 30 INSTITUIÇÕES FINANCEIRAS EM SP")
print("=" * 80)

display(df_instituicoes_financeiro.head(30)[['instituicao', 'total_reclamacoes', 'nota_media', 'tempo_medio', 'pct_resolvido', 'segmento']])

# Verificar se Agibank está na lista
agibank_pos = df_instituicoes_financeiro[df_instituicoes_financeiro['instituicao'].str.contains('AGIBANK', case=False, na=False)]

if len(agibank_pos) > 0:
    print("\n" + "=" * 80)
    print("POSIÇÃO DO AGIBANK")
    print("=" * 80)
    display(agibank_pos)
    posicao = agibank_pos.index[0] + 1
    print(f"\nAgibank está na posição: {posicao}º")
else:
    print("\n⚠️ Agibank não encontrado na lista")

print("\n✅ df_instituicoes_financeiro criado e pronto!")

AGREGANDO POR INSTITUIÇÃO - SETOR FINANCEIRO

✅ Agregação concluída!
Total de instituições financeiras: 533

TOP 30 INSTITUIÇÕES FINANCEIRAS EM SP


Unnamed: 0,instituicao,total_reclamacoes,nota_media,tempo_medio,pct_resolvido,segmento
0,Serasa Experian,40032,2.63,3.52,0.0,Bancos de Dados e Cadastros de Consumidores
1,Nubank,37381,1.8,3.47,0.0,"Bancos, Financeiras e Administradoras de Cartão"
2,Banco Santander,26741,2.07,5.68,0.0,"Bancos, Financeiras e Administradoras de Cartão"
3,Banco Bradesco,20734,2.03,8.76,0.0,"Bancos, Financeiras e Administradoras de Cartão"
4,Banco do Brasil,17929,2.47,4.59,0.0,"Bancos, Financeiras e Administradoras de Cartão"
5,Banco Itaú Unibanco,17660,2.08,6.74,0.0,"Bancos, Financeiras e Administradoras de Cartão"
6,Caixa Econômica Federal,15295,2.65,6.79,0.0,"Bancos, Financeiras e Administradoras de Cartão"
7,Mercado Pago,10590,2.61,8.05,0.0,Empresas de Pagamento Eletrônico
8,Banco Pan,9410,1.98,5.66,0.0,"Bancos, Financeiras e Administradoras de Cartão"
9,Cartões Itaú,9379,2.28,8.29,0.0,"Bancos, Financeiras e Administradoras de Cartão"



POSIÇÃO DO AGIBANK


Unnamed: 0,instituicao,total_reclamacoes,nota_media,tempo_medio,pct_resolvido,segmento
19,Banco Agibank (Agiplan),3961,1.83,6.68,0.0,"Bancos, Financeiras e Administradoras de Cartão"
231,Agibank Financeira,40,1.0,,0.0,"Bancos, Financeiras e Administradoras de Cartão"
373,Agibank Financeira (Desativada - Atual Banco A...,5,1.0,4.6,0.0,"Bancos, Financeiras e Administradoras de Cartão"



Agibank está na posição: 20º

✅ df_instituicoes_financeiro criado e pronto!


In [87]:
print("=" * 80)
print("SALVANDO df_instituicoes_financeiro")
print("=" * 80)

# Salvar CSV
arquivo_inst = CAMINHO_OUTPUT / 'instituicoes_financeiras_sp.csv'
df_instituicoes_financeiro.to_csv(arquivo_inst, index=False, encoding='utf-8-sig')

print(f"✅ Salvo em: {arquivo_inst}")
print(f"Tamanho: {arquivo_inst.stat().st_size / 1024:.1f} KB")

print("\n" + "=" * 80)
print("RESUMO - BASES NORMALIZADAS CRIADAS ATÉ AGORA")
print("=" * 80)

bases_criadas = {
    'df_sp_normalizado': {
        'linhas': len(df_sp_normalizado),
        'descricao': 'Todas reclamações SP com população',
        'arquivo': 'Não salvo (muito grande)'
    },
    'df_agibank_normalizado': {
        'linhas': len(df_agibank_normalizado),
        'descricao': 'Reclamações Agibank com população',
        'arquivo': 'Não salvo'
    },
    'df_financeiro_sp': {
        'linhas': len(df_financeiro_sp),
        'descricao': 'Setor financeiro SP com população',
        'arquivo': 'Não salvo (grande)'
    },
    'df_municipios_sp': {
        'linhas': len(df_municipios_sp),
        'descricao': 'Agregado por município - Todos setores',
        'arquivo': 'municipios_sp_agregado.csv'
    },
    'df_municipios_agibank': {
        'linhas': len(df_municipios_agibank),
        'descricao': 'Agregado por município - Agibank',
        'arquivo': 'municipios_agibank_agregado.csv'
    },
    'df_instituicoes_financeiro': {
        'linhas': len(df_instituicoes_financeiro),
        'descricao': 'Agregado por instituição - Setor financeiro',
        'arquivo': 'instituicoes_financeiras_sp.csv'
    }
}

print("\n")
for nome, info in bases_criadas.items():
    print(f"{nome}")
    print(f"  Linhas: {info['linhas']:,}")
    print(f"  Descrição: {info['descricao']}")
    print(f"  Arquivo: {info['arquivo']}")
    print()

print("=" * 80)
print("FALTA CRIAR:")
print("=" * 80)
print("  [ ] df_brasil (base nacional)")
print("  [ ] df_brasil_normalizado (com população por estado)")
print("  [ ] df_estados_agregado (agregado por estado)")

print("\nQuer carregar a base Brasil agora ou continuar com SP?")

SALVANDO df_instituicoes_financeiro
✅ Salvo em: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output\instituicoes_financeiras_sp.csv
Tamanho: 49.5 KB

RESUMO - BASES NORMALIZADAS CRIADAS ATÉ AGORA


df_sp_normalizado
  Linhas: 649,557
  Descrição: Todas reclamações SP com população
  Arquivo: Não salvo (muito grande)

df_agibank_normalizado
  Linhas: 4,006
  Descrição: Reclamações Agibank com população
  Arquivo: Não salvo

df_financeiro_sp
  Linhas: 394,166
  Descrição: Setor financeiro SP com população
  Arquivo: Não salvo (grande)

df_municipios_sp
  Linhas: 636
  Descrição: Agregado por município - Todos setores
  Arquivo: municipios_sp_agregado.csv

df_municipios_agibank
  Linhas: 361
  Descrição: Agregado por município - Agibank
  Arquivo: municipios_agibank_agregado.csv

df_instituicoes_financeiro
  Linhas: 533
  Descrição: Agregado por instituição - Setor financeiro
  Arquivo: instituicoes_financeiras_sp.csv

FALTA CRIAR:
  [ ] df_brasil (base nacional)
  [

In [88]:
print("=" * 80)
print("ETAPA FINAL: NORMALIZAR BASE BRASIL")
print("=" * 80)

print("\n1. Carregar base Brasil (Silver)...")

df_brasil = carregar_base_silver()

print(f"✅ Base Brasil carregada: {len(df_brasil):,} registros")

print("\n2. Verificar distribuição por UF:")
print(df_brasil['uf'].value_counts().head(10))

print("\n3. Merge com população dos estados (df_censo)...")

# Fazer merge com censo (população por estado)
df_brasil_normalizado = df_brasil.merge(
    df_censo[['sigla', 'populacao_2022']],
    left_on='uf',
    right_on='sigla',
    how='left'
)

df_brasil_normalizado.rename(columns={'populacao_2022': 'populacao_estado'}, inplace=True)

print(f"✅ Merge realizado!")
print(f"Registros: {len(df_brasil_normalizado):,}")
print(f"Com população: {df_brasil_normalizado['populacao_estado'].notna().sum():,}")
print(f"Sem população: {df_brasil_normalizado['populacao_estado'].isna().sum():,}")

print("\n4. Calcular reclamações por 100k habitantes (por estado)...")

# Calcular taxa por estado
df_brasil_normalizado['reclamacoes_100k_estado'] = (
    df_brasil_normalizado.groupby('uf')['uf'].transform('count') / 
    df_brasil_normalizado['populacao_estado'] * 100000
)

print("✅ Taxa calculada!")

print("\n5. Criar agregação por estado...")

df_estados_agregado = df_brasil_normalizado.groupby('uf').agg({
    'cidade': 'count',
    'populacao_estado': 'first',
    'nota_do_consumidor': 'mean',
    'tempo_resposta': 'mean',
    'avaliacao_reclamacao': lambda x: (x == 'Resolvido').sum() / len(x) * 100
}).reset_index()

df_estados_agregado.columns = ['uf', 'total_reclamacoes', 'populacao', 'nota_media', 'tempo_medio', 'pct_resolvido']

df_estados_agregado['reclamacoes_100k'] = (
    df_estados_agregado['total_reclamacoes'] / df_estados_agregado['populacao'] * 100000
)

df_estados_agregado = df_estados_agregado.sort_values('total_reclamacoes', ascending=False)

print(f"✅ df_estados_agregado criado: {len(df_estados_agregado)} estados")

print("\nTop 10 estados:")
display(df_estados_agregado.head(10))

print("\n✅ NORMALIZAÇÃO BRASIL COMPLETA!")

ETAPA FINAL: NORMALIZAR BASE BRASIL

1. Carregar base Brasil (Silver)...
Carregando de: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\data\silver\consumidor_gov_silver_v1.csv
Base carregada com sucesso!
Registros: 2,567,095
Colunas: 30
✅ Base Brasil carregada: 2,567,095 registros

2. Verificar distribuição por UF:
uf
SP    649651
MG    299999
RJ    261590
PR    177952
BA    151795
RS    120597
SC    112830
GO     93158
DF     89963
CE     76320
Name: count, dtype: int64

3. Merge com população dos estados (df_censo)...
✅ Merge realizado!
Registros: 2,567,095
Com população: 2,567,095
Sem população: 0

4. Calcular reclamações por 100k habitantes (por estado)...
✅ Taxa calculada!

5. Criar agregação por estado...
✅ df_estados_agregado criado: 27 estados

Top 10 estados:


Unnamed: 0,uf,total_reclamacoes,populacao,nota_media,tempo_medio,pct_resolvido,reclamacoes_100k
25,SP,649651,44411238,2.53,6.22,0.0,1462.81
10,MG,299999,20539989,2.52,6.39,0.0,1460.56
18,RJ,261590,16055174,2.58,6.23,0.0,1629.32
17,PR,177952,11444380,2.61,6.4,0.0,1554.93
4,BA,151795,14141626,2.5,6.27,0.0,1073.39
22,RS,120597,10882965,2.52,6.34,0.0,1108.13
23,SC,112830,7610361,2.58,6.24,0.0,1482.58
8,GO,93158,7056495,2.63,6.0,0.0,1320.17
6,DF,89963,2817381,2.75,6.29,0.0,3193.14
5,CE,76320,8794957,2.71,5.99,0.0,867.77



✅ NORMALIZAÇÃO BRASIL COMPLETA!


In [89]:
print("=" * 80)
print("SCANNER DE NORMALIZAÇÃO - VERIFICAÇÃO COMPLETA")
print("=" * 80)

# Função scanner
def scanner_normalizacao():
    """
    Scanner completo para verificar se todas as bases estão normalizadas
    """
    
    resultados = {
        'bases_principais': {},
        'bases_normalizadas': {},
        'bases_agregadas': {},
        'cobertura': {},
        'status_geral': 'PENDENTE'
    }
    
    # 1. BASES PRINCIPAIS
    print("\n1. BASES PRINCIPAIS (ORIGINAIS)")
    print("-" * 80)
    
    bases_principais = {
        'df_agibank': df_agibank if 'df_agibank' in globals() else None,
        'df_sp_completo': df_sp_completo if 'df_sp_completo' in globals() else None,
        'df_brasil': df_brasil if 'df_brasil' in globals() else None,
        'df_censo': df_censo if 'df_censo' in globals() else None,
        'df_pop_municipios': df_pop_municipios if 'df_pop_municipios' in globals() else None
    }
    
    for nome, df in bases_principais.items():
        if df is not None:
            tem_pop = any('popula' in col.lower() for col in df.columns)
            resultados['bases_principais'][nome] = {
                'existe': True,
                'linhas': len(df),
                'tem_populacao': tem_pop,
                'status': '✅' if tem_pop else '❌'
            }
            print(f"  {resultados['bases_principais'][nome]['status']} {nome}: {len(df):,} linhas | Pop: {tem_pop}")
        else:
            resultados['bases_principais'][nome] = {'existe': False}
            print(f"  ❌ {nome}: NÃO CARREGADO")
    
    # 2. BASES NORMALIZADAS
    print("\n2. BASES NORMALIZADAS (COM POPULAÇÃO)")
    print("-" * 80)
    
    bases_normalizadas = {
        'df_agibank_normalizado': df_agibank_normalizado if 'df_agibank_normalizado' in globals() else None,
        'df_sp_normalizado': df_sp_normalizado if 'df_sp_normalizado' in globals() else None,
        'df_financeiro_sp': df_financeiro_sp if 'df_financeiro_sp' in globals() else None,
        'df_brasil_normalizado': df_brasil_normalizado if 'df_brasil_normalizado' in globals() else None
    }
    
    for nome, df in bases_normalizadas.items():
        if df is not None:
            colunas_pop = [col for col in df.columns if 'popula' in col.lower()]
            registros_com_pop = df[colunas_pop[0]].notna().sum() if colunas_pop else 0
            cobertura = (registros_com_pop / len(df) * 100) if len(df) > 0 else 0
            
            resultados['bases_normalizadas'][nome] = {
                'existe': True,
                'linhas': len(df),
                'com_populacao': registros_com_pop,
                'cobertura': cobertura,
                'status': '✅' if cobertura >= 95 else '⚠️'
            }
            print(f"  {resultados['bases_normalizadas'][nome]['status']} {nome}: {len(df):,} linhas | Cobertura: {cobertura:.1f}%")
        else:
            resultados['bases_normalizadas'][nome] = {'existe': False}
            print(f"  ❌ {nome}: NÃO CRIADO")
    
    # 3. BASES AGREGADAS
    print("\n3. BASES AGREGADAS (POR MUNICÍPIO/ESTADO/INSTITUIÇÃO)")
    print("-" * 80)
    
    bases_agregadas = {
        'df_municipios_sp': df_municipios_sp if 'df_municipios_sp' in globals() else None,
        'df_municipios_agibank': df_municipios_agibank if 'df_municipios_agibank' in globals() else None,
        'df_instituicoes_financeiro': df_instituicoes_financeiro if 'df_instituicoes_financeiro' in globals() else None,
        'df_estados_agregado': df_estados_agregado if 'df_estados_agregado' in globals() else None
    }
    
    for nome, df in bases_agregadas.items():
        if df is not None:
            tem_pop = 'populacao' in df.columns
            tem_taxa = any('100k' in col for col in df.columns)
            
            resultados['bases_agregadas'][nome] = {
                'existe': True,
                'linhas': len(df),
                'tem_populacao': tem_pop,
                'tem_taxa_normalizada': tem_taxa,
                'status': '✅' if (tem_pop and tem_taxa) else '⚠️'
            }
            print(f"  {resultados['bases_agregadas'][nome]['status']} {nome}: {len(df):,} linhas | Pop: {tem_pop} | Taxa: {tem_taxa}")
        else:
            resultados['bases_agregadas'][nome] = {'existe': False}
            print(f"  ❌ {nome}: NÃO CRIADO")
    
    # 4. COBERTURA GERAL
    print("\n4. COBERTURA DE NORMALIZAÇÃO")
    print("-" * 80)
    
    if 'df_sp_normalizado' in globals() and df_sp_normalizado is not None:
        cob_sp = df_sp_normalizado['populacao_municipio'].notna().sum() / len(df_sp_normalizado) * 100
        print(f"  SP: {cob_sp:.1f}% dos registros com população")
        resultados['cobertura']['sp'] = cob_sp
    
    if 'df_brasil_normalizado' in globals() and df_brasil_normalizado is not None:
        cob_br = df_brasil_normalizado['populacao_estado'].notna().sum() / len(df_brasil_normalizado) * 100
        print(f"  Brasil: {cob_br:.1f}% dos registros com população")
        resultados['cobertura']['brasil'] = cob_br
    
    # 5. STATUS GERAL
    print("\n5. STATUS GERAL DA NORMALIZAÇÃO")
    print("-" * 80)
    
    bases_ok = sum(1 for b in resultados['bases_normalizadas'].values() if b.get('existe') and b.get('cobertura', 0) >= 95)
    total_bases = len([b for b in resultados['bases_normalizadas'].values() if b.get('existe')])
    
    if total_bases > 0:
        percentual_completo = (bases_ok / total_bases) * 100
        
        if percentual_completo == 100:
            resultados['status_geral'] = '✅ 100% NORMALIZADO'
        elif percentual_completo >= 75:
            resultados['status_geral'] = '⚠️ QUASE COMPLETO'
        else:
            resultados['status_geral'] = '❌ INCOMPLETO'
        
        print(f"\n  Status: {resultados['status_geral']}")
        print(f"  Bases normalizadas: {bases_ok}/{total_bases}")
        print(f"  Percentual: {percentual_completo:.1f}%")
    
    return resultados

# Executar scanner
print("\nExecutando scanner...")
resultado_scan = scanner_normalizacao()

print("\n" + "=" * 80)
print("SCANNER CONCLUÍDO!")
print("=" * 80)

SCANNER DE NORMALIZAÇÃO - VERIFICAÇÃO COMPLETA

Executando scanner...

1. BASES PRINCIPAIS (ORIGINAIS)
--------------------------------------------------------------------------------
  ❌ df_agibank: 4,006 linhas | Pop: False
  ❌ df_sp_completo: 649,557 linhas | Pop: False
  ❌ df_brasil: 2,567,095 linhas | Pop: False
  ✅ df_censo: 27 linhas | Pop: True
  ✅ df_pop_municipios: 645 linhas | Pop: True

2. BASES NORMALIZADAS (COM POPULAÇÃO)
--------------------------------------------------------------------------------
  ✅ df_agibank_normalizado: 4,006 linhas | Cobertura: 99.1%
  ✅ df_sp_normalizado: 649,557 linhas | Cobertura: 99.6%
  ✅ df_financeiro_sp: 394,166 linhas | Cobertura: 99.6%
  ✅ df_brasil_normalizado: 2,567,095 linhas | Cobertura: 100.0%

3. BASES AGREGADAS (POR MUNICÍPIO/ESTADO/INSTITUIÇÃO)
--------------------------------------------------------------------------------
  ✅ df_municipios_sp: 636 linhas | Pop: True | Taxa: True
  ✅ df_municipios_agibank: 361 linhas | Pop: Tru

In [90]:
print("=" * 80)
print("CRIANDO DATAFRAME CONSOLIDADO DA NORMALIZAÇÃO")
print("=" * 80)

# Criar DataFrame consolidado
dados_consolidados = []

# 1. Bases Normalizadas
dados_consolidados.append({
    'categoria': 'Normalizada',
    'nome': 'df_agibank_normalizado',
    'registros': len(df_agibank_normalizado),
    'cobertura_pop': 99.1,
    'nivel': 'Agibank',
    'status': 'OK'
})

dados_consolidados.append({
    'categoria': 'Normalizada',
    'nome': 'df_sp_normalizado',
    'registros': len(df_sp_normalizado),
    'cobertura_pop': 99.6,
    'nivel': 'São Paulo',
    'status': 'OK'
})

dados_consolidados.append({
    'categoria': 'Normalizada',
    'nome': 'df_financeiro_sp',
    'registros': len(df_financeiro_sp),
    'cobertura_pop': 99.6,
    'nivel': 'Setor Financeiro SP',
    'status': 'OK'
})

dados_consolidados.append({
    'categoria': 'Normalizada',
    'nome': 'df_brasil_normalizado',
    'registros': len(df_brasil_normalizado),
    'cobertura_pop': 100.0,
    'nivel': 'Brasil',
    'status': 'OK'
})

# 2. Bases Agregadas
dados_consolidados.append({
    'categoria': 'Agregada',
    'nome': 'df_municipios_sp',
    'registros': len(df_municipios_sp),
    'cobertura_pop': 100.0,
    'nivel': 'Municípios SP',
    'status': 'OK'
})

dados_consolidados.append({
    'categoria': 'Agregada',
    'nome': 'df_municipios_agibank',
    'registros': len(df_municipios_agibank),
    'cobertura_pop': 100.0,
    'nivel': 'Municípios Agibank',
    'status': 'OK'
})

dados_consolidados.append({
    'categoria': 'Agregada',
    'nome': 'df_instituicoes_financeiro',
    'registros': len(df_instituicoes_financeiro),
    'cobertura_pop': 0.0,
    'nivel': 'Instituições Financeiras',
    'status': 'Sem Pop (não precisa)'
})

dados_consolidados.append({
    'categoria': 'Agregada',
    'nome': 'df_estados_agregado',
    'registros': len(df_estados_agregado),
    'cobertura_pop': 100.0,
    'nivel': 'Estados Brasil',
    'status': 'OK'
})

# Criar DataFrame
df_normalizacao_consolidado = pd.DataFrame(dados_consolidados)

print("\nDataFrame consolidado criado!")
print("\nResumo da Normalização:")
display(df_normalizacao_consolidado)

# Salvar
arquivo_consolidado = CAMINHO_OUTPUT / 'normalizacao_consolidado.csv'
df_normalizacao_consolidado.to_csv(arquivo_consolidado, index=False, encoding='utf-8-sig')

print(f"\nSalvo em: {arquivo_consolidado}")

print("\n" + "=" * 80)
print("RESUMO EXECUTIVO")
print("=" * 80)

print(f"\nBASES NORMALIZADAS: 4")
print(f"Total de registros: {len(df_agibank_normalizado) + len(df_sp_normalizado) + len(df_financeiro_sp) + len(df_brasil_normalizado):,}")

print(f"\nBASES AGREGADAS: 4")
print(f"Municípios SP: {len(df_municipios_sp)}")
print(f"Municípios Agibank: {len(df_municipios_agibank)}")
print(f"Instituições: {len(df_instituicoes_financeiro)}")
print(f"Estados: {len(df_estados_agregado)}")

print(f"\nCOBERTURA MÉDIA: 99.6%")
print(f"STATUS: 100% NORMALIZADO")

print("\nPRONTO PARA OS 10 GRÁFICOS!")

print("\n" + "=" * 80)
print("AGORA VAMOS COMEÇAR OS GRÁFICOS?")
print("=" * 80)

CRIANDO DATAFRAME CONSOLIDADO DA NORMALIZAÇÃO

DataFrame consolidado criado!

Resumo da Normalização:


Unnamed: 0,categoria,nome,registros,cobertura_pop,nivel,status
0,Normalizada,df_agibank_normalizado,4006,99.1,Agibank,OK
1,Normalizada,df_sp_normalizado,649557,99.6,São Paulo,OK
2,Normalizada,df_financeiro_sp,394166,99.6,Setor Financeiro SP,OK
3,Normalizada,df_brasil_normalizado,2567095,100.0,Brasil,OK
4,Agregada,df_municipios_sp,636,100.0,Municípios SP,OK
5,Agregada,df_municipios_agibank,361,100.0,Municípios Agibank,OK
6,Agregada,df_instituicoes_financeiro,533,0.0,Instituições Financeiras,Sem Pop (não precisa)
7,Agregada,df_estados_agregado,27,100.0,Estados Brasil,OK



Salvo em: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output\normalizacao_consolidado.csv

RESUMO EXECUTIVO

BASES NORMALIZADAS: 4
Total de registros: 3,614,824

BASES AGREGADAS: 4
Municípios SP: 636
Municípios Agibank: 361
Instituições: 533
Estados: 27

COBERTURA MÉDIA: 99.6%
STATUS: 100% NORMALIZADO

PRONTO PARA OS 10 GRÁFICOS!

AGORA VAMOS COMEÇAR OS GRÁFICOS?


In [91]:
print("=" * 80)
print("AUDITORIA DOS MERGES - VERIFICAR DUPLICAÇÕES")
print("=" * 80)

print("\n1. VERIFICANDO df_sp_normalizado")
print("-" * 80)
print(f"df_sp_completo (original): {len(df_sp_completo):,} registros")
print(f"df_sp_normalizado (após merge): {len(df_sp_normalizado):,} registros")
diferenca_sp = len(df_sp_normalizado) - len(df_sp_completo)
print(f"Diferença: {diferenca_sp:,} registros")

if diferenca_sp == 0:
    print("OK - Nenhuma duplicação")
elif diferenca_sp > 0:
    print(f"ALERTA - Possível duplicação de {diferenca_sp:,} registros")
else:
    print(f"ALERTA - Perda de {abs(diferenca_sp):,} registros")

print("\n2. VERIFICANDO df_agibank_normalizado")
print("-" * 80)
print(f"df_agibank (original): {len(df_agibank):,} registros")
print(f"df_agibank_normalizado (após merge): {len(df_agibank_normalizado):,} registros")
diferenca_agi = len(df_agibank_normalizado) - len(df_agibank)
print(f"Diferença: {diferenca_agi:,} registros")

if diferenca_agi == 0:
    print("OK - Nenhuma duplicação")
elif diferenca_agi > 0:
    print(f"ALERTA - Possível duplicação de {diferenca_agi:,} registros")

print("\n3. VERIFICANDO df_brasil_normalizado")
print("-" * 80)
print(f"df_brasil (original): {len(df_brasil):,} registros")
print(f"df_brasil_normalizado (após merge): {len(df_brasil_normalizado):,} registros")
diferenca_br = len(df_brasil_normalizado) - len(df_brasil)
print(f"Diferença: {diferenca_br:,} registros")

if diferenca_br == 0:
    print("OK - Nenhuma duplicação")
elif diferenca_br > 0:
    print(f"ALERTA - Possível duplicação de {diferenca_br:,} registros")

print("\n4. VERIFICANDO df_financeiro_sp")
print("-" * 80)
print(f"Registros: {len(df_financeiro_sp):,}")
print(f"É subset de df_sp_normalizado (filtro)")

print("\n" + "=" * 80)
print("ANÁLISE DE DUPLICAÇÕES")
print("=" * 80)

# Verificar duplicações em df_sp_normalizado
duplicados_sp = df_sp_normalizado.duplicated().sum()
print(f"\nLinhas duplicadas em df_sp_normalizado: {duplicados_sp:,}")

# Verificar duplicações em df_brasil_normalizado
duplicados_br = df_brasil_normalizado.duplicated().sum()
print(f"Linhas duplicadas em df_brasil_normalizado: {duplicados_br:,}")

print("\n" + "=" * 80)
print("CONCLUSÃO")
print("=" * 80)

total_original = len(df_agibank) + len(df_sp_completo) + len(df_brasil)
total_normalizado = len(df_agibank_normalizado) + len(df_sp_normalizado) + len(df_brasil_normalizado)

print(f"\nTotal ORIGINAL: {total_original:,}")
print(f"Total NORMALIZADO: {total_normalizado:,}")
print(f"Diferença: {total_normalizado - total_original:,}")

if total_normalizado == total_original:
    print("\nOK - Merges corretos, sem duplicação")
else:
    print(f"\nALERTA - Diferença de {abs(total_normalizado - total_original):,} registros")

AUDITORIA DOS MERGES - VERIFICAR DUPLICAÇÕES

1. VERIFICANDO df_sp_normalizado
--------------------------------------------------------------------------------
df_sp_completo (original): 649,557 registros
df_sp_normalizado (após merge): 649,557 registros
Diferença: 0 registros
OK - Nenhuma duplicação

2. VERIFICANDO df_agibank_normalizado
--------------------------------------------------------------------------------
df_agibank (original): 4,006 registros
df_agibank_normalizado (após merge): 4,006 registros
Diferença: 0 registros
OK - Nenhuma duplicação

3. VERIFICANDO df_brasil_normalizado
--------------------------------------------------------------------------------
df_brasil (original): 2,567,095 registros
df_brasil_normalizado (após merge): 2,567,095 registros
Diferença: 0 registros
OK - Nenhuma duplicação

4. VERIFICANDO df_financeiro_sp
--------------------------------------------------------------------------------
Registros: 394,166
É subset de df_sp_normalizado (filtro)

AN

In [92]:
print("=" * 80)
print("EXPLICAÇÃO COMPLETA DA NORMALIZAÇÃO - PASSO A PASSO")
print("=" * 80)

print("\n" + "=" * 80)
print("CONCEITO: O QUE É NORMALIZAÇÃO?")
print("=" * 80)
print("""
Normalização = Adicionar dados de POPULAÇÃO às bases de reclamações
para calcular taxas proporcionais (reclamações por 100k habitantes)

NÃO aumenta o número de registros, apenas ADICIONA COLUNAS
""")

print("\n" + "=" * 80)
print("PASSO 1: df_sp_normalizado")
print("=" * 80)

print(f"""
BASE ORIGINAL: df_sp_completo
- Registros: {len(df_sp_completo):,}
- Cada linha = 1 reclamação em SP
- Tem coluna: 'cidade' (ex: 'São Paulo', 'Campinas')
- NÃO tem: população do município

BASE DE REFERÊNCIA: df_pop_municipios  
- Registros: {len(df_pop_municipios):,} (645 municípios de SP)
- Cada linha = 1 município
- Tem colunas: 'municipio_upper', 'populacao_limpa'

MERGE REALIZADO:
""")

print("""
df_sp_normalizado = df_sp_completo.merge(
    df_pop_municipios[['municipio_upper', 'populacao_limpa']],
    left_on='cidade_upper',      # Coluna em df_sp_completo
    right_on='municipio_upper',  # Coluna em df_pop_municipios
    how='left'                   # LEFT JOIN - mantém TODOS os registros de df_sp_completo
)
""")

print(f"""
RESULTADO:
- Registros: {len(df_sp_normalizado):,} (MESMO número!)
- Colunas ANTES: {len(df_sp_completo.columns)}
- Colunas DEPOIS: {len(df_sp_normalizado.columns)} (+3 colunas)
- Novas colunas: 'municipio_upper', 'populacao_municipio', 'reclamacoes_100k'

EXEMPLO DE 1 REGISTRO:
ANTES do merge:
  cidade: 'CAMPINAS', nota: 2.5, tempo: 6 dias

DEPOIS do merge:
  cidade: 'CAMPINAS', nota: 2.5, tempo: 6 dias, populacao_municipio: 1,139,047
  
A reclamação continua sendo 1 linha, apenas ganhou a coluna de população!
""")

print("\n" + "=" * 80)
print("PASSO 2: df_brasil_normalizado")
print("=" * 80)

print(f"""
BASE ORIGINAL: df_brasil
- Registros: {len(df_brasil):,}
- Cada linha = 1 reclamação no Brasil
- Tem coluna: 'uf' (ex: 'SP', 'MG', 'RJ')
- NÃO tem: população do estado

BASE DE REFERÊNCIA: df_censo
- Registros: {len(df_censo):,} (27 estados)
- Cada linha = 1 estado
- Tem colunas: 'sigla', 'populacao_2022'

MERGE REALIZADO:
""")

print("""
df_brasil_normalizado = df_brasil.merge(
    df_censo[['sigla', 'populacao_2022']],
    left_on='uf',           # Coluna em df_brasil
    right_on='sigla',       # Coluna em df_censo
    how='left'              # LEFT JOIN
)
""")

print(f"""
RESULTADO:
- Registros: {len(df_brasil_normalizado):,} (MESMO número!)
- Novas colunas: 'populacao_estado', 'reclamacoes_100k_estado'

EXEMPLO:
ANTES: uf: 'SP', cidade: 'Campinas', nota: 2.5
DEPOIS: uf: 'SP', cidade: 'Campinas', nota: 2.5, populacao_estado: 44,411,238
""")

print("\n" + "=" * 80)
print("POR QUE LEFT JOIN (how='left')?")
print("=" * 80)

print("""
LEFT JOIN mantém TODOS os registros da tabela da ESQUERDA (reclamações)
e adiciona dados da tabela da DIREITA (população) quando há correspondência

Tipos de JOIN:
- INNER: Mantém apenas registros que existem nas DUAS tabelas
- LEFT: Mantém TODOS da esquerda + correspondências da direita
- RIGHT: Mantém TODOS da direita + correspondências da esquerda  
- OUTER: Mantém TODOS de ambas

Usamos LEFT porque queremos manter TODAS as reclamações,
mesmo se não encontrarmos a população (fica como NaN)
""")

print("\n" + "=" * 80)
print("RESUMO FINAL")
print("=" * 80)

print(f"""
TOTAL DE REGISTROS (RECLAMAÇÕES):
- df_agibank: {len(df_agibank):,}
- df_sp_completo: {len(df_sp_completo):,}
- df_brasil: {len(df_brasil):,}
- df_financeiro_sp: {len(df_financeiro_sp):,} (subset de SP)

TOTAL: {len(df_agibank) + len(df_sp_completo) + len(df_brasil):,} reclamações únicas

Cada reclamação = 1 linha
Normalização = adicionar colunas, NÃO duplicar linhas

Por isso o número de registros se mantém!
""")

print("\nFicou claro?")

EXPLICAÇÃO COMPLETA DA NORMALIZAÇÃO - PASSO A PASSO

CONCEITO: O QUE É NORMALIZAÇÃO?

Normalização = Adicionar dados de POPULAÇÃO às bases de reclamações
para calcular taxas proporcionais (reclamações por 100k habitantes)

NÃO aumenta o número de registros, apenas ADICIONA COLUNAS


PASSO 1: df_sp_normalizado

BASE ORIGINAL: df_sp_completo
- Registros: 649,557
- Cada linha = 1 reclamação em SP
- Tem coluna: 'cidade' (ex: 'São Paulo', 'Campinas')
- NÃO tem: população do município

BASE DE REFERÊNCIA: df_pop_municipios  
- Registros: 645 (645 municípios de SP)
- Cada linha = 1 município
- Tem colunas: 'municipio_upper', 'populacao_limpa'

MERGE REALIZADO:


df_sp_normalizado = df_sp_completo.merge(
    df_pop_municipios[['municipio_upper', 'populacao_limpa']],
    left_on='cidade_upper',      # Coluna em df_sp_completo
    right_on='municipio_upper',  # Coluna em df_pop_municipios
    how='left'                   # LEFT JOIN - mantém TODOS os registros de df_sp_completo
)


RESULTADO:
- 

In [93]:
print("=" * 80)
print("ANÁLISE COMPLETA DA NORMALIZAÇÃO")
print("=" * 80)

# Criar estrutura para armazenar resultados
resultados_analise = {}

print("\n" + "=" * 80)
print("TESTE 1: INTEGRIDADE DE REGISTROS")
print("=" * 80)

# Verificar se número de registros se manteve
testes_integridade = {
    'df_sp_normalizado': {
        'original': len(df_sp_completo),
        'normalizado': len(df_sp_normalizado),
        'esperado': len(df_sp_completo)
    },
    'df_agibank_normalizado': {
        'original': len(df_agibank),
        'normalizado': len(df_agibank_normalizado),
        'esperado': len(df_agibank)
    },
    'df_brasil_normalizado': {
        'original': len(df_brasil),
        'normalizado': len(df_brasil_normalizado),
        'esperado': len(df_brasil)
    }
}

print("\nVerificação de Registros:")
print(f"{'Base':<30} {'Original':>12} {'Normalizado':>12} {'Diferença':>12} {'Status':>10}")
print("-" * 80)

integridade_ok = True
for base, valores in testes_integridade.items():
    diferenca = valores['normalizado'] - valores['original']
    status = 'OK' if diferenca == 0 else 'ERRO'
    if diferenca != 0:
        integridade_ok = False
    print(f"{base:<30} {valores['original']:>12,} {valores['normalizado']:>12,} {diferenca:>12,} {status:>10}")

resultados_analise['integridade_registros'] = integridade_ok

print("\n" + "=" * 80)
print("TESTE 2: DUPLICAÇÃO DE LINHAS")
print("=" * 80)

# Usar NumPy para verificar duplicatas
duplicatas = {
    'df_sp_normalizado': df_sp_normalizado.duplicated().sum(),
    'df_agibank_normalizado': df_agibank_normalizado.duplicated().sum(),
    'df_brasil_normalizado': df_brasil_normalizado.duplicated().sum()
}

print("\nLinhas Duplicadas:")
print(f"{'Base':<30} {'Duplicatas':>12} {'Status':>10}")
print("-" * 80)

sem_duplicatas = True
for base, qtd in duplicatas.items():
    status = 'OK' if qtd == 0 else 'ERRO'
    if qtd > 0:
        sem_duplicatas = False
    print(f"{base:<30} {qtd:>12,} {status:>10}")

resultados_analise['sem_duplicatas'] = sem_duplicatas

print("\n" + "=" * 80)
print("TESTE 3: COBERTURA POPULACIONAL")
print("=" * 80)

# Calcular cobertura usando NumPy
coberturas = {
    'df_sp_normalizado': {
        'coluna': 'populacao_municipio',
        'total': len(df_sp_normalizado),
        'com_pop': np.sum(df_sp_normalizado['populacao_municipio'].notna().to_numpy()),
        'sem_pop': np.sum(df_sp_normalizado['populacao_municipio'].isna().to_numpy())
    },
    'df_agibank_normalizado': {
        'coluna': 'populacao_municipio',
        'total': len(df_agibank_normalizado),
        'com_pop': np.sum(df_agibank_normalizado['populacao_municipio'].notna().to_numpy()),
        'sem_pop': np.sum(df_agibank_normalizado['populacao_municipio'].isna().to_numpy())
    },
    'df_brasil_normalizado': {
        'coluna': 'populacao_estado',
        'total': len(df_brasil_normalizado),
        'com_pop': np.sum(df_brasil_normalizado['populacao_estado'].notna().to_numpy()),
        'sem_pop': np.sum(df_brasil_normalizado['populacao_estado'].isna().to_numpy())
    }
}

print("\nCobertura Populacional:")
print(f"{'Base':<30} {'Total':>12} {'Com Pop':>12} {'Sem Pop':>12} {'Cobertura':>12} {'Status':>10}")
print("-" * 80)

cobertura_ok = True
for base, dados in coberturas.items():
    cobertura_pct = (dados['com_pop'] / dados['total']) * 100
    status = 'OK' if cobertura_pct >= 95 else 'ALERTA'
    if cobertura_pct < 95:
        cobertura_ok = False
    print(f"{base:<30} {dados['total']:>12,} {dados['com_pop']:>12,} {dados['sem_pop']:>12,} {cobertura_pct:>11.1f}% {status:>10}")

resultados_analise['cobertura_adequada'] = cobertura_ok

print("\n" + "=" * 80)
print("TESTE 4: CONSISTÊNCIA DE VALORES POPULACIONAIS")
print("=" * 80)

# Verificar valores com NumPy
print("\nVerificação de Valores:")
print(f"{'Base':<30} {'Min':>15} {'Max':>15} {'Média':>15} {'Status':>10}")
print("-" * 80)

valores_ok = True
for base, dados in coberturas.items():
    if base == 'df_sp_normalizado':
        valores = df_sp_normalizado['populacao_municipio'].dropna().to_numpy()
    elif base == 'df_agibank_normalizado':
        valores = df_agibank_normalizado['populacao_municipio'].dropna().to_numpy()
    else:
        valores = df_brasil_normalizado['populacao_estado'].dropna().to_numpy()
    
    if len(valores) > 0:
        min_val = np.min(valores)
        max_val = np.max(valores)
        mean_val = np.mean(valores)
        
        # Verificar se todos valores são positivos
        todos_positivos = np.all(valores > 0)
        status = 'OK' if todos_positivos else 'ERRO'
        if not todos_positivos:
            valores_ok = False
        
        print(f"{base:<30} {min_val:>15,.0f} {max_val:>15,.0f} {mean_val:>15,.0f} {status:>10}")

resultados_analise['valores_consistentes'] = valores_ok

print("\n" + "=" * 80)
print("TESTE 5: CONSISTÊNCIA DAS TAXAS NORMALIZADAS")
print("=" * 80)

# Verificar taxas por 100k
print("\nTaxas por 100k habitantes:")
print(f"{'Base':<30} {'Min':>15} {'Max':>15} {'Média':>15} {'Status':>10}")
print("-" * 80)

taxas_ok = True

# SP
taxa_sp = df_sp_normalizado['reclamacoes_100k'].dropna().to_numpy()
if len(taxa_sp) > 0:
    min_taxa = np.min(taxa_sp)
    max_taxa = np.max(taxa_sp)
    mean_taxa = np.mean(taxa_sp)
    todas_positivas = np.all(taxa_sp >= 0)
    status = 'OK' if todas_positivas else 'ERRO'
    if not todas_positivas:
        taxas_ok = False
    print(f"{'df_sp_normalizado':<30} {min_taxa:>15,.2f} {max_taxa:>15,.2f} {mean_taxa:>15,.2f} {status:>10}")

# Agibank
taxa_agi = df_agibank_normalizado['reclamacoes_100k'].dropna().to_numpy()
if len(taxa_agi) > 0:
    min_taxa = np.min(taxa_agi)
    max_taxa = np.max(taxa_agi)
    mean_taxa = np.mean(taxa_agi)
    todas_positivas = np.all(taxa_agi >= 0)
    status = 'OK' if todas_positivas else 'ERRO'
    if not todas_positivas:
        taxas_ok = False
    print(f"{'df_agibank_normalizado':<30} {min_taxa:>15,.2f} {max_taxa:>15,.2f} {mean_taxa:>15,.2f} {status:>10}")

# Brasil
taxa_br = df_brasil_normalizado['reclamacoes_100k_estado'].dropna().to_numpy()
if len(taxa_br) > 0:
    min_taxa = np.min(taxa_br)
    max_taxa = np.max(taxa_br)
    mean_taxa = np.mean(taxa_br)
    todas_positivas = np.all(taxa_br >= 0)
    status = 'OK' if todas_positivas else 'ERRO'
    if not todas_positivas:
        taxas_ok = False
    print(f"{'df_brasil_normalizado':<30} {min_taxa:>15,.2f} {max_taxa:>15,.2f} {mean_taxa:>15,.2f} {status:>10}")

resultados_analise['taxas_consistentes'] = taxas_ok

print("\n" + "=" * 80)
print("TESTE 6: CONSISTÊNCIA DAS AGREGAÇÕES")
print("=" * 80)

# Verificar se agregações batem com originais
print("\nVerificação de Totais:")
print(f"{'Comparação':<40} {'Original':>15} {'Agregado':>15} {'Diferença':>15} {'Status':>10}")
print("-" * 80)

agregacoes_ok = True

# df_municipios_sp
total_sp_original = len(df_sp_normalizado[df_sp_normalizado['populacao_municipio'].notna()])
total_sp_agregado = df_municipios_sp['total_reclamacoes'].sum()
dif_sp = total_sp_agregado - total_sp_original
status_sp = 'OK' if dif_sp == 0 else 'ERRO'
if dif_sp != 0:
    agregacoes_ok = False
print(f"{'SP: Registros normalizados vs agregados':<40} {total_sp_original:>15,} {total_sp_agregado:>15,} {dif_sp:>15,} {status_sp:>10}")

# df_municipios_agibank
total_agi_original = len(df_agibank_normalizado[df_agibank_normalizado['populacao_municipio'].notna()])
total_agi_agregado = df_municipios_agibank['total_reclamacoes'].sum()
dif_agi = total_agi_agregado - total_agi_original
status_agi = 'OK' if dif_agi == 0 else 'ERRO'
if dif_agi != 0:
    agregacoes_ok = False
print(f"{'Agibank: Registros normalizados vs agregados':<40} {total_agi_original:>15,} {total_agi_agregado:>15,} {dif_agi:>15,} {status_agi:>10}")

# df_estados_agregado
total_br_original = len(df_brasil_normalizado[df_brasil_normalizado['populacao_estado'].notna()])
total_br_agregado = df_estados_agregado['total_reclamacoes'].sum()
dif_br = total_br_agregado - total_br_original
status_br = 'OK' if dif_br == 0 else 'ERRO'
if dif_br != 0:
    agregacoes_ok = False
print(f"{'Brasil: Registros normalizados vs agregados':<40} {total_br_original:>15,} {total_br_agregado:>15,} {dif_br:>15,} {status_br:>10}")

resultados_analise['agregacoes_consistentes'] = agregacoes_ok

print("\n" + "=" * 80)
print("TESTE 7: UNICIDADE NAS AGREGAÇÕES")
print("=" * 80)

# Verificar se chaves são únicas
print("\nVerificação de Unicidade:")
print(f"{'Base Agregada':<30} {'Total':>12} {'Únicos':>12} {'Duplicados':>12} {'Status':>10}")
print("-" * 80)

unicidade_ok = True

# df_municipios_sp
total_mun_sp = len(df_municipios_sp)
unicos_mun_sp = df_municipios_sp['municipio'].nunique()
dupl_mun_sp = total_mun_sp - unicos_mun_sp
status_mun_sp = 'OK' if dupl_mun_sp == 0 else 'ERRO'
if dupl_mun_sp != 0:
    unicidade_ok = False
print(f"{'df_municipios_sp':<30} {total_mun_sp:>12,} {unicos_mun_sp:>12,} {dupl_mun_sp:>12,} {status_mun_sp:>10}")

# df_municipios_agibank
total_mun_agi = len(df_municipios_agibank)
unicos_mun_agi = df_municipios_agibank['municipio'].nunique()
dupl_mun_agi = total_mun_agi - unicos_mun_agi
status_mun_agi = 'OK' if dupl_mun_agi == 0 else 'ERRO'
if dupl_mun_agi != 0:
    unicidade_ok = False
print(f"{'df_municipios_agibank':<30} {total_mun_agi:>12,} {unicos_mun_agi:>12,} {dupl_mun_agi:>12,} {status_mun_agi:>10}")

# df_instituicoes_financeiro
total_inst = len(df_instituicoes_financeiro)
unicos_inst = df_instituicoes_financeiro['instituicao'].nunique()
dupl_inst = total_inst - unicos_inst
status_inst = 'OK' if dupl_inst == 0 else 'ERRO'
if dupl_inst != 0:
    unicidade_ok = False
print(f"{'df_instituicoes_financeiro':<30} {total_inst:>12,} {unicos_inst:>12,} {dupl_inst:>12,} {status_inst:>10}")

# df_estados_agregado
total_est = len(df_estados_agregado)
unicos_est = df_estados_agregado['uf'].nunique()
dupl_est = total_est - unicos_est
status_est = 'OK' if dupl_est == 0 else 'ERRO'
if dupl_est != 0:
    unicidade_ok = False
print(f"{'df_estados_agregado':<30} {total_est:>12,} {unicos_est:>12,} {dupl_est:>12,} {status_est:>10}")

resultados_analise['unicidade_ok'] = unicidade_ok

print("\n" + "=" * 80)
print("TESTE 8: ANÁLISE ESTATÍSTICA COM NUMPY")
print("=" * 80)

# Análise estatística detalhada
print("\nDistribuição de Reclamações por 100k habitantes (SP):")
taxa_sp_array = df_municipios_sp['reclamacoes_100k'].to_numpy()

percentis = np.percentile(taxa_sp_array, [25, 50, 75, 90, 95, 99])
print(f"  Mínimo: {np.min(taxa_sp_array):,.2f}")
print(f"  P25: {percentis[0]:,.2f}")
print(f"  Mediana (P50): {percentis[1]:,.2f}")
print(f"  P75: {percentis[2]:,.2f}")
print(f"  P90: {percentis[3]:,.2f}")
print(f"  P95: {percentis[4]:,.2f}")
print(f"  P99: {percentis[5]:,.2f}")
print(f"  Máximo: {np.max(taxa_sp_array):,.2f}")
print(f"  Média: {np.mean(taxa_sp_array):,.2f}")
print(f"  Desvio Padrão: {np.std(taxa_sp_array):,.2f}")

print("\n" + "=" * 80)
print("RESUMO FINAL DOS TESTES")
print("=" * 80)

print("\nResultados:")
for teste, resultado in resultados_analise.items():
    status = 'PASSOU' if resultado else 'FALHOU'
    emoji = '✓' if resultado else '✗'
    print(f"  {emoji} {teste.replace('_', ' ').title()}: {status}")

# Calcular score final
total_testes = len(resultados_analise)
testes_passados = sum(resultados_analise.values())
score = (testes_passados / total_testes) * 100

print("\n" + "=" * 80)
print("CONCLUSÃO FINAL")
print("=" * 80)

print(f"\nTestes Realizados: {total_testes}")
print(f"Testes Passados: {testes_passados}")
print(f"Testes Falhados: {total_testes - testes_passados}")
print(f"Score: {score:.1f}%")

if score == 100:
    conclusao = "NORMALIZAÇÃO 100% CORRETA E VALIDADA"
    status_final = "APROVADO"
elif score >= 80:
    conclusao = "NORMALIZAÇÃO APROVADA COM RESSALVAS"
    status_final = "APROVADO COM RESSALVAS"
else:
    conclusao = "NORMALIZAÇÃO REQUER CORREÇÕES"
    status_final = "REPROVADO"

print(f"\nStatus Final: {status_final}")
print(f"Conclusão: {conclusao}")

print("\n" + "=" * 80)

ANÁLISE COMPLETA DA NORMALIZAÇÃO

TESTE 1: INTEGRIDADE DE REGISTROS

Verificação de Registros:
Base                               Original  Normalizado    Diferença     Status
--------------------------------------------------------------------------------
df_sp_normalizado                   649,557      649,557            0         OK
df_agibank_normalizado                4,006        4,006            0         OK
df_brasil_normalizado             2,567,095    2,567,095            0         OK

TESTE 2: DUPLICAÇÃO DE LINHAS

Linhas Duplicadas:
Base                             Duplicatas     Status
--------------------------------------------------------------------------------
df_sp_normalizado                         0         OK
df_agibank_normalizado                    0         OK
df_brasil_normalizado                     0         OK

TESTE 3: COBERTURA POPULACIONAL

Cobertura Populacional:
Base                                  Total      Com Pop      Sem Pop    Cobertura     Sta

In [94]:
# ==========================================================
# 1. VERIFICANDO ESTRUTURA ATUAL
# ==========================================================
def verificar_bases(bases_dict):
    """Retorna DataFrame com status de população nas bases."""
    resultados = []
    for nome, df in bases_dict.items():
        if df is None:
            resultados.append((nome, False, 'Desconhecido', 0))
            continue
        
        # tenta detectar nível e coluna de população
        if 'populacao_municipio' in df.columns:
            tem_pop = True
            nivel = 'Município'
        elif 'populacao_estado' in df.columns:
            tem_pop = True
            nivel = 'Estado'
        else:
            tem_pop = False
            nivel = 'Desconhecido'

        resultados.append((nome, tem_pop, nivel, len(df)))
        
    cols = ['Base', 'Tem_Populacao', 'Nivel', 'Registros']
    return pd.DataFrame(resultados, columns=cols)


bases_dict = {
    'df_sp_normalizado': df_sp_normalizado,
    'df_agibank_normalizado': df_agibank_normalizado,
    'df_financeiro_sp': df_financeiro_sp,
    'df_brasil_normalizado': df_brasil_normalizado
}

df_status = verificar_bases(bases_dict)
print("== STATUS DE POPULAÇÃO NAS BASES ==")
print(df_status, "\n")

# ==========================================================
# 2. ANALISAR LACUNA — financeiro vs instituições
# ==========================================================
# Verifica cobertura populacional em df_financeiro_sp
if 'populacao_municipio' in df_financeiro_sp.columns:
    cobertura_fin = (
        df_financeiro_sp['populacao_municipio']
        .notna()
        .mean() * 100
    )
    print(f"Cobertura populacional no df_financeiro_sp: {cobertura_fin:.1f}%")

# ==========================================================
# 3. DIFERENÇA ENTRE BASE FINANCEIRA E INSTITUICIONAL
# ==========================================================
# Suponha que exista df_instituicoes_financeiro
# Demonstra o problema da agregação sem população

if 'df_instituicoes_financeiro' in globals():
    df_instituicoes_financeiro = df_instituicoes_financeiro
    print(f"Linhas em df_instituicoes_financeiro: {len(df_instituicoes_financeiro):,}")

    # Checa se perdeu granularidade de município
    tem_municipio = 'municipio' in df_instituicoes_financeiro.columns
    print(f"Tem coluna de município? {tem_municipio}")

# ==========================================================
# 4. EXEMPLOS DE AGREGAÇÃO CORRETA
# ==========================================================
# Opção A — Instituição e Município
if 'municipio' in df_financeiro_sp.columns:
    df_inst_mun = (
        df_financeiro_sp
        .groupby(['nome_fantasia', 'municipio'], as_index=False)
        .agg(
            qtd_reclamacoes=('id_reclamacao', 'count'),
            populacao=('populacao_municipio', 'first'),
            nota_media=('nota', 'mean')
        )
    )
    df_inst_mun['reclamacoes_por_100k'] = (
        df_inst_mun['qtd_reclamacoes'] / df_inst_mun['populacao'] * 1e5
    )
    print("\nExemplo de agregação por Instituição e Município:")
    print(df_inst_mun.head())

# ==========================================================
# 5. MÉTRICAS ALTERNATIVAS (Ex: por clientes ou faturamento)
# ==========================================================
# Caso tenha dados externos, poderíamos normalizar:
if 'df_financeiro_extra' in globals():
    df_fin_merged = df_financeiro_sp.merge(
        df_financeiro_extra[['nome_fantasia', 'clientes', 'faturamento']],
        on='nome_fantasia',
        how='left'
    )
    df_fin_merged['reclamacoes_por_1k_clientes'] = (
        df_fin_merged['id_reclamacao'] / df_fin_merged['clientes'] * 1000
    )
    df_fin_merged['reclamacoes_por_milhao_reais'] = (
        df_fin_merged['id_reclamacao'] / df_fin_merged['faturamento'] * 1e6
    )

    print("\nMétricas normalizadas por clientes e faturamento:")
    print(df_fin_merged[['nome_fantasia',
                         'reclamacoes_por_1k_clientes',
                         'reclamacoes_por_milhao_reais']].head())


# ==========================================================
# 6. Saída final consolidada (resumo das bases)
# ==========================================================
print("\n== RESUMO DE BASES ==")
print(df_status)

== STATUS DE POPULAÇÃO NAS BASES ==
                     Base  Tem_Populacao      Nivel  Registros
0       df_sp_normalizado           True  Município     649557
1  df_agibank_normalizado           True  Município       4006
2        df_financeiro_sp           True  Município     394166
3   df_brasil_normalizado           True     Estado    2567095 

Cobertura populacional no df_financeiro_sp: 99.6%
Linhas em df_instituicoes_financeiro: 533
Tem coluna de município? False

== RESUMO DE BASES ==
                     Base  Tem_Populacao      Nivel  Registros
0       df_sp_normalizado           True  Município     649557
1  df_agibank_normalizado           True  Município       4006
2        df_financeiro_sp           True  Município     394166
3   df_brasil_normalizado           True     Estado    2567095


In [95]:
print("=" * 80)
print("RESUMO EXECUTIVO FINAL - NORMALIZAÇÃO COMPLETA")
print("=" * 80)

from datetime import datetime

print(f"\nData: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

print("\n" + "=" * 80)
print("1. BASES NORMALIZADAS COM POPULAÇÃO")
print("=" * 80)

# Criar resumo estruturado
resumo_final = {
    'df_sp_normalizado': {
        'descricao': 'Todas reclamações SP',
        'nivel_normalizacao': 'Município',
        'registros': len(df_sp_normalizado),
        'tem_populacao': True,
        'coluna_pop': 'populacao_municipio',
        'cobertura': f"{df_sp_normalizado['populacao_municipio'].notna().sum()/len(df_sp_normalizado)*100:.1f}%",
        'uso': 'Análises detalhadas por município de SP'
    },
    'df_agibank_normalizado': {
        'descricao': 'Reclamações Agibank SP',
        'nivel_normalizacao': 'Município',
        'registros': len(df_agibank_normalizado),
        'tem_populacao': True,
        'coluna_pop': 'populacao_municipio',
        'cobertura': f"{df_agibank_normalizado['populacao_municipio'].notna().sum()/len(df_agibank_normalizado)*100:.1f}%",
        'uso': 'Análises Agibank por município'
    },
    'df_financeiro_sp': {
        'descricao': 'Setor financeiro SP',
        'nivel_normalizacao': 'Município',
        'registros': len(df_financeiro_sp),
        'tem_populacao': True,
        'coluna_pop': 'populacao_municipio',
        'cobertura': f"{df_financeiro_sp['populacao_municipio'].notna().sum()/len(df_financeiro_sp)*100:.1f}%",
        'uso': 'Benchmarking setor financeiro por município'
    },
    'df_brasil_normalizado': {
        'descricao': 'Todas reclamações Brasil',
        'nivel_normalizacao': 'Estado',
        'registros': len(df_brasil_normalizado),
        'tem_populacao': True,
        'coluna_pop': 'populacao_estado',
        'cobertura': f"{df_brasil_normalizado['populacao_estado'].notna().sum()/len(df_brasil_normalizado)*100:.1f}%",
        'uso': 'Análises nacionais e mapa do Brasil'
    }
}

print(f"\n{'Base':<30} {'Registros':>12} {'Nível':>12} {'Cobertura':>12}")
print("-" * 80)
for base, info in resumo_final.items():
    print(f"{base:<30} {info['registros']:>12,} {info['nivel_normalizacao']:>12} {info['cobertura']:>12}")

print("\n" + "=" * 80)
print("2. BASES AGREGADAS")
print("=" * 80)

agregadas = {
    'df_municipios_sp': {
        'descricao': 'Agregado por município - Todos setores',
        'linhas': len(df_municipios_sp),
        'nivel': 'Município',
        'tem_taxa_100k': True,
        'arquivo': 'municipios_sp_agregado.csv'
    },
    'df_municipios_agibank': {
        'descricao': 'Agregado por município - Agibank',
        'linhas': len(df_municipios_agibank),
        'nivel': 'Município',
        'tem_taxa_100k': True,
        'arquivo': 'municipios_agibank_agregado.csv'
    },
    'df_instituicoes_financeiro': {
        'descricao': 'Agregado por instituição - Setor financeiro',
        'linhas': len(df_instituicoes_financeiro),
        'nivel': 'Instituição',
        'tem_taxa_100k': False,
        'arquivo': 'instituicoes_financeiras_sp.csv'
    },
    'df_estados_agregado': {
        'descricao': 'Agregado por estado - Brasil',
        'linhas': len(df_estados_agregado),
        'nivel': 'Estado',
        'tem_taxa_100k': True,
        'arquivo': 'Não salvo'
    }
}

print(f"\n{'Base':<30} {'Linhas':>10} {'Nível':>15} {'Taxa/100k':>12} {'Arquivo':>30}")
print("-" * 80)
for base, info in agregadas.items():
    taxa = 'SIM' if info['tem_taxa_100k'] else 'NÃO'
    print(f"{base:<30} {info['linhas']:>10,} {info['nivel']:>15} {taxa:>12} {info['arquivo']:>30}")

print("\n" + "=" * 80)
print("3. OBSERVAÇÕES IMPORTANTES")
print("=" * 80)

print("""
✓ NORMALIZAÇÃO POR MUNICÍPIO (4 bases):
  - df_sp_normalizado: 649.557 registros (99.6% com população)
  - df_agibank_normalizado: 4.006 registros (99.1% com população)
  - df_financeiro_sp: 394.166 registros (99.6% com população)
  - Permite comparação justa entre municípios de tamanhos diferentes

✓ NORMALIZAÇÃO POR ESTADO (1 base):
  - df_brasil_normalizado: 2.567.095 registros (100% com população)
  - Permite mapa de calor do Brasil

✗ SEM NORMALIZAÇÃO POR POPULAÇÃO (1 base):
  - df_instituicoes_financeiro: 533 instituições
  - Agregado por INSTITUIÇÃO, não por localidade
  - Não faz sentido normalizar por população
  - Use métricas qualitativas: nota, tempo, % resolvido
  
⚠️ LIMITAÇÃO CONHECIDA:
  - Comparar instituições por volume absoluto tem viés
  - Instituições maiores naturalmente têm mais reclamações
  - Solução: focar em métricas qualitativas (nota, tempo)
  - Ou buscar dados externos (nº clientes, faturamento)
""")

print("\n" + "=" * 80)
print("4. ESTATÍSTICAS GERAIS")
print("=" * 80)

# Calcular estatísticas gerais usando NumPy
total_reclamacoes = (
    len(df_sp_normalizado) + 
    len(df_agibank_normalizado) + 
    len(df_brasil_normalizado)
)

# Nota: df_agibank e df_financeiro_sp são subsets, não contar duplicado
total_reclamacoes_unicas = len(df_brasil_normalizado)

print(f"\nTotal de registros processados: {total_reclamacoes:,}")
print(f"Total de reclamações únicas (Brasil): {total_reclamacoes_unicas:,}")
print(f"Municípios de SP com dados: {len(df_municipios_sp):,}")
print(f"Estados do Brasil: {len(df_estados_agregado):,}")
print(f"Instituições financeiras em SP: {len(df_instituicoes_financeiro):,}")

# Cobertura média
coberturas = [
    df_sp_normalizado['populacao_municipio'].notna().sum() / len(df_sp_normalizado) * 100,
    df_agibank_normalizado['populacao_municipio'].notna().sum() / len(df_agibank_normalizado) * 100,
    df_financeiro_sp['populacao_municipio'].notna().sum() / len(df_financeiro_sp) * 100,
    100.0  # Brasil sempre 100%
]

cobertura_media = np.mean(coberturas)

print(f"\nCobertura populacional média: {cobertura_media:.1f}%")

print("\n" + "=" * 80)
print("5. ARQUIVOS GERADOS")
print("=" * 80)

arquivos_gerados = [
    'populacao_municipios_sp_2022_limpo.csv',
    'municipios_sp_agregado.csv',
    'municipios_agibank_agregado.csv',
    'instituicoes_financeiras_sp.csv',
    'normalizacao_consolidado.csv'
]

print("\nArquivos CSV salvos em 'output/':")
for i, arquivo in enumerate(arquivos_gerados, 1):
    caminho = CAMINHO_OUTPUT / arquivo
    if caminho.exists():
        tamanho = caminho.stat().st_size / 1024
        print(f"  {i}. {arquivo} ({tamanho:.1f} KB)")
    else:
        print(f"  {i}. {arquivo} (não encontrado)")

print("\n" + "=" * 80)
print("6. CONCLUSÃO")
print("=" * 80)

print(f"""
STATUS: NORMALIZAÇÃO 100% COMPLETA E VALIDADA

Testes Realizados:
✓ Integridade de registros: OK (nenhuma duplicação)
✓ Cobertura populacional: OK ({cobertura_media:.1f}% média)
✓ Consistência de valores: OK (todos positivos)
✓ Consistência de taxas: OK (todas >= 0)
✓ Consistência de agregações: OK (totais batem)
✓ Unicidade em agregados: OK (sem duplicatas)

Pronto para:
✓ Gráfico 1: Mapa de Calor Brasil (df_brasil_normalizado)
✓ Gráfico 2: Top Municípios SP (df_municipios_sp)
✓ Gráfico 3: Top Instituições SP (df_instituicoes_financeiro)
✓ Gráfico 4: Análise Campinas (df_municipios_sp, df_municipios_agibank)
✓ Gráfico 5-6: Setor Financeiro (df_financeiro_sp)
✓ Gráfico 7-8: Agibank (df_agibank_normalizado)
✓ Gráfico 9-10: Matriz e Plano de Ação

Fontes de Dados:
- IBGE Cidades (Censo 2022): População dos municípios de SP
- IBGE Censo (2022): População dos estados brasileiros
- Consumidor.gov.br: Base de reclamações

Data de Conclusão: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}
""")

print("=" * 80)
print("NORMALIZAÇÃO FINALIZADA COM SUCESSO!")
print("=" * 80)

RESUMO EXECUTIVO FINAL - NORMALIZAÇÃO COMPLETA

Data: 24/02/2026 15:29:00

1. BASES NORMALIZADAS COM POPULAÇÃO

Base                              Registros        Nível    Cobertura
--------------------------------------------------------------------------------
df_sp_normalizado                   649,557    Município        99.6%
df_agibank_normalizado                4,006    Município        99.1%
df_financeiro_sp                    394,166    Município        99.6%
df_brasil_normalizado             2,567,095       Estado       100.0%

2. BASES AGREGADAS

Base                               Linhas           Nível    Taxa/100k                        Arquivo
--------------------------------------------------------------------------------
df_municipios_sp                      636       Município          SIM     municipios_sp_agregado.csv
df_municipios_agibank                 361       Município          SIM municipios_agibank_agregado.csv
df_instituicoes_financeiro            533     In

In [96]:
print("=" * 80)
print("VERIFICAÇÃO: RECLAMAÇÕES SETOR FINANCEIRO EM SÃO PAULO")
print("=" * 80)

print("\n1. CONFIRMAR EXISTÊNCIA DE df_financeiro_sp")
print("-" * 80)

if 'df_financeiro_sp' in globals():
    print("✓ df_financeiro_sp EXISTE em memória")
    print(f"  Registros: {len(df_financeiro_sp):,}")
    print(f"  Colunas: {len(df_financeiro_sp.columns)}")
    
    # Verificar UF
    ufs = df_financeiro_sp['uf'].unique()
    print(f"  UFs presentes: {ufs}")
    
    # Verificar segmentos
    print("\n  Segmentos incluídos:")
    segmentos = df_financeiro_sp['segmento_de_mercado'].value_counts()
    for seg, qtd in segmentos.items():
        print(f"    - {seg}: {qtd:,} reclamações")
    
    # Verificar normalização
    tem_pop = 'populacao_municipio' in df_financeiro_sp.columns
    tem_taxa = 'reclamacoes_100k' in df_financeiro_sp.columns
    
    print(f"\n  Tem população por município: {tem_pop}")
    print(f"  Tem taxa por 100k habitantes: {tem_taxa}")
    
    if tem_pop:
        cobertura = df_financeiro_sp['populacao_municipio'].notna().sum() / len(df_financeiro_sp) * 100
        print(f"  Cobertura populacional: {cobertura:.1f}%")
    
    # Verificar cidades
    print(f"\n  Municípios únicos: {df_financeiro_sp['cidade'].nunique()}")
    print(f"  Top 10 municípios:")
    top_cidades = df_financeiro_sp['cidade'].value_counts().head(10)
    for cidade, qtd in top_cidades.items():
        print(f"    - {cidade}: {qtd:,} reclamações")
    
    # Verificar instituições
    print(f"\n  Instituições únicas: {df_financeiro_sp['nome_fantasia'].nunique()}")
    print(f"  Top 10 instituições:")
    top_inst = df_financeiro_sp['nome_fantasia'].value_counts().head(10)
    for inst, qtd in top_inst.items():
        print(f"    - {inst}: {qtd:,} reclamações")
    
else:
    print("✗ df_financeiro_sp NÃO EXISTE")
    print("  Precisa ser criado a partir de df_sp_normalizado")

print("\n" + "=" * 80)
print("2. RESUMO")
print("=" * 80)

if 'df_financeiro_sp' in globals():
    print(f"""
✓ SIM, TEMOS RECLAMAÇÕES DO SETOR FINANCEIRO EM SP!

Base: df_financeiro_sp
- Total de reclamações: {len(df_financeiro_sp):,}
- Estado: São Paulo (SP)
- Normalizado: SIM (com população por município)
- Cobertura: {df_financeiro_sp['populacao_municipio'].notna().sum() / len(df_financeiro_sp) * 100:.1f}%
- Municípios: {df_financeiro_sp['cidade'].nunique()}
- Instituições: {df_financeiro_sp['nome_fantasia'].nunique()}
- Período: 2024-2025

Segmentos incluídos:
{df_financeiro_sp['segmento_de_mercado'].value_counts().to_string()}

Pronto para usar em:
✓ Gráfico 3: Top Instituições SP
✓ Gráfico 5: Pontos Fracos do Setor
✓ Gráfico 6: Benchmarks do Setor
✓ Comparações Agibank vs Setor
""")
else:
    print("✗ NÃO temos df_financeiro_sp criado")

print("=" * 80)

VERIFICAÇÃO: RECLAMAÇÕES SETOR FINANCEIRO EM SÃO PAULO

1. CONFIRMAR EXISTÊNCIA DE df_financeiro_sp
--------------------------------------------------------------------------------
✓ df_financeiro_sp EXISTE em memória
  Registros: 394,166
  Colunas: 36
  UFs presentes: ['SP']

  Segmentos incluídos:
    - Bancos, Financeiras e Administradoras de Cartão: 276,693 reclamações
    - Bancos de Dados e Cadastros de Consumidores: 42,158 reclamações
    - Empresas de Pagamento Eletrônico: 27,740 reclamações
    - Seguros, Capitalização e Previdência: 23,193 reclamações
    - Empresas de Recuperação de Crédito: 22,386 reclamações
    - Administradoras de Consórcios: 1,420 reclamações
    - Corretoras e Distribuidoras de Títulos e Investimentos: 576 reclamações

  Tem população por município: True
  Tem taxa por 100k habitantes: True
  Cobertura populacional: 99.6%

  Municípios únicos: 696
  Top 10 municípios:
    - São Paulo: 120,499 reclamações
    - Guarulhos: 13,072 reclamações
    - Campin

In [98]:
print("=" * 80)
print("LOCALIZAÇÃO DOS DADOS - MEMÓRIA vs ARQUIVOS")
print("=" * 80)

print("\n1. DADOS EM MEMÓRIA (DataFrames)")
print("-" * 80)

dataframes_memoria = {
    'df_sp_normalizado': df_sp_normalizado if 'df_sp_normalizado' in globals() else None,
    'df_agibank_normalizado': df_agibank_normalizado if 'df_agibank_normalizado' in globals() else None,
    'df_financeiro_sp': df_financeiro_sp if 'df_financeiro_sp' in globals() else None,
    'df_brasil_normalizado': df_brasil_normalizado if 'df_brasil_normalizado' in globals() else None,
    'df_municipios_sp': df_municipios_sp if 'df_municipios_sp' in globals() else None,
    'df_municipios_agibank': df_municipios_agibank if 'df_municipios_agibank' in globals() else None,
    'df_instituicoes_financeiro': df_instituicoes_financeiro if 'df_instituicoes_financeiro' in globals() else None,
    'df_estados_agregado': df_estados_agregado if 'df_estados_agregado' in globals() else None
}

print(f"{'DataFrame':<35} {'Status':<15} {'Tamanho (MB)':<15} {'Persistente?':<15}")
print("-" * 80)

for nome, df in dataframes_memoria.items():
    if df is not None:
        tamanho = df.memory_usage(deep=True).sum() / 1024**2
        persistente = "NAO (só memória)"
        print(f"{nome:<35} {'EM MEMORIA':<15} {tamanho:>14.2f} {persistente:<15}")
    else:
        print(f"{nome:<35} {'NAO EXISTE':<15} {'-':>14} {'-':<15}")

print("\n⚠️ ATENÇÃO:")
print("Esses dados estão APENAS NA MEMÓRIA do Python!")
print("Se você fechar o notebook ou reiniciar o kernel, PERDE TUDO!")

print("\n2. DADOS SALVOS EM ARQUIVOS")
print("-" * 80)

# Verificar arquivos salvos
arquivos_salvos = [
    'municipios_sp_agregado.csv',
    'municipios_agibank_agregado.csv',
    'instituicoes_financeiras_sp.csv',
    'normalizacao_consolidado.csv'
]

print(f"{'Arquivo':<40} {'Existe?':<15} {'Tamanho (KB)':<15}")
print("-" * 80)

for arquivo in arquivos_salvos:
    caminho = CAMINHO_OUTPUT / arquivo
    if caminho.exists():
        tamanho = caminho.stat().st_size / 1024
        print(f"{arquivo:<40} {'SIM':<15} {tamanho:>14.1f}")
    else:
        print(f"{arquivo:<40} {'NAO':<15} {'-':>14}")

print("\n3. O QUE ESTÁ FALTANDO SALVAR?")
print("-" * 80)

bases_grandes = {
    'df_sp_normalizado': df_sp_normalizado,
    'df_agibank_normalizado': df_agibank_normalizado,
    'df_financeiro_sp': df_financeiro_sp,
    'df_brasil_normalizado': df_brasil_normalizado
}

print("\nBases GRANDES (normalizadas) - NÃO SALVAS:")
for nome, df in bases_grandes.items():
    tamanho_mb = df.memory_usage(deep=True).sum() / 1024**2
    print(f"  {nome}: {tamanho_mb:.2f} MB")

print(f"\nTotal: {sum(df.memory_usage(deep=True).sum() for df in bases_grandes.values()) / 1024**2:.2f} MB")

bases_pequenas = {
    'df_estados_agregado': df_estados_agregado
}

print("\nBases PEQUENAS (agregadas) - NÃO SALVAS:")
for nome, df in bases_pequenas.items():
    tamanho_kb = df.memory_usage(deep=True).sum() / 1024
    print(f"  {nome}: {tamanho_kb:.2f} KB")

print("\n" + "=" * 80)
print("RECOMENDAÇÃO: SALVAR PARA PERSISTIR")
print("=" * 80)

print("""
OPÇÃO 1: Salvar em PICKLE (recomendado para DataFrames grandes)
- Mantém tipos de dados
- Mais rápido para carregar
- Menor tamanho
- Só funciona em Python

OPÇÃO 2: Salvar em CSV
- Compatível com Excel, Power BI
- Pode perder tipos de dados
- Maior tamanho
- Universal

OPÇÃO 3: Salvar em Parquet
- Melhor compressão
- Mantém tipos
- Muito rápido
- Requer biblioteca pyarrow
""")


LOCALIZAÇÃO DOS DADOS - MEMÓRIA vs ARQUIVOS

1. DADOS EM MEMÓRIA (DataFrames)
--------------------------------------------------------------------------------
DataFrame                           Status          Tamanho (MB)    Persistente?   
--------------------------------------------------------------------------------
df_sp_normalizado                   EM MEMORIA             1313.28 NAO (só memória)
df_agibank_normalizado              EM MEMORIA                8.36 NAO (só memória)
df_financeiro_sp                    EM MEMORIA              811.68 NAO (só memória)
df_brasil_normalizado               EM MEMORIA             4916.58 NAO (só memória)
df_municipios_sp                    EM MEMORIA                0.08 NAO (só memória)
df_municipios_agibank               EM MEMORIA                0.04 NAO (só memória)
df_instituicoes_financeiro          EM MEMORIA                0.13 NAO (só memória)
df_estados_agregado                 EM MEMORIA                0.00 NAO (só memória)

⚠️ 

In [100]:
print("=" * 80)
print("SALVANDO TODOS OS DATAFRAMES")
print("=" * 80)

from datetime import datetime
import time

inicio = time.time()

# Criar pasta para pickles
CAMINHO_PICKLES = CAMINHO_OUTPUT / 'pickles'
CAMINHO_PICKLES.mkdir(exist_ok=True)

print(f"\nPasta para pickles: {CAMINHO_PICKLES}")
print(f"Pasta para CSVs: {CAMINHO_OUTPUT}")

print("\n" + "=" * 80)
print("1. SALVANDO BASES GRANDES EM PICKLE")
print("=" * 80)

bases_grandes = {
    'df_sp_normalizado.pkl': df_sp_normalizado,
    'df_agibank_normalizado.pkl': df_agibank_normalizado,
    'df_financeiro_sp.pkl': df_financeiro_sp,
    'df_brasil_normalizado.pkl': df_brasil_normalizado
}

for nome_arquivo, df in bases_grandes.items():
    print(f"\nSalvando {nome_arquivo}...")
    inicio_arquivo = time.time()
    
    caminho = CAMINHO_PICKLES / nome_arquivo
    df.to_pickle(caminho)
    
    tempo = time.time() - inicio_arquivo
    tamanho_mb = caminho.stat().st_size / 1024**2
    
    print(f"  OK - {tamanho_mb:.2f} MB - {tempo:.1f}s")

print("\n" + "=" * 80)
print("2. SALVANDO BASES PEQUENAS EM CSV")
print("=" * 80)

bases_pequenas = {
    'municipios_sp_agregado.csv': df_municipios_sp,
    'municipios_agibank_agregado.csv': df_municipios_agibank,
    'instituicoes_financeiras_sp.csv': df_instituicoes_financeiro,
    'estados_agregado.csv': df_estados_agregado
}

for nome_arquivo, df in bases_pequenas.items():
    print(f"\nSalvando {nome_arquivo}...")
    
    caminho = CAMINHO_OUTPUT / nome_arquivo
    df.to_csv(caminho, index=False, encoding='utf-8-sig')
    
    tamanho_kb = caminho.stat().st_size / 1024
    print(f"  OK - {tamanho_kb:.1f} KB")

tempo_total = time.time() - inicio

print("\n" + "=" * 80)
print("3. RESUMO DOS ARQUIVOS SALVOS")
print("=" * 80)

print("\nPICKLES (bases grandes):")
print(f"{'Arquivo':<40} {'Tamanho':<15}")
print("-" * 80)
for arquivo in CAMINHO_PICKLES.glob('*.pkl'):
    tamanho_mb = arquivo.stat().st_size / 1024**2
    print(f"{arquivo.name:<40} {tamanho_mb:>14.2f} MB")

print("\nCSVs (bases agregadas):")
print(f"{'Arquivo':<40} {'Tamanho':<15}")
print("-" * 80)
for arquivo in CAMINHO_OUTPUT.glob('*.csv'):
    tamanho_kb = arquivo.stat().st_size / 1024
    print(f"{arquivo.name:<40} {tamanho_kb:>14.1f} KB")

print("\n" + "=" * 80)
print("SALVAMENTO CONCLUÍDO!")
print("=" * 80)

print(f"""
Tempo total: {tempo_total:.1f} segundos

Arquivos salvos:
- 4 Pickles (bases grandes): {sum(f.stat().st_size for f in CAMINHO_PICKLES.glob('*.pkl')) / 1024**2:.2f} MB
- 4 CSVs (bases agregadas): {sum(f.stat().st_size for f in CAMINHO_OUTPUT.glob('*.csv')) / 1024:.1f} KB

Localização:
- Pickles: {CAMINHO_PICKLES}
- CSVs: {CAMINHO_OUTPUT}

Agora seus dados estão PERSISTIDOS!
Você pode fechar o notebook sem perder nada.
""")

print("\n" + "=" * 80)
print("4. INSTRUÇÕES DE CARREGAMENTO")
print("=" * 80)

print("""
Para carregar em novo notebook:

import pandas as pd
from pathlib import Path

# Definir caminhos
CAMINHO_PICKLES = Path('output/pickles')
CAMINHO_OUTPUT = Path('output')

# Carregar bases grandes
df_sp_normalizado = pd.read_pickle(CAMINHO_PICKLES / 'df_sp_normalizado.pkl')
df_agibank_normalizado = pd.read_pickle(CAMINHO_PICKLES / 'df_agibank_normalizado.pkl')
df_financeiro_sp = pd.read_pickle(CAMINHO_PICKLES / 'df_financeiro_sp.pkl')
df_brasil_normalizado = pd.read_pickle(CAMINHO_PICKLES / 'df_brasil_normalizado.pkl')

# Carregar bases agregadas
df_municipios_sp = pd.read_csv(CAMINHO_OUTPUT / 'municipios_sp_agregado.csv')
df_municipios_agibank = pd.read_csv(CAMINHO_OUTPUT / 'municipios_agibank_agregado.csv')
df_instituicoes_financeiro = pd.read_csv(CAMINHO_OUTPUT / 'instituicoes_financeiras_sp.csv')
df_estados_agregado = pd.read_csv(CAMINHO_OUTPUT / 'estados_agregado.csv')

print("Bases carregadas!")
""")

# Criar arquivo de instruções separadamente
arquivo_instrucoes = CAMINHO_OUTPUT / 'COMO_CARREGAR.txt'
with open(arquivo_instrucoes, 'w', encoding='utf-8') as f:
    f.write("COMO CARREGAR OS DADOS NORMALIZADOS\n")
    f.write("=" * 80 + "\n\n")
    f.write(f"Data: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}\n\n")
    f.write("LOCALIZACAO DOS ARQUIVOS:\n")
    f.write(f"- Pickles: {CAMINHO_PICKLES}\n")
    f.write(f"- CSVs: {CAMINHO_OUTPUT}\n\n")
    f.write("CODIGO PARA CARREGAR:\n\n")
    f.write("import pandas as pd\n")
    f.write("from pathlib import Path\n\n")
    f.write("CAMINHO_PICKLES = Path('output/pickles')\n")
    f.write("CAMINHO_OUTPUT = Path('output')\n\n")
    f.write("df_sp_normalizado = pd.read_pickle(CAMINHO_PICKLES / 'df_sp_normalizado.pkl')\n")
    f.write("df_agibank_normalizado = pd.read_pickle(CAMINHO_PICKLES / 'df_agibank_normalizado.pkl')\n")
    f.write("df_financeiro_sp = pd.read_pickle(CAMINHO_PICKLES / 'df_financeiro_sp.pkl')\n")
    f.write("df_brasil_normalizado = pd.read_pickle(CAMINHO_PICKLES / 'df_brasil_normalizado.pkl')\n\n")
    f.write("df_municipios_sp = pd.read_csv(CAMINHO_OUTPUT / 'municipios_sp_agregado.csv')\n")
    f.write("df_municipios_agibank = pd.read_csv(CAMINHO_OUTPUT / 'municipios_agibank_agregado.csv')\n")
    f.write("df_instituicoes_financeiro = pd.read_csv(CAMINHO_OUTPUT / 'instituicoes_financeiras_sp.csv')\n")
    f.write("df_estados_agregado = pd.read_csv(CAMINHO_OUTPUT / 'estados_agregado.csv')\n")

print(f"\nInstruções salvas em: {arquivo_instrucoes}")

print("\n" + "=" * 80)
print("TUDO SALVO COM SUCESSO!")
print("=" * 80)

SALVANDO TODOS OS DATAFRAMES

Pasta para pickles: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output\pickles
Pasta para CSVs: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output

1. SALVANDO BASES GRANDES EM PICKLE

Salvando df_sp_normalizado.pkl...
  OK - 122.02 MB - 0.7s

Salvando df_agibank_normalizado.pkl...
  OK - 0.78 MB - 0.0s

Salvando df_financeiro_sp.pkl...
  OK - 77.04 MB - 0.5s

Salvando df_brasil_normalizado.pkl...
  OK - 429.34 MB - 2.0s

2. SALVANDO BASES PEQUENAS EM CSV

Salvando municipios_sp_agregado.csv...
  OK - 47.5 KB

Salvando municipios_agibank_agregado.csv...
  OK - 20.6 KB

Salvando instituicoes_financeiras_sp.csv...
  OK - 49.5 KB

Salvando estados_agregado.csv...
  OK - 2.1 KB

3. RESUMO DOS ARQUIVOS SALVOS

PICKLES (bases grandes):
Arquivo                                  Tamanho        
--------------------------------------------------------------------------------
df_agibank_normalizado.pkl                    

In [102]:
print("=" * 80)
print("RESUMO FINAL EXECUTIVO - NORMALIZAÇÃO COMPLETA")
print("=" * 80)

from datetime import datetime

print(f"\nData: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

print("\n" + "=" * 80)
print("STATUS: NORMALIZAÇÃO 100% COMPLETA E PERSISTIDA")
print("=" * 80)

print("""
PROCESSO CONCLUÍDO COM SUCESSO!

1. DADOS NORMALIZADOS
   - 4 bases normalizadas (com população)
   - 4 bases agregadas (prontas para uso)
   - Cobertura populacional: 99.6%
   - Total de registros: 3.220.658

2. DADOS SALVOS E PERSISTIDOS
   - 4 Pickles (629 MB): Bases grandes normalizadas
   - 5 CSVs (120 KB): Bases agregadas
   - Localização: output/ e output/pickles/
   
3. VALIDAÇÃO COMPLETA
   - Todos os testes passaram
   - Sem duplicações
   - Sem perda de dados
   - Consistência verificada

4. DOCUMENTAÇÃO CRIADA
   - 4 documentos técnicos completos
   - 1 guia de uso
   - 1 arquivo de instruções de carregamento
""")

print("\n" + "=" * 80)
print("INVENTÁRIO COMPLETO DE ARQUIVOS")
print("=" * 80)

print("\nPICKLES (Bases Normalizadas):")
print(f"Localização: {CAMINHO_PICKLES}")
print("-" * 80)
pickles = list(CAMINHO_PICKLES.glob('*.pkl'))
for i, arquivo in enumerate(sorted(pickles), 1):
    tamanho = arquivo.stat().st_size / 1024**2
    print(f"{i}. {arquivo.name:<40} {tamanho:>10.2f} MB")

print(f"\nTotal Pickles: {len(pickles)} arquivos, {sum(f.stat().st_size for f in pickles) / 1024**2:.2f} MB")

print("\nCSVs (Bases Agregadas):")
print(f"Localização: {CAMINHO_OUTPUT}")
print("-" * 80)
csvs = list(CAMINHO_OUTPUT.glob('*.csv'))
for i, arquivo in enumerate(sorted(csvs), 1):
    tamanho = arquivo.stat().st_size / 1024
    print(f"{i}. {arquivo.name:<40} {tamanho:>10.1f} KB")

print(f"\nTotal CSVs: {len(csvs)} arquivos, {sum(f.stat().st_size for f in csvs) / 1024:.1f} KB")

print("\nDOCUMENTAÇÃO:")
print(f"Localização: {CAMINHO_DOC}")
print("-" * 80)
docs = list(CAMINHO_DOC.glob('*.md'))
for i, arquivo in enumerate(sorted(docs), 1):
    tamanho = arquivo.stat().st_size / 1024
    print(f"{i}. {arquivo.name:<40} {tamanho:>10.1f} KB")

print(f"\nTotal Documentação: {len(docs)} arquivos")

print("\nINSTRUÇÕES:")
print(f"Localização: {CAMINHO_OUTPUT}")
print("-" * 80)
instrucoes = list(CAMINHO_OUTPUT.glob('*.txt'))
for i, arquivo in enumerate(sorted(instrucoes), 1):
    tamanho = arquivo.stat().st_size / 1024
    print(f"{i}. {arquivo.name:<40} {tamanho:>10.1f} KB")

print("\n" + "=" * 80)
print("PRÓXIMOS PASSOS")
print("=" * 80)

print("""
PRONTO PARA CRIAR OS 10 GRÁFICOS ESTRATÉGICOS:

1. Gráfico 1: Mapa de Calor Brasil
   - Base: df_brasil_normalizado, df_estados_agregado
   
2. Gráfico 2: Top Municípios SP (Duplo)
   - Base: df_municipios_sp
   
3. Gráfico 3: Top Instituições SP
   - Base: df_instituicoes_financeiro
   
4. Gráfico 4: Análise Campinas
   - Base: df_municipios_sp, df_municipios_agibank
   
5. Gráfico 5: Pontos Fracos do Setor
   - Base: df_financeiro_sp
   
6. Gráfico 6: Benchmarks do Setor
   - Base: df_financeiro_sp
   
7. Gráfico 7: Pontos Fracos Agibank
   - Base: df_agibank_normalizado
   
8. Gráfico 8: Pontos Fortes Agibank
   - Base: df_agibank_normalizado
   
9. Gráfico 9: Matriz de Oportunidades
   - Base: Consolidação das análises
   
10. Gráfico 10: Plano de Ação
    - Base: Consolidação final
""")

print("\n" + "=" * 80)
print("ESTATÍSTICAS FINAIS")
print("=" * 80)

estatisticas = {
    'Total de registros processados': '3.220.658',
    'Bases normalizadas criadas': '4',
    'Bases agregadas criadas': '4',
    'Cobertura populacional média': '99.6%',
    'Municípios de SP analisados': f'{len(df_municipios_sp):,}',
    'Instituições financeiras': f'{len(df_instituicoes_financeiro):,}',
    'Estados do Brasil': f'{len(df_estados_agregado):,}',
    'Tamanho total dos dados': '629 MB',
    'Tempo de processamento': '< 5 minutos',
    'Documentos criados': '6',
    'Testes de validação': '6/6 (100%)'
}

for metrica, valor in estatisticas.items():
    print(f"{metrica:<40} {valor:>20}")

print("\n" + "=" * 80)
print("CONCLUSÃO")
print("=" * 80)

print(f"""
NORMALIZAÇÃO 100% COMPLETA, VALIDADA E PERSISTIDA

Status: APROVADO PARA PRODUÇÃO
Data: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}
Responsável: Equipe de Análise de Dados
Projeto: Mediação Bancária - Agibank

Todos os dados estão salvos e prontos para uso.
Você pode fechar este notebook com segurança.

Para continuar em novo notebook:
1. Abra novo notebook
2. Execute o código em COMO_CARREGAR.txt
3. Comece a criar os gráficos

""")

print("=" * 80)

RESUMO FINAL EXECUTIVO - NORMALIZAÇÃO COMPLETA

Data: 24/02/2026 15:40:56

STATUS: NORMALIZAÇÃO 100% COMPLETA E PERSISTIDA

PROCESSO CONCLUÍDO COM SUCESSO!

1. DADOS NORMALIZADOS
   - 4 bases normalizadas (com população)
   - 4 bases agregadas (prontas para uso)
   - Cobertura populacional: 99.6%
   - Total de registros: 3.220.658

2. DADOS SALVOS E PERSISTIDOS
   - 4 Pickles (629 MB): Bases grandes normalizadas
   - 5 CSVs (120 KB): Bases agregadas
   - Localização: output/ e output/pickles/

3. VALIDAÇÃO COMPLETA
   - Todos os testes passaram
   - Sem duplicações
   - Sem perda de dados
   - Consistência verificada

4. DOCUMENTAÇÃO CRIADA
   - 4 documentos técnicos completos
   - 1 guia de uso
   - 1 arquivo de instruções de carregamento


INVENTÁRIO COMPLETO DE ARQUIVOS

PICKLES (Bases Normalizadas):
Localização: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\gold\output\pickles
--------------------------------------------------------------------------------
1. df_agi

In [103]:
print("=" * 80)
print("SCANNER FINAL - VALIDAÇÃO COMPLETA DA NORMALIZAÇÃO")
print("=" * 80)

from datetime import datetime
import numpy as np

print(f"\nData: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

# Dicionário para armazenar resultados
resultados_scanner = {}

print("\n" + "=" * 80)
print("TESTE 1: VERIFICAR EXISTÊNCIA DOS DATAFRAMES")
print("=" * 80)

dataframes_esperados = {
    'df_sp_normalizado': df_sp_normalizado,
    'df_agibank_normalizado': df_agibank_normalizado,
    'df_financeiro_sp': df_financeiro_sp,
    'df_brasil_normalizado': df_brasil_normalizado,
    'df_municipios_sp': df_municipios_sp,
    'df_municipios_agibank': df_municipios_agibank,
    'df_instituicoes_financeiro': df_instituicoes_financeiro,
    'df_estados_agregado': df_estados_agregado
}

print(f"\n{'DataFrame':<35} {'Existe':>10} {'Registros':>15} {'Status':>10}")
print("-" * 80)

todos_existem = True
for nome, df in dataframes_esperados.items():
    existe = df is not None
    registros = len(df) if existe else 0
    status = 'OK' if existe else 'ERRO'
    if not existe:
        todos_existem = False
    print(f"{nome:<35} {str(existe):>10} {registros:>15,} {status:>10}")

resultados_scanner['todos_dataframes_existem'] = todos_existem

print("\n" + "=" * 80)
print("TESTE 2: VERIFICAR COLUNAS DE POPULAÇÃO")
print("=" * 80)

verificacao_populacao = {
    'df_sp_normalizado': ('populacao_municipio', df_sp_normalizado),
    'df_agibank_normalizado': ('populacao_municipio', df_agibank_normalizado),
    'df_financeiro_sp': ('populacao_municipio', df_financeiro_sp),
    'df_brasil_normalizado': ('populacao_estado', df_brasil_normalizado)
}

print(f"\n{'DataFrame':<35} {'Coluna Esperada':<25} {'Existe':>10} {'Status':>10}")
print("-" * 80)

todas_colunas_ok = True
for nome, (coluna, df) in verificacao_populacao.items():
    existe = coluna in df.columns
    status = 'OK' if existe else 'ERRO'
    if not existe:
        todas_colunas_ok = False
    print(f"{nome:<35} {coluna:<25} {str(existe):>10} {status:>10}")

resultados_scanner['colunas_populacao_ok'] = todas_colunas_ok

print("\n" + "=" * 80)
print("TESTE 3: VERIFICAR COBERTURA POPULACIONAL")
print("=" * 80)

print(f"\n{'DataFrame':<35} {'Total':>12} {'Com Pop':>12} {'Cobertura':>12} {'Status':>10}")
print("-" * 80)

cobertura_minima = 95.0
todas_coberturas_ok = True

for nome, (coluna, df) in verificacao_populacao.items():
    total = len(df)
    com_pop = df[coluna].notna().sum()
    cobertura = (com_pop / total) * 100
    status = 'OK' if cobertura >= cobertura_minima else 'ALERTA'
    if cobertura < cobertura_minima:
        todas_coberturas_ok = False
    print(f"{nome:<35} {total:>12,} {com_pop:>12,} {cobertura:>11.1f}% {status:>10}")

resultados_scanner['cobertura_adequada'] = todas_coberturas_ok

print("\n" + "=" * 80)
print("TESTE 4: VERIFICAR INTEGRIDADE (SEM DUPLICAÇÃO)")
print("=" * 80)

bases_originais = {
    'df_sp_normalizado': (df_sp_completo, df_sp_normalizado),
    'df_agibank_normalizado': (df_agibank, df_agibank_normalizado),
    'df_brasil_normalizado': (df_brasil, df_brasil_normalizado)
}

print(f"\n{'Base':<35} {'Original':>12} {'Normalizado':>12} {'Diferença':>12} {'Status':>10}")
print("-" * 80)

sem_duplicacao = True
for nome, (original, normalizado) in bases_originais.items():
    qtd_original = len(original)
    qtd_normalizado = len(normalizado)
    diferenca = qtd_normalizado - qtd_original
    status = 'OK' if diferenca == 0 else 'ERRO'
    if diferenca != 0:
        sem_duplicacao = False
    print(f"{nome:<35} {qtd_original:>12,} {qtd_normalizado:>12,} {diferenca:>12,} {status:>10}")

resultados_scanner['sem_duplicacao'] = sem_duplicacao

print("\n" + "=" * 80)
print("TESTE 5: VERIFICAR VALORES POPULACIONAIS")
print("=" * 80)

print(f"\n{'DataFrame':<35} {'Min':>15} {'Max':>15} {'Média':>15} {'Status':>10}")
print("-" * 80)

valores_validos = True
for nome, (coluna, df) in verificacao_populacao.items():
    valores = df[coluna].dropna().to_numpy()
    if len(valores) > 0:
        min_val = np.min(valores)
        max_val = np.max(valores)
        media_val = np.mean(valores)
        todos_positivos = np.all(valores > 0)
        status = 'OK' if todos_positivos else 'ERRO'
        if not todos_positivos:
            valores_validos = False
        print(f"{nome:<35} {min_val:>15,.0f} {max_val:>15,.0f} {media_val:>15,.0f} {status:>10}")

resultados_scanner['valores_validos'] = valores_validos

print("\n" + "=" * 80)
print("TESTE 6: VERIFICAR TAXAS POR 100K HABITANTES")
print("=" * 80)

verificacao_taxas = {
    'df_sp_normalizado': ('reclamacoes_100k', df_sp_normalizado),
    'df_agibank_normalizado': ('reclamacoes_100k', df_agibank_normalizado),
    'df_financeiro_sp': ('reclamacoes_100k', df_financeiro_sp),
    'df_brasil_normalizado': ('reclamacoes_100k_estado', df_brasil_normalizado)
}

print(f"\n{'DataFrame':<35} {'Coluna Taxa':<25} {'Existe':>10} {'Status':>10}")
print("-" * 80)

todas_taxas_ok = True
for nome, (coluna, df) in verificacao_taxas.items():
    existe = coluna in df.columns
    status = 'OK' if existe else 'ERRO'
    if not existe:
        todas_taxas_ok = False
    print(f"{nome:<35} {coluna:<25} {str(existe):>10} {status:>10}")

resultados_scanner['taxas_calculadas'] = todas_taxas_ok

print("\n" + "=" * 80)
print("TESTE 7: VERIFICAR CONSISTÊNCIA DAS AGREGAÇÕES")
print("=" * 80)

verificacao_agregacoes = {
    'df_municipios_sp': (df_sp_normalizado, df_municipios_sp, 'populacao_municipio'),
    'df_municipios_agibank': (df_agibank_normalizado, df_municipios_agibank, 'populacao_municipio'),
    'df_estados_agregado': (df_brasil_normalizado, df_estados_agregado, 'populacao_estado')
}

print(f"\n{'Agregação':<35} {'Original':>12} {'Agregado':>12} {'Diferença':>12} {'Status':>10}")
print("-" * 80)

agregacoes_ok = True
for nome, (original, agregado, coluna_pop) in verificacao_agregacoes.items():
    # Contar apenas registros com população
    qtd_original = original[coluna_pop].notna().sum()
    qtd_agregado = agregado['total_reclamacoes'].sum()
    diferenca = qtd_agregado - qtd_original
    status = 'OK' if diferenca == 0 else 'ERRO'
    if diferenca != 0:
        agregacoes_ok = False
    print(f"{nome:<35} {qtd_original:>12,} {qtd_agregado:>12,} {diferenca:>12,} {status:>10}")

resultados_scanner['agregacoes_consistentes'] = agregacoes_ok

print("\n" + "=" * 80)
print("TESTE 8: VERIFICAR UNICIDADE EM AGREGADOS")
print("=" * 80)

verificacao_unicidade = {
    'df_municipios_sp': (df_municipios_sp, 'municipio'),
    'df_municipios_agibank': (df_municipios_agibank, 'municipio'),
    'df_instituicoes_financeiro': (df_instituicoes_financeiro, 'instituicao'),
    'df_estados_agregado': (df_estados_agregado, 'uf')
}

print(f"\n{'Agregação':<35} {'Coluna Chave':<20} {'Total':>10} {'Únicos':>10} {'Status':>10}")
print("-" * 80)

unicidade_ok = True
for nome, (df, coluna) in verificacao_unicidade.items():
    total = len(df)
    unicos = df[coluna].nunique()
    status = 'OK' if total == unicos else 'ERRO'
    if total != unicos:
        unicidade_ok = False
    print(f"{nome:<35} {coluna:<20} {total:>10,} {unicos:>10,} {status:>10}")

resultados_scanner['unicidade_ok'] = unicidade_ok

print("\n" + "=" * 80)
print("TESTE 9: VERIFICAR ARQUIVOS SALVOS")
print("=" * 80)

arquivos_esperados = {
    'Pickles': {
        'df_sp_normalizado.pkl': CAMINHO_PICKLES / 'df_sp_normalizado.pkl',
        'df_agibank_normalizado.pkl': CAMINHO_PICKLES / 'df_agibank_normalizado.pkl',
        'df_financeiro_sp.pkl': CAMINHO_PICKLES / 'df_financeiro_sp.pkl',
        'df_brasil_normalizado.pkl': CAMINHO_PICKLES / 'df_brasil_normalizado.pkl'
    },
    'CSVs': {
        'municipios_sp_agregado.csv': CAMINHO_OUTPUT / 'municipios_sp_agregado.csv',
        'municipios_agibank_agregado.csv': CAMINHO_OUTPUT / 'municipios_agibank_agregado.csv',
        'instituicoes_financeiras_sp.csv': CAMINHO_OUTPUT / 'instituicoes_financeiras_sp.csv',
        'estados_agregado.csv': CAMINHO_OUTPUT / 'estados_agregado.csv'
    }
}

print(f"\n{'Tipo':<15} {'Arquivo':<40} {'Existe':>10} {'Status':>10}")
print("-" * 80)

todos_arquivos_ok = True
for tipo, arquivos in arquivos_esperados.items():
    for nome, caminho in arquivos.items():
        existe = caminho.exists()
        status = 'OK' if existe else 'ERRO'
        if not existe:
            todos_arquivos_ok = False
        print(f"{tipo:<15} {nome:<40} {str(existe):>10} {status:>10}")

resultados_scanner['arquivos_salvos'] = todos_arquivos_ok

print("\n" + "=" * 80)
print("TESTE 10: VERIFICAR DOCUMENTAÇÃO")
print("=" * 80)

docs_esperados = [
    '01_configuracao_carregamento.md',
    '02_normalizacao_dados.md',
    '03_normalizacao_completa.md',
    '04_normalizacao_final_consolidada.md'
]

print(f"\n{'Documento':<50} {'Existe':>10} {'Status':>10}")
print("-" * 80)

docs_ok = True
for doc in docs_esperados:
    caminho = CAMINHO_DOC / doc
    existe = caminho.exists()
    status = 'OK' if existe else 'ALERTA'
    if not existe:
        docs_ok = False
    print(f"{doc:<50} {str(existe):>10} {status:>10}")

resultados_scanner['documentacao_ok'] = docs_ok

print("\n" + "=" * 80)
print("RESULTADO FINAL DO SCANNER")
print("=" * 80)

print(f"\n{'Teste':<50} {'Resultado':>15} {'Status':>10}")
print("-" * 80)

for teste, resultado in resultados_scanner.items():
    status = 'PASSOU' if resultado else 'FALHOU'
    simbolo = 'OK' if resultado else 'ERRO'
    print(f"{teste.replace('_', ' ').title():<50} {str(resultado):>15} {simbolo:>10}")

# Calcular score final
total_testes = len(resultados_scanner)
testes_passados = sum(resultados_scanner.values())
score = (testes_passados / total_testes) * 100

print("\n" + "=" * 80)
print("SCORE FINAL")
print("=" * 80)

print(f"""
Testes Realizados: {total_testes}
Testes Passados: {testes_passados}
Testes Falhados: {total_testes - testes_passados}

SCORE: {score:.1f}%
""")

if score == 100:
    conclusao = "NORMALIZAÇÃO 100% APROVADA"
    status_final = "APROVADO"
    emoji = "✓✓✓"
elif score >= 90:
    conclusao = "NORMALIZAÇÃO APROVADA COM RESSALVAS MÍNIMAS"
    status_final = "APROVADO"
    emoji = "✓✓"
elif score >= 80:
    conclusao = "NORMALIZAÇÃO APROVADA COM RESSALVAS"
    status_final = "APROVADO COM RESSALVAS"
    emoji = "✓"
else:
    conclusao = "NORMALIZAÇÃO REQUER CORREÇÕES"
    status_final = "REPROVADO"
    emoji = "✗"

print("=" * 80)
print(f"{emoji} {status_final}")
print("=" * 80)
print(f"\n{conclusao}")
print(f"\nData: {datetime.now().strftime('%d/%m/%Y %H:%M:%S')}")

if score == 100:
    print("""
PARABÉNS!

Todos os testes passaram com sucesso.
A normalização está 100% completa, validada e persistida.

PRONTO PARA:
- Criar os 10 gráficos estratégicos
- Realizar análises avançadas
- Gerar relatórios executivos
- Apresentar resultados

Você pode fechar este notebook com segurança.
Todos os dados estão salvos e prontos para uso.
""")

print("=" * 80)

SCANNER FINAL - VALIDAÇÃO COMPLETA DA NORMALIZAÇÃO

Data: 24/02/2026 15:50:09

TESTE 1: VERIFICAR EXISTÊNCIA DOS DATAFRAMES

DataFrame                               Existe       Registros     Status
--------------------------------------------------------------------------------
df_sp_normalizado                         True         649,557         OK
df_agibank_normalizado                    True           4,006         OK
df_financeiro_sp                          True         394,166         OK
df_brasil_normalizado                     True       2,567,095         OK
df_municipios_sp                          True             636         OK
df_municipios_agibank                     True             361         OK
df_instituicoes_financeiro                True             533         OK
df_estados_agregado                       True              27         OK

TESTE 2: VERIFICAR COLUNAS DE POPULAÇÃO

DataFrame                           Coluna Esperada               Existe     Status
--