# PROJETO FINAL: AN√ÅLISE DE RECLAMA√á√ïES FINANCEIRAS - AGIBANK

**Trilha:** Dados - Agibank  
**Data:** Fevereiro 2025  
**Fonte:** Consumidor.gov.br (Senacon/MJSP)

---

### CONTEXTO DO PROJETO

Este projeto analisa **2.5+ milh√µes de reclama√ß√µes** do Consumidor.gov.br (2025), focando no setor financeiro brasileiro, com √™nfase em:
- üáßüá∑ **Brasil** (contexto geral)
- üèôÔ∏è **S√£o Paulo** (an√°lise regional)
- üè¢ **Agibank** (an√°lise competitiva)

---

### OBJETIVOS

1. Identificar principais problemas do setor financeiro
2. Analisar performance do Agibank vs concorrentes
3. Mapear oportunidades de melhoria e expans√£o
4. Prevenir churn atrav√©s de an√°lise de risco

---

### REQUISITOS ATENDIDOS

‚úÖ **A. Higiene dos Dados:** Importa√ß√£o, limpeza e tratamento  
‚úÖ **B. Performance (NumPy):** Vetoriza√ß√£o e classifica√ß√µes complexas  
‚úÖ **C. An√°lise Explorat√≥ria:** GroupBy e m√©tricas estat√≠sticas  
‚úÖ **D. Visualiza√ß√£o:** Gr√°ficos com storytelling  

---

### DADOS

- **Fonte:** Consumidor.gov.br (Senacon/MJSP)
- **Per√≠odo:** 2025
- **Volume Total:** 2.567.095 registros
- **Camadas:** Bronze ‚Üí Silver ‚Üí Gold

In [None]:
# Configura√ß√µes iniciais, importa√ß√£o de bibliotecas e m√≥dulos personalizados para an√°lise de dados, visualiza√ß√£o e configura√ß√£o de temas, al√©m de definir constantes e vari√°veis globais para o projeto, garantindo que o ambiente esteja configurado corretamente para as an√°lises a serem realizadas no notebook '02_analises_secundarias.ipynb'.

import sys
from pathlib import Path
sys.path.append('../../..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime

# Scripts customizados do projeto (organizados na pasta 'lib')
# Carregamento de dados e manipula√ß√£o, fun√ß√µes de visualiza√ß√£o, e configura√ß√£o de temas

from lib.carregamento import (
    carregar_base_silver,
    carregar_base_gold_sp,
    carregar_base_agibank,
    carregar_base_filtrada,
    listar_arquivos_disponiveis,
    info_base
)

# Vizualiza√ß√£o e configura√ß√£o de temas, paletas de cores, e fun√ß√µes de gr√°ficos customizados

from lib.cores import (
    aplicar_tema_agibank,
    CORES_AGIBANK,
    PALETA_CATEGORICA,
    PALETA_AZUL,
    PALETA_VERDE
)

# Fun√ß√µes de visualiza√ß√£o customizadas para gr√°ficos de barras, linhas, pizza, boxplot, heatmap, distribui√ß√£o e comparativo de barras

from lib.visualizacoes import (
    grafico_barras,
    grafico_linha,
    grafico_pizza,
    grafico_boxplot,
    grafico_heatmap,
    grafico_distribuicao,
    grafico_comparativo_barras
)

# Configura√ß√µes, warnings e op√ß√µes de exibi√ß√£o. Desliga os avisos (warnings) que aparecem durante a execu√ß√£o do c√≥digo, e configura o pandas para mostrar todas as colunas, at√© 100 linhas, e formatar os n√∫meros com 2 casas decimais.

warnings.filterwarnings('ignore')              # Desliga avisos
pd.set_option('display.max_columns', None)     # Mostra todas as colunas
pd.set_option('display.max_rows', 100)         # Mostra at√© 100 linhas
pd.set_option('display.float_format', '{:.2f}'.format)  # 2 casas decimais

# Aplicar tema Agibank, utilizando a fun√ß√£o personalizada 'aplicar_tema_agibank' do m√≥dulo 'lib.cores'. O tema 'grande' √© escolhido para garantir que os gr√°ficos tenham uma apar√™ncia consistente e profissional, alinhada com a identidade visual do Agibank.

aplicar_tema_agibank('grande')

# Constantes, caminhos e vari√°veis globais --> O ano de an√°lise √© definido como 2025, e os caminhos para os arquivos de dados e para a pasta de sa√≠da dos gr√°ficos s√£o configurados. A pasta de sa√≠da √© criada caso n√£o exista, garantindo que os gr√°ficos gerados possam ser salvos corretamente.

ANO_ANALISE = 2025
RAIZ_PROJETO = Path.cwd()
CAMINHO_OUTPUT = RAIZ_PROJETO / 'output'
CAMINHO_OUTPUT.mkdir(exist_ok=True)

# Exibir informa√ß√µes sobre o ambiente, incluindo as vers√µes das bibliotecas utilizadas (Pandas, NumPy, Matplotlib e Seaborn) e as configura√ß√µes do projeto (ano de an√°lise e pasta de output), para garantir que o ambiente esteja configurado corretamente e que as bibliotecas estejam atualizadas antes de prosseguir com as an√°lises.

print("=" * 80)
print("AMBIENTE CONFIGURADO COM SUCESSO")
print("=" * 80)
print(f"\nVersoes das bibliotecas:")
print(f"  Pandas: {pd.__version__}")
print(f"  NumPy: {np.__version__}")
print(f"  Matplotlib: {plt.matplotlib.__version__}")
print(f"  Seaborn: {sns.__version__}")
print(f"\nConfiguracoes do projeto:")
print(f"  Ano de analise: {ANO_ANALISE}")
print(f"  Pasta de output: {CAMINHO_OUTPUT}")
print("=" * 80)

Tema Agibank aplicado - Tamanho: grande
AMBIENTE CONFIGURADO COM SUCESSO

Versoes das bibliotecas:
  Pandas: 2.3.3
  NumPy: 2.3.5
  Matplotlib: 3.10.7
  Seaborn: 0.13.2

Configuracoes do projeto:
  Ano de analise: 2025
  Pasta de output: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\silver\notebooks_silver\output


In [57]:
# An√°lise geral da base Silver utilizando a fun√ß√£o personalizada 'info_base' do m√≥dulo 'lib.carregamento'. Essa fun√ß√£o exibe informa√ß√µes detalhadas sobre o DataFrame, incluindo o n√∫mero de registros, colunas, tipos de dados, valores nulos, e estat√≠sticas descritivas, proporcionando uma vis√£o abrangente da estrutura e qualidade dos dados antes de prosseguir com as an√°lises secund√°rias.

print("Filtrando ano 2025...")

df_2025 = df_brasil[df_brasil['ano_abertura'] == ANO_ANALISE].copy()

print(f"v Registros 2025: {len(df_2025):,}")
print(f"v Colunas: {df_2025.shape[1]}")

info_base(df_2025)

Filtrando ano 2025...
v Registros 2025: 2,457,815
v Colunas: 30
INFORMACOES DA BASE

Total de registros: 2,457,815
Total de colunas: 30
Periodo: 2025 a 2025
Memoria utilizada: 4043.38 MB


In [58]:
# Exibir as primeiras 5 linhas do DataFrame filtrado para o ano de 2025, para verificar se os dados foram carregados e filtrados corretamente, e para ter uma vis√£o inicial dos registros que ser√£o analisados nas pr√≥ximas etapas do projeto.

print("=" * 80)
print("PREVIEW DOS DADOS - PRIMEIRAS 5 LINHAS")

# Selecionar colunas principais para visualiza√ß√£o

colunas_principais = [
    'regiao', 'uf', 'cidade', 'sexo', 'faixa_etaria',
    'ano_abertura', 'mes_abertura', 'nome_fantasia',
    'segmento_de_mercado', 'problema', 'avaliacao_reclamacao',
    'nota_do_consumidor', 'tempo_resposta', 'is_agibank'
]

# Criar subset
df_preview = df_2025[colunas_principais].head(5)


# Mostrar TODAS as colunas de forma transposta

for idx in df_2025.index[:3]:  # 3 registros
    print(f"\n{'-' * 80}")
    print(f"REGISTRO {idx}")
    print('-' * 80)
    
    for col in df_2025.columns:
        valor = df_2025.loc[idx, col]
        print(f"  {col:30s} : {valor}")

# Resumo estat√≠stico
print("\n" + "-" * 80)
print("RESUMO ESTAT√çSTICO")
print("-" * 80)
print(f"\nTotal de registros: {len(df_2025):,}")
print(f"Periodo: {df_2025['mes_abertura'].min()}/{df_2025['ano_abertura'].min()} a {df_2025['mes_abertura'].max()}/{df_2025['ano_abertura'].max()}")
print(f"Regioes: {df_2025['regiao'].nunique()}")
print(f"Estados: {df_2025['uf'].nunique()}")
print(f"Cidades: {df_2025['cidade'].nunique():,}")
print(f"Empresas: {df_2025['nome_fantasia'].nunique():,}")
print(f"Registros Agibank: {df_2025['is_agibank'].sum():,}")

PREVIEW DOS DADOS - PRIMEIRAS 5 LINHAS

--------------------------------------------------------------------------------
REGISTRO 108839
--------------------------------------------------------------------------------
  regiao                         : SE
  uf                             : SP
  cidade                         : Ubatuba
  sexo                           : F
  faixa_etaria                   : entre 31 a 40 anos
  ano_abertura                   : 2025
  mes_abertura                   : 1
  data_abertura                  : 2025-01-01
  data_resposta                  : 2025-01-10
  data_finalizacao               : 2025-01-31
  prazo_resposta                 : 2025-01-11
  tempo_resposta                 : 9.0
  nome_fantasia                  : SulAm√©rica Sa√∫de
  segmento_de_mercado            : Operadoras de Planos de Sa√∫de e Administradoras de Benef√≠cios
  area                           : Sa√∫de
  assunto                        : Plano de Sa√∫de (conv√™nio, autogest√£o, s

In [59]:
# An√°lise de valores nulos para cada coluna, exibindo a quantidade e o percentual de registros com valores nulos, para identificar quais colunas possuem dados faltantes e avaliar a qualidade dos dados antes de prosseguir com as an√°lises secund√°rias.

print("=" * 80)
print("VALORES NULOS")
print("=" * 80)

colunas_com_nulos = df_2025.columns[df_2025.isna().any()].tolist()

if colunas_com_nulos:
    print(f"\n{len(colunas_com_nulos)} colunas com nulos:\n")
    for col in colunas_com_nulos:
        nulos = df_2025[col].isna().sum()
        pct = (nulos / len(df_2025)) * 100
        print(f"  {col:<30} | {nulos:>8,} ({pct:>5.1f}%)")
else:
    print("v Nenhuma coluna com nulos")

VALORES NULOS

5 colunas com nulos:

  sexo                           |       47 (  0.0%)
  data_resposta                  |  317,398 ( 12.9%)
  tempo_resposta                 |  317,398 ( 12.9%)
  avaliacao_reclamacao           |  252,235 ( 10.3%)
  nota_do_consumidor             | 1,712,767 ( 69.7%)


In [60]:
# An√°lise de duplicatas, exibindo a quantidade e o percentual de registros duplicados, para identificar se existem registros repetidos na base de dados e avaliar a qualidade dos dados antes de prosseguir com as an√°lises secund√°rias.

print("=" * 80)
print("DUPLICATAS")
print("=" * 80)

duplicatas = df_2025.duplicated().sum()
pct_dup = (duplicatas / len(df_2025)) * 100

if duplicatas > 0:
    print(f"x {duplicatas:,} duplicados ({pct_dup:.2f}%)")
else:
    print("v Nenhum duplicado")

DUPLICATAS
v Nenhum duplicado


In [61]:
# An√°lise de valida√ß√£o das notas do consumidor, verificando se as notas est√£o dentro do intervalo esperado (1 a 5), e exibindo a distribui√ß√£o das notas para avaliar a qualidade dos dados e identificar poss√≠veis inconsist√™ncias antes de prosseguir com as an√°lises secund√°rias.

print("=" * 80)
print("VALIDACAO DE NOTAS (1-5)")
print("=" * 80)

# Verificar range
notas_invalidas = df_2025[
    (df_2025['nota_do_consumidor'] < 1) | 
    (df_2025['nota_do_consumidor'] > 5)
]

if len(notas_invalidas) > 0:
    print(f"x {len(notas_invalidas):,} notas invalidas")
else:
    print("v Todas as notas validas (1-5)")

# Distribui√ß√£o
print(f"\nDistribuicao:")
for nota in sorted(df_2025['nota_do_consumidor'].dropna().unique()):
    if 1 <= nota <= 5:
        count = (df_2025['nota_do_consumidor'] == nota).sum()
        pct = (count / df_2025['nota_do_consumidor'].notna().sum()) * 100
        print(f"  Nota {nota}: {count:>10,} ({pct:>5.1f}%)")

VALIDACAO DE NOTAS (1-5)
v Todas as notas validas (1-5)

Distribuicao:
  Nota 1.0:    373,880 ( 50.2%)
  Nota 2.0:     37,541 (  5.0%)
  Nota 3.0:     62,986 (  8.5%)
  Nota 4.0:     57,712 (  7.7%)
  Nota 5.0:    212,929 ( 28.6%)


In [62]:
# An√°lise de valida√ß√£o do tempo de resposta, verificando se existem tempos negativos ou excessivamente altos (maiores que 365 dias), e exibindo estat√≠sticas descritivas para avaliar a qualidade dos dados e identificar poss√≠veis inconsist√™ncias antes de prosseguir com as an√°lises secund√°rias.

print("=" * 80)
print("VALIDACAO DE TEMPO DE RESPOSTA")
print("=" * 80)

tempo_negativo = (df_2025['tempo_resposta'] < 0).sum()
tempo_muito_alto = (df_2025['tempo_resposta'] > 365).sum()

if tempo_negativo > 0:
    print(f"x {tempo_negativo:,} tempos negativos")
else:
    print("v Nenhum tempo negativo")

if tempo_muito_alto > 0:
    print(f"x {tempo_muito_alto:,} tempos > 365 dias")
else:
    print("v Nenhum tempo excessivo")

# Estat√≠sticas
print(f"\nEstatisticas:")
print(f"  Media: {df_2025['tempo_resposta'].mean():.1f} dias")
print(f"  Mediana: {df_2025['tempo_resposta'].median():.1f} dias")
print(f"  Min: {df_2025['tempo_resposta'].min():.1f} dias")
print(f"  Max: {df_2025['tempo_resposta'].max():.1f} dias")

VALIDACAO DE TEMPO DE RESPOSTA
v Nenhum tempo negativo
v Nenhum tempo excessivo

Estatisticas:
  Media: 6.2 dias
  Mediana: 7.0 dias
  Min: 0.0 dias
  Max: 31.0 dias


In [63]:
# Reclama√ß√µes por tempo de resposta

print("=" * 80)
print("P1. BRASIL 2025")
print("=" * 80)
print("\n1. VOLUME TOTAL DE RECLAMA√á√ïES")
print("-" * 80)

total_reclamacoes = len(df_2025)
print(f"Total de reclamacoes em 2025: {total_reclamacoes:,}")

P1. BRASIL 2025

1. VOLUME TOTAL DE RECLAMA√á√ïES
--------------------------------------------------------------------------------
Total de reclamacoes em 2025: 2,457,815


In [64]:
# An√°lise do volume total de reclama√ß√µes, exibindo a quantidade total de reclama√ß√µes registradas no ano de 2025, para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes no Brasil durante esse per√≠odo antes de prosseguir com an√°lises mais detalhadas.

print("\n2. TOP 5 SETORES QUE MAIS RECEBEM RECLAMA√á√ïES")
print("-" * 80)

top_setores = df_2025['segmento_de_mercado'].value_counts().head(5)

for i, (setor, qtd) in enumerate(top_setores.items(), 1):
    pct = (qtd / total_reclamacoes) * 100
    print(f"{i}. {setor[:60]:60s} | {qtd:8,} ({pct:5.1f}%)")


2. TOP 5 SETORES QUE MAIS RECEBEM RECLAMA√á√ïES
--------------------------------------------------------------------------------
1. Bancos, Financeiras e Administradoras de Cart√£o              | 1,069,918 ( 43.5%)
2. Operadoras de Telecomunica√ß√µes (Telefonia, Internet, TV por  |  235,083 (  9.6%)
3. Bancos de Dados e Cadastros de Consumidores                  |  146,159 (  5.9%)
4. Transporte A√©reo                                             |  100,622 (  4.1%)
5. Empresas de Pagamento Eletr√¥nico                             |   97,429 (  4.0%)


In [65]:

# An√°lise dos setores que mais recebem reclama√ß√µes, exibindo os 5 principais setores com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, para identificar quais √°reas do mercado est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores antes de prosseguir com an√°lises mais detalhadas.

print("\n3. SATISFA√á√ÉO GERAL DOS BRASILEIROS")
print("-" * 80)

satisfacao_media = df_2025['nota_do_consumidor'].mean()
total_com_nota = df_2025['nota_do_consumidor'].notna().sum()

print(f"Nota media: {satisfacao_media:.2f}/5.00")
print(f"Total de avaliacoes: {total_com_nota:,} ({(total_com_nota/total_reclamacoes)*100:.1f}%)")

print(f"\nDistribuicao das notas:")
for nota in [1.0, 2.0, 3.0, 4.0, 5.0]:
    qtd = (df_2025['nota_do_consumidor'] == nota).sum()
    pct = (qtd / total_com_nota) * 100
    barra = '‚ñà' * int(pct / 2)
    print(f"  Nota {nota:.0f}: {qtd:8,} ({pct:5.1f}%) {barra}")


3. SATISFA√á√ÉO GERAL DOS BRASILEIROS
--------------------------------------------------------------------------------
Nota media: 2.60/5.00
Total de avaliacoes: 745,048 (30.3%)

Distribuicao das notas:
  Nota 1:  373,880 ( 50.2%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
  Nota 2:   37,541 (  5.0%) ‚ñà‚ñà
  Nota 3:   62,986 (  8.5%) ‚ñà‚ñà‚ñà‚ñà
  Nota 4:   57,712 (  7.7%) ‚ñà‚ñà‚ñà
  Nota 5:  212,929 ( 28.6%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà


In [66]:
# An√°lise da satisfa√ß√£o geral dos brasileiros, exibindo a nota m√©dia de satisfa√ß√£o dos consumidores com base nas avalia√ß√µes registradas no ano de 2025, e a distribui√ß√£o das notas para avaliar o n√≠vel geral de satisfa√ß√£o dos consumidores antes de prosseguir com an√°lises mais detalhadas.

print("\n5. TEMPO DE RESPOSTA DAS EMPRESAS")
print("-" * 80)

tempo_medio = df_2025['tempo_resposta'].mean()
tempo_mediano = df_2025['tempo_resposta'].median()

print(f"Tempo medio:   {tempo_medio:.1f} dias")
print(f"Tempo mediano: {tempo_mediano:.1f} dias")


5. TEMPO DE RESPOSTA DAS EMPRESAS
--------------------------------------------------------------------------------
Tempo medio:   6.2 dias
Tempo mediano: 7.0 dias


In [67]:
# An√°lise do tempo de resposta das empresas, exibindo o tempo m√©dio e mediano de resposta para as reclama√ß√µes registradas no ano de 2025, para avaliar a efici√™ncia das empresas em responder √†s reclama√ß√µes dos consumidores antes de prosseguir com an√°lises mais detalhadas.

print("\n6. CONSUMIDORES PROCURARAM A EMPRESA ANTES?")
print("-" * 80)

procurou_sim = (df_2025['procurou_empresa'] == 'S').sum()
procurou_nao = (df_2025['procurou_empresa'] == 'N').sum()
pct_procurou = (procurou_sim / total_reclamacoes) * 100

print(f"Sim: {procurou_sim:8,} ({pct_procurou:5.1f}%)")
print(f"Nao: {procurou_nao:8,} ({100-pct_procurou:5.1f}%)")


6. CONSUMIDORES PROCURARAM A EMPRESA ANTES?
--------------------------------------------------------------------------------
Sim: 1,911,462 ( 77.8%)
Nao:  546,353 ( 22.2%)


In [68]:
# An√°lise do percentual de consumidores que procuraram a empresa antes de registrar a reclama√ß√£o, exibindo a quantidade e o percentual de consumidores que tentaram resolver o problema diretamente com a empresa antes de recorrer √† media√ß√£o, para avaliar o comportamento dos consumidores e a efic√°cia das empresas em resolver os problemas antes de prosseguir com an√°lises mais detalhadas.

print("\n" + "=" * 80)
print("BRASIL 2025")
print("=" * 80)

# Resumo dos principais indicadores do ano de 2025, incluindo o volume total de reclama√ß√µes, a nota m√©dia de satisfa√ß√£o dos consumidores, a taxa de resolu√ß√£o das reclama√ß√µes, o tempo m√©dio de resposta das empresas, e o percentual de consumidores que procuraram a empresa antes de registrar a reclama√ß√£o, para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes no Brasil durante esse per√≠odo antes de prosseguir com an√°lises mais detalhadas.

total_reclamacoes = len(df_2025)

satisfacao_media = df_2025['nota_do_consumidor'].mean()

resolvidas = (df_2025['avaliacao_reclamacao'] == 'Resolvida').sum()
nao_resolvidas = (df_2025['avaliacao_reclamacao'] == 'N√£o Resolvida').sum()
total_avaliadas = resolvidas + nao_resolvidas
taxa_resolucao = (resolvidas / total_avaliadas) * 100

tempo_medio = df_2025['tempo_resposta'].mean()

procurou_sim = (df_2025['procurou_empresa'] == 'S').sum()
pct_procurou = (procurou_sim / total_reclamacoes) * 100

# Exibir resumo dos indicadores principais

print(f"\n  Total de reclamacoes: {total_reclamacoes:,}")
print(f"  Nota media: {satisfacao_media:.2f}/5")
print(f"  Taxa de resolucao: {taxa_resolucao:.1f}%")
print(f"  Tempo medio de resposta: {tempo_medio:.1f} dias")
print(f"  Procuraram empresa antes: {pct_procurou:.1f}%")
print("\n" + "=" * 80)


BRASIL 2025

  Total de reclamacoes: 2,457,815
  Nota media: 2.60/5
  Taxa de resolucao: 43.8%
  Tempo medio de resposta: 6.2 dias
  Procuraram empresa antes: 77.8%



In [69]:
# An√°lise do volume total de reclama√ß√µes, exibindo a quantidade total de reclama√ß√µes registradas no ano de 2025, para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes no Brasil durante esse per√≠odo antes de prosseguir com an√°lises mais detalhadas.

print("=" * 80)
print("A FALHA DO ATENDIMENTO")
print("=" * 80)
print("\n1. QUANTOS PROCURARAM A EMPRESA ANTES DE RECLAMAR?")
print("-" * 80)

# An√°lise do percentual de consumidores que procuraram a empresa antes de registrar a reclama√ß√£o, exibindo a quantidade e o percentual de consumidores que tentaram resolver o problema diretamente com a empresa antes de recorrer √† media√ß√£o, para avaliar o comportamento dos consumidores e a efic√°cia das empresas em resolver os problemas antes de prosseguir com an√°lises mais detalhadas.

procurou_antes = df_2025['procurou_empresa'].value_counts()
percentual_procurou = (procurou_antes['S'] / len(df_2025)) * 100
percentual_nao_procurou = (procurou_antes['N'] / len(df_2025)) * 100

# Exibir resultados de forma clara e formatada, mostrando a quantidade e o percentual de consumidores que procuraram a empresa

print(f"Procurou antes (S): {procurou_antes['S']:,} ({percentual_procurou:.1f}%)")
print(f"Nao procurou (N):   {procurou_antes['N']:,} ({percentual_nao_procurou:.1f}%)")
print(f"\nTotal: {len(df_2025):,}")

A FALHA DO ATENDIMENTO

1. QUANTOS PROCURARAM A EMPRESA ANTES DE RECLAMAR?
--------------------------------------------------------------------------------
Procurou antes (S): 1,911,462 (77.8%)
Nao procurou (N):   546,353 (22.2%)

Total: 2,457,815


In [70]:
# An√°lise do impacto na satisfa√ß√£o dos consumidores que procuraram a empresa antes de registrar a reclama√ß√£o, comparando a nota m√©dia de satisfa√ß√£o entre os consumidores que procuraram a empresa e os que n√£o procuraram, para avaliar se existe uma diferen√ßa significativa na satisfa√ß√£o dos consumidores com base no comportamento de procurar a empresa antes de reclamar.

print("\n2. IMPACTO NA SATISFA√á√ÉO")
print("-" * 80)

# Comparar satisfa√ß√£o entre quem procurou a empresa antes de reclamar e quem n√£o procurou, utilizando a coluna 'procurou_empresa' para segmentar os dados, e calculando a nota m√©dia de satisfa√ß√£o para cada grupo para avaliar se existe uma diferen√ßa significativa na satisfa√ß√£o dos consumidores com base no comportamento de procurar a empresa antes de reclamar.

df_procurou_sim = df_2025[df_2025['procurou_empresa'] == 'S']
df_procurou_nao = df_2025[df_2025['procurou_empresa'] == 'N']

# Calcular a nota m√©dia de satisfa√ß√£o para cada grupo e a diferen√ßa entre eles, para avaliar se existe uma diferen√ßa significativa na satisfa√ß√£o dos consumidores com base no comportamento de procurar a empresa antes de reclamar.

satisfacao_procurou_sim = df_procurou_sim['nota_do_consumidor'].mean()
satisfacao_procurou_nao = df_procurou_nao['nota_do_consumidor'].mean()
diferenca = satisfacao_procurou_sim - satisfacao_procurou_nao

# Exibir resultados de forma clara e formatada, mostrando a nota m√©dia de satisfa√ß√£o para cada grupo e a diferen√ßa entre eles, para avaliar se existe uma diferen√ßa significativa na satisfa√ß√£o dos consumidores com base no comportamento de procurar a empresa antes de reclamar.

print(f"Satisfacao de quem PROCUROU antes:     {satisfacao_procurou_sim:.2f}/5")
print(f"Satisfacao de quem NAO PROCUROU antes: {satisfacao_procurou_nao:.2f}/5")
print(f"\nDiferenca: {diferenca:+.2f} pontos")

# Interpretar resultado, indicando se a diferen√ßa na satisfa√ß√£o entre os consumidores que procuraram a empresa antes de reclamar e os que n√£o procuraram √© positiva ou negativa, e o que isso pode indicar sobre a efic√°cia do atendimento inicial da empresa.

if diferenca < 0:
    print("\nx ALERTA: Quem procurou antes esta MENOS satisfeito!")
    print("  Isso indica falha no atendimento inicial da empresa")
else:
    print("\nv Quem procurou antes esta mais satisfeito")


2. IMPACTO NA SATISFA√á√ÉO
--------------------------------------------------------------------------------
Satisfacao de quem PROCUROU antes:     2.56/5
Satisfacao de quem NAO PROCUROU antes: 2.74/5

Diferenca: -0.18 pontos

x ALERTA: Quem procurou antes esta MENOS satisfeito!
  Isso indica falha no atendimento inicial da empresa


In [71]:
# An√°lise da taxa de resolu√ß√£o das reclama√ß√µes para os consumidores que procuraram a empresa antes de reclamar e para os que n√£o procuraram, comparando a quantidade de reclama√ß√µes resolvidas e n√£o resolvidas em cada grupo, para avaliar se existe uma diferen√ßa significativa na taxa de resolu√ß√£o com base no comportamento de procurar a empresa antes de reclamar.

print("\nTAXA DE RESOLU√á√ÉO POR GRUPO")
print("-" * 80)

# Calcular a quantidade de reclama√ß√µes resolvidas e n√£o resolvidas para os consumidores que procuraram a empresa antes de reclamar e para os que n√£o procuraram, utilizando a coluna 'avaliacao_reclamacao' para segmentar os dados, e calculando a taxa de resolu√ß√£o para cada grupo para avaliar se existe uma diferen√ßa significativa na taxa de resolu√ß√£o com base no comportamento de procurar a empresa antes de reclamar.

resolvidas_sim = (df_procurou_sim['avaliacao_reclamacao'] == 'Resolvida').sum()
nao_resolvidas_sim = (df_procurou_sim['avaliacao_reclamacao'] == 'N√£o Resolvida').sum()
total_avaliadas_sim = resolvidas_sim + nao_resolvidas_sim
taxa_resolucao_sim = (resolvidas_sim / total_avaliadas_sim) * 100

# Calcular a quantidade de reclama√ß√µes resolvidas e n√£o resolvidas para os consumidores que n√£o procuraram a empresa antes de reclamar, e calcular a taxa de resolu√ß√£o para esse grupo, para avaliar se existe uma diferen√ßa significativa na taxa de resolu√ß√£o com base no comportamento de procurar a empresa antes de reclamar.

resolvidas_nao = (df_procurou_nao['avaliacao_reclamacao'] == 'Resolvida').sum()
nao_resolvidas_nao = (df_procurou_nao['avaliacao_reclamacao'] == 'N√£o Resolvida').sum()
total_avaliadas_nao = resolvidas_nao + nao_resolvidas_nao
taxa_resolucao_nao = (resolvidas_nao / total_avaliadas_nao) * 100

# Exibir resultados de forma clara e formatada, mostrando a quantidade de reclama√ß√µes resolvidas e n√£o resolvidas para cada grupo, a taxa de resolu√ß√£o para cada grupo, e a diferen√ßa na taxa de resolu√ß√£o entre os grupos, para avaliar se existe uma diferen√ßa significativa na taxa de resolu√ß√£o com base no comportamento de procurar a empresa antes de reclamar.

print(f"PROCUROU ANTES:")
print(f"  Resolvidas: {resolvidas_sim:,} ({taxa_resolucao_sim:.1f}%)")
print(f"  Nao Resolvidas: {nao_resolvidas_sim:,} ({100-taxa_resolucao_sim:.1f}%)")

# Analisar e interpretar os resultados, indicando se a taxa de resolu√ß√£o √© significativamente diferente entre os consumidores que procuraram a empresa antes de reclamar e os que n√£o procuraram, e o que isso pode indicar sobre a efic√°cia do atendimento inicial da empresa e a satisfa√ß√£o dos consumidores.

print(f"\nNAO PROCUROU ANTES:")
print(f"  Resolvidas: {resolvidas_nao:,} ({taxa_resolucao_nao:.1f}%)")
print(f"  Nao Resolvidas: {nao_resolvidas_nao:,} ({100-taxa_resolucao_nao:.1f}%)")

# Interpretar resultado, indicando se a taxa de resolu√ß√£o √© significativamente diferente entre os consumidores que procuraram a empresa antes de reclamar e os que n√£o procuraram, e o que isso pode indicar sobre a efic√°cia do atendimento inicial da empresa e a satisfa√ß√£o dos consumidores.

print(f"\nDiferenca na taxa de resolucao: {taxa_resolucao_sim - taxa_resolucao_nao:+.1f}%")


TAXA DE RESOLU√á√ÉO POR GRUPO
--------------------------------------------------------------------------------
PROCUROU ANTES:
  Resolvidas: 271,040 (43.9%)
  Nao Resolvidas: 346,802 (56.1%)

NAO PROCUROU ANTES:
  Resolvidas: 55,450 (43.6%)
  Nao Resolvidas: 71,752 (56.4%)

Diferenca na taxa de resolucao: +0.3%


In [72]:
# Interpretar resultado, indicando se a diferen√ßa na taxa de resolu√ß√£o entre os consumidores que procuraram a empresa antes de reclamar e os que n√£o procuraram √© positiva ou negativa, e o que isso pode indicar sobre a efic√°cia do atendimento inicial da empresa e a satisfa√ß√£o dos consumidores.

print("\n4. IMPACTO DA FALHA NO ATENDIMENTO")
print("-" * 80)

# Calcular o n√∫mero total de consumidores que procuraram a empresa antes de reclamar, e quantos desses consumidores n√£o tiveram o problema resolvido, para avaliar o impacto da falha no atendimento inicial da empresa e quantas reclama√ß√µes poderiam ter sido evitadas se o problema tivesse sido resolvido no primeiro contato.

total_procurou = procurou_antes['S']
reclamacoes_evitaveis = nao_resolvidas_sim

# Exibir resultados de forma clara e formatada, mostrando o n√∫mero total de consumidores que procuraram a empresa antes de reclamar, e quantos desses consumidores n√£o tiveram o problema resolvido, para avaliar o impacto da falha no atendimento inicial da empresa e quantas reclama√ß√µes poderiam ter sido evitadas se o problema tivesse sido resolvido no primeiro contato.

print(f"Total que procurou a empresa antes: {total_procurou:,}")
print(f"Desses, quantos nao tiveram problema resolvido: {reclamacoes_evitaveis:,}")

# Calcular o percentual de reclama√ß√µes evit√°veis com base no n√∫mero de consumidores que procuraram a empresa antes de reclamar e n√£o tiveram o problema resolvido, para avaliar o impacto da falha no atendimento inicial da empresa e quantas reclama√ß√µes poderiam ter sido evitadas se o problema tivesse sido resolvido no primeiro contato.

pct_evitavel = (reclamacoes_evitaveis / total_procurou) * 100
print(f"\nPercentual de reclamacoes evitaveis: {pct_evitavel:.1f}%")

# Interpretar resultado, indicando o impacto da falha no atendimento inicial da empresa, e quantas reclama√ß√µes poderiam ter sido evitadas se o problema tivesse sido resolvido no primeiro contato, para avaliar a import√¢ncia de um atendimento eficiente e eficaz para a satisfa√ß√£o dos consumidores e a redu√ß√£o do volume de reclama√ß√µes.

print(f"\nx INSIGHT:")
print(f"  Se as empresas resolvessem o problema no PRIMEIRO contato,")
print(f"  {reclamacoes_evitaveis:,} reclamacoes poderiam ter sido EVITADAS")
print(f"  Isso representa {(reclamacoes_evitaveis/len(df_2025))*100:.1f}% de todas as reclamacoes!")


4. IMPACTO DA FALHA NO ATENDIMENTO
--------------------------------------------------------------------------------
Total que procurou a empresa antes: 1,911,462
Desses, quantos nao tiveram problema resolvido: 346,802

Percentual de reclamacoes evitaveis: 18.1%

x INSIGHT:
  Se as empresas resolvessem o problema no PRIMEIRO contato,
  346,802 reclamacoes poderiam ter sido EVITADAS
  Isso representa 14.1% de todas as reclamacoes!


In [73]:
# Resumo dos principais indicadores relacionados √† falha do atendimento, incluindo o percentual de consumidores que procuraram a empresa antes de reclamar, a satisfa√ß√£o m√©dia para os consumidores que procuraram e n√£o procuraram a empresa, a diferen√ßa na satisfa√ß√£o entre os grupos, a taxa de resolu√ß√£o para os consumidores que procuraram e n√£o procuraram a empresa, e o n√∫mero e percentual de reclama√ß√µes evit√°veis devido √† falha no atendimento inicial da empresa, para fornecer uma vis√£o geral do impacto da falha no atendimento e a import√¢ncia de resolver os problemas no primeiro contato.

print("\n" + "=" * 80)
print("FALHA DO ATENDIMENTO")
print("=" * 80)

# Exibir resumo dos indicadores relacionados √† falha do atendimento, mostrando o percentual de consumidores que procuraram a empresa antes de reclamar, a satisfa√ß√£o m√©dia para os consumidores que procuraram e n√£o procuraram a empresa, a diferen√ßa na satisfa√ß√£o entre os grupos, a taxa de resolu√ß√£o para os consumidores que procuraram e n√£o procuraram a empresa, e o n√∫mero e percentual de reclama√ß√µes evit√°veis devido √† falha no atendimento inicial da empresa, para fornecer uma vis√£o geral do impacto da falha no atendimento e a import√¢ncia de resolver os problemas no primeiro contato.

print(f"\n   ‚Ä¢ {percentual_procurou:.1f}% procuraram a empresa antes\n")
print(f"   ‚Ä¢ Satisfacao de quem procurou: {satisfacao_procurou_sim:.2f}/5\n")
print(f"   ‚Ä¢ Satisfacao de quem nao procurou: {satisfacao_procurou_nao:.2f}/5Q\n")
print(f"   ‚Ä¢ Gap de satisfacao: {diferenca:+.2f} pontos\n")
print(f"   ‚Ä¢ Taxa de resolucao (procurou): {taxa_resolucao_sim:.1f}%\n")
print(f"   ‚Ä¢ Reclamacoes evitaveis: {reclamacoes_evitaveis:,} ({pct_evitavel:.1f}%)\n")

# Interpretar resultado, indicando o impacto da falha no atendimento inicial da empresa, e quantas reclama√ß√µes poderiam ter sido evitadas se o problema tivesse sido resolvido no primeiro contato, para avaliar a import√¢ncia de um atendimento eficiente e eficaz para a satisfa√ß√£o dos consumidores e a redu√ß√£o do volume de reclama√ß√µes.

print("\n  CONCLUSAO:\n")
print("  üîπResolver o problema no PRIMEIRO contato √© CR√çTICO\n")
print("  üîπQuem procurou antes esta MENOS satisfeito")

print("\n" + "=" * 80)


FALHA DO ATENDIMENTO

   ‚Ä¢ 77.8% procuraram a empresa antes

   ‚Ä¢ Satisfacao de quem procurou: 2.56/5

   ‚Ä¢ Satisfacao de quem nao procurou: 2.74/5Q

   ‚Ä¢ Gap de satisfacao: -0.18 pontos

   ‚Ä¢ Taxa de resolucao (procurou): 43.9%

   ‚Ä¢ Reclamacoes evitaveis: 346,802 (18.1%)


  CONCLUSAO:

  üîπResolver o problema no PRIMEIRO contato √© CR√çTICO

  üîπQuem procurou antes esta MENOS satisfeito



## Geografia Brasil

In [74]:
# An√°lise da distribui√ß√£o das reclama√ß√µes por regi√£o, exibindo a quantidade e o percentual de reclama√ß√µes registradas em cada regi√£o do Brasil no ano de 2025, para identificar quais regi√µes est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.
print("=" * 80)
print("P2. GEOGRAFIA DO BRASIL")
print("-" * 80)
print("     1. Distribui√ß√£o por Regi√£o")
print("-" * 80, "\n")

# Calcular a distribui√ß√£o das reclama√ß√µes por regi√£o, utilizando a coluna 'regiao' para segmentar os dados, e calculando a quantidade e o percentual de reclama√ß√µes para cada regi√£o para identificar quais regi√µes do Brasil est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

dist_regiao = df_2025['regiao'].value_counts()

# Exibir resultados de forma clara e formatada, mostrando a quantidade e o percentual de reclama√ß√µes para cada regi√£o do Brasil, para identificar quais regi√µes est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print(f"Total Brasil: {len(df_2025):,}\n")

# Exibir distribui√ß√£o por regi√£o, mostrando a quantidade e o percentual de reclama√ß√µes para cada regi√£o do Brasil, para identificar quais regi√µes est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for regiao, qtd in dist_regiao.items():
    pct = (qtd / len(df_2025)) * 100
    print(f"{regiao:3s} | {qtd:10,} ({pct:5.1f}%)")

P2. GEOGRAFIA DO BRASIL
--------------------------------------------------------------------------------
     1. Distribui√ß√£o por Regi√£o
-------------------------------------------------------------------------------- 

Total Brasil: 2,457,815

SE  |  1,208,221 ( 49.2%)
NE  |    468,105 ( 19.0%)
S   |    393,190 ( 16.0%)
CO  |    252,348 ( 10.3%)
N   |    135,951 (  5.5%)


In [75]:
# An√°lise dos estados com mais reclama√ß√µes, exibindo os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, para identificar quais estados est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n2. TOP 10 ESTADOS COM MAIS RECLAMACOES")
print("-" * 80)

# Calcular os estados com mais reclama√ß√µes, utilizando a coluna 'uf' para segmentar os dados, e calculando a quantidade e o percentual de reclama√ß√µes para cada estado para identificar quais estados est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

top_estados = df_2025['uf'].value_counts().head(10)

# Exibir resultados de forma clara e formatada, mostrando os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, para identificar quais estados est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for i, (uf, qtd) in enumerate(top_estados.items(), 1):
    pct = (qtd / len(df_2025)) * 100
    print(f"{i:2d}. {uf:3s} | {qtd:10,} ({pct:5.1f}%)")


2. TOP 10 ESTADOS COM MAIS RECLAMACOES
--------------------------------------------------------------------------------
 1. SP  |    623,188 ( 25.4%)
 2. MG  |    286,467 ( 11.7%)
 3. RJ  |    249,778 ( 10.2%)
 4. PR  |    169,238 (  6.9%)
 5. BA  |    145,359 (  5.9%)
 6. RS  |    115,585 (  4.7%)
 7. SC  |    108,367 (  4.4%)
 8. GO  |     89,352 (  3.6%)
 9. DF  |     85,541 (  3.5%)
10. CE  |     73,153 (  3.0%)


In [76]:
# An√°lise das cidades com mais reclama√ß√µes, exibindo as 10 cidades com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, para identificar quais cidades est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n3. TOP 10 CIDADES DO BRASIL")
print("-" * 80, "\n")

# Calcular as cidades com mais reclama√ß√µes, utilizando a coluna 'cidade' para segmentar os dados, e calculando a quantidade e o percentual de reclama√ß√µes para cada cidade para identificar quais cidades est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

top_cidades = df_2025['cidade'].value_counts().head(10)

# Exibir resultados de forma clara e formatada, mostrando as 10 cidades com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, para identificar quais cidades est√£o enfrentando mais problemas e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for i, (cidade, qtd) in enumerate(top_cidades.items(), 1):
    pct = (qtd / len(df_2025)) * 100
    
    # Obter a sigla do estado (UF) para a cidade, utilizando o DataFrame filtrado para o ano de 2025 e a coluna 'cidade' para localizar o registro correspondente e extrair a sigla do estado (UF) associada √† cidade, para exibir essa informa√ß√£o junto com a quantidade e o percentual de reclama√ß√µes para cada cidade.
    
    uf = df_2025[df_2025['cidade'] == cidade]['uf'].iloc[0]
    print(f"{i:2d}. {cidade:20s} ({uf}) | {qtd:10,} ({pct:5.1f}%)")


3. TOP 10 CIDADES DO BRASIL
-------------------------------------------------------------------------------- 

 1. S√£o Paulo            (SP) |    217,491 (  8.8%)
 2. Rio de Janeiro       (RJ) |    124,000 (  5.0%)
 3. Bras√≠lia             (DF) |     85,541 (  3.5%)
 4. Belo Horizonte       (MG) |     75,535 (  3.1%)
 5. Salvador             (BA) |     64,883 (  2.6%)
 6. Curitiba             (PR) |     59,090 (  2.4%)
 7. Fortaleza            (CE) |     38,161 (  1.6%)
 8. Goi√¢nia              (GO) |     34,077 (  1.4%)
 9. Manaus               (AM) |     30,542 (  1.2%)
10. Porto Alegre         (RS) |     27,448 (  1.1%)


In [77]:
# An√°lise da satisfa√ß√£o por regi√£o, exibindo a nota m√©dia de satisfa√ß√£o dos consumidores para cada regi√£o do Brasil no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n4. SATISFACAO POR REGIAO")
print("-" * 80, "\n")

# Calcular a satisfa√ß√£o por regi√£o, utilizando a coluna 'regiao' para segmentar os dados, e calculando a nota m√©dia de satisfa√ß√£o para cada regi√£o, bem como o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

satisfacao_brasil = df_2025['nota_do_consumidor'].mean()

# Exibir resultados de forma clara e formatada, mostrando a nota m√©dia de satisfa√ß√£o para cada regi√£o do Brasil, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print(f"Media Brasil: {satisfacao_brasil:.2f}/5\n")

# Exibir satisfa√ß√£o por regi√£o, mostrando a nota m√©dia de satisfa√ß√£o para cada regi√£o do Brasil, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for regiao in df_2025['regiao'].unique():
    df_regiao = df_2025[df_2025['regiao'] == regiao]
    sat = df_regiao['nota_do_consumidor'].mean()
    gap = sat - satisfacao_brasil
    print(f"{regiao:3s} | {sat:.2f}/5 | Gap: {gap:+.2f}")


4. SATISFACAO POR REGIAO
-------------------------------------------------------------------------------- 

Media Brasil: 2.60/5

SE  | 2.55/5 | Gap: -0.04
N   | 2.73/5 | Gap: +0.13
S   | 2.58/5 | Gap: -0.01
NE  | 2.63/5 | Gap: +0.04
CO  | 2.69/5 | Gap: +0.09


In [78]:
# An√°lise do tempo de resposta por regi√£o, exibindo o tempo m√©dio de resposta para cada regi√£o do Brasil no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n5. TEMPO DE RESPOSTA POR REGIAO")
print("-" * 80)

# Calcular o tempo de resposta por regi√£o, utilizando a coluna 'regiao' para segmentar os dados, e calculando o tempo m√©dio de resposta para cada regi√£o, bem como o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas. 

tempo_brasil = df_2025['tempo_resposta'].mean()

# Exibir resultados de forma clara e formatada, mostrando o tempo m√©dio de resposta para cada regi√£o do Brasil, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print(f"Media Brasil: {tempo_brasil:.1f} dias\n")

# Exibir tempo de resposta por regi√£o, mostrando o tempo m√©dio de resposta para cada regi√£o do Brasil, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for regiao in df_2025['regiao'].unique():
    df_regiao = df_2025[df_2025['regiao'] == regiao]
    tempo = df_regiao['tempo_resposta'].mean()
    gap = tempo - tempo_brasil
    print(f"{regiao:3s} | {tempo:.1f} dias | Gap: {gap:+.1f}")


5. TEMPO DE RESPOSTA POR REGIAO
--------------------------------------------------------------------------------
Media Brasil: 6.2 dias

SE  | 6.2 dias | Gap: +0.0
N   | 5.9 dias | Gap: -0.3
S   | 6.3 dias | Gap: +0.1
NE  | 6.1 dias | Gap: -0.1
CO  | 6.1 dias | Gap: -0.1


In [79]:
# Resumo dos principais indicadores relacionados √† geografia do Brasil, incluindo a distribui√ß√£o das reclama√ß√µes por regi√£o, os estados e cidades com mais reclama√ß√µes, a satisfa√ß√£o m√©dia por regi√£o, o tempo m√©dio de resposta por regi√£o, e um resumo dos l√≠deres em cada categoria para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes no Brasil durante o ano de 2025 em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n" + "=" * 80)
print("RESUMO P2 - GEOGRAFIA DO BRASIL")
print("=" * 80)

# Regi√£o com mais reclama√ß√µes
regiao_top = dist_regiao.index[0]
qtd_top = dist_regiao.iloc[0]
pct_top = (qtd_top / len(df_2025)) * 100

# Estado com mais reclama√ß√µes
estado_top = top_estados.index[0]
qtd_estado = top_estados.iloc[0]
pct_estado = (qtd_estado / len(df_2025)) * 100

# Cidade com mais reclama√ß√µes
cidade_top = top_cidades.index[0]
qtd_cidade = top_cidades.iloc[0]
pct_cidade = (qtd_cidade / len(df_2025)) * 100

print(f"\n  Regiao lider: {regiao_top} com {qtd_top:,} ({pct_top:.1f}%)")
print(f"  Estado lider: {estado_top} com {qtd_estado:,} ({pct_estado:.1f}%)")
print(f"  Cidade lider: {cidade_top} com {qtd_cidade:,} ({pct_cidade:.1f}%)")

print("\n" + "=" * 80)


RESUMO P2 - GEOGRAFIA DO BRASIL

  Regiao lider: SE com 1,208,221 (49.2%)
  Estado lider: SP com 623,188 (25.4%)
  Cidade lider: S√£o Paulo com 217,491 (8.8%)



In [80]:
# An√°lise da satisfa√ß√£o por estado, exibindo a nota m√©dia de satisfa√ß√£o dos consumidores para os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print("\n6. SATISFACAO POR ESTADO (TOP 10)")
print("-" * 80, "\n")

# Calcular a satisfa√ß√£o por estado para os 10 estados com mais reclama√ß√µes, utilizando a coluna 'uf' para segmentar os dados, e calculando a nota m√©dia de satisfa√ß√£o para cada um desses estados, bem como o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

satisfacao_brasil = df_2025['nota_do_consumidor'].mean()

# Exibir resultados de forma clara e formatada, mostrando a nota m√©dia de satisfa√ß√£o para os 10 estados com mais reclama√ß√µes registradas no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print(f"Media Brasil: {satisfacao_brasil:.2f}/5\n")
print(f"{'UF':<4} | {'Satisfacao':<10} | {'Gap':<8} | {'Reclamacoes':<12}")
print("-" * 50)

# Exibir satisfa√ß√£o por estado para os 10 estados com mais reclama√ß√µes, mostrando a nota m√©dia de satisfa√ß√£o para cada um desses estados, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na satisfa√ß√£o dos consumidores entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

for uf in top_estados.index:
    df_uf = df_2025[df_2025['uf'] == uf]
    sat = df_uf['nota_do_consumidor'].mean()
    gap = sat - satisfacao_brasil
    qtd = len(df_uf)
    print(f"{uf:<4} | {sat:10.2f} | {gap:+8.2f} | {qtd:12,}")


6. SATISFACAO POR ESTADO (TOP 10)
-------------------------------------------------------------------------------- 

Media Brasil: 2.60/5

UF   | Satisfacao | Gap      | Reclamacoes 
--------------------------------------------------
SP   |       2.53 |    -0.06 |      623,188
MG   |       2.53 |    -0.07 |      286,467
RJ   |       2.58 |    -0.01 |      249,778
PR   |       2.62 |    +0.02 |      169,238
BA   |       2.50 |    -0.09 |      145,359
RS   |       2.52 |    -0.07 |      115,585
SC   |       2.59 |    -0.01 |      108,367
GO   |       2.63 |    +0.03 |       89,352
DF   |       2.76 |    +0.16 |       85,541
CE   |       2.71 |    +0.11 |       73,153


In [81]:
# An√°lise do tempo de resposta por estado, exibindo o tempo m√©dio de resposta para os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print("\n7. TEMPO DE RESPOSTA POR ESTADO (TOP 10)")
print("-" * 80)

# Calcular o tempo de resposta por estado para os 10 estados com mais reclama√ß√µes, utilizando a coluna 'uf' para segmentar os dados, e calculando o tempo m√©dio de resposta para cada um desses estados, bem como o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

tempo_brasil = df_2025['tempo_resposta'].mean()

# Exibir resultados de forma clara e formatada, mostrando o tempo m√©dio de resposta para os 10 estados com mais reclama√ß√µes registradas no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print(f"Media Brasil: {tempo_brasil:.1f} dias\n")
print(f"{'UF':<4} | {'Tempo (dias)':<12} | {'Gap':<8} | {'Reclamacoes':<12}")
print("-" * 50)

# Exibir tempo de resposta por estado para os 10 estados com mais reclama√ß√µes, mostrando o tempo m√©dio de resposta para cada um desses estados, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas no tempo de resposta das empresas entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

for uf in top_estados.index:
    df_uf = df_2025[df_2025['uf'] == uf]
    tempo = df_uf['tempo_resposta'].mean()
    gap = tempo - tempo_brasil
    qtd = len(df_uf)
    print(f"{uf:<4} | {tempo:12.1f} | {gap:+8.1f} | {qtd:12,}")


7. TEMPO DE RESPOSTA POR ESTADO (TOP 10)
--------------------------------------------------------------------------------
Media Brasil: 6.2 dias

UF   | Tempo (dias) | Gap      | Reclamacoes 
--------------------------------------------------
SP   |          6.2 |     +0.0 |      623,188
MG   |          6.4 |     +0.2 |      286,467
RJ   |          6.2 |     +0.0 |      249,778
PR   |          6.4 |     +0.2 |      169,238
BA   |          6.2 |     +0.1 |      145,359
RS   |          6.3 |     +0.1 |      115,585
SC   |          6.2 |     +0.0 |      108,367
GO   |          6.0 |     -0.2 |       89,352
DF   |          6.3 |     +0.1 |       85,541
CE   |          6.0 |     -0.2 |       73,153


In [82]:
# An√°lise da taxa de resolu√ß√£o por estado, exibindo a taxa de resolu√ß√£o para os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na taxa de resolu√ß√£o das reclama√ß√µes entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print("\n8. TAXA DE RESOLUCAO POR ESTADO (TOP 10)")
print("-" * 80)

# Calcular a taxa de resolu√ß√£o por estado para os 10 estados com mais reclama√ß√µes, utilizando a coluna 'uf' para segmentar os dados, e calculando a quantidade de reclama√ß√µes resolvidas e n√£o resolvidas para cada um desses estados, a taxa de resolu√ß√£o para cada estado, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na taxa de resolu√ß√£o das reclama√ß√µes entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

resolvidas_br = (df_2025['avaliacao_reclamacao'] == 'Resolvida').sum()
nao_resolvidas_br = (df_2025['avaliacao_reclamacao'] == 'N√£o Resolvida').sum()
total_avaliadas_br = resolvidas_br + nao_resolvidas_br
taxa_brasil = (resolvidas_br / total_avaliadas_br) * 100

# Exibir resultados de forma clara e formatada, mostrando a taxa de resolu√ß√£o para os 10 estados com mais reclama√ß√µes registradas no ano de 2025, e o gap em rela√ß√£o √† m√©dia nacional, para avaliar se existem diferen√ßas significativas na taxa de resolu√ß√£o das reclama√ß√µes entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print(f"Media Brasil: {taxa_brasil:.1f}%\n")
print(f"{'UF':<4} | {'Taxa Resolucao':<15} | {'Gap':<8} | {'Resolvidas':<12} | {'Nao Resolvidas':<15}")
print("-" * 75)

# Exibir taxa de resolu√ß√£o por estado para os 10 estados com mais reclama√ß√µes, mostrando a taxa de resolu√ß√£o para cada um desses estados, o gap em rela√ß√£o √† m√©dia nacional, e a quantidade de reclama√ß√µes resolvidas e n√£o resolvidas para cada estado, para avaliar se existem diferen√ßas significativas na taxa de resolu√ß√£o das reclama√ß√µes entre os estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas. 

for uf in top_estados.index:
    df_uf = df_2025[df_2025['uf'] == uf]
    
    resolvidas = (df_uf['avaliacao_reclamacao'] == 'Resolvida').sum()
    nao_resolvidas = (df_uf['avaliacao_reclamacao'] == 'N√£o Resolvida').sum()
    total_aval = resolvidas + nao_resolvidas
    
    if total_aval > 0:
        taxa = (resolvidas / total_aval) * 100
        gap = taxa - taxa_brasil
        print(f"{uf:<4} | {taxa:15.1f}% | {gap:+8.1f}% | {resolvidas:12,} | {nao_resolvidas:15,}")


8. TAXA DE RESOLUCAO POR ESTADO (TOP 10)
--------------------------------------------------------------------------------
Media Brasil: 43.8%

UF   | Taxa Resolucao  | Gap      | Resolvidas   | Nao Resolvidas 
---------------------------------------------------------------------------
SP   |            43.0% |     -0.8% |       81,558 |         108,030
MG   |            42.2% |     -1.6% |       37,281 |          50,960
RJ   |            44.2% |     +0.4% |       33,277 |          42,038
PR   |            45.2% |     +1.4% |       24,754 |          29,999
BA   |            41.0% |     -2.8% |       18,054 |          25,982
RS   |            41.8% |     -2.0% |       13,774 |          19,193
SC   |            43.6% |     -0.2% |       13,293 |          17,196
GO   |            44.2% |     +0.4% |       11,209 |          14,140
DF   |            48.7% |     +4.9% |       15,795 |          16,628
CE   |            45.8% |     +2.0% |       10,324 |          12,227


In [83]:
# An√°lise do ranking geral dos estados, exibindo os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, juntamente com a quantidade de reclama√ß√µes, o percentual em rela√ß√£o ao total, a nota m√©dia de satisfa√ß√£o dos consumidores, o tempo m√©dio de resposta das empresas, e a taxa de resolu√ß√£o das reclama√ß√µes para cada um desses estados, para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes nos estados com mais problemas antes de prosseguir com an√°lises mais detalhadas.

print("\n9. RANKING GERAL DOS ESTADOS (TOP 10)")
print("-" * 80)
print("Ordenado por volume de reclamacoes\n")

# Exibir ranking geral dos estados, mostrando os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, juntamente com a quantidade de reclama√ß√µes, o percentual em rela√ß√£o ao total, a nota m√©dia de satisfa√ß√£o dos consumidores, o tempo m√©dio de resposta das empresas, e a taxa de resolu√ß√£o das reclama√ß√µes para cada um desses estados, para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes nos estados com mais problemas antes de prosseguir com an√°lises mais detalhadas.

print(f"{'Pos':<4} | {'UF':<4} | {'Reclamacoes':<12} | {'%':<6} | {'Satisfacao':<11} | {'Tempo':<10} | {'Resolucao':<10}")
print("-" * 80)

# Exibir ranking geral dos estados, mostrando os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, juntamente com a quantidade de reclama√ß√µes, o percentual em rela√ß√£o ao total, a nota m√©dia de satisfa√ß√£o dos consumidores, o tempo m√©dio de resposta das empresas, e a taxa de resolu√ß√£o das reclama√ß√µes para cada um desses estados, para fornecer uma vis√£o geral do cen√°rio de reclama√ß√µes nos estados com mais problemas antes de prosseguir com an√°lises mais detalhadas.

for i, uf in enumerate(top_estados.index, 1):
    df_uf = df_2025[df_2025['uf'] == uf]
    
    qtd = len(df_uf)
    pct = (qtd / len(df_2025)) * 100
    sat = df_uf['nota_do_consumidor'].mean()
    tempo = df_uf['tempo_resposta'].mean()
    
    resolvidas = (df_uf['avaliacao_reclamacao'] == 'Resolvida').sum()
    nao_resolvidas = (df_uf['avaliacao_reclamacao'] == 'N√£o Resolvida').sum()
    total_aval = resolvidas + nao_resolvidas
    taxa = (resolvidas / total_aval) * 100 if total_aval > 0 else 0
    
    print(f"{i:<4} | {uf:<4} | {qtd:12,} | {pct:5.1f}% | {sat:11.2f} | {tempo:10.1f} | {taxa:9.1f}%")


9. RANKING GERAL DOS ESTADOS (TOP 10)
--------------------------------------------------------------------------------
Ordenado por volume de reclamacoes

Pos  | UF   | Reclamacoes  | %      | Satisfacao  | Tempo      | Resolucao 
--------------------------------------------------------------------------------
1    | SP   |      623,188 |  25.4% |        2.53 |        6.2 |      43.0%
2    | MG   |      286,467 |  11.7% |        2.53 |        6.4 |      42.2%
3    | RJ   |      249,778 |  10.2% |        2.58 |        6.2 |      44.2%
4    | PR   |      169,238 |   6.9% |        2.62 |        6.4 |      45.2%
5    | BA   |      145,359 |   5.9% |        2.50 |        6.2 |      41.0%
6    | RS   |      115,585 |   4.7% |        2.52 |        6.3 |      41.8%
7    | SC   |      108,367 |   4.4% |        2.59 |        6.2 |      43.6%
8    | GO   |       89,352 |   3.6% |        2.63 |        6.0 |      44.2%
9    | DF   |       85,541 |   3.5% |        2.76 |        6.3 |      48.7%
10 

In [84]:
# An√°lise do ranking de assuntos por regi√£o, exibindo os 3 assuntos mais reclamados para cada regi√£o do Brasil no ano de 2025, juntamente com a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada regi√£o, para identificar quais s√£o os principais problemas enfrentados pelos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n10. RANKING DE ASSUNTOS POR REGI√ÉO")
print("=" * 100)

# Calcular o ranking de assuntos por regi√£o, utilizando a coluna 'regiao' para segmentar os dados, e a coluna 'segmento_de_mercado' para identificar os assuntos relacionados √†s reclama√ß√µes, e calculando a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada assunto em cada regi√£o, para identificar quais s√£o os principais problemas enfrentados pelos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

ordem_regioes = df_2025['regiao'].value_counts().index.tolist()

# Exibir ranking de assuntos por regi√£o, mostrando os 3 assuntos mais reclamados para cada regi√£o do Brasil no ano de 2025, juntamente com a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada regi√£o, para identificar quais s√£o os principais problemas enfrentados pelos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for regiao in ordem_regioes:
    df_regiao = df_2025[df_2025['regiao'] == regiao]
    total_regiao = len(df_regiao)
    
    # Exibir os 3 assuntos mais reclamados para a regi√£o, mostrando a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes para a regi√£o, para identificar quais s√£o os principais problemas enfrentados pelos consumidores nessa regi√£o antes de prosseguir com an√°lises mais detalhadas.

    if total_regiao > 0:
        print(f"\n{regiao.upper()}")
        print("-" * 100)
        print(f"Total de reclama√ß√µes: {total_regiao:,}")
        print(f"Percentual do Brasil: {(total_regiao/len(df_2025)*100):.1f}%")
        print(f"\n{'Pos':<4} | {'Segmento de Mercado':<60} | {'Quantidade':<12} | {'%':<6}")
        print("-" * 100)
        
        # Obter os 3 assuntos mais reclamados para a regi√£o, utilizando a coluna 'segmento_de_mercado' para identificar os assuntos relacionados √†s reclama√ß√µes, e calculando a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada assunto na regi√£o, para identificar quais s√£o os principais problemas enfrentados pelos consumidores nessa regi√£o antes de prosseguir com an√°lises mais detalhadas.

        top_segmentos = df_regiao['segmento_de_mercado'].value_counts().head(3)
        
        # Exibir os 3 assuntos mais reclamados para a regi√£o, mostrando a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes para a regi√£o, para identificar quais s√£o os principais problemas enfrentados pelos consumidores nessa regi√£o antes de prosseguir com an√°lises mais detalhadas.

        for i, (segmento, qtd) in enumerate(top_segmentos.items(), 1):
            pct = (qtd / total_regiao) * 100
            print(f"{i:<4} | {str(segmento)[:60]:<60} | {qtd:12,} | {pct:5.1f}%")


10. RANKING DE ASSUNTOS POR REGI√ÉO

SE
----------------------------------------------------------------------------------------------------
Total de reclama√ß√µes: 1,208,221
Percentual do Brasil: 49.2%

Pos  | Segmento de Mercado                                          | Quantidade   | %     
----------------------------------------------------------------------------------------------------
1    | Bancos, Financeiras e Administradoras de Cart√£o              |      512,217 |  42.4%
2    | Operadoras de Telecomunica√ß√µes (Telefonia, Internet, TV por  |      113,800 |   9.4%
3    | Bancos de Dados e Cadastros de Consumidores                  |       70,575 |   5.8%

NE
----------------------------------------------------------------------------------------------------
Total de reclama√ß√µes: 468,105
Percentual do Brasil: 19.0%

Pos  | Segmento de Mercado                                          | Quantidade   | %     
-----------------------------------------------------------------

In [85]:
# An√°lise do segmento l√≠der por regi√£o, exibindo o segmento de mercado com o maior n√∫mero de reclama√ß√µes para cada regi√£o do Brasil no ano de 2025, juntamente com a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes da regi√£o, para identificar quais segmentos est√£o enfrentando mais problemas em cada regi√£o e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print("\n11. SEGMENTO L√çDER POR REGI√ÉO")
print("=" * 100)

# Calcular o segmento l√≠der por regi√£o, utilizando a coluna 'regiao' para segmentar os dados, e a coluna 'segmento_de_mercado' para identificar o segmento com o maior n√∫mero de reclama√ß√µes em cada regi√£o, juntamente com a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes da regi√£o, para identificar quais segmentos est√£o enfrentando mais problemas em cada regi√£o e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

ordem_regioes = df_2025['regiao'].value_counts().index.tolist()

# Exibir resultados de forma clara e formatada, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para cada regi√£o do Brasil no ano de 2025, juntamente com a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes da regi√£o, para identificar quais segmentos est√£o enfrentando mais problemas em cada regi√£o e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

print(f"\n{'Regi√£o':<15} | {'Segmento L√≠der':<50} | {'Quantidade':<12} | {'%':<6}")
print("-" * 100)

# Exibir segmento l√≠der por regi√£o, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para cada regi√£o do Brasil no ano de 2025, juntamente com a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes da regi√£o, para identificar quais segmentos est√£o enfrentando mais problemas em cada regi√£o e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

for regiao in ordem_regioes:
    df_regiao = df_2025[df_2025['regiao'] == regiao]
    total_regiao = len(df_regiao)
    
    # Verificar se existem reclama√ß√µes na regi√£o antes de calcular o segmento l√≠der, para evitar erros ao tentar identificar o segmento com o maior n√∫mero de reclama√ß√µes em regi√µes que podem n√£o ter registros suficientes, e garantir que os resultados sejam precisos e relevantes para cada regi√£o do Brasil no ano de 2025.

    if total_regiao > 0:
        segmento_lider = df_regiao['segmento_de_mercado'].value_counts().head(1)
        
        # Verificar se o segmento l√≠der foi identificado corretamente antes de tentar acessar seus valores, para evitar erros caso a regi√£o tenha um n√∫mero muito pequeno de reclama√ß√µes ou se os dados estiverem incompletos, garantindo que os resultados sejam precisos e relevantes para cada regi√£o do Brasil no ano de 2025.

        if len(segmento_lider) > 0:
            segmento = segmento_lider.index[0]
            qtd = segmento_lider.values[0]
            pct = (qtd / total_regiao) * 100
            
            # Exibir o segmento l√≠der para a regi√£o, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes, a quantidade de reclama√ß√µes e o percentual em rela√ß√£o ao total de reclama√ß√µes da regi√£o, para identificar quais segmentos est√£o enfrentando mais problemas em cada regi√£o e avaliar a satisfa√ß√£o dos consumidores em diferentes partes do pa√≠s antes de prosseguir com an√°lises mais detalhadas.

            print(f"{regiao:<15} | {str(segmento)[:50]:<50} | {qtd:12,} | {pct:5.1f}%")


11. SEGMENTO L√çDER POR REGI√ÉO

Regi√£o          | Segmento L√≠der                                     | Quantidade   | %     
----------------------------------------------------------------------------------------------------
SE              | Bancos, Financeiras e Administradoras de Cart√£o    |      512,217 |  42.4%
NE              | Bancos, Financeiras e Administradoras de Cart√£o    |      205,439 |  43.9%
S               | Bancos, Financeiras e Administradoras de Cart√£o    |      174,031 |  44.3%
CO              | Bancos, Financeiras e Administradoras de Cart√£o    |      112,821 |  44.7%
N               | Bancos, Financeiras e Administradoras de Cart√£o    |       65,410 |  48.1%


In [88]:
# An√°lise do segmento l√≠der por estado, exibindo o segmento de mercado com o maior n√∫mero de reclama√ß√µes para os 10 estados com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada um desses estados, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print("\n12. SEGMENTO L√çDER POR ESTADO (TOP 10)")
print("=" * 100)

# Calcular o segmento l√≠der por estado para os 10 estados com mais reclama√ß√µes, utilizando a coluna 'uf' para segmentar os dados, e calculando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para cada um desses estados, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada um desses estados, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

top_estados = df_2025['uf'].value_counts().head(10).index.tolist()

# Exibir resultados de forma clara e formatada, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para os 10 estados com mais reclama√ß√µes registradas no ano de 2025, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada um desses estados, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print(f"\n{'Estado':<6} | {'Segmento L√≠der':<50} | {'Quantidade':<12} | {'%':<6}")
print("-" * 100)

# Exibir segmento l√≠der por estado para os 10 estados com mais reclama√ß√µes, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para cada um desses estados, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada um desses estados, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

for estado in top_estados:
    df_estado = df_2025[df_2025['uf'] == estado]
    total_estado = len(df_estado)
    
    # Calcular o segmento l√≠der para o estado, utilizando a coluna 'segmento_de_mercado' para segmentar os dados do estado, e calculando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para esse estado, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para esse estado, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

    if total_estado > 0:
        segmento_lider = df_estado['segmento_de_mercado'].value_counts().head(1)
        
        # Exibir segmento l√≠der para o estado, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para o estado, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para esse estado, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

        if len(segmento_lider) > 0:
            segmento = segmento_lider.index[0]
            qtd = segmento_lider.values[0]
            pct = (qtd / total_estado) * 100
            
            # Exibir resultado para o estado, mostrando o segmento de mercado com o maior n√∫mero de reclama√ß√µes para o estado, juntamente com a quantidade e o percentual em rela√ß√£o ao total de reclama√ß√µes para esse estado, para avaliar quais segmentos de mercado est√£o enfrentando mais problemas em cada um dos estados com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.
            
            print(f"{estado:<6} | {str(segmento)[:50]:<50} | {qtd:12,} | {pct:5.1f}%")


12. SEGMENTO L√çDER POR ESTADO (TOP 10)

Estado | Segmento L√≠der                                     | Quantidade   | %     
----------------------------------------------------------------------------------------------------
SP     | Bancos, Financeiras e Administradoras de Cart√£o    |      267,475 |  42.9%
MG     | Bancos, Financeiras e Administradoras de Cart√£o    |      127,234 |  44.4%
RJ     | Bancos, Financeiras e Administradoras de Cart√£o    |       99,162 |  39.7%
PR     | Bancos, Financeiras e Administradoras de Cart√£o    |       67,780 |  40.1%
BA     | Bancos, Financeiras e Administradoras de Cart√£o    |       59,948 |  41.2%
RS     | Bancos, Financeiras e Administradoras de Cart√£o    |       57,447 |  49.7%
SC     | Bancos, Financeiras e Administradoras de Cart√£o    |       48,804 |  45.0%
GO     | Bancos, Financeiras e Administradoras de Cart√£o    |       41,752 |  46.7%
DF     | Bancos, Financeiras e Administradoras de Cart√£o    |       32,609 |  38.1%
CE     

In [89]:
# An√°lise do segmento l√≠der por cidade, exibindo as 10 cidades com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, juntamente com o segmento de mercado mais reclamado em cada uma dessas cidades, a quantidade de reclama√ß√µes para esse segmento, e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada cidade, para identificar quais segmentos est√£o enfrentando mais problemas em cada uma das cidades com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print("\n13. SEGMENTO L√çDER POR CIDADE (TOP 10)")
print("=" * 100)

# Calcular o segmento l√≠der por cidade para as 10 cidades com mais reclama√ß√µes, utilizando a coluna 'cidade' para segmentar os dados, e calculando o segmento de mercado mais reclamado em cada uma dessas cidades, a quantidade de reclama√ß√µes para esse segmento, e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada cidade, para identificar quais segmentos est√£o enfrentando mais problemas em cada uma das cidades com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

top_cidades = df_2025['cidade'].value_counts().head(10).index.tolist()

# Exibir resultados de forma clara e formatada, mostrando as 10 cidades com o maior n√∫mero de reclama√ß√µes registradas no ano de 2025, juntamente com o segmento de mercado mais reclamado em cada uma dessas cidades, a quantidade de reclama√ß√µes para esse segmento, e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada cidade, para identificar quais segmentos est√£o enfrentando mais problemas em cada uma das cidades com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

print(f"\n{'Cidade':<30} | {'UF':<4} | {'Segmento L√≠der':<40} | {'Quantidade':<12} | {'%':<6}")
print("-" * 100)

# Exibir segmento l√≠der por cidade para as 10 cidades com mais reclama√ß√µes, mostrando o segmento de mercado mais reclamado em cada uma dessas cidades, a quantidade de reclama√ß√µes para esse segmento, e o percentual em rela√ß√£o ao total de reclama√ß√µes para cada cidade, para identificar quais segmentos est√£o enfrentando mais problemas em cada uma das cidades com mais reclama√ß√µes antes de prosseguir com an√°lises mais detalhadas.

for cidade in top_cidades:
    df_cidade = df_2025[df_2025['cidade'] == cidade]
    total_cidade = len(df_cidade)
    
    if total_cidade > 0:
        uf = df_cidade['uf'].iloc[0]
        segmento_lider = df_cidade['segmento_de_mercado'].value_counts().head(1)
        
        if len(segmento_lider) > 0:
            segmento = segmento_lider.index[0]
            qtd = segmento_lider.values[0]
            pct = (qtd / total_cidade) * 100
            
            print(f"{str(cidade)[:30]:<30} | {uf:<4} | {str(segmento)[:40]:<40} | {qtd:12,} | {pct:5.1f}%")


13. SEGMENTO L√çDER POR CIDADE (TOP 10)

Cidade                         | UF   | Segmento L√≠der                           | Quantidade   | %     
----------------------------------------------------------------------------------------------------
S√£o Paulo                      | SP   | Bancos, Financeiras e Administradoras de |       80,294 |  36.9%
Rio de Janeiro                 | RJ   | Bancos, Financeiras e Administradoras de |       45,703 |  36.9%
Bras√≠lia                       | DF   | Bancos, Financeiras e Administradoras de |       32,609 |  38.1%
Belo Horizonte                 | MG   | Bancos, Financeiras e Administradoras de |       26,098 |  34.6%
Salvador                       | BA   | Bancos, Financeiras e Administradoras de |       23,716 |  36.6%
Curitiba                       | PR   | Bancos, Financeiras e Administradoras de |       19,542 |  33.1%
Fortaleza                      | CE   | Bancos, Financeiras e Administradoras de |       14,241 |  37.3%
Goi√¢nia      