# PROJETO FINAL: AN√ÅLISE DE RECLAMA√á√ïES FINANCEIRAS - AGIBANK

**Trilha:** Dados - Agibank  
**Data:** Fevereiro 2025  
**Fonte:** Consumidor.gov.br (Senacon/MJSP)

---

## CONTEXTO DO PROJETO

Este projeto analisa **2.5+ milh√µes de reclama√ß√µes** do Consumidor.gov.br (2025), com foco estrat√©gico no **setor financeiro brasileiro**, abrangendo:

- üè¶ **Setor Financeiro Nacional** (bancos, fintechs, cart√µes de cr√©dito)
- üáßüá∑ **Brasil** (panorama geral do mercado financeiro)
- üèôÔ∏è **S√£o Paulo** (principal hub financeiro do pa√≠s)
- üè¢ **Agibank** (an√°lise competitiva e posicionamento)

---

## OBJETIVOS

### An√°lise do Setor Financeiro
1. Mapear principais problemas reportados por consumidores
2. Identificar tend√™ncias e padr√µes de reclama√ß√µes
3. Analisar taxas de resolu√ß√£o e tempo de resposta do setor
4. Comparar performance entre institui√ß√µes financeiras

---

## ESCOPO DAS AN√ÅLISES

### An√°lises Quantitativas
- Volume e distribui√ß√£o temporal de reclama√ß√µes
- Segmenta√ß√£o por tipo de produto financeiro
- M√©tricas de satisfa√ß√£o e resolu√ß√£o
- An√°lise geogr√°fica (foco em S√£o Paulo)

### An√°lises Qualitativas
- Categoriza√ß√£o de problemas recorrentes
- An√°lise de sentimento (quando aplic√°vel)
- Identifica√ß√£o de gargalos operacionais
- Benchmarking competitivo

### Insights Estrat√©gicos
- Oportunidades de melhoria no atendimento
- Produtos/servi√ßos com maior √≠ndice de reclama√ß√µes
- Recomenda√ß√µes para redu√ß√£o de churn
- Sugest√µes de expans√£o baseadas em gaps do mercado

---

## REQUISITOS ATENDIDOS

‚úÖ **A. Higiene dos Dados:** Importa√ß√£o, limpeza e tratamento  
‚úÖ **B. Performance (NumPy):** Vetoriza√ß√£o e classifica√ß√µes complexas  
‚úÖ **C. An√°lise Explorat√≥ria:** GroupBy e m√©tricas estat√≠sticas  
‚úÖ **D. Visualiza√ß√£o:** Gr√°ficos com storytelling  

---

## DADOS

- **Fonte:** Consumidor.gov.br (Senacon/MJSP)
- **Per√≠odo:** 2025
- **Volume Total:** 2.567.095 registros
- **Foco:** Setor Financeiro (bancos, fintechs, cart√µes, seguros)
- **Camadas:** Bronze ‚Üí Silver ‚Üí Gold
- **Granularidade:** Nacional, Regional (SP) e Empresa (Agibank)

In [2]:
# Importa√ß√£o de bibliotecas essenciais para an√°lise de dados, visualiza√ß√£o e manipula√ß√£o de arquivos, garantindo que todas as ferramentas necess√°rias estejam dispon√≠veis para realizar an√°lises secund√°rias de forma eficiente e eficaz.

import sys
from pathlib import Path

# Adicionar pasta raiz ao path (3 n√≠veis acima) --> garantir que os m√≥dulos customizados localizados na pasta 'lib' possam ser importados corretamente, facilitando a organiza√ß√£o do c√≥digo e a reutiliza√ß√£o de fun√ß√µes e classes em diferentes partes do projeto.

sys.path.append('../../..')

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import plotly.express as px        
import plotly.graph_objects as go  
import altair as alt               
from dash import Dash, dcc, html   
import warnings
from datetime import datetime

# Configura√ß√µes do projeto --> garantir que as an√°lises sejam realizadas com base em um ano espec√≠fico, e que os caminhos para salvar os resultados estejam definidos de forma clara e organizada, facilitando a gest√£o dos arquivos gerados durante o processo de an√°lise.

# M√≥dulo de carregamento de dados --> garantir que as bases de dados necess√°rias para as an√°lises secund√°rias sejam carregadas de forma eficiente e consistente, utilizando fun√ß√µes customizadas que facilitam a leitura e manipula√ß√£o dos dados, al√©m de fornecer informa√ß√µes sobre os arquivos dispon√≠veis e a estrutura das bases carregadas.
# Lib --> carregamento de dados, organiza√ß√£o e informa√ß√µes sobre as bases de dados, garantindo que os dados sejam acessados de forma eficiente e estruturada para as an√°lises subsequentes.

from lib.carregamento import (
    carregar_base_silver,
    carregar_base_gold_sp,
    carregar_base_agibank,
    carregar_base_filtrada,
    listar_arquivos_disponiveis,
    info_base
)

from lib.cores import (
    aplicar_tema_agibank,
    configurar_plotly,
    CORES_AGIBANK,
    PALETA_CATEGORICA,
    PALETA_AZUL,
    PALETA_VERDE,
    PLOTLY_COLORS,
    PLOTLY_PALETTE,
    PLOTLY_SCALE_AZUL,
    PLOTLY_SCALE_VERDE
)

from lib.visualizacoes import (
    grafico_barras,
    grafico_linha,
    grafico_pizza,
    grafico_boxplot,
    grafico_heatmap,
    grafico_distribuicao,
    grafico_comparativo_barras
)

print("‚úÖ Todos os m√≥dulos importados com sucesso!")



Tema Agibank aplicado - Tamanho: medio
‚úÖ Todos os m√≥dulos importados com sucesso!


In [3]:
# Ignorar alertas desnecess√°rios
warnings.filterwarnings('ignore')

# Configura√ß√µes de semente aleat√≥ria do NumPy (Reprodutibilidade)
np.random.seed(42)

# Configura√ß√µes de exibi√ß√£o do NumPy
np.set_printoptions(
    precision=2,        # Casas decimais
    suppress=True,      # Evitar nota√ß√£o cient√≠fica (1e-4)
    linewidth=120,      # Largura da linha no console
    edgeitems=5,        # Itens mostrados no in√≠cio/fim de arrays longos
    threshold=1000      # Limite para resumir arrays grandes
)

# Configura√ß√µes de exibi√ß√£o do Pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', '{:.2f}'.format)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

# Integra√ß√£o Pandas-NumPy (Opcional: garante compatibilidade de tipos)
pd.set_option('mode.use_inf_as_na', True)

# Aplicar temas visuais
aplicar_tema_agibank('grande')  # Matplotlib/Seaborn
configurar_plotly()              # Plotly

# Configura√ß√µes do Altair
alt.renderers.enable('default')
alt.data_transformers.disable_max_rows()

# Configura√ß√µes para gr√°ficos inline no Jupyter
try:
    get_ipython().run_line_magic('matplotlib', 'inline')
except:
    pass

# Configura√ß√µes de salvamento de figuras
plt.rcParams['savefig.dpi'] = 300
plt.rcParams['savefig.bbox'] = 'tight'

Tema Agibank aplicado - Tamanho: grande
Tema Agibank aplicado ao Plotly


In [4]:
# Defini√ß√£o de constantes temporais com NumPy
ANO_ANALISE = np.int16(2025)
JANELA_ANOS = np.array([ANO_ANALISE - 1, ANO_ANALISE], dtype=np.int16) # Comparativo YoY
DATAS_REFERENCIA = np.arange(f'{ANO_ANALISE}-01', f'{ANO_ANALISE+1}-01', dtype='datetime64[M]')

# Defini√ß√£o de caminhos do projeto
RAIZ_PROJETO = Path.cwd()
CAMINHO_OUTPUT = RAIZ_PROJETO / 'output'
CAMINHO_OUTPUT.mkdir(exist_ok=True)

# Feedback do ambiente
print(f"‚úÖ Configura√ß√µes iniciais conclu√≠das!")
print(f"Ambiente pronto para an√°lise do setor financeiro em {ANO_ANALISE}")
print(f"Janela de an√°lise definida: {JANELA_ANOS}")
print(f"Horizonte temporal (meses): {len(DATAS_REFERENCIA)} per√≠odos")

‚úÖ Configura√ß√µes iniciais conclu√≠das!
Ambiente pronto para an√°lise do setor financeiro em 2025
Janela de an√°lise definida: [2024 2025]
Horizonte temporal (meses): 12 per√≠odos


In [5]:
# Cabe√ßalho de sucesso
print("\n" + "=" * 80)
print("AMBIENTE CONFIGURADO COM SUCESSO")
print("=" * 80)

# Obter vers√£o do Plotly com tratamento de erro
try:
    plotly_v = plotly.__version__
except:
    plotly_v = "Instalado"

# Estruturar metadados das bibliotecas em um Array NumPy (Matriz de Strings)
info_libs = np.array([
    ['Pandas', pd.__version__],
    ['NumPy', np.__version__],
    ['Matplotlib', plt.matplotlib.__version__],
    ['Seaborn', sns.__version__],
    ['Plotly', plotly_v],
    ['Altair', alt.__version__],
    ['Python', sys.version.split()[0]]
])

print(f"\nVersoes das bibliotecas:")
# Iterar sobre o array NumPy para exibi√ß√£o limpa
for lib, versao in info_libs:
    print(f"  {lib}: {versao}")

print(f"\nConfiguracoes do projeto:")
print(f"  Ano de analise: {ANO_ANALISE}")
print(f"  Pasta de output: {CAMINHO_OUTPUT}")
print(f"  Path atual: {RAIZ_PROJETO}")

# Converter paletas para NumPy para an√°lise de tamanho
paleta_mpl_np = np.array(PALETA_CATEGORICA)
paleta_plotly_np = np.array(PLOTLY_PALETTE)

print(f"\nTema visual:")
print(f"  Tema Agibank aplicado (tamanho: grande)")
# Uso de .size (propriedade NumPy) ao inv√©s de len()
print(f"  Paleta Matplotlib: {paleta_mpl_np.size} cores")
print(f"  Paleta Plotly: {paleta_plotly_np.size} cores")

print("=" * 80)


AMBIENTE CONFIGURADO COM SUCESSO

Versoes das bibliotecas:
  Pandas: 2.3.3
  NumPy: 2.3.5
  Matplotlib: 3.10.7
  Seaborn: 0.13.2
  Plotly: Instalado
  Altair: 6.0.0
  Python: 3.13.5

Configuracoes do projeto:
  Ano de analise: 2025
  Pasta de output: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\silver\notebooks_silver\output
  Path atual: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\silver\notebooks_silver

Tema visual:
  Tema Agibank aplicado (tamanho: grande)
  Paleta Matplotlib: 6 cores
  Paleta Plotly: 6 cores


In [6]:
# Filtrar dados do setor financeiro para o ano de an√°lise, garantindo que as an√°lises subsequentes sejam realizadas com base em um conjunto de dados relevante e espec√≠fico para o per√≠odo de interesse, permitindo a identifica√ß√£o de tend√™ncias sazonais, per√≠odos de maior ou menor atividade e o impacto das reclama√ß√µes no setor financeiro ao longo do ano.

separador = str(np.char.multiply('=', 80))

# Defini√ß√£o das mensagens em um array NumPy para estrutura√ß√£o

mensagens_header = np.array([
    "\n" + separador,
    "AN√ÅLISES DO SETOR FINANCEIRO - BRASIL",
    separador,
    "\nEscopo: An√°lise nacional do setor financeiro",
    "Base: Silver (dados completos do Brasil)",
    f"Ano de refer√™ncia: {ANO_ANALISE}",
    separador
])

# Itera√ß√£o sobre o array para exibi√ß√£o
for linha in mensagens_header:
    print(linha)


AN√ÅLISES DO SETOR FINANCEIRO - BRASIL

Escopo: An√°lise nacional do setor financeiro
Base: Silver (dados completos do Brasil)
Ano de refer√™ncia: 2025


---

## üîç AN√ÅLISES PREPARAT√ìRIAS

### Contexto
Prepara√ß√£o e limpeza dos dados do setor financeiro para an√°lises mais profundas, incluindo:
- Carregamento e filtragem da base Silver
- Extra√ß√£o e vetoriza√ß√£o de dados
- Verifica√ß√£o de integridade e mapeamento de colunas
- Valida√ß√£o de dados e diagn√≥stico de qualidade

### Atividades
1. Carregamento da base completa do Brasil
2. Filtragem para setor financeiro
3. Cria√ß√£o de arrays NumPy otimizados
4. Mapeamento de colunas e verifica√ß√£o de exist√™ncia
5. C√°lculo de valores nulos e percentuais de aus√™ncia
6. Diagn√≥stico de dados filtrados vs mantidos

---

In [7]:
# CARREGAMENTO E FILTRAGEM - BRASIL

# Formata√ß√£o de cabe√ßalho com NumPy
separador = str(np.char.multiply('=', 80))
print("\n" + separador)
print("ETAPA 1: CARREGAMENTO DA BASE SILVER (BRASIL)")
print(separador)

# Carregar base completa --> garantir que a base seja carregada corretamente e que o usu√°rio tenha uma vis√£o clara do conte√∫do da base antes de prosseguir com as an√°lises secund√°rias.
df_brasil = carregar_base_silver()
info_base(df_brasil)

print("\n" + separador)
print("ETAPA 2: FILTRAGEM DO SETOR FINANCEIRO")
print(separador)

# Identificar coluna de segmento --> garantir que a filtragem seja realizada com base na coluna correta, utilizando verifica√ß√£o vetorizada de exist√™ncia de colunas.
colunas_candidatas = np.array(['segmento_mercado', 'grupo_economico', 'area', 'setor', 'ramo_atividade'])
colunas_df = df_brasil.columns.to_numpy()

# Utilizar np.isin para encontrar intersec√ß√£o entre colunas desejadas e existentes
# Retorna as colunas candidatas que de fato existem no DataFrame
matches = colunas_candidatas[np.isin(colunas_candidatas, colunas_df)]

# Selecionar a primeira correspond√™ncia encontrada (prioridade definida pela ordem do array)
coluna_setor = matches[0] if matches.size > 0 else None

if coluna_setor:
    print(f"‚úÖ Coluna de segmento encontrada: {coluna_setor}")
    
    # Mostrar amostra dos segmentos
    print(f"\nTop 15 segmentos na base:")
    print(df_brasil[coluna_setor].value_counts().head(15))
    
    # Defini√ß√£o de palavras-chave em Array NumPy
    palavras_chave = np.array([
        'banco', 'financ', 'cr√©dito', 'cart√£o', 'fintech',
        'investimento', 'seguro', 'cons√≥rcio', 'empr√©stimo',
        'pagamento', 'corretora', 'asset', 'capital',
        'previd√™ncia', 'capitaliza√ß√£o', 'factoring', 'cooperativa'
    ])
    
    # Aplicar filtro utilizando Regex compilado a partir do array NumPy
    # A jun√ß√£o do array √© feita para criar o padr√£o regex 'banco|financ|...'
    padrao_regex = '|'.join(palavras_chave)
    
    # Cria√ß√£o da m√°scara booleana
    mascara = df_brasil[coluna_setor].str.contains(
        padrao_regex,
        case=False,
        na=False
    )
    
    # Filtragem
    df_financeiro_br = df_brasil[mascara].copy()
    
    # C√°lculos estat√≠sticos com NumPy
    qtd_total = df_brasil.shape[0]
    qtd_fin = df_financeiro_br.shape[0]
    percentual = np.round(np.divide(qtd_fin, qtd_total) * 100, 2)
    
    print(f"\n{separador}")
    print("RESULTADO DO FILTRO - SETOR FINANCEIRO BRASIL")
    print(separador)
    print(f"Total de registros Brasil: {qtd_total:,}")
    print(f"Registros setor financeiro: {qtd_fin:,}")
    print(f"Percentual do total: {percentual}%")
    print(separador)

else:
    # Caso nenhuma coluna seja encontrada
    print("\n‚ö†Ô∏è Coluna de segmento n√£o encontrada automaticamente")
    print("Colunas dispon√≠veis:")
    
    # Itera√ß√£o enumerada sobre o array de colunas
    for i, col in enumerate(colunas_df, 1):
        print(f"  {i}. {col}")
        
    # Fallback: mant√©m o dataframe original se n√£o filtrar
    df_financeiro_br = df_brasil.copy()


ETAPA 1: CARREGAMENTO DA BASE SILVER (BRASIL)
Carregando de: c:\Users\caroline.coutinho\projeto_mediacao_bancaria\analises\silver\notebooks_silver\..\..\..\data\silver\consumidor_gov_silver_v1.csv
Base carregada com sucesso!
Registros: 2,567,095
Colunas: 30
INFORMACOES DA BASE

Total de registros: 2,567,095
Total de colunas: 30
Periodo: 2024 a 2025
Memoria utilizada: 4203.42 MB

ETAPA 2: FILTRAGEM DO SETOR FINANCEIRO
‚úÖ Coluna de segmento encontrada: area

Top 15 segmentos na base:
area
Servi√ßos Financeiros                        1537096
Demais Servi√ßos                              215452
Telecomunica√ß√µes                             203578
Transportes                                  123220
√Ågua, Energia, G√°s                           110466
Demais Produtos                              109925
Produtos de Telefonia e Inform√°tica           83726
Produtos Eletrodom√©sticos e Eletr√¥nicos       68062
Sa√∫de                                         46797
Turismo/Viagens             

In [8]:
# 1. PREPARA√á√ÉO DOS DADOS (VETORIZA√á√ÉO)

print(f"Iniciando extra√ß√£o de arrays NumPy para {len(df_financeiro_br)} registros...")

# Extra√ß√£o dos dados para arrays NumPy (Ganho de performance)
# Ao converter agora, evitamos o overhead do Pandas nas pr√≥ximas c√©lulas
anos_array = df_financeiro_br['ano_abertura'].to_numpy(dtype=np.int16) # Otimiza mem√≥ria
datas_array = pd.to_datetime(df_financeiro_br['data_abertura'], errors='coerce').to_numpy()

print("‚úÖ Arrays 'anos_array' e 'datas_array' criados com sucesso.")
print(f"   Mem√≥ria otimizada: Tipo de dado do ano ajustado para {anos_array.dtype}")

Iniciando extra√ß√£o de arrays NumPy para 1537096 registros...
‚úÖ Arrays 'anos_array' e 'datas_array' criados com sucesso.
   Mem√≥ria otimizada: Tipo de dado do ano ajustado para int16


In [9]:
# 2. AN√ÅLISE ESTAT√çSTICA ANUAL

# 1. An√°lise de Distribui√ß√£o por Ano (np.unique √© mais r√°pido que value_counts)
anos_unicos, contagens = np.unique(anos_array, return_counts=True)

# C√°lculo vetorizado de percentuais
total_registros = anos_array.size
percentuais = (contagens / total_registros) * 100

# Cria√ß√£o de DataFrame para apresenta√ß√£o
df_resumo_ano = pd.DataFrame({
    'Ano': anos_unicos,
    'Registros': contagens,
    'Percentual': percentuais
}).set_index('Ano')

print("\nDISTRIBUI√á√ÉO DETALHADA POR ANO:")

# Aplica√ß√£o de estilo visual 
display(
    df_resumo_ano.style
    .format({'Percentual': '{:.2f}%', 'Registros': '{:,}'})
    .background_gradient(cmap='Blues', subset=['Registros'])
    .bar(subset=['Percentual'], color="#23b016", vmin=0, vmax=100)
)


DISTRIBUI√á√ÉO DETALHADA POR ANO:


Unnamed: 0_level_0,Registros,Percentual
Ano,Unnamed: 1_level_1,Unnamed: 2_level_1
2024,54018,3.51%
2025,1483078,96.49%


In [10]:
# 1. DEFINI√á√ÉO E VETORIZA√á√ÉO DO MAPEAMENTO

print("=" * 80)
print("CONFIGURA√á√ÉO DE MAPEAMENTO - BRASIL (ARQUITETURA NUMPY)")
print("=" * 80)

# Dicion√°rio Base
colunas_map = {
    'empresa': 'nome_fantasia',
    'data_abertura': 'data_abertura',
    'data_resposta': 'data_resposta',
    'data_finalizacao': 'data_finalizacao',
    'problema': 'assunto',
    'grupo_problema': 'grupo_problema',
    'problema_detalhado': 'problema',
    'estado': 'uf',
    'cidade': 'cidade',
    'regiao': 'regiao',
    'status': 'situacao',
    'nota': 'nota_do_consumidor',
    'avaliacao': 'avaliacao_reclamacao',
    'tempo_resposta': 'tempo_resposta',
    'segmento': 'segmento_de_mercado',
    'sexo': 'sexo',
    'faixa_etaria': 'faixa_etaria',
    'respondida': 'respondida',
    'procurou_empresa': 'procurou_empresa',
    'is_agibank': 'is_agibank'
}

# Convers√£o para Arrays NumPy (Chaves e Valores separados)
# Isso permite opera√ß√µes de busca muito mais r√°pidas que iterar dicion√°rios
keys_arr = np.array(list(colunas_map.keys()))
cols_target_arr = np.array(list(colunas_map.values()))
cols_existentes_arr = df_financeiro_br.columns.to_numpy()

print(f"‚úÖ Estruturas vetorizadas criadas para {keys_arr.size} campos.")

CONFIGURA√á√ÉO DE MAPEAMENTO - BRASIL (ARQUITETURA NUMPY)
‚úÖ Estruturas vetorizadas criadas para 20 campos.


In [11]:
# 1. Verifica√ß√£o de Exist√™ncia (Opera√ß√£o de Conjunto Vetorizada)
# Retorna array booleano [True, True, False...] indicando se a coluna alvo existe no DF

mask_existencia = np.isin(cols_target_arr, cols_existentes_arr)

# 2. Fun√ß√£o Otimizada para C√°lculo de Nulos
# Definimos uma fun√ß√£o que recebe o NOME da coluna e retorna a qtd de nulos

def calc_nulos(col_name):
    if col_name in df_financeiro_br.columns:
        # Usa values (numpy array subjacente) para contar nulos rapidamente
        return pd.isnull(df_financeiro_br[col_name].values).sum()
    return -1 # C√≥digo para 'coluna n√£o encontrada'

# Vetorizamos a fun√ß√£o para aplicar no array de nomes de colunas

v_calc_nulos = np.vectorize(calc_nulos)

# 3. Execu√ß√£o dos C√°lculos

total_linhas = len(df_financeiro_br)
qtd_nulos_arr = v_calc_nulos(cols_target_arr)

# C√°lculo de percentuais (onde a coluna existe)
# np.where evita divis√£o por zero ou c√°lculos em colunas inexistentes

pct_nulos_arr = np.where(
    mask_existencia, 
    (qtd_nulos_arr / total_linhas) * 100, 
    100.0 # Se n√£o existe, consideramos 100% ausente
)

# 4. Montagem do Relat√≥rio Visual
# Usamos np.column_stack para juntar os arrays em uma matriz de dados

status_icones = np.where(mask_existencia, '‚úÖ', '‚ùå')

df_relatorio_numpy = pd.DataFrame({
    'Status': status_icones,
    'Chave Interna': keys_arr,
    'Coluna Alvo': cols_target_arr,
    'Qtd Nulos': np.where(qtd_nulos_arr == -1, total_linhas, qtd_nulos_arr),
    '% Aus√™ncia': pct_nulos_arr
})

print("\nRELAT√ìRIO DE INTEGRIDADE (PROCESSAMENTO VETORIZADO):")
display(
    df_relatorio_numpy.style
    .format({'% Aus√™ncia': '{:.1f}%', 'Qtd Nulos': '{:,}'})
    .background_gradient(cmap='RdYlGn_r', subset=['% Aus√™ncia'])
)


RELAT√ìRIO DE INTEGRIDADE (PROCESSAMENTO VETORIZADO):


Unnamed: 0,Status,Chave Interna,Coluna Alvo,Qtd Nulos,% Aus√™ncia
0,‚úÖ,empresa,nome_fantasia,0,0.0%
1,‚úÖ,data_abertura,data_abertura,0,0.0%
2,‚úÖ,data_resposta,data_resposta,174677,11.4%
3,‚úÖ,data_finalizacao,data_finalizacao,0,0.0%
4,‚úÖ,problema,assunto,0,0.0%
5,‚úÖ,grupo_problema,grupo_problema,0,0.0%
6,‚úÖ,problema_detalhado,problema,0,0.0%
7,‚úÖ,estado,uf,0,0.0%
8,‚úÖ,cidade,cidade,0,0.0%
9,‚úÖ,regiao,regiao,0,0.0%


In [12]:
# ESTAT√çSTICAS DESCRITIVAS

print("\n" + "=" * 80)
print("AN√ÅLISE: NOTA DO CONSUMIDOR NO SETOR FINANCEIRO - BRASIL")
print("=" * 80)

# Extra√ß√£o para Array NumPy (Garante performance m√°xima)
# Mantemos NaN para contagem correta de nulos
arr_notas_bruto = df_financeiro_br[COL_NOTA_BR].to_numpy(dtype=float)

# Filtragem apenas para c√°lculos (equivalente ao .dropna() mas em array)
# A m√°scara ~np.isnan cria um filtro booleano instant√¢neo
mask_validos = ~np.isnan(arr_notas_bruto)
arr_notas_validas = arr_notas_bruto[mask_validos]

# M√©tricas de Volumetria
total_registros = arr_notas_bruto.size
qtd_validos = arr_notas_validas.size
qtd_nulos = total_registros - qtd_validos
taxa_resposta = (qtd_validos / total_registros) * 100

print(f"\nESTAT√çSTICAS GERAIS")
print("-" * 80)
print(f"Total de reclama√ß√µes: {total_registros:,}")
print(f"Reclama√ß√µes com nota: {qtd_validos:,}")
print(f"Reclama√ß√µes sem nota: {qtd_nulos:,}")
print(f"Taxa de avalia√ß√£o:    {taxa_resposta:.1f}%")

if qtd_validos > 0:
    # C√°lculos Estat√≠sticos Vetorizados (Ignorando NaNs)
    media = np.nanmean(arr_notas)
    mediana = np.nanmedian(arr_notas)
    desvio_padrao = np.nanstd(arr_notas)
    minimo = np.nanmin(arr_notas)
    maximo = np.nanmax(arr_notas)
    
    # Cria√ß√£o de DataFrame para exibi√ß√£o elegante
    df_stats = pd.DataFrame({
        'M√©trica': ['M√©dia', 'Mediana', 'Desvio Padr√£o', 'M√≠nimo', 'M√°ximo'],
        'Valor': [media, mediana, desvio_padrao, minimo, maximo]
    })
    
    print(f"\nM√âTRICAS DE TEND√äNCIA CENTRAL E DISPERS√ÉO:")
    display(
        df_stats.style
        .format({'Valor': '{:.2f}'})
        .background_gradient(cmap='Blues', subset=['Valor'])
    )


AN√ÅLISE: NOTA DO CONSUMIDOR NO SETOR FINANCEIRO - BRASIL


NameError: name 'COL_NOTA_BR' is not defined

---

## ‚≠ê AN√ÅLISES DE SATISFA√á√ÉO E AVALIA√á√ÉO

### Contexto
An√°lise das notas de satisfa√ß√£o dos consumidores no setor financeiro, incluindo:
- Estat√≠sticas descritivas (m√©dia, mediana, desvio padr√£o)
- Distribui√ß√£o das notas (1-5)
- Classifica√ß√£o de satisfa√ß√£o (insatisfeitos, neutros, satisfeitos)
- C√°lculo do Net Promoter Score (NPS)

### Perguntas Respondidas
1. Qual √© a nota m√©dia de satisfa√ß√£o do setor?
2. Como se distribui a satisfa√ß√£o dos consumidores?
3. Qual √© o NPS (Net Promoter Score)?
4. Qual percentual est√° satisfeito, neutro ou insatisfeito?
5. Qual √© a taxa de avalia√ß√£o das reclama√ß√µes?

---

In [None]:
# DISTRIBUI√á√ÉO DAS NOTAS

if qtd_validos > 0:
    print(f"\nDISTRIBUI√á√ÉO DAS NOTAS")
    print("-" * 80)
    
    # np.unique substitui value_counts() com mais performance
    notas_unicas, contagens = np.unique(arr_notas_validas, return_counts=True)
    
    # C√°lculos vetorizados de percentual (opera√ß√£o em array inteiro)
    pct_avaliadas = (contagens / qtd_validos) * 100
    
    # Gera√ß√£o visual das barras sem loop for complexo
    # Iteramos apenas para o print final
    for nota, count, pct in zip(notas_unicas, contagens, pct_avaliadas):
        barra = "‚ñà" * int(pct / 2) # Divis√£o inteira simples
        print(f"Nota {int(nota)}: {count:8,} ({pct:5.1f}%) {barra}")


DISTRIBUI√á√ÉO DAS NOTAS
--------------------------------------------------------------------------------
Nota 1:  207,357 ( 56.3%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Nota 2:   21,678 (  5.9%) ‚ñà‚ñà
Nota 3:   34,835 (  9.5%) ‚ñà‚ñà‚ñà‚ñà
Nota 4:   26,143 (  7.1%) ‚ñà‚ñà‚ñà
Nota 5:   78,294 ( 21.3%) ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà


In [None]:
# CLASSIFICA√á√ÉO E NPS


if qtd_validos > 0:
    print(f"\nCLASSIFICA√á√ÉO DE SATISFA√á√ÉO")
    print("-" * 80)
    
    # M√°scaras booleanas NumPy (True/False)
    mask_insatisfeitos = (arr_notas_validas <= 2)
    mask_neutros       = (arr_notas_validas == 3)
    mask_satisfeitos   = (arr_notas_validas >= 4)
    
    # Contagem r√°pida somando os Trues
    qtd_insatisfeitos = np.sum(mask_insatisfeitos)
    qtd_neutros       = np.sum(mask_neutros)
    qtd_satisfeitos   = np.sum(mask_satisfeitos)
    
    # C√°lculo percentual
    pct_insatisfeitos = (qtd_insatisfeitos / qtd_validos) * 100
    pct_neutros       = (qtd_neutros / qtd_validos) * 100
    pct_satisfeitos   = (qtd_satisfeitos / qtd_validos) * 100
    
    print(f"üòû Insatisfeitos (nota 1-2): {qtd_insatisfeitos:,} ({pct_insatisfeitos:.1f}%)")
    print(f"üòê Neutros (nota 3):        {qtd_neutros:,} ({pct_neutros:.1f}%)")
    print(f"üòä Satisfeitos (nota 4-5):  {qtd_satisfeitos:,} ({pct_satisfeitos:.1f}%)")
    
    # --- C√ÅLCULO DO NPS ---
    print(f"\nNET PROMOTER SCORE (NPS)")
    print("-" * 80)
    
    # Filtros espec√≠ficos do NPS (Nota 5 vs Notas 1-2)
    qtd_promotores_nps = np.sum(arr_notas_validas == 5)
    qtd_detratores_nps = np.sum(arr_notas_validas <= 2) # Detratores
    
    # F√≥rmula vetorizada: (Promotores - Detratores) / Total * 100
    nps = ((qtd_promotores_nps - qtd_detratores_nps) / qtd_validos) * 100
    
    print(f"Promotores (nota 5):   {qtd_promotores_nps:,} ({(qtd_promotores_nps/qtd_validos)*100:.1f}%)")
    print(f"Detratores (nota 1-2): {qtd_detratores_nps:,} ({(qtd_detratores_nps/qtd_validos)*100:.1f}%)")
    print(f"NPS: {nps:.1f}")
    
    # Classifica√ß√£o condicional usando np.select (substitui if/elif/else)
    condicoes = [nps >= 75, nps >= 50, nps >= 0]
    opcoes    = ["Excelente", "Muito Bom", "Razo√°vel"]
    
    # Se nenhuma condi√ß√£o for atendida, usa o default 'Cr√≠tico'
    # .item() extrai o valor escalar do array de 0 dimens√£o resultante
    classificacao = np.select(condicoes, opcoes, default="Cr√≠tico").item()
    
    print(f"Classifica√ß√£o: {classificacao}")

print("-" * 80)


CLASSIFICA√á√ÉO DE SATISFA√á√ÉO
--------------------------------------------------------------------------------
üòû Insatisfeitos (nota 1-2): 229,035 (62.2%)
üòê Neutros (nota 3):        34,835 (9.5%)
üòä Satisfeitos (nota 4-5):  104,437 (28.4%)

NET PROMOTER SCORE (NPS)
--------------------------------------------------------------------------------
Promotores (nota 5):   78,294 (21.3%)
Detratores (nota 1-2): 229,035 (62.2%)
NPS: -40.9
Classifica√ß√£o: Cr√≠tico
--------------------------------------------------------------------------------


In [None]:
print("="*80)
print("DIAGN√ìSTICO: VERIFICANDO SE ESTAMOS PERDENDO DADOS")
print("="*80)

# 1. Total de registros
print(f"\n1. TOTAL DE REGISTROS")
print(f"   DataFrame completo: {len(df):,}")

# 2. Verificar filtros aplicados
print(f"\n2. VERIFICANDO FILTROS")
print(f"   Registros df_financeiro_br: {len(df_financeiro_br):,}")
print(f"   Diferen√ßa: {len(df) - len(df_financeiro_br):,}")

# 3. Notas por dataset
print(f"\n3. COMPARA√á√ÉO DE NOTAS")
print(f"   Notas no df original: {df['nota_do_consumidor'].notna().sum():,}")
print(f"   Notas no df_financeiro_br: {df_financeiro_br['nota_do_consumidor'].notna().sum():,}")

# 4. Verificar se a vari√°vel COL_NOTA_BR est√° correta
print(f"\n4. VERIFICANDO VARI√ÅVEL")
print(f"   COL_NOTA_BR = '{COL_NOTA_BR}'")
print(f"   Existe no df? {COL_NOTA_BR in df.columns}")
print(f"   Existe no df_financeiro_br? {COL_NOTA_BR in df_financeiro_br.columns}")

# 5. Distribui√ß√£o completa
print(f"\n5. DISTRIBUI√á√ÉO COMPLETA DE NOTAS (df original)")
print(df['nota_do_consumidor'].value_counts(dropna=False).sort_index())

print(f"\n6. DISTRIBUI√á√ÉO COMPLETA DE NOTAS (df_financeiro_br)")
print(df_financeiro_br['nota_do_consumidor'].value_counts(dropna=False).sort_index())

DIAGN√ìSTICO: VERIFICANDO SE ESTAMOS PERDENDO DADOS

1. TOTAL DE REGISTROS
   DataFrame completo: 2,567,095

2. VERIFICANDO FILTROS
   Registros df_financeiro_br: 1,537,096
   Diferen√ßa: 1,029,999

3. COMPARA√á√ÉO DE NOTAS
   Notas no df original: 765,889
   Notas no df_financeiro_br: 368,307

4. VERIFICANDO VARI√ÅVEL
   COL_NOTA_BR = 'nota_do_consumidor'
   Existe no df? True
   Existe no df_financeiro_br? True

5. DISTRIBUI√á√ÉO COMPLETA DE NOTAS (df original)
nota_do_consumidor
1.00     384924
2.00      38690
3.00      64959
4.00      59430
5.00     217886
NaN     1801206
Name: count, dtype: int64

6. DISTRIBUI√á√ÉO COMPLETA DE NOTAS (df_financeiro_br)
nota_do_consumidor
1.00     207357
2.00      21678
3.00      34835
4.00      26143
5.00      78294
NaN     1168789
Name: count, dtype: int64


In [None]:
# 1. IDENTIFICA√á√ÉO DE REGISTROS FILTRADOS

print("="*80)
print("DIAGN√ìSTICO DO FILTRO: O QUE FOI REMOVIDO?")
print("="*80)

# Define o DataFrame de origem (df_brasil se existir, sen√£o df)
df_origem = df_brasil if 'df_brasil' in locals() else df

# Tenta recuperar o nome da coluna de setor usada anteriormente
# Se 'coluna_setor' n√£o estiver definida, tentamos adivinhar entre as comuns
if 'coluna_setor' not in locals() or coluna_setor is None:
    possiveis_colunas = ['segmento_mercado', 'segmento_de_mercado', 'grupo_economico', 'area']
    col_encontrada = next((c for c in possiveis_colunas if c in df_origem.columns), None)
    nome_col_setor = col_encontrada
else:
    nome_col_setor = coluna_setor

print(f"‚ÑπÔ∏è Usando coluna de setor: '{nome_col_setor}'")

if nome_col_setor:
    # Extra√ß√£o de arrays para performance (com tratamento de erro se coluna n√£o existir)
    arr_segmentos_total = df_origem[nome_col_setor].to_numpy().astype(str)
    
    # Verifica se 'nome_fantasia' existe, sen√£o usa a primeira coluna de texto dispon√≠vel
    col_empresa = 'nome_fantasia' if 'nome_fantasia' in df_origem.columns else df_origem.columns[0]
    arr_empresas_total = df_origem[col_empresa].to_numpy().astype(str)
    
    # Verifica coluna de nota
    col_nota = 'nota_do_consumidor' if 'nota_do_consumidor' in df_origem.columns else None
    if col_nota:
        arr_notas_total = df_origem[col_nota].to_numpy(dtype=float)
    else:
        arr_notas_total = np.full(len(df_origem), np.nan) # Array vazio se n√£o tiver nota

    # Recriando a l√≥gica de filtro
    palavras_chave_arr = np.array([
        'banco', 'financ', 'cr√©dito', 'cart√£o', 'fintech',
        'investimento', 'seguro', 'cons√≥rcio', 'empr√©stimo',
        'pagamento', 'corretora', 'asset', 'capital',
        'previd√™ncia', 'capitaliza√ß√£o', 'factoring', 'cooperativa'
    ])
    regex_pat = '|'.join(palavras_chave_arr)

    # M√°scara de quem √â financeiro
    mask_financeiro = df_origem[nome_col_setor].str.contains(regex_pat, case=False, na=False).to_numpy()
    mask_filtrados = ~mask_financeiro # Inverte: Quem N√ÉO √© financeiro

    # Contagens
    qtd_total = mask_filtrados.size
    qtd_filtrados = np.sum(mask_filtrados)
    qtd_mantidos = np.sum(mask_financeiro)

    print(f"\nRESUMO DA OPERA√á√ÉO:")
    print(f"‚Ä¢ Total Original:      {qtd_total:,}")
    print(f"‚Ä¢ Registros Mantidos:  {qtd_mantidos:,} (Setor Financeiro)")
    print(f"‚Ä¢ Registros Filtrados: {qtd_filtrados:,} (Outros Setores)")
    print(f"‚Ä¢ Taxa de Reten√ß√£o:    {(qtd_mantidos/qtd_total)*100:.1f}%")

else:
    print("‚ùå Erro: N√£o foi poss√≠vel identificar a coluna de segmento no DataFrame original.")

DIAGN√ìSTICO DO FILTRO: O QUE FOI REMOVIDO?
‚ÑπÔ∏è Usando coluna de setor: 'area'

RESUMO DA OPERA√á√ÉO:
‚Ä¢ Total Original:      2,567,095
‚Ä¢ Registros Mantidos:  1,537,096 (Setor Financeiro)
‚Ä¢ Registros Filtrados: 1,029,999 (Outros Setores)
‚Ä¢ Taxa de Reten√ß√£o:    59.9%


In [None]:
# CARACTER√çSTICAS DOS DESCARTADOS

if 'mask_filtrados' in locals() and np.sum(mask_filtrados) > 0:
    print("\n" + "="*80)
    print("AN√ÅLISE DOS DADOS DESCARTADOS")
    print("="*80)

    # Fun√ß√£o auxiliar para Top N usando NumPy
    def top_n_numpy(array_dados, n=10):
        unicos, contagens = np.unique(array_dados, return_counts=True)
        indices_top = np.argsort(contagens)[-n:][::-1]
        return unicos[indices_top], contagens[indices_top]

    # 1. An√°lise por Segmento
    segmentos_filtrados = arr_segmentos_total[mask_filtrados]
    top_seg, count_seg = top_n_numpy(segmentos_filtrados, n=10)

    print("\n1. PRINCIPAIS SEGMENTOS DESCARTADOS:")
    df_top_seg = pd.DataFrame({'Segmento': top_seg, 'Qtd': count_seg})
    display(df_top_seg.style.bar(subset=['Qtd'], color="#131a9c"))

    # 2. An√°lise por Empresa
    empresas_filtradas = arr_empresas_total[mask_filtrados]
    top_emp, count_emp = top_n_numpy(empresas_filtradas, n=10)

    print("\n2. PRINCIPAIS EMPRESAS DESCARTADAS:")
    df_top_emp = pd.DataFrame({'Empresa': top_emp, 'Qtd': count_emp})
    display(df_top_emp.style.bar(subset=['Qtd'], color='#131a9c'))


AN√ÅLISE DOS DADOS DESCARTADOS

1. PRINCIPAIS SEGMENTOS DESCARTADOS:


Unnamed: 0,Segmento,Qtd
0,Demais Servi√ßos,215452
1,Telecomunica√ß√µes,203578
2,Transportes,123220
3,"√Ågua, Energia, G√°s",110466
4,Demais Produtos,109925
5,Produtos de Telefonia e Inform√°tica,83726
6,Produtos Eletrodom√©sticos e Eletr√¥nicos,68062
7,Sa√∫de,46797
8,Turismo/Viagens,26236
9,Educa√ß√£o,21615



2. PRINCIPAIS EMPRESAS DESCARTADAS:


Unnamed: 0,Empresa,Qtd
0,Vivo - Telef√¥nica,73775
1,Tim,44758
2,Claro Celular,44554
3,Facebook / Instagram,43402
4,Google,41904
5,Azul Linhas A√©reas,38865
6,Claro Residencial,34211
7,Mercado Livre,32555
8,Latam Airlines (Tam),30159
9,Samsung,19928


In [None]:
print("="*80)
print("COMPARA√á√ÉO: MANTIDOS vs FILTRADOS")
print("="*80)

comparacao = pd.DataFrame({
    'Mantidos': [
        len(df[~df['foi_filtrado']]),
        df[~df['foi_filtrado']]['nota_do_consumidor'].notna().sum(),
        df[~df['foi_filtrado']]['nota_do_consumidor'].mean()
    ],
    'Filtrados': [
        len(df[df['foi_filtrado']]),
        df[df['foi_filtrado']]['nota_do_consumidor'].notna().sum(),
        df[df['foi_filtrado']]['nota_do_consumidor'].mean()
    ]
}, index=['Total Registros', 'Com Nota', 'Nota M√©dia'])

print(comparacao)

# Diferen√ßa de nota m√©dia
nota_mantidos = df[~df['foi_filtrado']]['nota_do_consumidor'].mean()
nota_filtrados = df[df['foi_filtrado']]['nota_do_consumidor'].mean()
print(f"\n‚ö†Ô∏è Diferen√ßa na nota m√©dia: {nota_filtrados - nota_mantidos:+.2f}")

COMPARA√á√ÉO: MANTIDOS vs FILTRADOS
                  Mantidos  Filtrados
Total Registros 1537096.00 1029999.00
Com Nota         368307.00  397582.00
Nota M√©dia            2.31       2.85

‚ö†Ô∏è Diferen√ßa na nota m√©dia: +0.54


In [None]:
print("="*80)
print("SETOR FINANCEIRO - ESTAT√çSTICAS DE RECLAMA√á√ïES E NOTAS")
print("="*80)

# Total de reclama√ß√µes
total_reclamacoes = len(df_financeiro_br)

# Reclama√ß√µes com nota
com_nota = df_financeiro_br['nota_do_consumidor'].notna().sum()

# Reclama√ß√µes sem nota
sem_nota = df_financeiro_br['nota_do_consumidor'].isna().sum()

# Taxa de avalia√ß√£o
taxa_avaliacao = (com_nota / total_reclamacoes * 100)

print(f"""
RESUMO GERAL:
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Total de Reclama√ß√µes:           {total_reclamacoes:>12,}  (100.0%)

‚úÖ Reclama√ß√µes COM Nota:           {com_nota:>12,}  ({com_nota/total_reclamacoes*100:>5.1f}%)
‚ùå Reclama√ß√µes SEM Nota:           {sem_nota:>12,}  ({sem_nota/total_reclamacoes*100:>5.1f}%)

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Taxa de Avalia√ß√£o: {taxa_avaliacao:.1f}%

""")

# Visualiza√ß√£o gr√°fica simples
print("REPRESENTA√á√ÉO VISUAL:")
print("‚îÅ" * 80)

barra_com_nota = "‚ñà" * int(taxa_avaliacao / 2)
barra_sem_nota = "‚ñë" * int((100 - taxa_avaliacao) / 2)

print(f"COM Nota ({taxa_avaliacao:.1f}%): {barra_com_nota}")
print(f"SEM Nota ({100-taxa_avaliacao:.1f}%): {barra_sem_nota}")

print("‚îÅ" * 80)

# Detalhamento das notas
print("\n" + "="*80)
print("DISTRIBUI√á√ÉO DAS NOTAS (apenas reclama√ß√µes avaliadas)")
print("="*80)

distribuicao = df_financeiro_br['nota_do_consumidor'].value_counts().sort_index()

print(f"\n{'Nota':<10} {'Quantidade':>15} {'% do Total':>15} {'% das Avaliadas':>20}")
print("‚îÅ" * 80)

for nota, qtd in distribuicao.items():
    pct_total = (qtd / total_reclamacoes * 100)
    pct_avaliadas = (qtd / com_nota * 100)
    barra = "‚ñà" * int(pct_avaliadas / 2)
    print(f"{int(nota):<10} {qtd:>15,} {pct_total:>14.1f}% {pct_avaliadas:>19.1f}% {barra}")

print("‚îÅ" * 80)
print(f"{'TOTAL':<10} {com_nota:>15,} {com_nota/total_reclamacoes*100:>14.1f}% {'100.0%':>20}")

SETOR FINANCEIRO - ESTAT√çSTICAS DE RECLAMA√á√ïES E NOTAS

RESUMO GERAL:
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Total de Reclama√ß√µes:              1,537,096  (100.0%)

‚úÖ Reclama√ß√µes COM Nota:                368,307  ( 24.0%)
‚ùå Reclama√ß√µes SEM Nota:              1,168,789  ( 76.0%)

‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ

Taxa de Avalia√ß√£o: 24.0%


REPRESENTA√á√ÉO VISUAL:
‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ
COM Nota (24.0%): ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà


In [None]:
# Classifica√ß√£o de satisfa√ß√£o, considerando notas 1-2 como insatisfeitos, nota 3 como neutros e notas 4-5 como satisfeitos, para fornecer uma vis√£o geral do n√≠vel de satisfa√ß√£o dos consumidores com base nas avalia√ß√µes fornecidas.

print("="*80)
print("5. AN√ÅLISE TEMPORAL - SETOR FINANCEIRO 2025")
print("="*80)

# Converter datas para datetime--> garantir que as colunas de data sejam convertidas corretamente para o formato datetime, permitindo a cria√ß√£o de vari√°veis temporais e a realiza√ß√£o de an√°lises baseadas em tempo, como tend√™ncias ao longo dos meses, sazonalidade e per√≠odos de maior ou menor atividade.

df_financeiro_br['dt_abertura'] = pd.to_datetime(df_financeiro_br[COL_DATA_BR], errors='coerce')
df_financeiro_br['dt_resposta'] = pd.to_datetime(df_financeiro_br[COL_DATA_RESP_BR], errors='coerce')
df_financeiro_br['dt_finalizacao'] = pd.to_datetime(df_financeiro_br[COL_DATA_FIM_BR], errors='coerce')

# Criar vari√°veis temporais --> garantir que as vari√°veis temporais sejam criadas de forma consistente e que forne√ßam insights valiosos para as an√°lises subsequentes, permitindo a segmenta√ß√£o dos dados por diferentes per√≠odos de tempo e facilitando a identifica√ß√£o de padr√µes sazonais ou tend√™ncias ao longo do tempo.

df_financeiro_br['ano'] = df_financeiro_br['dt_abertura'].dt.year
df_financeiro_br['mes'] = df_financeiro_br['dt_abertura'].dt.month
df_financeiro_br['mes_nome'] = df_financeiro_br['dt_abertura'].dt.strftime('%b')
df_financeiro_br['ano_mes'] = df_financeiro_br['dt_abertura'].dt.to_period('M')
df_financeiro_br['trimestre'] = df_financeiro_br['dt_abertura'].dt.quarter
df_financeiro_br['semestre'] = df_financeiro_br['dt_abertura'].dt.month.apply(lambda x: 1 if x <= 6 else 2)
df_financeiro_br['dia_semana'] = df_financeiro_br['dt_abertura'].dt.dayofweek
df_financeiro_br['dia_semana_nome'] = df_financeiro_br['dt_abertura'].dt.strftime('%A')

# Exibir resumo das vari√°veis temporais criadas para verificar se est√£o corretas e fornecer uma vis√£o geral dos dados temporais dispon√≠veis para an√°lise, permitindo a identifica√ß√£o de padr√µes sazonais, tend√™ncias ao longo do tempo e per√≠odos de maior ou menor atividade no setor financeiro.

print("\n‚úÖ Vari√°veis temporais criadas:")
print("   - ano, mes, mes_nome")
print("   - ano_mes, trimestre, semestre")
print("   - dia_semana, dia_semana_nome")

# Per√≠odo da an√°lise, verificando a data m√≠nima e m√°xima de abertura das reclama√ß√µes para entender o intervalo de tempo coberto pelos dados do setor financeiro, e para garantir que as an√°lises subsequentes sejam realizadas com base em um per√≠odo de tempo relevante e consistente.

data_min = df_financeiro_br['dt_abertura'].min()
data_max = df_financeiro_br['dt_abertura'].max()

# Exibir per√≠odo da an√°lise para fornecer contexto sobre o intervalo de tempo coberto pelos dados do setor financeiro, permitindo a identifica√ß√£o de tend√™ncias sazonais, per√≠odos de maior ou menor atividade e garantindo que as an√°lises sejam realizadas com base em um per√≠odo de tempo relevante e consistente.

print(f"\nPER√çODO DA AN√ÅLISE:")
print(f"   Data inicial: {data_min.strftime('%d/%m/%Y')}")
print(f"   Data final: {data_max.strftime('%d/%m/%Y')}")
print(f"   Total de dias: {(data_max - data_min).days}")
print(f"   Total de meses: {len(df_financeiro_br['ano_mes'].unique())}")

print("\n" + "="*80)

5. AN√ÅLISE TEMPORAL - SETOR FINANCEIRO 2025

‚úÖ Vari√°veis temporais criadas:
   - ano, mes, mes_nome
   - ano_mes, trimestre, semestre
   - dia_semana, dia_semana_nome

PER√çODO DA AN√ÅLISE:
   Data inicial: 01/11/2024
   Data final: 31/12/2025
   Total de dias: 425
   Total de meses: 14



---

## üìÖ AN√ÅLISES TEMPORAIS

### Contexto
An√°lise de padr√µes temporais das reclama√ß√µes do setor financeiro em 2025, incluindo:
- Distribui√ß√£o ao longo dos meses
- Identifica√ß√£o de sazonalidade
- An√°lise de cobertura de dados
- Evolu√ß√£o mensal de volume e taxa de avalia√ß√£o

### Perguntas Respondidas
1. Como as reclama√ß√µes se distribuem ao longo de 2025?
2. Qual √© o padr√£o mensal de evolu√ß√£o?
3. H√° meses completos vs parciais?
4. At√© quando os dados foram coletados em Dezembro?
5. Qual √© a taxa de avalia√ß√£o por m√™s?

---

In [None]:
print("="*80)
print("5. AN√ÅLISE TEMPORAL - VIS√ÉO GERAL (2025)")
print("="*80)

# Preparar dados temporais
df_financeiro_br['ano_mes'] = pd.to_datetime(df_financeiro_br[COL_DATA_BR], errors='coerce').dt.to_period('M')

# Evolu√ß√£o mensal
evolucao_mensal = df_financeiro_br.groupby('ano_mes').agg(
    total_reclamacoes=(COL_NOTA_BR, 'count'),
    com_nota=(COL_NOTA_BR, lambda x: x.notna().sum()),
    taxa_avaliacao=(COL_NOTA_BR, lambda x: x.notna().sum() / len(x) * 100 if len(x) > 0 else 0)
).round(2)

print("\n5.1 VOLUME DE RECLAMA√á√ïES POR M√äS")
print("-"*80)
print(evolucao_mensal)


5. AN√ÅLISE TEMPORAL - VIS√ÉO GERAL (2025)

5.1 VOLUME DE RECLAMA√á√ïES POR M√äS
--------------------------------------------------------------------------------
         total_reclamacoes  com_nota  taxa_avaliacao
ano_mes                                             
2024-11                102       102           14.09
2024-12               7314      7314           13.72
2025-01              25209     25209           25.40
2025-02              20326     20326           25.04
2025-03              20798     20798           21.70
2025-04              25510     25510           25.38
2025-05              28738     28738           24.86
2025-06              31653     31653           25.58
2025-07              35741     35741           26.09
2025-08              42014     42014           24.23
2025-09              41991     41991           25.55
2025-10              38749     38749           22.37
2025-11              34829     34829           18.17
2025-12              15333     15333       

In [None]:
# Estat√≠sticas b√°sicas
print("\n" + "-"*80)
print("RESUMO DO PER√çODO:")
print("-"*80)
print(f"Total de reclama√ß√µes no ano: {evolucao_mensal['total_reclamacoes'].sum():,.0f}")
print(f"M√©dia mensal: {evolucao_mensal['total_reclamacoes'].mean():,.0f}")
print(f"M√™s com mais reclama√ß√µes: {evolucao_mensal['total_reclamacoes'].idxmax()} ({evolucao_mensal['total_reclamacoes'].max():,.0f})")
print(f"M√™s com menos reclama√ß√µes: {evolucao_mensal['total_reclamacoes'].idxmin()} ({evolucao_mensal['total_reclamacoes'].min():,.0f})")

# Crescimento
crescimento_total = ((evolucao_mensal['total_reclamacoes'].iloc[-1] / evolucao_mensal['total_reclamacoes'].iloc[0] - 1) * 100)
print(f"\nCrescimento total (Jan a Dez): {crescimento_total:+.1f}%")

print("\n" + "="*80)


--------------------------------------------------------------------------------
RESUMO DO PER√çODO:
--------------------------------------------------------------------------------
Total de reclama√ß√µes no ano: 368,307
M√©dia mensal: 26,308
M√™s com mais reclama√ß√µes: 2025-08 (42,014)
M√™s com menos reclama√ß√µes: 2024-11 (102)

Crescimento total (Jan a Dez): +14932.4%



In [None]:
# 1. C√ÅLCULO DE EVOLU√á√ÉO TEMPORAL

print("="*80)
print("5. AN√ÅLISE TEMPORAL - VIS√ÉO GERAL (PROCESSAMENTO VETORIZADO)")
print("="*80)

# 1. Extra√ß√£o e Tratamento de Datas (Vetorizado)
# Convertemos para datetime64[M] (precis√£o mensal) diretamente
arr_datas = pd.to_datetime(df_financeiro_br[COL_DATA_BR], errors='coerce').to_numpy().astype('datetime64[M]')

# 2. Extra√ß√£o de Notas para verifica√ß√£o de Nulos
arr_notas = df_financeiro_br[COL_NOTA_BR].to_numpy(dtype=float)

# 3. Agrupamento e Contagem (Substitui groupby().count())
# np.unique retorna os meses √∫nicos e a contagem total por m√™s
meses_unicos, total_por_mes = np.unique(arr_datas[~np.isnat(arr_datas)], return_counts=True)

# 4. C√°lculo de "Com Nota" e "Sem Nota" por m√™s
# Como np.unique n√£o faz agrega√ß√£o m√∫ltipla direta, usamos um truque de indexa√ß√£o r√°pida:
# Criamos um array de √≠ndices para iterar apenas sobre os meses √∫nicos (muito r√°pido)
com_nota_por_mes = []
sem_nota_por_mes = []

for mes in meses_unicos:
    # M√°scara para o m√™s atual
    mask_mes = (arr_datas == mes)
    
    # Recorte das notas desse m√™s
    notas_mes = arr_notas[mask_mes]
    
    # Contagem r√°pida usando np.isnan
    nulos = np.isnan(notas_mes).sum()
    validos = notas_mes.size - nulos
    
    com_nota_por_mes.append(validos)
    sem_nota_por_mes.append(nulos)

# Convers√£o para arrays NumPy para c√°lculos finais
arr_com_nota = np.array(com_nota_por_mes)
arr_sem_nota = np.array(sem_nota_por_mes)

# 5. C√°lculo Vetorizado da Taxa
# Evita divis√£o por zero usando np.where
arr_taxa = np.divide(
    arr_com_nota, 
    total_por_mes, 
    out=np.zeros_like(arr_com_nota, dtype=float), 
    where=total_por_mes!=0
) * 100

print(f"‚úÖ Processamento conclu√≠do para {len(meses_unicos)} per√≠odos mensais.")

5. AN√ÅLISE TEMPORAL - VIS√ÉO GERAL (PROCESSAMENTO VETORIZADO)
‚úÖ Processamento conclu√≠do para 14 per√≠odos mensais.


In [None]:
# 2. FILTRAGEM E VISUALIZA√á√ÉO (APENAS 2025)

print("\n5.1 VOLUME DE RECLAMA√á√ïES POR M√äS (APENAS 2025)")
print("-"*80)

# 1. Criar M√°scara Booleana para Filtrar 2024 (NumPy)
# Extrai o ano das datas numpy e compara com 2025
anos_dos_meses = meses_unicos.astype('datetime64[Y]').astype(int) + 1970 
mask_2025 = (anos_dos_meses == 2025)

# 2. Aplicar M√°scara em Todos os Arrays (Slicing Vetorizado)
meses_2025 = meses_unicos[mask_2025]
total_2025 = total_por_mes[mask_2025]
com_nota_2025 = arr_com_nota[mask_2025]
sem_nota_2025 = arr_sem_nota[mask_2025]
taxa_2025 = arr_taxa[mask_2025]

# 3. Montagem do DataFrame Final
df_evolucao_2025 = pd.DataFrame({
    'M√™s': meses_2025.astype(str), 
    'Total Reclama√ß√µes': total_2025,
    'Com Nota': com_nota_2025,
    'Sem Nota': sem_nota_2025,
    'Taxa Avalia√ß√£o': taxa_2025
})

# Configura√ß√£o de √≠ndice
df_evolucao_2025.set_index('M√™s', inplace=True)

# 4. Exibi√ß√£o Estilizada
if not df_evolucao_2025.empty:
    display(
        df_evolucao_2025.style
        .format({
            'Total Reclama√ß√µes': '{:,}', 
            'Com Nota': '{:,}', 
            'Sem Nota': '{:,}', 
            'Taxa Avalia√ß√£o': '{:.2f}%'
        })
        .background_gradient(cmap='Blues', subset=['Total Reclama√ß√µes'])
        .bar(subset=['Taxa Avalia√ß√£o'], color='#5fba7d', vmin=0, vmax=100)
    )
else:
    print("‚ö†Ô∏è Nenhum dado encontrado para o ano de 2025.")


5.1 VOLUME DE RECLAMA√á√ïES POR M√äS (APENAS 2025)
--------------------------------------------------------------------------------


Unnamed: 0_level_0,Total Reclama√ß√µes,Com Nota,Sem Nota,Taxa Avalia√ß√£o
M√™s,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2025-01,99242,25209,74033,25.40%
2025-02,81159,20326,60833,25.04%
2025-03,95826,20798,75028,21.70%
2025-04,100523,25510,75013,25.38%
2025-05,115608,28738,86870,24.86%
2025-06,123719,31653,92066,25.58%
2025-07,137001,35741,101260,26.09%
2025-08,173389,42014,131375,24.23%
2025-09,164377,41991,122386,25.55%
2025-10,173242,38749,134493,22.37%


In [None]:
# ==============================================================================
# 1. INVESTIGA√á√ÉO TEMPORAL: ONDE OS DADOS PARAM?
# ==============================================================================

print("="*80)
print("DIAGN√ìSTICO DE DEZEMBRO: AN√ÅLISE DI√ÅRIA")
print("="*80)

# Extra√ß√£o de datas completas (dia a dia)
arr_datas_full = pd.to_datetime(df_financeiro_br[COL_DATA_BR], errors='coerce').to_numpy()

# Filtros para Novembro e Dezembro de 2025
# Usamos datetime64[M] para pegar o m√™s inteiro de forma r√°pida
meses_array = arr_datas_full.astype('datetime64[M]')
mask_nov = (meses_array == np.datetime64('2025-11'))
mask_dez = (meses_array == np.datetime64('2025-12'))

# Extra√ß√£o dos dias espec√≠ficos
dias_nov = arr_datas_full[mask_nov].astype('datetime64[D]')
dias_dez = arr_datas_full[mask_dez].astype('datetime64[D]')

# Contagem di√°ria (Histograma temporal)
dias_unicos_nov, contagem_nov = np.unique(dias_nov, return_counts=True)
dias_unicos_dez, contagem_dez = np.unique(dias_dez, return_counts=True)

print(f"\nCOMPARA√á√ÉO DE VOLUMETRIA:")
print(f"‚Ä¢ Total Novembro: {dias_nov.size:,} registros")
print(f"‚Ä¢ Total Dezembro: {dias_dez.size:,} registros (Queda de {(1 - dias_dez.size/dias_nov.size)*100:.1f}%)")

print(f"\nCOBERTURA DE DATAS EM DEZEMBRO:")
if dias_unicos_dez.size > 0:
    data_min_dez = np.min(dias_unicos_dez)
    data_max_dez = np.max(dias_unicos_dez)
    print(f"‚Ä¢ In√≠cio: {data_min_dez}")
    print(f"‚Ä¢ Fim:    {data_max_dez}")
    print(f"‚Ä¢ Dias com dados: {dias_unicos_dez.size} de 31")
    
    # Verificar se parou no meio do m√™s
    ultimo_dia = pd.to_datetime(data_max_dez).day
    if ultimo_dia < 31:
        print(f"‚ö†Ô∏è ALERTA: Os dados de Dezembro v√£o apenas at√© o dia {ultimo_dia}!")
    else:
        print(f"‚ÑπÔ∏è Os dados cobrem o m√™s todo, mas com volume muito baixo.")
else:
    print("‚ùå Nenhum dado encontrado em Dezembro.")

# Visualiza√ß√£o R√°pida dos √∫ltimos 5 dias com dados
if dias_unicos_dez.size > 0:
    print("\n√öltimos 5 dias com registros em Dezembro:")
    for dia, qtd in zip(dias_unicos_dez[-5:], contagem_dez[-5:]):
        print(f"  {dia}: {qtd:,} reclama√ß√µes")

DIAGN√ìSTICO DE DEZEMBRO: AN√ÅLISE DI√ÅRIA

COMPARA√á√ÉO DE VOLUMETRIA:
‚Ä¢ Total Novembro: 191,665 registros
‚Ä¢ Total Dezembro: 27,327 registros (Queda de 85.7%)

COBERTURA DE DATAS EM DEZEMBRO:
‚Ä¢ In√≠cio: 2025-12-01
‚Ä¢ Fim:    2025-12-31
‚Ä¢ Dias com dados: 31 de 31
‚ÑπÔ∏è Os dados cobrem o m√™s todo, mas com volume muito baixo.

√öltimos 5 dias com registros em Dezembro:
  2025-12-27: 143 reclama√ß√µes
  2025-12-28: 111 reclama√ß√µes
  2025-12-29: 92 reclama√ß√µes
  2025-12-30: 54 reclama√ß√µes
  2025-12-31: 8 reclama√ß√µes


---

## üè¢ AN√ÅLISES EMPRESARIAIS

### Contexto
An√°lise de performance e caracter√≠sticas das empresas (institui√ß√µes financeiras) no setor, incluindo:
- Identifica√ß√£o das principais institui√ß√µes
- Volume de reclama√ß√µes por empresa
- Taxa de resolu√ß√£o e satisfa√ß√£o por empresa
- Benchmarking competitivo
- An√°lise de problemas espec√≠ficos por institui√ß√£o

### Perguntas Respondidas
1. Quais s√£o as principais institui√ß√µes financeiras com mais reclama√ß√µes?
2. Como se compara a satisfa√ß√£o entre institui√ß√µes?
3. Qual √© a taxa de resolu√ß√£o por empresa?
4. Quais s√£o os principais problemas reportados por institui√ß√£o?
5. Como o Agibank se posiciona competitivamente?

### M√©tricas por Empresa
- Volume total de reclama√ß√µes
- Taxa de avalia√ß√£o
- Nota m√©dia de satisfa√ß√£o
- NPS (Net Promoter Score)
- Tempo m√©dio de resposta
- Taxa de resolu√ß√£o
- Principais segmentos de produtos
- Principais problemas

---

In [None]:
# Aqui ser√° poss√≠vel identificar se os dados de Dezembro est√£o chegando de forma consistente ou se houve uma interrup√ß√£o abrupta, o que pode indicar um problema na coleta ou processamento dos dados para esse per√≠odo.

print("DIAGN√ìSTICO: O QUE TEM NO DATAFRAME AGORA?")
print("="*80)

# 1. LISTAR TODAS AS COLUNAS --> verificar quais colunas est√£o presentes no DataFrame 'df_financeiro_br' para entender a estrutura dos dados dispon√≠veis, identificar quais informa√ß√µes podem ser analisadas e garantir que as colunas necess√°rias para as an√°lises subsequentes estejam presentes e corretamente nomeadas.

print("\nLISTA DE COLUNAS DISPON√çVEIS:")
cols = df_financeiro_br.columns.to_numpy()
# Imprime em grupos de 4 para ficar leg√≠vel
for i in range(0, len(cols), 4):
    print(f"   {cols[i:i+4]}")

print("-" * 80)

# 2. QUEM CAIU EM CADA CATEGORIA?
# Verificar quais institui√ß√µes financeiras est√£o presentes em cada categoria (bancos digitais, bancos tradicionais, outras financeiras) para entender a composi√ß√£o do setor financeiro representado no DataFrame, identificar quais empresas est√£o mais ativas em termos de reclama√ß√µes e garantir que as categorias estejam corretamente atribu√≠das para an√°lises segmentadas.

print("\nEXEMPLOS DE BANCOS POR CATEGORIA (TOP 5 POR VOLUME):")

# Agrupa por categoria e pega os nomes mais frequentes
# Usamos value_counts() para contar as ocorr√™ncias de cada empresa dentro de cada categoria, e head(5) para mostrar apenas as 5 mais comuns, proporcionando uma vis√£o r√°pida das institui√ß√µes financeiras mais reclamadas em cada categoria.

for categoria in df_financeiro_br['categoria_instituicao'].unique():
    print(f"\n{categoria}:")
    
    # Filtra o dataframe para essa categoria
    mask = df_financeiro_br['categoria_instituicao'] == categoria
    
    # Conta as empresas mais comuns nessa categoria
    top_empresas = df_financeiro_br[mask]['nome_fantasia'].value_counts().head(5)
    
    for empresa, qtd in top_empresas.items():
        print(f"   - {empresa}: {qtd:,} reclama√ß√µes")

print("-" * 80)

# 3. QUEM FICOU DE FORA? (AN√ÅLISE DE 'OUTRAS FINANCEIRAS')
# Analisar quais institui√ß√µes financeiras est√£o categorizadas como 'Outras Financeiras' para identificar se h√° bancos importantes ou relevantes que foram classificados incorretamente, e para garantir que as categorias estejam corretamente atribu√≠das, permitindo an√°lises mais precisas e segmentadas do setor financeiro.

print("\nQUEM S√ÉO AS 'OUTRAS FINANCEIRAS'? (TOP 10):")
print("Verifique se algum banco grande caiu aqui por engano:")

mask_outros = df_financeiro_br['categoria_instituicao'] == 'Outras Financeiras'
top_outros = df_financeiro_br[mask_outros]['nome_fantasia'].value_counts().head(10)

display(top_outros.to_frame(name='Volume de Reclama√ß√µes'))

print(f"\nDICA: Se vir um banco importante na lista acima, adicione o nome dele")
print(f"nas listas 'bancos_digitais' ou 'bancos_tradicionais' no bloco anterior.")

DIAGN√ìSTICO: O QUE TEM NO DATAFRAME AGORA?

LISTA DE COLUNAS DISPON√çVEIS:
   ['regiao' 'uf' 'cidade' 'sexo']
   ['faixa_etaria' 'ano_abertura' 'mes_abertura' 'data_abertura']
   ['data_resposta' 'data_finalizacao' 'prazo_resposta' 'tempo_resposta']
   ['nome_fantasia' 'segmento_de_mercado' 'area' 'assunto']
   ['grupo_problema' 'problema' 'como_comprou_contratou' 'procurou_empresa']
   ['respondida' 'situacao' 'avaliacao_reclamacao' 'nota_do_consumidor']
   ['data_source' 'file_origin' 'processed_at' 'file_month']
   ['is_agibank' 'quality_score' 'ano_mes_diagnostico' 'ano_mes']
   ['categoria_instituicao' 'score_eficiencia']
--------------------------------------------------------------------------------

EXEMPLOS DE BANCOS POR CATEGORIA (TOP 5 POR VOLUME):

Outras Financeiras:
   - Serasa Experian : 142,507 reclama√ß√µes
   - Banco Pan : 43,831 reclama√ß√µes
   - Banco Bmg: 29,994 reclama√ß√µes
   - Recovery do Brasil Consultoria : 28,027 reclama√ß√µes
   - Ativos S.A: 24,581 recla

Unnamed: 0_level_0,Volume de Reclama√ß√µes
nome_fantasia,Unnamed: 1_level_1
Serasa Experian,142507
Banco Pan,43831
Banco Bmg,29994
Recovery do Brasil Consultoria,28027
Ativos S.A,24581
Banco Daycoval,15529
Will Bank,14508
Banco Mercantil do Brasil,12832
Crefisa,12772
Facta Financeira,12739



DICA: Se vir um banco importante na lista acima, adicione o nome dele
nas listas 'bancos_digitais' ou 'bancos_tradicionais' no bloco anterior.


In [14]:
print("="*80)
print("PREPARA√á√ÉO DE ARRAYS NUMPY PARA AN√ÅLISES")
print("="*80)

# Extra√ß√£o de todas as colunas necess√°rias para arrays NumPy
arr_sexo = df_financeiro_br['sexo'].fillna('N√£o Informado').to_numpy()
arr_faixa_etaria = df_financeiro_br['faixa_etaria'].fillna('N√£o Informado').to_numpy()
arr_regiao = df_financeiro_br['regiao'].fillna('N√£o Informado').to_numpy()
arr_uf = df_financeiro_br['uf'].fillna('N√£o Informado').to_numpy()
arr_cidade = df_financeiro_br['cidade'].fillna('N√£o Informado').to_numpy()
arr_instituicao = df_financeiro_br['nome_fantasia'].fillna('N√£o Informado').to_numpy()
arr_assunto = df_financeiro_br['assunto'].fillna('N√£o Informado').to_numpy()
arr_avaliacao = df_financeiro_br['avaliacao_reclamacao'].fillna('').to_numpy()
arr_tempo_resposta = pd.to_numeric(df_financeiro_br['tempo_resposta'], errors='coerce').to_numpy()
arr_produto = df_financeiro_br['como_comprou_contratou'].fillna('N√£o Informado').to_numpy()
arr_nota_completo = df_financeiro_br['nota_do_consumidor'].to_numpy(dtype=float)
arr_procurou_empresa = df_financeiro_br['procurou_empresa'].fillna('N√£o Informado').to_numpy()

# Verificar se existe coluna de canal
col_canal = None
colunas_canal = ['canal_origem', 'canal_de_origem', 'origem']
for col in colunas_canal:
    if col in df_financeiro_br.columns:
        col_canal = col
        arr_canal = df_financeiro_br[col].fillna('N√£o Informado').to_numpy()
        break

if col_canal is None:
    arr_canal = np.full(len(df_financeiro_br), 'N√£o Informado')

print(f"\nArrays criados com sucesso!")
print(f"Total de registros: {len(arr_uf):,}")
print(f"Colunas extra√≠das:")
print(f"  - sexo, faixa_etaria, regiao, uf, cidade")
print(f"  - instituicao, assunto, avaliacao")
print(f"  - tempo_resposta, produto, nota_completo")
print(f"  - procurou_empresa, canal")
print("="*80)

PREPARA√á√ÉO DE ARRAYS NUMPY PARA AN√ÅLISES

Arrays criados com sucesso!
Total de registros: 1,537,096
Colunas extra√≠das:
  - sexo, faixa_etaria, regiao, uf, cidade
  - instituicao, assunto, avaliacao
  - tempo_resposta, produto, nota_completo
  - procurou_empresa, canal


In [17]:
print("="*80)
print("AN√ÅLISE DETALHADA: DISTRIBUI√á√ÉO NO SUDESTE (ES/MG/RJ/SP)")
print("="*80)
print("\nObjetivo: Justificar foco em S√£o Paulo dentro da regi√£o Sudeste")
print("-"*80)

# Filtrar apenas estados do Sudeste
estados_sudeste = ['ES', 'MG', 'RJ', 'SP']
mask_sudeste = np.isin(arr_uf, estados_sudeste)

# Contagem por estado do Sudeste
arr_uf_sudeste = arr_uf[mask_sudeste]
ufs_sudeste, contagens_sudeste = np.unique(arr_uf_sudeste, return_counts=True)

# Ordena√ß√£o decrescente
idx_sud_ord = np.argsort(contagens_sudeste)[::-1]
ufs_sud_ordenadas = ufs_sudeste[idx_sud_ord]
contagens_sud_ordenadas = contagens_sudeste[idx_sud_ord]

# C√°lculos percentuais
total_sudeste = np.sum(contagens_sudeste)
pct_dentro_sudeste = (contagens_sud_ordenadas / total_sudeste) * 100
pct_brasil = (contagens_sud_ordenadas / total_registros) * 100

# M√©tricas de qualidade por estado do Sudeste
notas_sudeste = np.array([
    np.nanmean(arr_nota_completo[arr_uf == uf])
    for uf in ufs_sud_ordenadas
])

taxa_resolucao_sudeste = np.array([
    (np.sum((arr_uf == uf) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_uf == uf)) * 100
    for uf in ufs_sud_ordenadas
])

tempo_medio_sudeste = np.array([
    np.nanmean(arr_tempo_resposta[arr_uf == uf])
    for uf in ufs_sud_ordenadas
])

# DataFrame resultado
df_sudeste = pd.DataFrame({
    'Estado': ufs_sud_ordenadas,
    'Reclama√ß√µes': contagens_sud_ordenadas,
    '% Sudeste': pct_dentro_sudeste,
    '% Brasil': pct_brasil,
    'Nota M√©dia': notas_sudeste,
    'Taxa Resolu√ß√£o': taxa_resolucao_sudeste,
    'Tempo Resposta (dias)': tempo_medio_sudeste
})

display(
    df_sudeste.style
    .format({
        '% Sudeste': '{:.2f}%',
        '% Brasil': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%',
        'Tempo Resposta (dias)': '{:.1f}'
    })
    .background_gradient(cmap='Blues', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='YlOrBr', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='Greens', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# An√°lise de S√£o Paulo
pct_sp_sudeste = pct_dentro_sudeste[ufs_sud_ordenadas == 'SP'][0]
pct_sp_brasil = pct_brasil[ufs_sud_ordenadas == 'SP'][0]

print(f"\nDESTAQUE S√ÉO PAULO:")
print(f"  Representa {pct_sp_sudeste:.1f}% do Sudeste")
print(f"  Representa {pct_sp_brasil:.1f}% do Brasil")
print(f"  Volume: {contagens_sud_ordenadas[0]:,} reclama√ß√µes")
print(f"\nJUSTIFICATIVA: SP concentra mais da metade do Sudeste e √© o maior mercado isolado do pa√≠s")

AN√ÅLISE DETALHADA: DISTRIBUI√á√ÉO NO SUDESTE (ES/MG/RJ/SP)

Objetivo: Justificar foco em S√£o Paulo dentro da regi√£o Sudeste
--------------------------------------------------------------------------------


Unnamed: 0,Estado,Reclama√ß√µes,% Sudeste,% Brasil,Nota M√©dia,Taxa Resolu√ß√£o,Tempo Resposta (dias)
0,SP,396999,53.36%,25.83%,2.3,8.2%,5.9
1,MG,174130,23.41%,11.33%,2.23,7.5%,6.2
2,RJ,145345,19.54%,9.46%,2.3,7.8%,6.0
3,ES,27499,3.70%,1.79%,2.33,8.7%,6.0



DESTAQUE S√ÉO PAULO:
  Representa 53.4% do Sudeste
  Representa 25.8% do Brasil
  Volume: 396,999 reclama√ß√µes

JUSTIFICATIVA: SP concentra mais da metade do Sudeste e √© o maior mercado isolado do pa√≠s


In [None]:
print("="*80)
print("FAIXA ET√ÅRIA QUE MAIS CONCENTRA RECLAMA√á√ïES")
print("="*80)
print("\nObjetivo: Identificar perfil et√°rio (jovem digital vs s√™nior)")
print("-"*80)

# Contagem por faixa et√°ria
faixas_unicas, contagens_faixa = np.unique(arr_faixa_etaria, return_counts=True)

# Ordena√ß√£o decrescente
idx_ordenado = np.argsort(contagens_faixa)[::-1]
faixas_ordenadas = faixas_unicas[idx_ordenado]
contagens_ordenadas = contagens_faixa[idx_ordenado]

# Percentuais
pct_faixas = (contagens_ordenadas / total_registros) * 100

# Nota m√©dia por faixa
notas_por_faixa = np.array([
    np.nanmean(arr_nota_completo[arr_faixa_etaria == faixa])
    for faixa in faixas_ordenadas
])

# Taxa de resolu√ß√£o por faixa
taxa_resolucao_faixa = np.array([
    (np.sum((arr_faixa_etaria == faixa) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_faixa_etaria == faixa)) * 100
    for faixa in faixas_ordenadas
])

# Tempo m√©dio por faixa
tempo_medio_faixa = np.array([
    np.nanmean(arr_tempo_resposta[arr_faixa_etaria == faixa])
    for faixa in faixas_ordenadas
])

# DataFrame resultado
df_faixa_etaria = pd.DataFrame({
    'Faixa Et√°ria': faixas_ordenadas,
    'Reclama√ß√µes': contagens_ordenadas,
    '% Total': pct_faixas,
    'Nota M√©dia': notas_por_faixa,
    'Taxa Resolu√ß√£o': taxa_resolucao_faixa,
    'Tempo Resposta (dias)': tempo_medio_faixa
})

display(
    df_faixa_etaria.style
    .format({
        '% Total': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%',
        'Tempo Resposta (dias)': '{:.1f}'
    })
    .background_gradient(cmap='YlOrRd', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='RdYlGn', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='RdYlGn', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# An√°lise da faixa predominante
print(f"\nFaixa et√°ria predominante: {faixas_ordenadas[0]}")
print(f"Volume: {contagens_ordenadas[0]:,} ({pct_faixas[0]:.1f}%)")

# Faixa mais insatisfeita
idx_menor_nota = np.nanargmin(notas_por_faixa)
print(f"\nFaixa mais insatisfeita: {faixas_ordenadas[idx_menor_nota]}")
print(f"Nota m√©dia: {notas_por_faixa[idx_menor_nota]:.2f}")

# Concentra√ß√£o top 3
top3_concentracao = np.sum(pct_faixas[:3])
print(f"\nConcentra√ß√£o top 3 faixas: {top3_concentracao:.1f}%")

FAIXA ET√ÅRIA QUE MAIS CONCENTRA RECLAMA√á√ïES

Objetivo: Identificar perfil et√°rio (jovem digital vs s√™nior)
--------------------------------------------------------------------------------


Unnamed: 0,Faixa Et√°ria,Reclama√ß√µes,% Total,Nota M√©dia,Taxa Resolu√ß√£o,Tempo Resposta (dias)
0,entre 31 a 40 anos,458692,29.84%,2.31,8.7%,5.9
1,entre 21 a 30 anos,361631,23.53%,2.35,7.0%,5.5
2,entre 41 a 50 anos,333464,21.69%,2.28,8.9%,6.1
3,entre 51 a 60 anos,171244,11.14%,2.34,8.4%,6.4
4,entre 61 a 70 anos,125280,8.15%,2.27,6.2%,6.8
5,mais de 70 anos,54489,3.54%,2.15,4.9%,7.0
6,at√© 20 anos,32296,2.10%,2.51,6.0%,4.6



Faixa et√°ria predominante: entre 31 a 40 anos
Volume: 458,692 (29.8%)

Faixa mais insatisfeita: mais de 70 anos
Nota m√©dia: 2.15

Concentra√ß√£o top 3 faixas: 75.1%


In [None]:
print("="*80)
print("VOLUME DE RECLAMA√á√ïES POR REGI√ÉO")
print("="*80)
print("\nObjetivo: Identificar concentra√ß√£o geogr√°fica (funil para SP)")
print("-"*80)

# Contagem por regi√£o
regioes_unicas, contagens_regiao = np.unique(arr_regiao, return_counts=True)

# Ordena√ß√£o decrescente
idx_regiao_ord = np.argsort(contagens_regiao)[::-1]
regioes_ordenadas = regioes_unicas[idx_regiao_ord]
contagens_regiao_ord = contagens_regiao[idx_regiao_ord]

# Percentuais
pct_regioes = (contagens_regiao_ord / total_registros) * 100

# Nota m√©dia por regi√£o
notas_por_regiao = np.array([
    np.nanmean(arr_nota_completo[arr_regiao == regiao])
    for regiao in regioes_ordenadas
])

# Taxa de resolu√ß√£o por regi√£o
taxa_resolucao_regiao = np.array([
    (np.sum((arr_regiao == regiao) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_regiao == regiao)) * 100
    for regiao in regioes_ordenadas
])

# DataFrame resultado
df_regiao = pd.DataFrame({
    'Regi√£o': regioes_ordenadas,
    'Reclama√ß√µes': contagens_regiao_ord,
    '% Brasil': pct_regioes,
    'Nota M√©dia': notas_por_regiao,
    'Taxa Resolu√ß√£o': taxa_resolucao_regiao
})

display(
    df_regiao.style
    .format({
        '% Brasil': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%'
    })
    .background_gradient(cmap='Oranges', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='RdYlGn', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='RdYlGn', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# An√°lise da regi√£o predominante
print(f"\nRegi√£o predominante: {regioes_ordenadas[0]}")
print(f"Volume: {contagens_regiao_ord[0]:,} ({pct_regioes[0]:.1f}%)")
print(f"Nota m√©dia: {notas_por_regiao[0]:.2f}")

# Concentra√ß√£o Sudeste
if 'Sudeste' in regioes_ordenadas:
    idx_sudeste = np.where(regioes_ordenadas == 'Sudeste')[0][0]
    print(f"\nSudeste representa {pct_regioes[idx_sudeste]:.1f}% das reclama√ß√µes nacionais")

VOLUME DE RECLAMA√á√ïES POR REGI√ÉO

Objetivo: Identificar concentra√ß√£o geogr√°fica (funil para SP)
--------------------------------------------------------------------------------


Unnamed: 0,Regi√£o,Reclama√ß√µes,% Brasil,Nota M√©dia,Taxa Resolu√ß√£o
0,SE,743973,48.40%,2.28,8.0%
1,NE,297414,19.35%,2.32,7.9%
2,S,241997,15.74%,2.31,7.8%
3,CO,159433,10.37%,2.36,8.5%
4,N,94279,6.13%,2.45,7.5%



Regi√£o predominante: SE
Volume: 743,973 (48.4%)
Nota m√©dia: 2.28


In [None]:
print("="*80)
print("DISTRIBUI√á√ÉO POR ESTADO (TOP 10)")
print("="*80)
print("\nObjetivo: Identificar estados com maior volume (destaque para SP)")
print("-"*80)

# Contagem por UF
ufs_unicas, contagens_uf = np.unique(arr_uf, return_counts=True)

# Ordena√ß√£o decrescente e sele√ß√£o top 10
idx_uf_ord = np.argsort(contagens_uf)[::-1]
top10_ufs = ufs_unicas[idx_uf_ord][:10]
top10_contagens = contagens_uf[idx_uf_ord][:10]

# Percentuais
pct_ufs = (top10_contagens / total_registros) * 100

# Nota m√©dia por UF
notas_por_uf = np.array([
    np.nanmean(arr_nota_completo[arr_uf == uf])
    for uf in top10_ufs
])

# Taxa de resolu√ß√£o por UF
taxa_resolucao_uf = np.array([
    (np.sum((arr_uf == uf) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_uf == uf)) * 100
    for uf in top10_ufs
])

# DataFrame resultado
df_uf_top10 = pd.DataFrame({
    'UF': top10_ufs,
    'Reclama√ß√µes': top10_contagens,
    '% Brasil': pct_ufs,
    'Nota M√©dia': notas_por_uf,
    'Taxa Resolu√ß√£o': taxa_resolucao_uf
})

display(
    df_uf_top10.style
    .format({
        '% Brasil': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%'
    })
    .background_gradient(cmap='Reds', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='RdYlGn', subset=['Nota M√©dia'], vmin=1, vmax=5)
)

# An√°lise de S√£o Paulo
mask_sp = (arr_uf == 'SP')
qtd_sp = np.sum(mask_sp)
pct_sp = (qtd_sp / total_registros) * 100
nota_sp = np.nanmean(arr_nota_completo[mask_sp])

print(f"\nDESTAQUE S√ÉO PAULO:")
print(f"  Reclama√ß√µes: {qtd_sp:,} ({pct_sp:.1f}% do Brasil)")
print(f"  Nota m√©dia: {nota_sp:.2f}")
print(f"  Posi√ß√£o no ranking: {np.where(top10_ufs == 'SP')[0][0] + 1}¬∫ lugar")

DISTRIBUI√á√ÉO POR ESTADO (TOP 10)

Objetivo: Identificar estados com maior volume (destaque para SP)
--------------------------------------------------------------------------------


Unnamed: 0,UF,Reclama√ß√µes,% Brasil,Nota M√©dia,Taxa Resolu√ß√£o
0,SP,396999,25.83%,2.3,8.2%
1,MG,174130,11.33%,2.23,7.5%
2,RJ,145345,9.46%,2.3,7.8%
3,PR,96572,6.28%,2.31,8.6%
4,BA,88772,5.78%,2.18,7.3%
5,RS,77097,5.02%,2.25,7.0%
6,SC,68328,4.45%,2.36,7.5%
7,GO,60046,3.91%,2.33,7.8%
8,PE,46178,3.00%,2.42,8.7%
9,DF,45627,2.97%,2.37,10.8%



DESTAQUE S√ÉO PAULO:
  Reclama√ß√µes: 396,999 (25.8% do Brasil)
  Nota m√©dia: 2.30
  Posi√ß√£o no ranking: 1¬∫ lugar


In [None]:
print("="*80)
print("TOP 10 INSTITUI√á√ïES FINANCEIRAS MAIS RECLAMADAS")
print("="*80)
print("\nObjetivo: Identificar principais players geradores de insatisfa√ß√£o")
print("-"*80)

# Contagem por institui√ß√£o
instituicoes_unicas, contagens_inst = np.unique(arr_instituicao, return_counts=True)

# Ordena√ß√£o decrescente e sele√ß√£o top 10
idx_inst_ord = np.argsort(contagens_inst)[::-1]
top10_inst = instituicoes_unicas[idx_inst_ord][:10]
top10_contagens_inst = contagens_inst[idx_inst_ord][:10]

# Percentuais
pct_inst = (top10_contagens_inst / total_registros) * 100

# Nota m√©dia por institui√ß√£o
notas_por_inst = np.array([
    np.nanmean(arr_nota_completo[arr_instituicao == inst])
    for inst in top10_inst
])

# Taxa de resolu√ß√£o por institui√ß√£o
taxa_resolucao_inst = np.array([
    (np.sum((arr_instituicao == inst) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_instituicao == inst)) * 100
    for inst in top10_inst
])

# Tempo m√©dio de resposta por institui√ß√£o
tempo_medio_inst = np.array([
    np.nanmean(arr_tempo_resposta[arr_instituicao == inst])
    for inst in top10_inst
])

# DataFrame resultado
df_top10_inst = pd.DataFrame({
    'Institui√ß√£o': top10_inst,
    'Reclama√ß√µes': top10_contagens_inst,
    '% Total': pct_inst,
    'Nota M√©dia': notas_por_inst,
    'Taxa Resolu√ß√£o': taxa_resolucao_inst,
    'Tempo Resposta (dias)': tempo_medio_inst
})

display(
    df_top10_inst.style
    .format({
        '% Total': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%',
        'Tempo Resposta (dias)': '{:.1f}'
    })
    .background_gradient(cmap='Reds', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='RdYlGn', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='RdYlGn', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# An√°lise da institui√ß√£o l√≠der
print(f"\nInstitui√ß√£o mais reclamada: {top10_inst[0]}")
print(f"Volume: {top10_contagens_inst[0]:,} ({pct_inst[0]:.1f}%)")
print(f"Nota m√©dia: {notas_por_inst[0]:.2f}")

# Concentra√ß√£o top 5
top5_concentracao = np.sum(pct_inst[:5])
print(f"\nTop 5 institui√ß√µes concentram: {top5_concentracao:.1f}% das reclama√ß√µes")

QUEST√ÉO 4: TOP 10 INSTITUI√á√ïES FINANCEIRAS MAIS RECLAMADAS

Objetivo: Identificar principais players geradores de insatisfa√ß√£o
--------------------------------------------------------------------------------


Unnamed: 0,Institui√ß√£o,Reclama√ß√µes,% Total,Nota M√©dia,Taxa Resolu√ß√£o,Tempo Resposta (dias)
0,Nubank,150012,9.76%,1.85,3.4%,3.5
1,Serasa Experian,142507,9.27%,2.64,10.0%,3.6
2,Banco Santander,84948,5.53%,2.1,7.0%,5.8
3,Banco do Brasil,83833,5.45%,2.48,7.7%,4.7
4,Banco Bradesco,77519,5.04%,2.0,5.1%,8.8
5,Caixa Econ√¥mica Federal,69196,4.50%,2.65,10.1%,6.8
6,Banco Ita√∫ Unibanco,52979,3.45%,2.07,6.8%,6.8
7,Banco Pan,43831,2.85%,1.92,3.6%,6.0
8,Mercado Pago,36344,2.36%,2.61,12.6%,8.0
9,Cart√µes Ita√∫,31664,2.06%,2.29,8.7%,8.3



Institui√ß√£o mais reclamada: Nubank
Volume: 150,012 (9.8%)
Nota m√©dia: 1.85

Top 5 institui√ß√µes concentram: 35.1% das reclama√ß√µes


In [18]:
print("="*80)
print("TOP 10 CIDADES N√ÉO-CAPITAIS COM MAIS RECLAMA√á√ïES")
print("="*80)
print("\nObjetivo: Verificar se Campinas aparece no radar nacional")
print("-"*80)

# Lista de capitais brasileiras
capitais = [
    'Rio Branco', 'Macei√≥', 'Macap√°', 'Manaus', 'Salvador', 'Fortaleza',
    'Bras√≠lia', 'Vit√≥ria', 'Goi√¢nia', 'S√£o Lu√≠s', 'Cuiab√°', 'Campo Grande',
    'Belo Horizonte', 'Bel√©m', 'Jo√£o Pessoa', 'Curitiba', 'Recife', 'Teresina',
    'Rio de Janeiro', 'Natal', 'Porto Alegre', 'Porto Velho', 'Boa Vista',
    'Florian√≥polis', 'S√£o Paulo', 'Aracaju', 'Palmas'
]

# Criar m√°scara para cidades n√£o-capitais
arr_cidade = df_financeiro_br['cidade'].fillna('N√£o Informado').to_numpy()
mask_nao_capital = ~np.isin(arr_cidade, capitais)

# Filtrar apenas cidades n√£o-capitais
arr_cidade_nao_capital = arr_cidade[mask_nao_capital]

# Contagem por cidade
cidades_unicas, contagens_cidade = np.unique(arr_cidade_nao_capital, return_counts=True)

# Ordena√ß√£o e sele√ß√£o top 10
idx_cidade_ord = np.argsort(contagens_cidade)[::-1]
top10_cidades = cidades_unicas[idx_cidade_ord][:10]
top10_contagens_cidade = contagens_cidade[idx_cidade_ord][:10]

# Percentuais
pct_cidades = (top10_contagens_cidade / total_registros) * 100

# UF de cada cidade (pegar a UF mais frequente para cada cidade)
uf_por_cidade = []
for cidade in top10_cidades:
    mask_cidade = (arr_cidade == cidade)
    ufs_cidade = arr_uf[mask_cidade]
    uf_predominante = np.unique(ufs_cidade, return_counts=True)[0][0]
    uf_por_cidade.append(uf_predominante)

uf_por_cidade = np.array(uf_por_cidade)

# Nota m√©dia por cidade
notas_por_cidade = np.array([
    np.nanmean(arr_nota_completo[arr_cidade == cidade])
    for cidade in top10_cidades
])

# Taxa de resolu√ß√£o por cidade
taxa_resolucao_cidade = np.array([
    (np.sum((arr_cidade == cidade) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_cidade == cidade)) * 100
    for cidade in top10_cidades
])

# DataFrame resultado
df_top10_cidades = pd.DataFrame({
    'Cidade': top10_cidades,
    'UF': uf_por_cidade,
    'Reclama√ß√µes': top10_contagens_cidade,
    '% Brasil': pct_cidades,
    'Nota M√©dia': notas_por_cidade,
    'Taxa Resolu√ß√£o': taxa_resolucao_cidade
})

display(
    df_top10_cidades.style
    .format({
        '% Brasil': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%'
    })
    .background_gradient(cmap='Blues', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='YlOrBr', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='Greens', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# Verificar posi√ß√£o de Campinas
if 'Campinas' in top10_cidades:
    idx_campinas = np.where(top10_cidades == 'Campinas')[0][0]
    posicao_campinas = idx_campinas + 1
    qtd_campinas = top10_contagens_cidade[idx_campinas]
    pct_campinas = pct_cidades[idx_campinas]
    
    print(f"\nCAMPINAS IDENTIFICADA:")
    print(f"  Posi√ß√£o no ranking nacional (n√£o-capitais): {posicao_campinas}¬∫ lugar")
    print(f"  Volume: {qtd_campinas:,} reclama√ß√µes ({pct_campinas:.2f}% do Brasil)")
    print(f"  Nota m√©dia: {notas_por_cidade[idx_campinas]:.2f}")
    print(f"\nJUSTIFICATIVA: Campinas aparece no radar nacional, validando an√°lise municipal espec√≠fica")
else:
    # Buscar Campinas fora do top 10
    mask_campinas = (arr_cidade == 'Campinas')
    if np.sum(mask_campinas) > 0:
        qtd_campinas = np.sum(mask_campinas)
        pct_campinas = (qtd_campinas / total_registros) * 100
        
        # Encontrar posi√ß√£o exata
        todas_contagens = np.sort(contagens_cidade)[::-1]
        posicao_campinas = np.where(todas_contagens == qtd_campinas)[0][0] + 1
        
        print(f"\nCAMPINAS FORA DO TOP 10:")
        print(f"  Posi√ß√£o: {posicao_campinas}¬∫ lugar")
        print(f"  Volume: {qtd_campinas:,} reclama√ß√µes ({pct_campinas:.2f}%)")
    else:
        print(f"\nCAMPINAS: N√£o encontrada na base de dados")

TOP 10 CIDADES N√ÉO-CAPITAIS COM MAIS RECLAMA√á√ïES

Objetivo: Verificar se Campinas aparece no radar nacional
--------------------------------------------------------------------------------


Unnamed: 0,Cidade,UF,Reclama√ß√µes,% Brasil,Nota M√©dia,Taxa Resolu√ß√£o
0,Guarulhos,SP,13170,0.86%,2.34,8.6%
1,Campinas,AC,10941,0.71%,2.22,8.2%
2,Uberl√¢ndia,MG,9167,0.60%,2.21,7.3%
3,Sorocaba,SP,8790,0.57%,2.31,8.2%
4,Contagem,MG,8041,0.52%,2.15,7.6%
5,Osasco,SP,7968,0.52%,2.31,8.5%
6,Joinville,SC,7815,0.51%,2.37,8.6%
7,S√£o Bernardo do Campo,SP,7420,0.48%,2.25,8.0%
8,Ribeir√£o Preto,SP,7414,0.48%,2.17,7.1%
9,Nova Igua√ßu,RJ,7365,0.48%,2.3,7.7%



CAMPINAS IDENTIFICADA:
  Posi√ß√£o no ranking nacional (n√£o-capitais): 2¬∫ lugar
  Volume: 10,941 reclama√ß√µes (0.71% do Brasil)
  Nota m√©dia: 2.22

JUSTIFICATIVA: Campinas aparece no radar nacional, validando an√°lise municipal espec√≠fica


In [19]:
print("="*80)
print("TOP 10 CIDADES N√ÉO-CAPITAIS COM MAIS RECLAMA√á√ïES")
print("="*80)
print("\nObjetivo: Verificar se Campinas aparece no radar nacional")
print("-"*80)

# Lista de capitais brasileiras
capitais = [
    'Rio Branco', 'Macei√≥', 'Macap√°', 'Manaus', 'Salvador', 'Fortaleza',
    'Bras√≠lia', 'Vit√≥ria', 'Goi√¢nia', 'S√£o Lu√≠s', 'Cuiab√°', 'Campo Grande',
    'Belo Horizonte', 'Bel√©m', 'Jo√£o Pessoa', 'Curitiba', 'Recife', 'Teresina',
    'Rio de Janeiro', 'Natal', 'Porto Alegre', 'Porto Velho', 'Boa Vista',
    'Florian√≥polis', 'S√£o Paulo', 'Aracaju', 'Palmas'
]

# Criar m√°scara para cidades n√£o-capitais
mask_nao_capital = ~np.isin(arr_cidade, capitais)

# Filtrar arrays mantendo os √≠ndices originais
indices_nao_capital = np.where(mask_nao_capital)[0]

# Extrair dados filtrados
arr_cidade_filtrado = arr_cidade[mask_nao_capital]
arr_uf_filtrado = arr_uf[mask_nao_capital]
arr_nota_filtrado = arr_nota_completo[mask_nao_capital]
arr_avaliacao_filtrado = arr_avaliacao[mask_nao_capital]

# Contagem por cidade
cidades_unicas, idx_inverse = np.unique(arr_cidade_filtrado, return_inverse=True)
contagens_cidade = np.bincount(idx_inverse)

# Ordena√ß√£o e sele√ß√£o top 10
idx_cidade_ord = np.argsort(contagens_cidade)[::-1]
top10_cidades = cidades_unicas[idx_cidade_ord][:10]
top10_contagens_cidade = contagens_cidade[idx_cidade_ord][:10]

# Percentuais
pct_cidades = (top10_contagens_cidade / total_registros) * 100

# Para cada cidade do top 10, pegar a UF correta
uf_por_cidade = []
notas_por_cidade = []
taxa_resolucao_cidade = []

for cidade in top10_cidades:
    # M√°scara para esta cidade espec√≠fica (usando arrays filtrados)
    mask_cidade = (arr_cidade_filtrado == cidade)
    
    # UF mais frequente para esta cidade
    ufs_da_cidade = arr_uf_filtrado[mask_cidade]
    uf_predominante, contagens_uf = np.unique(ufs_da_cidade, return_counts=True)
    uf_correta = uf_predominante[np.argmax(contagens_uf)]
    uf_por_cidade.append(uf_correta)
    
    # Nota m√©dia
    notas_da_cidade = arr_nota_filtrado[mask_cidade]
    media = np.nanmean(notas_da_cidade)
    notas_por_cidade.append(media)
    
    # Taxa de resolu√ß√£o
    avaliacoes_da_cidade = arr_avaliacao_filtrado[mask_cidade]
    resolvidas = np.sum(avaliacoes_da_cidade == 'Resolvida')
    taxa = (resolvidas / np.sum(mask_cidade)) * 100 if np.sum(mask_cidade) > 0 else 0
    taxa_resolucao_cidade.append(taxa)

# Converter para arrays
uf_por_cidade = np.array(uf_por_cidade)
notas_por_cidade = np.array(notas_por_cidade)
taxa_resolucao_cidade = np.array(taxa_resolucao_cidade)

# DataFrame resultado
df_top10_cidades = pd.DataFrame({
    'Cidade': top10_cidades,
    'UF': uf_por_cidade,
    'Reclama√ß√µes': top10_contagens_cidade,
    '% Brasil': pct_cidades,
    'Nota M√©dia': notas_por_cidade,
    'Taxa Resolu√ß√£o': taxa_resolucao_cidade
})

display(
    df_top10_cidades.style
    .format({
        '% Brasil': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%'
    })
    .background_gradient(cmap='Blues', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='YlOrBr', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='Greens', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# Verificar posi√ß√£o de Campinas
if 'Campinas' in top10_cidades:
    idx_campinas = np.where(top10_cidades == 'Campinas')[0][0]
    posicao_campinas = idx_campinas + 1
    qtd_campinas = top10_contagens_cidade[idx_campinas]
    pct_campinas = pct_cidades[idx_campinas]
    uf_campinas = uf_por_cidade[idx_campinas]
    
    print(f"\nCAMPINAS IDENTIFICADA:")
    print(f"  UF: {uf_campinas}")
    print(f"  Posi√ß√£o no ranking nacional (n√£o-capitais): {posicao_campinas}¬∫ lugar")
    print(f"  Volume: {qtd_campinas:,} reclama√ß√µes ({pct_campinas:.2f}% do Brasil)")
    print(f"  Nota m√©dia: {notas_por_cidade[idx_campinas]:.2f}")
    print(f"\nJUSTIFICATIVA: Campinas aparece no radar nacional,")
    print(f"               validando an√°lise municipal espec√≠fica")
else:
    # Buscar Campinas fora do top 10
    mask_campinas_total = (arr_cidade == 'Campinas')
    if np.sum(mask_campinas_total) > 0:
        qtd_campinas = np.sum(mask_campinas_total)
        pct_campinas = (qtd_campinas / total_registros) * 100
        
        # UF de Campinas
        uf_campinas_arr = arr_uf[mask_campinas_total]
        uf_campinas = np.unique(uf_campinas_arr, return_counts=True)[0][0]
        
        # Encontrar posi√ß√£o exata
        todas_contagens = np.sort(contagens_cidade)[::-1]
        posicao_campinas = np.searchsorted(-todas_contagens, -qtd_campinas) + 1
        
        print(f"\nCAMPINAS FORA DO TOP 10:")
        print(f"  UF: {uf_campinas}")
        print(f"  Posi√ß√£o: {posicao_campinas}¬∫ lugar")
        print(f"  Volume: {qtd_campinas:,} reclama√ß√µes ({pct_campinas:.2f}%)")
    else:
        print(f"\nCAMPINAS: N√£o encontrada na base de dados")

TOP 10 CIDADES N√ÉO-CAPITAIS COM MAIS RECLAMA√á√ïES

Objetivo: Verificar se Campinas aparece no radar nacional
--------------------------------------------------------------------------------


Unnamed: 0,Cidade,UF,Reclama√ß√µes,% Brasil,Nota M√©dia,Taxa Resolu√ß√£o
0,Guarulhos,SP,13170,0.86%,2.34,8.6%
1,Campinas,SP,10941,0.71%,2.22,8.2%
2,Uberl√¢ndia,MG,9167,0.60%,2.21,7.3%
3,Sorocaba,SP,8790,0.57%,2.31,8.2%
4,Contagem,MG,8041,0.52%,2.15,7.6%
5,Osasco,SP,7968,0.52%,2.31,8.5%
6,Joinville,SC,7815,0.51%,2.37,8.6%
7,S√£o Bernardo do Campo,SP,7420,0.48%,2.25,8.0%
8,Ribeir√£o Preto,SP,7414,0.48%,2.17,7.1%
9,Nova Igua√ßu,RJ,7365,0.48%,2.3,7.7%



CAMPINAS IDENTIFICADA:
  UF: SP
  Posi√ß√£o no ranking nacional (n√£o-capitais): 2¬∫ lugar
  Volume: 10,941 reclama√ß√µes (0.71% do Brasil)
  Nota m√©dia: 2.22

JUSTIFICATIVA: Campinas aparece no radar nacional,
               validando an√°lise municipal espec√≠fica


In [20]:
print("="*80)
print("TOP 10 ASSUNTOS (TIPOS DE PROBLEMA) MAIS RECLAMADOS")
print("="*80)
print("\nObjetivo: Identificar as principais dores do consumidor brasileiro")
print("-"*80)

# Contagem por assunto
assuntos_unicos, contagens_assunto = np.unique(arr_assunto, return_counts=True)

# Ordena√ß√£o e sele√ß√£o top 10
idx_assunto_ord = np.argsort(contagens_assunto)[::-1]
top10_assuntos = assuntos_unicos[idx_assunto_ord][:10]
top10_contagens_assunto = contagens_assunto[idx_assunto_ord][:10]

# Percentuais
pct_assuntos = (top10_contagens_assunto / total_registros) * 100

# Nota m√©dia por assunto
notas_por_assunto = np.array([
    np.nanmean(arr_nota_completo[arr_assunto == assunto])
    for assunto in top10_assuntos
])

# Taxa de resolu√ß√£o por assunto
taxa_resolucao_assunto = np.array([
    (np.sum((arr_assunto == assunto) & (arr_avaliacao == 'Resolvida')) / np.sum(arr_assunto == assunto)) * 100
    for assunto in top10_assuntos
])

# Tempo m√©dio por assunto
tempo_medio_assunto = np.array([
    np.nanmean(arr_tempo_resposta[arr_assunto == assunto])
    for assunto in top10_assuntos
])

# DataFrame resultado
df_top10_assuntos = pd.DataFrame({
    'Assunto': top10_assuntos,
    'Reclama√ß√µes': top10_contagens_assunto,
    '% Total': pct_assuntos,
    'Nota M√©dia': notas_por_assunto,
    'Taxa Resolu√ß√£o': taxa_resolucao_assunto,
    'Tempo Resposta (dias)': tempo_medio_assunto
})

display(
    df_top10_assuntos.style
    .format({
        '% Total': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%',
        'Tempo Resposta (dias)': '{:.1f}'
    })
    .background_gradient(cmap='Blues', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='YlOrBr', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='Greens', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# An√°lise do assunto predominante
assunto_lider = top10_assuntos[0]
qtd_assunto_lider = top10_contagens_assunto[0]
pct_assunto_lider = pct_assuntos[0]
nota_assunto_lider = notas_por_assunto[0]

print(f"\nASSUNTO MAIS RECLAMADO:")
print(f"  {assunto_lider}")
print(f"  Volume: {qtd_assunto_lider:,} ({pct_assunto_lider:.1f}%)")
print(f"  Nota m√©dia: {nota_assunto_lider:.2f}")

# Assunto com pior nota
idx_pior_nota = np.nanargmin(notas_por_assunto)
print(f"\nASSUNTO COM PIOR SATISFA√á√ÉO:")
print(f"  {top10_assuntos[idx_pior_nota]}")
print(f"  Nota m√©dia: {notas_por_assunto[idx_pior_nota]:.2f}")

# Concentra√ß√£o top 5
top5_assuntos_concentracao = np.sum(pct_assuntos[:5])
print(f"\nTop 5 assuntos concentram: {top5_assuntos_concentracao:.1f}% das reclama√ß√µes")

TOP 10 ASSUNTOS (TIPOS DE PROBLEMA) MAIS RECLAMADOS

Objetivo: Identificar as principais dores do consumidor brasileiro
--------------------------------------------------------------------------------


Unnamed: 0,Assunto,Reclama√ß√µes,% Total,Nota M√©dia,Taxa Resolu√ß√£o,Tempo Resposta (dias)
0,Cart√£o de Cr√©dito / Cart√£o de D√©bito / Cart√£o de Loja,462077,30.06%,2.24,7.8%,6.0
1,Cr√©dito Pessoal e Demais Empr√©stimos (exceto financiamento de im√≥veis e ve√≠culos),303461,19.74%,2.27,6.8%,6.0
2,Cr√©dito Consignado / Cart√£o de Cr√©dito Consignado / RMC (para benefici√°rios do INSS),115758,7.53%,2.0,4.2%,6.9
3,Consulta / Monitoramento de CPF,92866,6.04%,2.64,9.9%,3.6
4,Cr√©dito Consignado (para servidores p√∫blicos ou trabalhadores do setor privado),87421,5.69%,2.24,6.9%,6.7
5,Conta corrente / Sal√°rio / Poupan√ßa /Conta Aposentadoria,79607,5.18%,2.3,10.0%,6.8
6,Financiamentos de Ve√≠culos / Leasing,74393,4.84%,2.2,5.5%,6.0
7,Servi√ßo de pagamento online/ via celular/ maquininha,61589,4.01%,2.45,13.2%,6.6
8,Atendimento Banc√°rio,59876,3.90%,2.29,8.2%,6.6
9,Score / Pontua√ß√£o de Cr√©dito,44287,2.88%,2.67,9.9%,3.5



ASSUNTO MAIS RECLAMADO:
  Cart√£o de Cr√©dito / Cart√£o de D√©bito / Cart√£o de Loja
  Volume: 462,077 (30.1%)
  Nota m√©dia: 2.24

ASSUNTO COM PIOR SATISFA√á√ÉO:
  Cr√©dito Consignado / Cart√£o de Cr√©dito Consignado / RMC (para benefici√°rios do INSS)
  Nota m√©dia: 2.00

Top 5 assuntos concentram: 69.1% das reclama√ß√µes


In [23]:
print("="*80)
print("TOP 10 CANAIS DE AQUISI√á√ÉO COM MAIS RECLAMA√á√ïES")
print("="*80)
print("\nObjetivo: Identificar quais canais geram mais problemas e insatisfa√ß√£o")
print("-"*80)

# Extrai canais √∫nicos e conta quantas reclama√ß√µes cada um possui
canais_unicos, contagens_canal = np.unique(arr_produto, return_counts=True)

# Ordena do maior para o menor volume e seleciona os top 10
idx_canal_ord = np.argsort(contagens_canal)[::-1]
top10_canais = canais_unicos[idx_canal_ord][:10]
top10_contagens_canal = contagens_canal[idx_canal_ord][:10]

# Calcula o percentual de cada canal em rela√ß√£o ao total
pct_canais = (top10_contagens_canal / total_registros) * 100

# Calcula a nota m√©dia de satisfa√ß√£o por canal (1 a 5)
notas_por_canal = np.array([
    np.nanmean(arr_nota_completo[arr_produto == canal])
    for canal in top10_canais
])

# Calcula a taxa de resolu√ß√£o: % de casos resolvidos por canal
taxa_resolucao_canal = np.array([
    (np.sum((arr_produto == canal) & (arr_avaliacao == 'Resolvida')) / 
     np.sum(arr_produto == canal)) * 100
    for canal in top10_canais
])

# Calcula o tempo m√©dio de resposta em dias por canal
tempo_medio_canal = np.array([
    np.nanmean(arr_tempo_resposta[arr_produto == canal])
    for canal in top10_canais
])

# Monta DataFrame com todos os indicadores
df_top10_canais = pd.DataFrame({
    'Canal de Aquisi√ß√£o': top10_canais,
    'Reclama√ß√µes': top10_contagens_canal,
    '% Total': pct_canais,
    'Nota M√©dia': notas_por_canal,
    'Taxa Resolu√ß√£o': taxa_resolucao_canal,
    'Tempo Resposta (dias)': tempo_medio_canal
})

# Exibe com formata√ß√£o e gradientes de cor
display(
    df_top10_canais.style
    .format({
        '% Total': '{:.2f}%',
        'Reclama√ß√µes': '{:,}',
        'Nota M√©dia': '{:.2f}',
        'Taxa Resolu√ß√£o': '{:.1f}%',
        'Tempo Resposta (dias)': '{:.1f}'
    })
    .background_gradient(cmap='Blues', subset=['Reclama√ß√µes'])
    .background_gradient(cmap='YlOrBr', subset=['Nota M√©dia'], vmin=1, vmax=5)
    .background_gradient(cmap='Greens', subset=['Taxa Resolu√ß√£o'], vmin=0, vmax=100)
)

# Identifica o canal com maior volume de reclama√ß√µes
canal_lider = top10_canais[0]
qtd_canal_lider = top10_contagens_canal[0]
pct_canal_lider = pct_canais[0]

print(f"\nüî¥ CANAL COM MAIS RECLAMA√á√ïES:")
print(f"  {canal_lider}")
print(f"  Volume: {qtd_canal_lider:,} ({pct_canal_lider:.1f}% do total)")
print(f"  Nota m√©dia: {notas_por_canal[0]:.2f}")

# Identifica o canal com pior satisfa√ß√£o (menor nota m√©dia)
idx_pior_canal = np.nanargmin(notas_por_canal)
print(f"\n‚ö†Ô∏è  CANAL COM PIOR SATISFA√á√ÉO:")
print(f"  {top10_canais[idx_pior_canal]}")
print(f"  Nota m√©dia: {notas_por_canal[idx_pior_canal]:.2f}")
print(f"  Taxa de resolu√ß√£o: {taxa_resolucao_canal[idx_pior_canal]:.1f}%")

# Identifica o canal mais eficiente (maior taxa de resolu√ß√£o)
idx_melhor_canal = np.nanargmax(taxa_resolucao_canal)
print(f"\n‚úÖ CANAL MAIS EFICIENTE (maior taxa de resolu√ß√£o):")
print(f"  {top10_canais[idx_melhor_canal]}")
print(f"  Taxa de resolu√ß√£o: {taxa_resolucao_canal[idx_melhor_canal]:.1f}%")
print(f"  Nota m√©dia: {notas_por_canal[idx_melhor_canal]:.2f}")

TOP 10 CANAIS DE AQUISI√á√ÉO COM MAIS RECLAMA√á√ïES

Objetivo: Identificar quais canais geram mais problemas e insatisfa√ß√£o
--------------------------------------------------------------------------------


Unnamed: 0,Canal de Aquisi√ß√£o,Reclama√ß√µes,% Total,Nota M√©dia,Taxa Resolu√ß√£o,Tempo Resposta (dias)
0,Internet,594606,38.68%,2.3,8.6%,5.8
1,N√£o comprei / contratei,396547,25.80%,2.27,7.6%,6.0
2,Loja f√≠sica,308350,20.06%,2.46,8.0%,6.4
3,Telefone,192331,12.51%,2.2,6.5%,6.0
4,SMS / Mensagem de texto,15755,1.02%,2.25,7.5%,5.7
5,Domic√≠lio,15281,0.99%,2.18,5.8%,6.2
6,Cat√°logo,7903,0.51%,2.46,7.2%,5.4
7,"Stand, feiras e eventos",4369,0.28%,2.51,9.9%,6.2
8,Ganhei de presente,1954,0.13%,2.52,12.4%,6.3



üî¥ CANAL COM MAIS RECLAMA√á√ïES:
  Internet
  Volume: 594,606 (38.7% do total)
  Nota m√©dia: 2.30

‚ö†Ô∏è  CANAL COM PIOR SATISFA√á√ÉO:
  Domic√≠lio
  Nota m√©dia: 2.18
  Taxa de resolu√ß√£o: 5.8%

‚úÖ CANAL MAIS EFICIENTE (maior taxa de resolu√ß√£o):
  Ganhei de presente
  Taxa de resolu√ß√£o: 12.4%
  Nota m√©dia: 2.52
