# Análise de Reclamações de Consumidores no Brasil

Projeto desenvolvido no curso de Análise de Dados da EBAC,
em parceria com a Semantix, utilizando dados públicos do
Consumidor.gov.br.


## Descrição do Problema

Com o aumento do consumo de produtos e serviços, principalmente
em ambientes digitais, o número de reclamações registradas por
consumidores também cresce de forma significativa. Essas reclamações
representam problemas relacionados a atendimento, cobrança,
entrega e qualidade dos serviços prestados pelas empresas.

Analisar esses dados de forma estruturada é fundamental para
identificar padrões, empresas mais reclamadas e os principais
tipos de problemas enfrentados pelos consumidores. A análise de
dados permite transformar registros individuais em informações
relevantes, auxiliando na tomada de decisões e na melhoria dos
processos de atendimento ao consumidor.


### Coleta de Dados

In [None]:
import pandas as pd


In [None]:
import os

os.listdir('/content')


['.config',
 'basecompleta2025-12.csv',
 'basecompleta2025-10.csv',
 'reclamacoes_tratadas.csv',
 'basecompleta2025-11.csv',
 'sample_data']

In [None]:
arquivos = [
    '/content/basecompleta2025-10.csv',
    '/content/basecompleta2025-11.csv',
    '/content/basecompleta2025-12.csv'
]

df = pd.concat([pd.read_csv(arq, on_bad_lines='warn') for arq in arquivos])

df.head()

[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
Skipping line 306515: expected 2 fields, saw 5
Skipping line 306518: expected 2 fields, saw 4
Skipping line 306520: expected 2 fields, saw 5
Skipping line 306522: expected 2 fields, saw 3
Skipping line 306523: expected 2 fields, saw 3
Skipping line 306524: expected 2 fields, saw 3
Skipping line 306530: expected 2 fields, saw 7
Skipping line 306532: expected 2 fields, saw 3
Skipping line 306533: expected 2 fields, saw 8
Skipping line 306535: expected 2 fields, saw 3
Skipping line 306537: expected 2 fields, saw 3
Skipping line 306539: expected 2 fields, saw 3
Skipping line 306541: expected 2 fields, saw 3
Skipping line 306543: expected 2 fields, saw 4
Skipping line 306546: expected 2 fields, saw 3
Skipping line 306547: expected 2 fields, saw 9
Skipping line 306549: expected 2 fields, saw 5
Skipping line 306550: expected 2 fields, saw 3
Skipping line 306553: expected 2 fields, saw 3
Skipping line 306554: expected 2 f

Unnamed: 0,Gestor;Canal de Origem;Região;UF;Cidade;Sexo;Faixa Etária;Ano Abertura;Mês Abertura;Data Abertura;Data Resposta;Data Análise;Data Recusa;Data Finalização;Prazo Resposta;Prazo Analise Gestor;Tempo Resposta;Nome Fantasia;Segmento de Mercado;Área;Assunto;Grupo Problema;Problema;Como Comprou Contratou;Procurou Empresa;Respondida;Situação;Avaliação Reclamação;Nota do Consumidor;Análise da Recusa
"(Fundação de Proteção e Defesa do Consumidor;Plataforma Web;SE;SP;São Paulo;M;entre 41 a 50 anos;2025;8;15/08/2025;;04/09/2025;20/08/2025;2025-10-01;09/09/2025;15;;Netshoes;Comércio Eletrônico;Demais Produtos;Vestuário e Artigos de Uso Pessoal (roupa, calçados, jóias, bijuterias, malas, bolsas, etc);Saúde e Segurança;Risco)",dano físico ou mal estar decorrente da presta...
"(Secretaria Nacional do Consumidor;Plataforma Web;N ;AM;Manaus;M;entre 21 a 30 anos;2025;8;20/08/2025;10/09/2025;08/09/2025;28/08/2025;2025-10-01;10/09/2025;11;10;Cartões Itaú;Bancos, Financeiras e Administradoras de Cartão;Serviços Financeiros;Cartão de Crédito / Cartão de Débito / Cartão de Loja;Contrato / Oferta;Alteração / rescisão de contrato sem solicitação / aviso prévio;Internet;S;S;Finalizada não avaliada;Não Avaliada;;Improcedente, nan, nan, nan, nan, nan)",
"(Programa Estadual de Proteção e Defesa do Consumidor;Plataforma Web;SE;MG;Três Marias;F;entre 51 a 60 anos;2025;8;20/08/2025;11/09/2025;10/09/2025;27/08/2025;2025-10-02;13/09/2025;14;8;Caixa Econômica Federal;Bancos, Financeiras e Administradoras de Cartão;Serviços Financeiros;Crédito Consignado (para servidores públicos ou trabalhadores do setor privado);Cobrança / Contestação;Renegociação / parcelamento de dívida;Internet;N;S;Finalizada não avaliada;Não Avaliada;;Improcedente, nan, nan, nan, nan, nan)",
"(Fundação de Proteção e Defesa do Consumidor;Plataforma Web;SE;SP;São Vicente;M;entre 31 a 40 anos;2025;8;20/08/2025;10/09/2025;10/09/2025;27/08/2025;2025-10-01;13/09/2025;14;7;Uber;Empresas de Intermediação de Serviços / Negócios;Demais Serviços ;Aplicativo de mobilidade urbana;Vício de Qualidade;Bloqueio / Suspensão indevida do serviço;Internet;S;S;Finalizada não avaliada;Não Avaliada;;Improcedente, nan, nan, nan, nan, nan, nan)",
"(Programa Estadual de Proteção e Defesa do Consumidor;Plataforma Web;SE;MG;Nova Lima;M;entre 31 a 40 anos;2025;8;20/08/2025;11/09/2025;10/09/2025;27/08/2025;2025-10-02;13/09/2025;14;8;Will Bank;Bancos, Financeiras e Administradoras de Cartão;Serviços Financeiros;Cartão de Crédito / Cartão de Débito / Cartão de Loja;Cobrança / Contestação;Cálculo de juros, saldo devedor (contestação, solicitação de histórico, dúvidas);SMS / Mensagem de texto;S;S;Finalizada não avaliada;Não Avaliada;;Improcedente, nan, nan)",


In [None]:
df.shape


(605392, 1)

In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 605392 entries, ('Fundação de Proteção e Defesa do Consumidor;Plataforma Web;SE;SP;São Paulo;M;entre 41 a 50 anos;2025;8;15/08/2025;;04/09/2025;20/08/2025;2025-10-01;09/09/2025;15;;Netshoes;Comércio Eletrônico;Demais Produtos;Vestuário e Artigos de Uso Pessoal (roupa', ' calçados', ' jóias', ' bijuterias', ' malas', ' bolsas', ' etc);Saúde e Segurança;Risco') to Fundação de Proteção e Defesa do Consumidor;Plataforma Web;SE;SP;Cotia;M;entre 41 a 50 anos;2025;12;31/12/2025;31/12/2025;;;2025-12-31;15/01/2026;;0;Serasa Experian ;Bancos de Dados e Cadastros de Consumidores;Serviços Financeiros;Consulta / Monitoramento de CPF;Cobrança / Contestação;Negativação indevida - desconhece motivo e/ou fornecedor;Não comprei / contratei;N;S;Finalizada avaliada;Não Resolvida;1;
Data columns (total 1 columns):
 #   Column                                                                                                                                           

Nesta etapa, os dados mensais disponibilizados pelo Consumidor.gov.br
foram carregados individualmente e posteriormente concatenados em um
único DataFrame utilizando a biblioteca Pandas, com o objetivo de
facilitar a análise exploratória dos dados.


In [None]:
df.columns


Index(['Gestor;Canal de Origem;Região;UF;Cidade;Sexo;Faixa Etária;Ano Abertura;Mês Abertura;Data Abertura;Data Resposta;Data Análise;Data Recusa;Data Finalização;Prazo Resposta;Prazo Analise Gestor;Tempo Resposta;Nome Fantasia;Segmento de Mercado;Área;Assunto;Grupo Problema;Problema;Como Comprou Contratou;Procurou Empresa;Respondida;Situação;Avaliação Reclamação;Nota do Consumidor;Análise da Recusa'], dtype='object')

In [None]:
df.info()


<class 'pandas.core.frame.DataFrame'>
Index: 605392 entries, ('Fundação de Proteção e Defesa do Consumidor;Plataforma Web;SE;SP;São Paulo;M;entre 41 a 50 anos;2025;8;15/08/2025;;04/09/2025;20/08/2025;2025-10-01;09/09/2025;15;;Netshoes;Comércio Eletrônico;Demais Produtos;Vestuário e Artigos de Uso Pessoal (roupa', ' calçados', ' jóias', ' bijuterias', ' malas', ' bolsas', ' etc);Saúde e Segurança;Risco') to Fundação de Proteção e Defesa do Consumidor;Plataforma Web;SE;SP;Cotia;M;entre 41 a 50 anos;2025;12;31/12/2025;31/12/2025;;;2025-12-31;15/01/2026;;0;Serasa Experian ;Bancos de Dados e Cadastros de Consumidores;Serviços Financeiros;Consulta / Monitoramento de CPF;Cobrança / Contestação;Negativação indevida - desconhece motivo e/ou fornecedor;Não comprei / contratei;N;S;Finalizada avaliada;Não Resolvida;1;
Data columns (total 1 columns):
 #   Column                                                                                                                                           

In [None]:
import pandas as pd

arquivos = [
    'basecompleta2025-12.csv',
    'basecompleta2025-10.csv',
    'basecompleta2025-11.csv'
]

df = pd.concat([
    pd.read_csv(arq, sep=';', encoding='latin-1')
    for arq in arquivos
])

df.head()


Unnamed: 0,ï»¿Gestor,Canal de Origem,RegiÃ£o,UF,Cidade,Sexo,Faixa EtÃ¡ria,Ano Abertura,MÃªs Abertura,Data Abertura,...,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,SituaÃ§Ã£o,AvaliaÃ§Ã£o ReclamaÃ§Ã£o,Nota do Consumidor,AnÃ¡lise da Recusa
0,Programa Estadual de ProteÃ§Ã£o e Defesa do Co...,Plataforma Web,SE,MG,Barroso,M,entre 41 a 50 anos,2025,10,10/10/2025,...,CrÃ©dito Pessoal e Demais EmprÃ©stimos (exceto...,CobranÃ§a / ContestaÃ§Ã£o,NegativaÃ§Ã£o indevida - desconhece motivo e/o...,NÃ£o comprei / contratei,N,N,Finalizada nÃ£o avaliada,NÃ£o Avaliada,,Improcedente
1,FundaÃ§Ã£o de ProteÃ§Ã£o e Defesa do Consumidor,Plataforma Web,SE,SP,SÃ£o Paulo,F,entre 41 a 50 anos,2025,10,11/10/2025,...,"VestuÃ¡rio e Artigos de Uso Pessoal (roupa, ca...",Atendimento / SAC,MÃ¡ qualidade no atendimento (descortesia / de...,Ganhei de presente,S,S,Finalizada nÃ£o avaliada,NÃ£o Avaliada,,Improcedente
2,Secretaria Nacional do Consumidor,Plataforma Web,S,RS,Sant'Ana do Livramento,O,entre 21 a 30 anos,2025,10,12/10/2025,...,"Produtos relacionados a saÃºde, exceto medicam...",Contrato / Oferta,Recusa em cancelar compra/serviÃ§o no prazo de...,Internet,S,N,Finalizada nÃ£o avaliada,NÃ£o Avaliada,,Improcedente
3,Programa Estadual de ProteÃ§Ã£o e Defesa do Co...,Plataforma Web,SE,MG,Juiz de Fora,F,mais de 70 anos,2025,10,12/10/2025,...,Conta corrente / SalÃ¡rio / PoupanÃ§a /Conta A...,VÃ­cio de Qualidade,"Clonagem, fraude, furto e roubo",Telefone,S,S,Finalizada nÃ£o avaliada,NÃ£o Avaliada,,Improcedente
4,Secretaria Nacional do Consumidor,Plataforma Web,NE,RN,S?o Gon?alo do Amarante,M,entre 41 a 50 anos,2025,10,12/10/2025,...,Telefonia MÃ³vel PrÃ©-paga,CobranÃ§a / ContestaÃ§Ã£o,CobranÃ§a indevida / abusiva para alterar ou c...,Telefone,S,S,Finalizada nÃ£o avaliada,NÃ£o Avaliada,,Improcedente


Os arquivos CSV disponibilizados utilizam o ponto e vírgula como
separador de campos. Por isso, foi necessário ajustar o parâmetro
`sep=';'` no momento da leitura dos dados.


In [None]:
df = pd.concat([
    pd.read_csv(arq, sep=';', encoding='utf-8')
    for arq in arquivos
])

df.columns


Index(['Gestor', 'Canal de Origem', 'Região', 'UF', 'Cidade', 'Sexo',
       'Faixa Etária', 'Ano Abertura', 'Mês Abertura', 'Data Abertura',
       'Data Resposta', 'Data Análise', 'Data Recusa', 'Data Finalização',
       'Prazo Resposta', 'Prazo Analise Gestor', 'Tempo Resposta',
       'Nome Fantasia', 'Segmento de Mercado', 'Área', 'Assunto',
       'Grupo Problema', 'Problema', 'Como Comprou Contratou',
       'Procurou Empresa', 'Respondida', 'Situação', 'Avaliação Reclamação',
       'Nota do Consumidor', 'Análise da Recusa'],
      dtype='object')

Durante a leitura dos arquivos CSV, foi identificado um problema de
codificação de caracteres (encoding), comum em bases de dados públicas.
O problema foi corrigido ajustando o encoding correto na leitura dos
arquivos, garantindo a correta exibição de caracteres acentuados.


In [None]:
colunas_usadas = [
    'Nome Fantasia',
    'Grupo Problema',
    'Data Abertura',
    'Situação'
]

df_reduzido = df[colunas_usadas]
df_reduzido.head()


Unnamed: 0,Nome Fantasia,Grupo Problema,Data Abertura,Situação
0,Afinz (Sorocred),Cobrança / Contestação,10/10/2025,Finalizada não avaliada
1,Puma,Atendimento / SAC,11/10/2025,Finalizada não avaliada
2,Panvel Farmácias,Contrato / Oferta,12/10/2025,Finalizada não avaliada
3,Caixa Econômica Federal,Vício de Qualidade,12/10/2025,Finalizada não avaliada
4,Claro Celular,Cobrança / Contestação,12/10/2025,Finalizada não avaliada


In [None]:
df_reduzido = df_reduzido.rename(columns={
    'Nome Fantasia': 'empresa',
    'Grupo Problema': 'problema',
    'Data Abertura': 'data',
    'Situação': 'status'
})

df_reduzido.head()


Unnamed: 0,empresa,problema,data,status
0,Afinz (Sorocred),Cobrança / Contestação,10/10/2025,Finalizada não avaliada
1,Puma,Atendimento / SAC,11/10/2025,Finalizada não avaliada
2,Panvel Farmácias,Contrato / Oferta,12/10/2025,Finalizada não avaliada
3,Caixa Econômica Federal,Vício de Qualidade,12/10/2025,Finalizada não avaliada
4,Claro Celular,Cobrança / Contestação,12/10/2025,Finalizada não avaliada


Após a carga correta,
foram selecionadas apenas as colunas relevantes para o objetivo
do projeto e os nomes foram padronizados.

In [None]:
df_reduzido.isnull().sum()


Unnamed: 0,0
empresa,0
problema,0
data,0
status,0


In [None]:
df_reduzido = df_reduzido.dropna()


As linhas com valores ausentes foram removidas para garantir consistência na análise.

In [None]:
df_reduzido['data'] = pd.to_datetime(
    df_reduzido['data'],
    errors='coerce',
    dayfirst=True
)


In [None]:
df_reduzido.isnull().sum()


Unnamed: 0,0
empresa,0
problema,0
data,0
status,0


In [None]:
df_reduzido = df_reduzido.dropna(subset=['data'])


Durante a conversão da coluna de datas, foram identificados formatos
inconsistentes. Para tratar esse problema, foi utilizada a conversão
com `errors='coerce'`, transformando valores inválidos em nulos, que
foram posteriormente removidos para garantir a qualidade da análise.


In [None]:
reclamacoes_empresa = df_reduzido['empresa'].value_counts().head(10)
reclamacoes_empresa


Unnamed: 0_level_0,count
empresa,Unnamed: 1_level_1
Nubank,67661
Serasa Experian,57681
Banco do Brasil,30312
Banco Santander,26891
Banco Bradesco,26549
Vivo - Telefônica,22322
Caixa Econômica Federal,21774
Banco Itaú Unibanco,17419
Mercado Pago,13354
Banco Pan,13118


Foi realizado o levantamento das empresas com maior número de reclamações,
permitindo identificar aquelas que concentram a maior demanda de atendimento.


In [None]:
problemas_comuns = df_reduzido['problema'].value_counts().head(10)
problemas_comuns


Unnamed: 0_level_0,count
problema,Unnamed: 1_level_1
Cobrança / Contestação,456710
Contrato / Oferta,90984
Atendimento / SAC,83070
Vício de Qualidade,70212
Dados Pessoais e Privacidade,64476
Entrega do Produto,20730
Informação,13138
Saúde e Segurança,4043


A análise dos tipos de problemas permite identificar as principais causas
das reclamações registradas pelos consumidores.


In [None]:
status_reclamacoes = df_reduzido['status'].value_counts()
status_reclamacoes


Unnamed: 0_level_0,count
status,Unnamed: 1_level_1
Finalizada não avaliada,507301
Finalizada avaliada,203188
Cancelada,72039
Encerrada,20835


A distribuição do status das reclamações mostra o percentual de casos
resolvidos, em andamento ou não resolvidos.


In [None]:
reclamacoes_mes = df_reduzido.groupby(df_reduzido['data'].dt.to_period('M')).size()
reclamacoes_mes


Unnamed: 0_level_0,0
data,Unnamed: 1_level_1
2025-08,1790
2025-09,185007
2025-10,276204
2025-11,285994
2025-12,54368


A análise temporal permite observar a evolução do volume de reclamações
ao longo dos meses analisados.


## Relatório de Insights


A análise exploratória revelou que poucas empresas concentram a maior
parte das reclamações registradas no período analisado. Entre os
principais problemas identificados estão questões relacionadas a
cobrança e atendimento ao consumidor.

Observou-se também que a maioria das reclamações possui status de
resolvida, indicando que as empresas, em geral, buscam solucionar os
problemas apresentados pelos consumidores.


In [None]:
df_reduzido.to_csv('/content/reclamacoes_tratadas.csv', index=False)
