# ETL das reclamações da plataforma Consumidor.gov.

Este notebook contém as manipulações responsáveis pela limpeza (ou não) e adequação dos dados para facilitar a retirada de insights do dataset.

Os dados foram baixados de: https://www.consumidor.gov.br/pages/dadosabertos/externo/

## Conhecendo o dataset

O primeiro passo será importar a biblioteca  pandas, usada para manipulação, limpeza e análise de dados. 

In [43]:

import pandas as pd


Após isso, é necessário carregar as informações de Janeiro a Junho de 2024. 

In [44]:

data_january = pd.read_csv('../data/finalizadas_2024-01.csv',sep=';')
data_february = pd.read_csv('../data/finalizadas_2024-02.csv',sep=';')
data_march= pd.read_csv('../data/finalizadas_2024-03.csv',sep=';')
data_april = pd.read_csv('../data/finalizadas_2024-04.csv',sep=';')
data_may = pd.read_csv('../data/finalizadas_2024-05.csv',sep=';')
data_june = pd.read_csv('../data/finalizadas_2024-06.csv',sep=';')

Como estão em arquivos diferentes, serão concatenados em uma única variável

In [45]:

data = pd.concat([data_january, data_february, data_march, data_april,data_may, data_june], ignore_index=True)


Agora, uma olhada no DataFrame para ter uma visão geral dos dados 

In [46]:
data.sample(5)

Unnamed: 0,Região,UF,Cidade,Sexo,Faixa Etária,Data Finalização,Tempo Resposta,Nome Fantasia,Segmento de Mercado,Área,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor
29093,SE,SP,São Bernardo do Campo,F,entre 51 a 60 anos,2024-01-12,9.0,Magazine Luiza - Loja Online,Comércio Eletrônico,Demais Produtos,Móveis e Colchões,Entrega do Produto,Não entrega / demora na entrega do produto,Internet,S,S,Finalizada não avaliada,Não Avaliada,
137110,CO,DF,Brasília,F,entre 31 a 40 anos,2024-02-05,1.0,Hurb - Hotel Urbano,"Viagens, Turismo e Hospedagem",Turismo/Viagens,Pacote / excursão / agência de turismo,Cobrança / Contestação,Dificuldade / atraso na devolução de valores p...,Internet,S,S,Finalizada não avaliada,Não Avaliada,
265585,S,PR,Medianeira,M,entre 31 a 40 anos,2024-03-06,9.0,Tim,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Pacote de Serviços ( Combo ),Vício de Qualidade,Dificuldade para alterar/ ativar serviços,Internet,N,S,Finalizada avaliada,Resolvida,5.0
172928,NE,BA,Salvador,M,entre 31 a 40 anos,2024-02-22,7.0,Mercado Livre,Empresas de Intermediação de Serviços / Negócios,Demais Produtos,"Esporte/Lazer/Festa (equipamento de ginástica,...",Entrega do Produto,Não entrega / demora na entrega do produto,Internet,S,S,Finalizada não avaliada,Não Avaliada,
106030,SE,ES,Cariacica,F,entre 21 a 30 anos,2024-01-31,10.0,Claro Celular,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Internet Fixa,Cobrança / Contestação,Cobrança por serviço/produto não contratado / ...,Não comprei / contratei,S,S,Finalizada avaliada,Resolvida,5.0


In [47]:
data.shape

(571196, 19)

Há 571.196 linhas e o significado de cada uma das 19 colunas está descrita abaixo:


- **Região**:
  - Indica a região do Brasil onde o consumidor está localizado.
  
- **UF**:
  - Sigla do estado da federação.

- **Cidade**:
  - Nome da cidade onde o consumidor está localizado.

- **Sexo**:
  - Sexo do consumidor (Masculino, feminino e Outros).

- **Faixa Etária**:
  - Faixa etária do consumidor, categorizada em intervalos de idade (até 20, entre 21 a 30, entre 31 a 40, entre 41 a 50, entre 51 a 60, entre 61 a 70, mais de 70).

- **Data Finalização**:
  - Data em que a reclamação foi finalizada.

- **Tempo Resposta**:
  - Tempo que a empresa levou para responder à reclamação, medido em dias.

- **Nome Fantasia**:
  - Nome comercial da empresa que recebeu a reclamação.

- **Segmento de Mercado**:
  - Setor ou indústria em que a empresa opera.

- **Área**:
  - Área específica do negócio da empresa à qual a reclamação se refere (e.g., Atendimento ao Cliente, Cobrança).

- **Assunto**:
  - Tema principal da reclamação feita pelo consumidor (e.g., Qualidade do Produto, Falta de Informação).

- **Grupo Problema**:
  - Categoria mais ampla do problema enfrentado pelo consumidor (e.g., Produto, Serviço, Atendimento).

- **Problema**:
  - Descrição mais específica do problema enfrentado pelo consumidor dentro do "Grupo Problema" (e.g., Produto com Defeito, Atraso na Entrega).

- **Como Comprou/Contratou**:
  - Indica como o consumidor adquiriu o produto ou serviço (e.g., Online, Loja Física).

- **Procurou Empresa**:
  - Indica se o consumidor tentou resolver o problema diretamente com a empresa antes de registrar a reclamação.

- **Respondida**:
  - Indica se a empresa respondeu à reclamação do consumidor.

- **Situação**:
  - Situação atual da reclamação, indicando se foi resolvida. 

- **Avaliação Reclamação**:
  - Avaliação do consumidor sobre a resolução da reclamação, geralmente indicando satisfação ou insatisfação.

- **Nota do Consumidor**:
  - Nota dada pelo consumidor, geralmente em uma escala de 1 a 5, avaliando o atendimento e a resolução do problema.


## Limpando e ajustando os dados

Primeiro, daremos um overview nos tipos dos dados.

In [48]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 571196 entries, 0 to 571195
Data columns (total 19 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Região                  571196 non-null  object 
 1   UF                      571196 non-null  object 
 2   Cidade                  571196 non-null  object 
 3   Sexo                    571188 non-null  object 
 4   Faixa Etária            571196 non-null  object 
 5   Data Finalização        571196 non-null  object 
 6   Tempo Resposta          558627 non-null  float64
 7   Nome Fantasia           571196 non-null  object 
 8   Segmento de Mercado     571196 non-null  object 
 9   Área                    571196 non-null  object 
 10  Assunto                 571196 non-null  object 
 11  Grupo Problema          571196 non-null  object 
 12  Problema                571196 non-null  object 
 13  Como Comprou Contratou  571196 non-null  object 
 14  Procurou Empresa    

Depois disso, iremos verificar se há linhas duplicadas. 

In [49]:
data.duplicated().sum()

np.int64(1483)

Para que nossa análise não seja influenciada pelos registros duplicados, iremos excluí-los.

In [50]:
data = data.drop_duplicates()


O código abaixo verifica se em cada coluna  há valores ausentes e, caso haja, soma-os. 

Com isso, observamos que as colunas ```Sexo, Tempo Resposta, Avaliação Reclamação e Nota do Consumidor``` possuem valores do tipo ```NaN```.

In [51]:

data.isnull().sum()

Região                         0
UF                             0
Cidade                         0
Sexo                           8
Faixa Etária                   0
Data Finalização               0
Tempo Resposta             12529
Nome Fantasia                  0
Segmento de Mercado            0
Área                           0
Assunto                        0
Grupo Problema                 0
Problema                       0
Como Comprou Contratou         0
Procurou Empresa               0
Respondida                     0
Situação                       0
Avaliação Reclamação           2
Nota do Consumidor        284644
dtype: int64

Começaremos o tratamento dos dados ausentes pela coluna ```Sexo```. 

Para isso, identificaremos o valor que mais se repete nesta coluna e usaremos esse valor 
para preencher os dados faltantes.

Optamos por essa abordagem porque apenas 8 valores serão adicionados, o que não afetará significativamente a consistência dos dados.


In [52]:
data['Sexo'].value_counts()

Sexo
M    337448
F    231853
O       404
Name: count, dtype: int64

Como Masculino é sexo que possui a maior frequência, imputaremos ele. 

In [53]:
data['Sexo'] = data['Sexo'].fillna('M')

Agora, olharemos para a coluna ```Avaliação Reclamação```.

Antes disso, vejamos que ela assume 3 valores diferentes: Não avaliada, Não resolvida e Resolvida. 

In [54]:
data['Avaliação Reclamação'].unique()

array(['Não Avaliada', 'Não Resolvida', 'Resolvida', nan], dtype=object)

Com isso em mente, buscaremos apenas as duas linhas que não possuem registro nessa coluna.

In [55]:
missing_reviews =  data[data['Avaliação Reclamação'].isnull()]
missing_reviews

Unnamed: 0,Região,UF,Cidade,Sexo,Faixa Etária,Data Finalização,Tempo Resposta,Nome Fantasia,Segmento de Mercado,Área,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor
75921,SE,RJ,Rio de Janeiro,M,entre 31 a 40 anos,2024-01-26,9.0,Gol Linhas Aéreas,Transporte Aéreo,Transportes,Aéreo,Contrato / Oferta,Oferta não cumprida / serviço não fornecido/ v...,Internet,S,S,Finalizada avaliada,,1.0
485739,SE,MG,Belo Horizonte,F,entre 41 a 50 anos,2024-05-06,1.0,Latam Pass,Programas de Fidelidade,Transportes,Aéreo,Cobrança / Contestação,Dificuldade / atraso na devolução de valores p...,Internet,S,S,Finalizada avaliada,,3.0


Aqui, vemos que há uma inconsistência porque em ambos registros as colunas ```Situação```e ```Nota Consumidor``` estão preenchidos, o que mostra que essas reclamações foram avaliadas, mas o valor da coluna ``Avaliação`` foi perdido. 

Para contornar isso, optamos por preencher essas lacunas usando como critério o valor de maior ocorrência das empresas **Gol Linhas Aéreas e Latam Pass**, a quem pertence os registros incompletos. 


In [56]:
companies = ['Gol Linhas Aéreas', 'Latam Pass']

for company in companies:

    company_data = data[data['Nome Fantasia'] == f'{company}']
    company_reviews = company_data['Avaliação Reclamação'].value_counts()
    
    template = f"""
    Avaliações da empresa: {company}

    {company_reviews}
    """
    print(template)


    Avaliações da empresa: Gol Linhas Aéreas

    Avaliação Reclamação
Resolvida        4104
Não Avaliada     3856
Não Resolvida    1138
Name: count, dtype: int64
    

    Avaliações da empresa: Latam Pass

    Avaliação Reclamação
Não Avaliada     1416
Resolvida        1380
Não Resolvida     811
Name: count, dtype: int64
    



```Resolvida``` é o status que mais ocorre na empresa **Gol**, enquanto na **Latam** é o ```Não Avaliada```, mas não usaremos esse valor, porque como vimos antes, as duas reclamações foram avaliadas. Por isso, imputaremos ```Resolvida``` nos dois registros. 


In [57]:
data['Avaliação Reclamação'] = data['Avaliação Reclamação'].fillna('Resolvida')

A ausência de valores nas colunas ``` Tempo Resposta```  e ```Nota do Consumidor``` são informações valiosas. 

Na coluna ``` Tempo Resposta``` significa que a empresa não respondeu a reclamação, por isso não há tempo de resposta. 

O código abaixo, mostra a relação entre os valores nulos da coluna e as reclamações que não foram respondidas. 


In [58]:

na_response = data[(data['Tempo Resposta'].isna()) & (data['Respondida'] == 'N')].shape[0]
print(f"Número de casos onde 'Tempo Resposta' está nulo e 'Respondida' é 'Não': {na_response}")


Número de casos onde 'Tempo Resposta' está nulo e 'Respondida' é 'Não': 12529


Já na coluna ```Nota do Consumidor``` , os registros com valores ausentes ssão os que não foram avaliados pelos consumidores. Como não houve avaliação, não há nota. 

Por conta disso, os dados faltantes das colunas ``` Tempo Resposta```  e ```Nota do Consumidor``` serão mantidos, porque eles significam que a empresa não respondeu publicamente a reclamação e o consumidor não avaliou a manifestação, respectivamente.

In [59]:
data.sample(5)

Unnamed: 0,Região,UF,Cidade,Sexo,Faixa Etária,Data Finalização,Tempo Resposta,Nome Fantasia,Segmento de Mercado,Área,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor
470364,SE,RJ,Barra Mansa,F,entre 21 a 30 anos,2024-05-10,10.0,SulAmérica Saúde,Operadoras de Planos de Saúde e Administradora...,Saúde,"Plano de Saúde (convênio, autogestão, seguro s...",Cobrança / Contestação,Dificuldade / atraso na devolução de valores p...,Internet,S,S,Finalizada não avaliada,Não Avaliada,
324123,S,PR,Saudade do Iguaçu,F,entre 21 a 30 anos,2024-03-22,9.0,C6 Bank,"Bancos, Financeiras e Administradoras de Cartão",Serviços Financeiros,Conta corrente / Salário / Poupança /Conta Apo...,Contrato / Oferta,Dificuldade para rescindir o contrato / cancel...,Telefone,S,S,Finalizada avaliada,Não Resolvida,5.0
433868,SE,RJ,Rio de Janeiro,F,entre 41 a 50 anos,2024-04-22,5.0,Claro Celular,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Internet Móvel,Cobrança / Contestação,Cobrança por serviço/produto não contratado / ...,Não comprei / contratei,N,S,Finalizada avaliada,Não Resolvida,1.0
122452,SE,RJ,Nova Friburgo,M,entre 31 a 40 anos,2024-02-02,4.0,Tudo Azul,Programas de Fidelidade,Transportes,Aéreo,Contrato / Oferta,Oferta não cumprida / serviço não fornecido/ v...,Internet,S,S,Finalizada não avaliada,Não Avaliada,
238289,SE,SP,São Paulo,M,entre 41 a 50 anos,2024-03-08,8.0,Samsung - Loja Online,Comércio Eletrônico,Produtos de Telefonia e Informática,Tablet,Entrega do Produto,Produto entregue incompleto / diferente do pe...,Internet,S,S,Finalizada não avaliada,Não Avaliada,


## Salvando o novo dataset

Antes de salvarmos o dataset, iremos excluir as colunas ```Área```, ```Assunto```, ``` Grupo Problema``` e ``` Problema```, pois não as useremos na análise. 

In [60]:
data_complaints = data.drop(['Área','Assunto','Grupo Problema','Problema'], axis=1)


Feito isso, exportamos os dados em um novo arquivo csv.

In [62]:
data_complaints.to_csv('../data/dados_consumidor_gov_semestral.csv', index=False)