### Importando as bibliotecas que serão utilizadas

In [1]:
import pandas as pd 
from unidecode import unidecode 

### Extração dos dados

In [2]:
# extração dos dados
df_jan = pd.read_csv('dados/finalizadas_2024-01.csv', delimiter=';')
df_fev = pd.read_csv('dados/finalizadas_2024-02.csv', delimiter=';')
df_mar = pd.read_csv('dados/finalizadas_2024-03.csv', delimiter=';')

In [12]:
# realizando a junção dos dataframes em um só
df_concat = pd.concat([df_jan, df_fev, df_mar], ignore_index=True)

In [13]:
# verificando nosso novo df
df_concat.head()

Unnamed: 0,Região,UF,Cidade,Sexo,Faixa Etária,Data Finalização,Tempo Resposta,Nome Fantasia,Segmento de Mercado,Área,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor
0,NE,BA,Salvador,F,entre 31 a 40 anos,2024-01-01,,Jadlog,Empresas de Serviços Postais e Logística,Demais Serviços,Serviços Postais,Entrega do Produto,Não entrega / demora na entrega do produto,Internet,S,N,Finalizada não avaliada,Não Avaliada,
1,NE,BA,Salvador,M,entre 31 a 40 anos,2024-01-01,10.0,Hipercard,"Bancos, Financeiras e Administradoras de Cartão",Serviços Financeiros,Cartão de Crédito / Cartão de Débito / Cartão ...,Cobrança / Contestação,Negativação indevida referente a cobrança não ...,Não comprei / contratei,S,S,Finalizada não avaliada,Não Avaliada,
2,SE,SP,Jundiaí,F,entre 41 a 50 anos,2024-01-01,,99App,Empresas de Intermediação de Serviços / Negócios,Demais Serviços,Aplicativo de mobilidade urbana,Cobrança / Contestação,Cobrança em duplicidade / Cobrança referente a...,Internet,S,N,Finalizada não avaliada,Não Avaliada,
3,NE,BA,Salvador,F,entre 31 a 40 anos,2024-01-01,10.0,iFood,Empresas de Intermediação de Serviços / Negócios,Demais Serviços,Serviços de entrega / delivery,Entrega do Produto,Produto entregue incompleto / diferente do pe...,Internet,S,S,Finalizada não avaliada,Não Avaliada,
4,NE,BA,Salvador,F,entre 51 a 60 anos,2024-01-01,10.0,Banco BMG,"Bancos, Financeiras e Administradoras de Cartão",Serviços Financeiros,Crédito Consignado (para servidores públicos o...,Cobrança / Contestação,Dificuldade para obter boleto de quitação ou i...,Telefone,S,S,Finalizada não avaliada,Não Avaliada,


### Transformação dos dados

Vamos iniciar removendo os valores duplicados utilizando o método `drop_duplicates()`

In [14]:
# verificando se há dados duplicados e removendo
df_concat = df_concat.drop_duplicates()

Através do método `info()` observamos que o dataframe possui 19 colunas e 334280 registros únicos. Observamos também que as colunas `Sexo`, `Tempo Resposta`, `Avaliação Reclamação` e `Nota do Consumidor` possuem valores nulos pois apresentam variações em relação ao restante das colunas. Iremos tratar isso futuramente.

In [15]:
# utilizando o método info para verificar os tipos e dados e valores não nulos e observar se os dados estão consistentes.
df_concat.info()

<class 'pandas.core.frame.DataFrame'>
Index: 334280 entries, 0 to 335294
Data columns (total 19 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   Região                  334280 non-null  object 
 1   UF                      334280 non-null  object 
 2   Cidade                  334280 non-null  object 
 3   Sexo                    334274 non-null  object 
 4   Faixa Etária            334280 non-null  object 
 5   Data Finalização        334280 non-null  object 
 6   Tempo Resposta          325650 non-null  float64
 7   Nome Fantasia           334280 non-null  object 
 8   Segmento de Mercado     334280 non-null  object 
 9   Área                    334280 non-null  object 
 10  Assunto                 334280 non-null  object 
 11  Grupo Problema          334280 non-null  object 
 12  Problema                334280 non-null  object 
 13  Como Comprou Contratou  334280 non-null  object 
 14  Procurou Empresa        3

Agora iremos eliminar as colunas que não serão utilizadas em nossa análise, padronizar os nomes das colunas colocando todas as letras em minúsculo e removendo espaços. Isso facilitará a leitura dos dados e trabalho no momento da análise.

In [16]:
# eliminando colunas que não serão utilizadas
df_concat.drop(columns=['Região', 'Cidade', 'Data Finalização', 'Área', 'Assunto', 'Grupo Problema', 'Problema','Respondida', 'Situação'], inplace=True)

In [17]:
# padronizando os nomes das colunas removendo acentos, espaços e transformando em minúsculas.
df_concat.rename(columns=lambda x: unidecode(x).lower().replace(' ', '_'), inplace=True)

In [18]:
# verificando se as alterações foram aplicadas corretamente
df_concat.head(1)

Unnamed: 0,uf,sexo,faixa_etaria,tempo_resposta,nome_fantasia,segmento_de_mercado,como_comprou_contratou,procurou_empresa,avaliacao_reclamacao,nota_do_consumidor
0,BA,F,entre 31 a 40 anos,,Jadlog,Empresas de Serviços Postais e Logística,Internet,S,Não Avaliada,


Ao utilizar o método `shape` temos agora 334280 registros únicos e 10 colunas após remoção dos dados duplicados.

In [19]:
df_concat.shape

(334280, 10)

Ao verificar o percentual de valores nulos percebemos que a coluna `nota_do_consumidor` possui uma quantidade significativa de nulos com 59% de valores nulos. 

Isso acontece porque muitos consumidores acabam não realizando a avaliação do atendimento dentro do período estipulado então a reclamação é dada como encerrada porém nenhuma nota é atribuída. 

Sendo assim vamos substituir os valores nulos desta coluna como 0 pois ainda poderemos contabilizar como uma reclamação registrada, mesmo que não avaliada.

Já para as demais colunas com valores nulos nós iremos excluir os valores pois não impactarão nos resultados da análise visto que são bem baixos.

In [20]:
# verificando o percentual de valores nulos por coluna
df_concat.isnull().sum()/df_concat.shape[0]*100

uf                         0.000000
sexo                       0.001795
faixa_etaria               0.000000
tempo_resposta             2.581668
nome_fantasia              0.000000
segmento_de_mercado        0.000000
como_comprou_contratou     0.000000
procurou_empresa           0.000000
avaliacao_reclamacao       0.000299
nota_do_consumidor        59.043915
dtype: float64

In [21]:
# removendo valores nulos das colunas tempo_resposta e sexo e avalicao_reclamacao
df_concat = df_concat.dropna(subset=['tempo_resposta', 'sexo', 'avaliacao_reclamacao'])

In [22]:
# preenchendo os valores ausentes na coluna nota_do_consumidor com 0
df_concat['nota_do_consumidor'] = df_concat['nota_do_consumidor'].fillna(0)

In [24]:
df_concat.head(1)

Unnamed: 0,uf,sexo,faixa_etaria,tempo_resposta,nome_fantasia,segmento_de_mercado,como_comprou_contratou,procurou_empresa,avaliacao_reclamacao,nota_do_consumidor
1,BA,M,entre 31 a 40 anos,10.0,Hipercard,"Bancos, Financeiras e Administradoras de Cartão",Não comprei / contratei,S,Não Avaliada,0.0


Fazendo uma nova verificação podemos ver que as transformações foram aplicadas corretamente e agora não possuímos colunas com valores nulos.

In [25]:
df_concat.isnull().sum()/df_concat.shape[0]*100

uf                        0.0
sexo                      0.0
faixa_etaria              0.0
tempo_resposta            0.0
nome_fantasia             0.0
segmento_de_mercado       0.0
como_comprou_contratou    0.0
procurou_empresa          0.0
avaliacao_reclamacao      0.0
nota_do_consumidor        0.0
dtype: float64

A configuração final do nosso dataframe é de 235643 registros únicos e 10 colunas.

In [26]:
df_concat.shape

(325643, 10)

### Carregamento dos dados
Iremos exportar o dataframe tratado para um arquivo csv que será utilizado em nossa análise.

In [27]:
# exportando o dataframe para um arquivo csv para realizar a análise 
df_concat.to_csv('dados/base_final.csv', index=False)