# Análise Exploratória

## Importando as libs

In [2]:
import pandas as pd
import os

## Carregando dataset completo

In [3]:
folder_path = '../dataset/raw'
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

In [31]:
dataframes = [pd.read_csv(os.path.join(folder_path, file), encoding='utf-8', delimiter=';') for file in csv_files]

In [32]:
combined_df = pd.concat(dataframes, ignore_index=True)

In [54]:
combined_df.shape

(8340614, 20)

In [34]:
combined_df.columns

Index(['Região', 'UF', 'Cidade', 'Sexo', 'Faixa Etária', 'Data Finalização',
       'Tempo Resposta', 'Nome Fantasia', 'Segmento de Mercado', 'Área',
       'Assunto', 'Grupo Problema', 'Problema', 'Como Comprou Contratou',
       'Procurou Empresa', 'Respondida', 'Situação', 'Avaliação Reclamação',
       'Nota do Consumidor', 'Total'],
      dtype='object')

## Filtros

### Empresas

In [64]:
combined_df = combined_df[(combined_df['Nome Fantasia'] == "Claro Fixo - Embratel") | 
            (combined_df['Nome Fantasia'] == "Claro Celular") |
            (combined_df['Nome Fantasia'] == "Oi Fixo") |
            (combined_df['Nome Fantasia'] == "Oi Celular") |
            (combined_df['Nome Fantasia'] == "Vivo - Telefônica (GVT)") |
            (combined_df['Nome Fantasia'] == "Vivo - Telefônica") |
            (combined_df['Nome Fantasia'] == "Tim")
           ]

### Estado

In [68]:
combined_df = combined_df[(combined_df['UF'] == "MG")]

### Data

#### Tratamento das datas

In [70]:
combined_df['Data Finalização']

22         31/03/2015
70         31/03/2015
116        29/03/2015
239        31/03/2015
306        31/03/2015
              ...    
8339090    2024-08-27
8339284    2024-08-27
8339338    2024-08-28
8339582    2024-08-31
8339916    2024-08-31
Name: Data Finalização, Length: 176813, dtype: object

In [71]:
def convert_date(date_str):
    for fmt in ('%d/%m/%Y', '%Y-%m-%d'):
        try:
            return pd.to_datetime(date_str, format=fmt)
        except ValueError:
            continue
    return pd.NaT

In [75]:
combined_df['Data Finalização'] = combined_df['Data Finalização'].apply(convert_date)

In [74]:
combined_df['Data Finalização']

22        2015-03-31
70        2015-03-31
116       2015-03-29
239       2015-03-31
306       2015-03-31
             ...    
8339090   2024-08-27
8339284   2024-08-27
8339338   2024-08-28
8339582   2024-08-31
8339916   2024-08-31
Name: Data Finalização, Length: 176813, dtype: datetime64[ns]

In [89]:
combined_df = combined_df[combined_df['Data Finalização'].dt.year == 2020]

In [90]:
combined_df

Unnamed: 0,Região,UF,Cidade,Sexo,Faixa Etária,Data Finalização,Tempo Resposta,Nome Fantasia,Segmento de Mercado,Área,Assunto,Grupo Problema,Problema,Como Comprou Contratou,Procurou Empresa,Respondida,Situação,Avaliação Reclamação,Nota do Consumidor,Total
2106727,SE,MG,Vi?osa,F,entre 51 a 60 anos,2020-01-01,8.0,Oi Celular,"Operadoras de Telecomunicações (Telefonia, Int...",Produtos de Telefonia e Informática,Aparelho de telefone fixo / interfone,Cobrança / Contestação,Cobrança em duplicidade / Cobrança referente a...,Não comprei / contratei,S,S,Finalizada não avaliada,Não Avaliada,,1.0
2106852,SE,MG,Juiz de Fora,M,entre 41 a 50 anos,2020-01-07,7.0,Tim,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pré-paga,Vício de Qualidade,Suspensão ou desligamento indevido do serviço,Loja física,S,S,Finalizada não avaliada,Não Avaliada,,1.0
2106881,SE,MG,Belo Horizonte,F,entre 41 a 50 anos,2020-01-07,7.0,Vivo - Telefônica (GVT),"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pós-paga,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Telefone,N,S,Finalizada não avaliada,Não Avaliada,,1.0
2106949,SE,MG,Ribeirão das Neves,F,entre 61 a 70 anos,2020-01-10,10.0,Oi Fixo,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Internet Fixa,Vício de Qualidade,Funcionamento inadequado do serviço (má qualid...,Internet,S,S,Finalizada não avaliada,Não Avaliada,,1.0
2106964,SE,MG,Ipatinga,F,entre 61 a 70 anos,2020-01-10,10.0,Oi Celular,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pós-paga,Contrato / Oferta,Alteração de plano/contrato sem solicitação ou...,Não comprei / contratei,S,S,Finalizada não avaliada,Não Avaliada,,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3302853,SE,MG,Belo Horizonte,M,até 20 anos,2020-12-27,9.0,Oi Celular,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pós-paga,Cobrança / Contestação,Cobrança indevida / abusiva para alterar ou ca...,Loja física,S,S,Finalizada avaliada,Resolvida,5.0,
3302946,SE,MG,Barbacena,F,entre 61 a 70 anos,2020-12-31,10.0,Oi Celular,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pré-paga,Atendimento / SAC,SAC - Dificuldadede de contato / acesso,Telefone,N,S,Finalizada não avaliada,Não Avaliada,,
3302985,SE,MG,Raul Soares,F,entre 31 a 40 anos,2020-12-04,4.0,Vivo - Telefônica,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pós-paga,Contrato / Oferta,Alteração de plano/contrato sem solicitação ou...,Loja física,S,S,Finalizada avaliada,Resolvida,1.0,
3303083,SE,MG,Belo Horizonte,M,entre 41 a 50 anos,2020-12-28,10.0,Tim,"Operadoras de Telecomunicações (Telefonia, Int...",Telecomunicações,Telefonia Móvel Pré-paga,Contrato / Oferta,Alteração de plano/contrato sem solicitação ou...,Loja física,N,S,Finalizada avaliada,Não Resolvida,1.0,


In [92]:
combined_df.to_parquet('dataset.parquet', index=False)