# Time Series

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [2]:
path = 'csv_treated/nagem/'

def data_column(df):
    df['DATA'] = ''
    df['DATA'] = df.apply(lambda x: f"{int(x['DIA']):02d}/{int(x['MES']):02d}/{int(x['ANO'])}", axis=1)
    df['DATA'] = pd.to_datetime(df['DATA'], format='%d/%m/%Y')
    df['MES_ANO'] = df['DATA'].dt.strftime('%m/%Y')
    return df

def get_count(df):
    df_count = df.groupby('MES_ANO').size().reset_index(name='TOTAL_RECLAMACOES')
    df_count['MES'] = df_count['MES_ANO'].apply(lambda x: int(x.split('/')[0]))
    df_count.sort_values(by='MES_ANO', inplace=True)
    return df_count

In [3]:
df_nagem = pd.read_csv('files/RECLAMEAQUI_NAGEM.csv')
data_column(df_nagem)
time_series = get_count(df_nagem)
time_series

Unnamed: 0,MES_ANO,TOTAL_RECLAMACOES,MES
0,01/2017,5,1
1,01/2018,10,1
2,01/2019,23,1
3,01/2020,15,1
4,01/2021,9,1
...,...,...,...
67,12/2018,11,12
68,12/2019,18,12
69,12/2020,18,12
70,12/2021,16,12


In [4]:
time_series.to_csv(path + 'time_series.csv')

# Estado

In [5]:
def get_estado(df):
    df['ESTADO'] = df['LOCAL'].apply(lambda x: x.split(' - ')[1])
    df_estado = df.groupby('ESTADO').size().reset_index(name='TOTAL_RECLAMACOES')

    df_estado['ESTADO'] = df_estado['ESTADO'].replace('--', 'Na')
    df_estado['ESTADO'] = df_estado['ESTADO'].replace('naoconsta', 'Na')

    df_estado.sort_values(by='TOTAL_RECLAMACOES', ascending=False, inplace=True)
    return df_estado

In [6]:
df_nagem_estado = get_estado(df_nagem)
df_nagem_estado.to_csv(path + 'by_state.csv')
df_nagem_estado

Unnamed: 0,ESTADO,TOTAL_RECLAMACOES
10,PE,393
4,CE,179
3,BA,156
16,SE,54
9,PB,44
8,PA,39
13,RN,31
17,SP,28
6,MA,28
11,PI,15


# Status

In [7]:
df_nagem['STATUS'].unique()

array(['Não resolvido', 'Resolvido', 'Respondida', 'Em réplica',
       'Não respondida'], dtype=object)

In [8]:
df_nagem.groupby('STATUS').size().reset_index(name='QUANTIDADE')

Unnamed: 0,STATUS,QUANTIDADE
0,Em réplica,174
1,Não resolvido,147
2,Não respondida,1
3,Resolvido,238
4,Respondida,440


In [9]:
df_nagem.groupby('STATUS').size().reset_index(name='QUANTIDADE').to_csv(path + 'status.csv')

# Tamanho do Texto

In [11]:
df_nagem['TAMANHO_TEXTO'] = df_nagem['DESCRICAO'].str.len()

In [12]:
df_nagem['TAMANHO_TEXTO'].to_csv(path + 'size_compl.csv')

In [13]:
df_nagem.columns

Index(['ID', 'TEMA', 'LOCAL', 'TEMPO', 'CATEGORIA', 'STATUS', 'DESCRICAO',
       'URL', 'ANO', 'MES', 'DIA', 'DIA_DO_ANO', 'SEMANA_DO_ANO',
       'DIA_DA_SEMANA', 'TRIMETRES', 'CASOS', 'DATA', 'MES_ANO', 'ESTADO',
       'TAMANHO_TEXTO'],
      dtype='object')

In [14]:
df_nagem[['MES_ANO','STATUS','ESTADO','TAMANHO_TEXTO']].to_csv('csv_treated/nagem/silver_nagem.csv')