# **Tratamento e limpeza de dados - Séries Temporais**

###  Notebook: `03_02_tratamento_e_limpeza_de_dados`

## 1. Importação das bibliotecas essenciais

In [1]:
import numpy as np
import matplotlib.pyplot as plt 
import pandas as pd
import math
import requests
import json
import os


## 2. Importação dos datasets

---
Os datasets gerados no notebook `03_01_coleta_de_dados.ipynb` serão carregados a seguir para tratamento e limpeza dos dados.
___


#### 2.1 Importação dos datasets

In [2]:
dataset_cluster0 = pd.read_csv("datasets//dataset_cluster0.csv")
dataset_cluster1 = pd.read_csv("datasets//dataset_cluster1.csv")
dataset_cluster2 = pd.read_csv("datasets//dataset_cluster2.csv")
dataset_cluster3 = pd.read_csv("datasets//dataset_cluster3.csv")


In [3]:
dataset_cluster0.head(20)

Unnamed: 0,mes,indice_pimpf,ipca,taxa_selic,taxa_cambio,ibcbr,tjlp,pib_mensal,preco_brent,desembolso,debitos,arrecadacao
0,200401,104.0,0.76,16.32,136.19,98.59,10.0,1735331.5,31.18,1107.0,75412990.0,280680300.0
1,200402,103.1,0.61,16.3,139.84,99.45,10.0,1746819.2,30.87,2559.0,179152400.0,222566000.0
2,200403,113.0,0.47,16.19,138.89,111.98,10.0,1765492.2,33.8,4302.0,176424900.0,236544200.0
3,200404,107.8,0.37,15.96,138.85,107.36,9.75,1781058.0,33.36,5474.0,354079800.0,304884500.0
4,200405,108.9,0.51,15.77,148.25,106.03,9.75,1800951.1,37.92,5976.0,183660900.0,271579000.0
5,200406,113.1,0.71,15.8,149.04,107.0,9.75,1828299.9,35.19,7338.0,185362300.0,281451100.0
6,200407,110.9,0.91,15.77,143.11,111.47,9.75,1853700.2,38.37,8251.0,380813900.0,331607300.0
7,200408,113.2,0.69,15.86,140.62,110.65,9.75,1878059.7,43.03,8887.0,193690700.0,288109300.0
8,200409,107.6,0.33,16.09,135.23,109.21,9.75,1894202.4,43.38,9562.0,204886000.0,298805100.0
9,200410,103.8,0.44,16.41,133.55,108.89,9.75,1909813.0,49.82,11099.0,419120800.0,351138200.0


## 3. Análises das variáveis
   
---
Esta seção tratará, principalmente, das características relativas ao dataset, uma vez que não há dados faltantes, nem registros a serem excluídos, como resultado das características da extração. 

Em relação aos dados faltantes, esse problema foi limitado pela extração dos dados da RFB, limitados ao período de 2004 a 2020, o que influenciou a extração dos demais conjuntos de dados.

---

### 3.1 Análise dos valores das colunas

---
Esta etapa visa garantir que os tipos de dados estão corretos nos datasets.

___

In [4]:
dataset_cluster0.dtypes

mes               int64
indice_pimpf    float64
ipca            float64
taxa_selic      float64
taxa_cambio     float64
ibcbr           float64
tjlp            float64
pib_mensal      float64
preco_brent     float64
desembolso      float64
debitos         float64
arrecadacao     float64
dtype: object

In [5]:
dataset_cluster1.dtypes

mes               int64
indice_pimpf    float64
ipca            float64
taxa_selic      float64
taxa_cambio     float64
ibcbr           float64
tjlp            float64
pib_mensal      float64
preco_brent     float64
desembolso      float64
debitos         float64
arrecadacao     float64
dtype: object

In [6]:
dataset_cluster2.dtypes

mes               int64
indice_pimpf    float64
ipca            float64
taxa_selic      float64
taxa_cambio     float64
ibcbr           float64
tjlp            float64
pib_mensal      float64
preco_brent     float64
desembolso      float64
debitos         float64
arrecadacao     float64
dtype: object

In [7]:
dataset_cluster3.dtypes

mes               int64
indice_pimpf    float64
ipca            float64
taxa_selic      float64
taxa_cambio     float64
ibcbr           float64
tjlp            float64
pib_mensal      float64
preco_brent     float64
desembolso      float64
debitos         float64
arrecadacao     float64
dtype: object

### 3.2 Transformação dos dados de mês, do formato inteiro para o formato datetime

In [8]:
from datetime import datetime


In [9]:
# Tranforma o valor mes para o formato de data nos datasets de cluster
# o uso do tamanho do dataset_cluster0 como referência é derivado do fato de que os 4 datasets tem o mesmo tamanho

for i in range (0, len(dataset_cluster0)):
    dataset_cluster0.at[i,'mes'] = datetime.strptime(str(dataset_cluster0.at[i,'mes']),'%Y%m')
    dataset_cluster1.at[i,'mes'] = datetime.strptime(str(dataset_cluster1.at[i,'mes']),'%Y%m')
    dataset_cluster2.at[i,'mes'] = datetime.strptime(str(dataset_cluster2.at[i,'mes']),'%Y%m')
    dataset_cluster3.at[i,'mes'] = datetime.strptime(str(dataset_cluster3.at[i,'mes']),'%Y%m')

In [10]:
dataset_cluster0.dtypes

mes              object
indice_pimpf    float64
ipca            float64
taxa_selic      float64
taxa_cambio     float64
ibcbr           float64
tjlp            float64
pib_mensal      float64
preco_brent     float64
desembolso      float64
debitos         float64
arrecadacao     float64
dtype: object

In [11]:
type(dataset_cluster0.mes)

pandas.core.series.Series

In [12]:
type(dataset_cluster0)

pandas.core.frame.DataFrame

In [13]:
# Gravando o dataset com o campo mes como pandas.Series e recuperando para confirmar que 
# os valores foram transformados adequadamente:

# Aqui estou dividindo o dataset em dois blocos. O primeiro será usado para treinar e testar os modelos (jan/2004 a dez/2019) e 
# o segundo será utilizado para validação (jan a dez/2020)

subdiretorio = "datasets"

## Testando se o subdiretório existe

try:
    os.mkdir(subdiretorio)
except Exception:
    pass
dataset_cluster0[0:192].to_csv(os.path.join(subdiretorio,'dataset_cluster0_series.csv'), index=False)
dataset_cluster0[192:].to_csv(os.path.join(subdiretorio,'dataset_cluster0_validation.csv'), index=False)
dataset_cluster1[0:192].to_csv(os.path.join(subdiretorio,'dataset_cluster1_series.csv'), index=False)
dataset_cluster1[192:].to_csv(os.path.join(subdiretorio,'dataset_cluster1_validation.csv'), index=False)
dataset_cluster2[0:192].to_csv(os.path.join(subdiretorio,'dataset_cluster2_series.csv'), index=False)
dataset_cluster2[192:].to_csv(os.path.join(subdiretorio,'dataset_cluster2_validation.csv'), index=False)
dataset_cluster3[0:192].to_csv(os.path.join(subdiretorio,'dataset_cluster3_series.csv'), index=False)
dataset_cluster3[192:].to_csv(os.path.join(subdiretorio,'dataset_cluster3_validation.csv'), index=False)