# Processo de leitura da base de dados e pequenas transformações

Base de dados disponível no site https://dadosabertos.camara.leg.br/swagger/api.html

In [43]:
# Necessário instalação dos pacotes dplyr e arrow
# install.packages("dplyr")
# install.packages("arrow")

### Importando Bibliotecas

In [42]:
library(dplyr)
library(arrow)

### Lendo a base de dados

In [33]:
dataset_2019 <- read_parquet("DataSet/Despesasparlamentar/dataset_2019.parquet")
dataset_2020 <- read_parquet("DataSet/Despesasparlamentar/dataset_2020.parquet")
dataset_2021 <- read_parquet("DataSet/Despesasparlamentar/dataset_2021.parquet")

In [51]:
paste("2019 |", "Observações:", dim(dataset_2019)[1],   "Variáveis:", dim(dataset_2019)[2])
paste("2020 |", "Observações:", dim(dataset_2020)[1],   "Variáveis:", dim(dataset_2020)[2])
paste("2021 |", "Observações:", dim(dataset_2021)[1],   "Variáveis:", dim(dataset_2021)[2])

### Juntando a base de dados Despesa Parlamentar

In [52]:
dataset <- bind_rows(dataset_2019,
                     dataset_2020,
                     dataset_2021, id=NULL)

In [53]:
glimpse(dataset)

Rows: 649,804
Columns: 31
$ X.U.FEFF.txNomeParlamentar <fct> LID.GOV-CD, LID.GOV-CD, LID.GOV-CD, LID.GOV~
$ cpf                        <dbl> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
$ ideCadastro                <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
$ nuCarteiraParlamentar      <int> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
$ nuLegislatura              <int> 2015, 2019, 2019, 2019, 2019, 2019, 2019, 2~
$ sgUF                       <fct> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,~
$ sgPartido                  <fct> , , , , , , , , , , , , , , , , , , , , , ,~
$ codLegislatura             <int> 55, 56, 56, 56, 56, 56, 56, 56, 56, 56, 56,~
$ numSubCota                 <int> 13, 13, 13, 13, 13, 13, 13, 13, 13, 13, 13,~
$ txtDescricao               <fct> "FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR~
$ numEspecificacaoSubCota    <int> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0~
$ txtDescricaoEspecificacao  <fct> , , , , , , , , , , , , , , , , , , , , , ,~
$ txtFornecedo

### Transformando os dados

###### Ajustando o nome da variável

In [54]:
dataset <- rename(dataset,NomeParlamentar="X.U.FEFF.txNomeParlamentar")

###### Transformando character em numeric

In [55]:
dataset$vlrLiquido <- as.numeric(dataset$vlrLiquido)
dataset$vlrDocumento <- as.numeric(dataset$vlrDocumento)
dataset$vlrGlosa<- as.numeric(dataset$vlrGlosa)

### Salvando base de dados tratada

In [56]:
# Salvando base em CSV
# write.csv(dataset, "DataSet/Despesasparlamentar/dataset_2019_2021.csv", row.names = FALSE, fileEncoding = "UTF-8")

In [58]:
# Salvando base em Parquet Opção para subir no Github
write_parquet(dataset, "DataSet/Despesasparlamentar/dataset_agrupado_2019_2021.parquet")