# **Projeto Ciência de Dados - Desafio 7 Days of Code [Alura]**

O presente notebook consiste na resolução de um desafio proposto pela Alura, onde estarei analisando os dados abertos da CEAPS(Cota para Exercício da Atividade Parlamentar dos Senadores).

O objetivo deste projeto é analisar os dados abertos do Senado, afim  de identificar como os senadores estão utilizando o dinheiro público, bem como propor propostas de melhoria, caso necessário.

In [1]:
# Bibliotecas utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import chardet # biblioteca para identificar a codificacao do arquivo

## **1. Extração dos Dados**

Os dados fornecidos no portal da CEAPS, são divididos por ano. Sendo assim para a estruturação da nossa análise, estarei realizando um merge nas bases de dados e separando-as por ano, criando apenas um dataset.

In [2]:
# Criando uma lista de caminhos para cada dataset
caminhos = []

for n in range(2008,2023):
  caminho = f'/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_{n}.csv'
  caminho = str(caminho)
  caminhos.append(caminho)

caminhos

['/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2008.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2009.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2010.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2011.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2012.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2013.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2014.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2015.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2016.csv',
 '/content/drive/MyDrive/Colab Notebooks/analise_dados_ceaps/dados_ceaps/despesa_ceaps_2017.csv',
 '/content/drive/MyD

Antes de iniciarmos a junção dos dados, vamos analisar como eles estão estruturados, para entendermos os possíveis tratamentos necessários.

In [3]:
def detectar_codificacao_arquivo(caminho_arquivo):
  with open(caminho_arquivo, 'rb') as arquivo:
    resultado = chardet.detect(arquivo.read(10000))
    return resultado['encoding']

In [4]:
caminho_2008 = caminhos[0]
codificacao = detectar_codificacao_arquivo(caminho_2008)

In [5]:
# Lendo uma prévia do arquivo, antes de transformalo em um dataset
with open(caminho_2008, 'r', encoding=codificacao) as arq:
  linhas = arq.readlines()

linhas[0:5]

['"ULTIMA ATUALIZACAO";"06/08/2021 02:00"\n',
 '"ANO";"MES";"SENADOR";"TIPO_DESPESA";"CNPJ_CPF";"FORNECEDOR";"DOCUMENTO";"DATA";"DETALHAMENTO";"VALOR_REEMBOLSADO";"COD_DOCUMENTO"\n',
 '"2008";"9";"ADA MELLO";"Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar";"";"";"";"";"";"12351,52";"2008090814004"\n',
 '"2008";"9";"ADA MELLO";"Locomoção, hospedagem, alimentação, combustíveis e lubrificantes";"";"";"";"";"";"386,6";"2008090814003"\n',
 '"2008";"10";"ADA MELLO";"Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar";"";"";"";"";"";"12351,52";"2008100814004"\n']

Lendo as primeiras linhas do arquivo, podemos verificar algumas coisas:

* A primeira linha contém a data de atualização dos dados, o que pode dificultar a leitura do arquivo por parte do pandas, uma vez que a estrutura da planilha está em um formato não usual.

* O separador utilizado é o ";", o que também pode prejudicar a leitura.

Sendo assim, vamos cuidar para que as alterações necessárias sejam feitas para conseguirmos o nosso objeto dataframe:

In [6]:
dados_2008 = pd.read_csv(caminho_2008, encoding=codificacao, sep=";", skiprows=1)

In [7]:
dados_2008.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2008,9,ADA MELLO,"Contratação de consultorias, assessorias, pesq...",,,,,,1235152,2008090814004
1,2008,9,ADA MELLO,"Locomoção, hospedagem, alimentação, combustíve...",,,,,,3866,2008090814003
2,2008,10,ADA MELLO,"Contratação de consultorias, assessorias, pesq...",,,,,,1235152,2008100814004
3,2008,10,ADA MELLO,"Locomoção, hospedagem, alimentação, combustíve...",,,,,,261068,2008100814003
4,2008,11,ADA MELLO,"Contratação de consultorias, assessorias, pesq...",,,,,,1235152,2008110814004


Com a leitura realizada adequadamente, vamos realizar o mesmo processo para todos os arquivos, antes de juntá-los.

In [19]:
dataframes = []

def aloca_dataframes(lista_caminhos, codificacao):
  for caminho in lista_caminhos:
    dado = pd.read_csv(caminho, encoding=codificacao, sep=';',skiprows=1)
    dataframes.append(dado)
  return dataframes

In [20]:
dataframes = aloca_dataframes(caminhos, codificacao)

In [29]:
# Verificando se todos os dataframes foram alocados
for i in range(0,15):
 print(dataframes[i].ANO[0])

2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022


Após criarmos nossa lista de dataframes, o próximo passo será juntar todos estes dados em um único dataframe, separado por ano.

In [30]:
dados_ceaps = pd.concat(dataframes, ignore_index=True)

In [33]:
dados_ceaps.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2008,9,ADA MELLO,"Contratação de consultorias, assessorias, pesq...",,,,,,1235152,2008091000000.0
1,2008,9,ADA MELLO,"Locomoção, hospedagem, alimentação, combustíve...",,,,,,3866,2008091000000.0
2,2008,10,ADA MELLO,"Contratação de consultorias, assessorias, pesq...",,,,,,1235152,2008101000000.0
3,2008,10,ADA MELLO,"Locomoção, hospedagem, alimentação, combustíve...",,,,,,261068,2008101000000.0
4,2008,11,ADA MELLO,"Contratação de consultorias, assessorias, pesq...",,,,,,1235152,2008111000000.0


In [34]:
dados_ceaps.shape

(317984, 11)

In [36]:
dados_ceaps['ANO'].unique()

array([2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018,
       2019, 2020, 2021, 2022])

Agora que os dados foram juntados em uma única base, podemos prosseguir com os tratamentos futuros da base e com a análise.