# Escola de Dados - Python para inovação cívica

## Módulo 2: Análise exporatória de dados do Legislativo

## CEAP

### Aula 02: Acessando os dados da CEAP via API

Para baixar os arquivos das despesas pela Cota para Exercício da Atividade Parlamentar, podemos utilizar a API da Câmara Legislativa. Para acessar o arquivo de cada ano, podemos usar a URL no formato `http://www.camara.leg.br/cotas/Ano-{ano}.{formato}[.zip]`.

Você pode encontrar mais detalhes na [documentação dos dados sobre Despesas pela Cota para Exercício da Atividade Parlamentar](https://dadosabertos.camara.leg.br/swagger/api.html#staticfile).

Para fazer o download dos arquivos usando Python podemos usar diversas formas. Para esse tutorial, vamos usar o pacote `requests`.

In [None]:
url = f"http://www.camara.leg.br/cotas/Ano-2020.csv.zip"

In [None]:
import requests

# fazendo o download do conteúdo do arquivo
r = requests.get(url)

In [None]:
# abrindo um arquivo no seu computador
file = open(f"Ano-{year}.csv.zip", "wb")

# escrever o conteúdo
file.write(r.content)
file.close()

In [None]:
# outra forma de criar arquivos, e escrever conteúdo

# with open(f"Ano-{year}.csv.zip", "wb") as code:
#    code.write(r.content)

Como o arquivo baixado pela API é um arquivo zip, vamos precisar descompatar. Vamos usar o `zipfile`, um módulo que nos dá ferramentas para diversas manipulações de arquivos zipados.

In [None]:
from zipfile import ZipFile

In [None]:
zip_file = ZipFile(f"Ano-{year}.csv.zip", 'r')

In [None]:
zip_file.namelist()

In [None]:
zip_file.extract(member=f"Ano-{year}.csv", path=f"reimbursements-{year}")

In [None]:
# caso a gente queira extrair todo o conteúdo do arquivo zip

# zip_file.extractall(path=f"reimbursements-{year}")

In [None]:
zip_file.close()

### Aula 03: Lendo os dados com Pandas

In [None]:
import pandas as pd

In [None]:
pd.read_csv("reimbursements-2020/Ano-2020.csv")

Opa! Erro na leitura do nosso arquivo. Quando encontramos esse erro na leitura de um arquivo, existe algumas possibilidades mais comuns, uma delas é que o caracter que separa as colunas pode não ser o que o `read_csv` espera. 

Confira da doc qual o separador considerado padrão, e depois confira no arquivo qual o separador que é utilizado.

In [30]:
df_reimbursements_2020 = pd.read_csv("reimbursements-2020/Ano-2020.csv", sep="???") 
# sep == delimiter

Vamos visualizar as 5 primeiras linhas do nosso Dataframe.

In [None]:
df_reimbursements_2020.head()

Como podemos fazer para visualizar as 10 primeiras linhas?

Podemos também recuperar uma amosta aleatória do nosso Dataframe. Para isso, usamos o [`sample`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html).

In [None]:
df_reimbursements_2020.sample()

Como podemos fazer para visualizar 5 amostras aleatórias?

#### Dicionário de Dados

Um passo importante para dar antes de começar a análisar é entender os dados que estamos manipulando. 

*Sempre procure o significado dos campos, procure entender quais os tipos de dados preenchem aquele campo. São dados numéricos? São caracteres? Não palavras usadas para categorizar/classificar os dados?*

| Elemento de Dado          | Nome do Dado                           | Definição do Dado                                                                                                                                                                                                                                                                                                                                                                                                                   |   |   |
|---------------------------|----------------------------------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---|---|
| txNomeParlamentar         | Nome Parlamentar                       | Nome adotado pelo Parlamentar ao tomar posse do seu mandato. Compõe-se de dois elementos: um prenome e o nome; dois nomes; ou dois prenomes, salvo, a juízo do Presidente da Casa legislativa, que poderá alterar essa regra para que não ocorram confusões.                                                                                                                                                                        |   |   |
| ideCadastro               | Identificador Único do Parlamentar     | Número que identifica unicamente um deputado federal na CD.                                                                                                                                                                                                                                                                                                                                                                         |   |   |
| nuCarteiraParlamentar     | Número da  Carteira Parlamentar        | Documento usado para identificar um deputado federal na CD. Pode alterar a cada Legislatura nova.                                                                                                                                                                                                                                                                                                                                   |   |   |
| nuLegislatura             | Número da  Legislatura                 | No contexto da cota CEAP, representa o ano base de início da legislatura e é utilizado para compor a Carteira Parlamentar, pois esta poderá ser alterada à medida que se muda de Legislatura.                                                                                                                                     |   |   |
| sgUF                      | Sigla da UF                            | No contexto da cota CEAP, representa a unidade da federação pela qual o deputado foi eleito e é utilizada para definir o valor da cota a que o deputado tem.                                                                                                                                                                                                                                                                        |   |   |
| sgPartido                 | Sigla do Partido                       | O seu conteúdo representa a sigla de um partido. Tem personalidade jurídica de direito privado e goza de autonomia e liberdade no que diz respeito à criação, organização e funcionamento, observados os princípios e preceitos constitucionais. |   |   |
| codLegislatura            | Código da Legislatura                  | No contexto da cota CEAP, o seu conteúdo representa o código identificador da Legislatura, que um número ordinal sequencial, alterado de um em um, a cada início de uma nova Legislatura (por exemplo, a Legislatura que iniciou em 2011 é a 54ª Legislatura).                                                                    |   |   |
| numSubCota                | Número da Subcota                      | No contexto da Cota CEAP, o conteúdo deste dado representa o código do Tipo de Despesa referente à despesa realizada pelo deputado e comprovada por meio da emissão de um documento fiscal, a qual é debitada na cota do deputado.                                                                                                                                                                                                  |   |   |
| txtDescricao              | Descrição da Subcota                   | O seu conteúdo é a descrição do Tipo de Despesa relativo à despesa em questão.                                                                                                                                                                                                                                                                                                                                                      |   |   |
| numEspecificacaoSubCota   | Número da Especificação da Subcota     | No contexto da Cota CEAP, há despesas cujo Tipo de Despesa necessita ter uma especificação mais detalhada (por exemplo, “Combustível”). O conteúdo deste dado representa o código desta especificação mais detalhada.                                                                                                                                                                                                               |   |   |
| txtDescricaoEspecificacao | Descrição da Especificação da Subcota  | Representa a descrição  especificação mais detalhada de um referido Tipo de Despesa.                                                                                                                                                                                                                                                                                                                                                |   |   |
| txtFornecedor             | Fornecedor                             | O conteúdo deste dado representa o nome do fornecedor do produto ou serviço presente no documento fiscal                                                                                                                                                                                                                                                                                                                            |   |   |
| txtCNPJCPF                | CNPJ/CPF                               | O conteúdo deste dado representa o CNPJ ou o CPF do emitente do documento fiscal, quando se tratar do uso da cota em razão do reembolso despesas comprovadas pela emissão de documentos fiscais.                                                                                                                                                                                                                                    |   |   |
| txtNumero                 | Número do Documento                    | O conteúdo deste dado representa o número de face do documento fiscal emitido ou o número do documento que deu causa à despesa debitada na cota do deputado.                                                                                                                                                                                                                                                                        |   |   |
| indTipoDocumento          | Indicativo de Tipo de Documento Fiscal | Este dado representa o tipo de documento do fiscal – 0 (Zero), para Nota Fiscal; 1 (um), para Recibo; e 2, para Despesa no Exterior.                                                                                                                                                                                                                                                                                                |   |   |
| datEmissao                | Data de Emissão                        | O conteúdo deste dado é a data de emissão do documento fiscal ou a data do documento que tenha dado causa à despesa.                                                                                                                                                                                                                                                                                                                |   |   |
| vlrDocumento              | Valor do Documento                     | O seu conteúdo é o valor de face do documento fiscal ou o valor do documento que deu causa à despesa. Quando se tratar de bilhete aéreo, esse valor poderá ser negativo, significando que o referido bilhete é um bilhete de compensação, pois compensa um outro bilhete emitido e não utilizado pelo deputado (idem para o dado vlrLiquido abaixo).                                                                                |   |   |
| vlrGlosa                  | Valor da Glosa                         | O seu conteúdo representa o valor da glosa do documento fiscal que incidirá sobre o Valor do Documento, ou o valor da glosa do documento que deu causa à despesa.                                                                                                                                                                                                                                                                   |   |   |
| vlrLiquido                | Valor Líquido                          | O seu conteúdo representa o valor líquido do documento fiscal ou do documento que deu causa à despesa e será calculado pela diferença entre o Valor do Documento e o Valor da Glosa. É este valor que será debitado da cota do deputado. Caso o débito seja do Tipo Telefonia e o valor seja igual a zero, significa que a despesa foi franqueada.                                                                                  |   |   |
| numMes                    | Mês                                    | O seu conteúdo representa o Mês da competência financeira do documento fiscal ou do documento que deu causa à despesa. É utilizado, junto com o ano, para determinar em que período o débito gerará efeito financeiro sobre a cota.                                                                                                                                                                                                 |   |   |
| numAno                    | Ano                                    | O seu conteúdo representa o Ano da competência financeira do documento fiscal ou do documento que deu causa à despesa. É utilizado, junto com o mês, para determinar em que período o débito gerará efeito financeiro sobre a cota.                                                                                                                                                                                                 |   |   |
| numParcela                | Número da Parcela                      | O seu conteúdo representa o número da parcela do documento fiscal. Ocorre quando o documento tem de ser reembolsado de forma parcelada.                                                                                                                                                                                                                                                                                             |   |   |
| txtPassageiro             | Passageiro                             | O conteúdo deste dado representa o nome do passageiro, quando o documento que deu causa à despesa se tratar de emissão de bilhete aéreo.                                                                                                                                                                                                                                                                                            |   |   |
| txtTrecho                 | Trecho                                 | O conteúdo deste dado representa o trecho da viagem, quando o documento que deu causa à despesa se tratar de emissão de bilhete aéreo.                                                                                                                                                                                                                                                                                              |   |   |
| numLote                   | Número do Lote                         | No contexto da Cota CEAP, o Número do Lote representa uma capa de lote que agrupa os documentos que serão entregues à Câmara para serem ressarcidos. Este dado, juntamente com o Número do Ressarcimento, auxilia a localização do documento no Arquivo da Casa.                                                                                                                                                                    |   |   |
| numRessarcimento          | Número do Ressarcimento                | No contexto da Cota CEAP, o Número do Ressarcimento indica o ressarcimento do qual o documento fez parte por ocasião do processamento do seu reembolso. Este dado, juntamente com o Valor da Restituição, auxilia a localização do documento no Arquivo da Casa.                                                                                                                                                                 |   |   |
|  vlrRestituicao           |  Valor da Restituição                  |  O seu conteúdo representa o valor restituído do documento fiscal que incidirá sobre o Valor do Documento.                                                                                                                                                                                                                                                                                                                          |   |   |
| nuDeputadoId              | Identificador do Solicitante           | Número que identifica um Parlamentar ou Liderança na Transparência da Cota para Exercício da Atividade Parlamentar.                                                                                                                                                                                                                                                                                                                 |   |   |


Legislatura: Período de quatro anos coincidente com o mandato parlamentar dos Deputados Federais.

Definição de partido: é uma organização formada por pessoas com interesse ou ideologia comuns, que se associam com o fim de assumir o poder para implantar um programa de governo. 

*Fonte*: [EXPLICAÇÕES SOBRE O FORMATO DOS ARQUIVOS XML](https://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/explicacoes-sobre-o-formato-dos-arquivos-xml)

### Aula 04: Organizando e visualizando os dados

Vamos conhecer mais algumas operações que podem nos ajudar a visualizar e entender nossos dados.

In [None]:
df_reimbursements_2020.tail()

In [None]:
df_reimbursements_2020.shape

In [None]:
df_reimbursements_2020.info()

In [None]:
df_reimbursements_2020.columns

#### Preenchendo valores nulos

In [None]:
df_reimbursements_2020.fillna(value="Não se aplica")

In [40]:
df_reimbursements_2020[df_reimbursements_2020.sgPartido.isna()]

0      LIDERANÇA DO DEMOCRATAS
1      LIDERANÇA DO DEMOCRATAS
2      LIDERANÇA DO DEMOCRATAS
3      LIDERANÇA DO DEMOCRATAS
4      LIDERANÇA DO DEMOCRATAS
                ...           
387                     LIDMIN
388                     LIDMIN
389                     LIDMIN
390                     LIDMIN
391                     LIDMIN
Name: txNomeParlamentar, Length: 392, dtype: object

In [None]:
df_reimbursements_2020[df_reimbursements_2020['ideDocumento'].isnull()]

#### Informando tipos na leitura dos dados

Quando trabalhamos com pandas, é sempre interessante entender que tipos de dados estão contidos em cada coluna. Na leitura do arquivo podemos aproveitar para deixar isso configurado.

Isso pode ser extramamente útil quando estamos lendo dados que contém informação sobre documentos, como CPF. Nesses casos podemos ter algo como `091777777`, se esse valor por lido como um número, ele vai virar `91777777`, já que não existe número que inicie com 0. Esse é um ótimo exemplo de dado que deve ser lido como um string, para que ele seja preservado ao máximo. 

Agora, sabendo quais dados nosso dataframe possui, vamos definir o tipo para cada um.

In [None]:
DTYPE = {
    'txNomeParlamentar': str,
    'ideCadastro': str,
    'nuCarteiraParlamentar': str,
    'nuLegislatura': str,
    'sgUF': str,
    'sgPartido': str,
    'codLegislatura': str,
    'numSubCota': str,
    'txtDescricao': str,
    'numEspecificacaoSubCota': str,
    'txtDescricaoEspecificacao': str,
    'txtFornecedor': str,
    'txtCNPJCPF': str,
    'txtNumero': str,
    'indTipoDocumento': str,
    'datEmissao': str,
    'vlrDocumento': float,
    'vlrGlosa': str,
    'vlrLiquido': float,
    'numMes': str,
    'numAno': str,
    'numParcela': str,
    'txtPassageiro': str,
    'txtTrecho': str,
    'numLote': str,
    'numRessarcimento': str,
    'nuDeputadoId': str,
    'ideDocumento': str,
}

df_reimbursements_2020 = pd.read_csv(
    "reimbursements-2020/Ano-2020.csv", 
    delimiter=";", 
    dtype=DTYPE, 
    low_memory=False
)

Opa! Você lembra qual método podemos usar para conferir os tipos de cada coluna?
**dica**: já passamos por esse método...

#### astype

In [None]:
df_reimbursements_2020["ideCadastro"] = df_reimbursements_2020["ideCadastro"].astype('string')

#### to_datetime

In [None]:
df_reimbursements_2020["datEmissao"] = pd.to_datetime(df_reimbursements_2020.datEmissao, format='%Y-%m-%d')

df_reimbursements_2020.set_index("datEmissao").sort_index()["2020-01-01":"2020-04-30"]

In [24]:
df_reimbursements_2020["datEmissao"] = pd.to_datetime(df_reimbursements_2020.datEmissao, format='%Y-%m-%d')

In [37]:
df_reimbursements_2020.set_index("datEmissao").sort_index()["2020-01-01":"2020-04-30"]

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,...,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2020-01-01 00:00:00,Alê Silva,7.987556e+10,204545,222,2019,MG,PSL,56,3,COMBUSTÍVEIS E LUBRIFICANTES.,...,2020,0,,,1666169,,,3372,6992047,https://www.camara.leg.br/cota-parlamentar/doc...
2020-01-01 00:00:00,LIDERANÇA DO PT,,,,2019,,,56,9,PASSAGEM AÉREA - REEMBOLSO,...,2020,0,,,1667184,,,2439,6994730,https://www.camara.leg.br/cota-parlamentar/doc...
2020-01-01 00:00:00,Vinicius Carvalho,8.228602e+10,141555,397,2019,SP,REPUBLICANOS,56,3,COMBUSTÍVEIS E LUBRIFICANTES.,...,2020,0,,,1670759,,,1951,7002356,https://www.camara.leg.br/cota-parlamentar/doc...
2020-01-01 00:00:00,Jaqueline Cassol,3.512403e+10,108338,47,2019,RO,PP,56,10,TELEFONIA,...,2020,0,,,1672552,,,3434,7005847,
2020-01-01 00:00:00,Maurício Dziedricki,9.588711e+10,75431,511,2019,RS,PTB,56,120,LOCAÇÃO OU FRETAMENTO DE VEÍCULOS AUTOMOTORES,...,2020,0,,,1672558,,,2425,7006232,https://www.camara.leg.br/cota-parlamentar/doc...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2020-04-30 17:08:42,Efraim Filho,7.703384e+08,141422,128,2019,PB,DEM,56,11,SERVIÇOS POSTAIS,...,2020,0,,,0,0,,1823,0,
2020-04-30 17:08:59,Vavá Martins,1.986310e+07,204505,35,2019,PA,REPUBLICANOS,56,11,SERVIÇOS POSTAIS,...,2020,0,,,0,0,,3323,0,
2020-04-30 17:14:05,Boca Aberta,8.411673e+10,204397,445,2019,PR,PROS,56,11,SERVIÇOS POSTAIS,...,2020,0,,,0,0,,3321,0,
2020-04-30 17:15:01,Assis Carvalho,1.567096e+10,159237,111,2019,PI,PT,56,11,SERVIÇOS POSTAIS,...,2020,0,,,0,0,,2338,0,


#### completando, substituindo e reformatando

In [None]:
df_reimbursements_2020["cnpj_cpf"] = df_reimbursements_2020["cnpj_cpf"].str.replace(r'\D', '')

In [None]:
df_reimbursements_2020[df_reimburs# Este dado representa o tipo de documento do fiscal – 
# 0 (Zero), para Nota Fiscal; 1 (um), para Recibo; e 2, para Despesa no Exterior.
types = ('nota_fiscal', 'recibo', 'despesa_exterior')
converters = {number: None for number in range(3, 6)}

converters

df_reimbursements_2020.indTipoDocumento.unique()

df_reimbursements_2020.replace({"4": None}, inplace=True)ements_2020.sgPartido.isna()].txNomeParlamentar.replace("LIDERANÇA DO ", "")

In [47]:
# Este dado representa o tipo de documento do fiscal – 
# 0 (Zero), para Nota Fiscal; 1 (um), para Recibo; e 2, para Despesa no Exterior.
types = ('nota_fiscal', 'recibo', 'despesa_exterior')
converters = {number: None for number in range(3, 6)}

converters

{3: None, 4: None, 5: None}

In [43]:
df_reimbursements_2020.indTipoDocumento.unique()

array(['4', '1', '0', '2'], dtype=object)

In [45]:
df_reimbursements_2020.replace({"4": None}, inplace=True)

ATENÇÃO: Alguns reembolsos aparecem divididos: eles estão associados ao mesmo número de documento ('ideDocumento'), mas os valores reembolsados aparecem parcelados. 

Isso pode trazer uma análise errada se não tomarmos cuidado. Por exemplo, isso pode afetar uma análise de frequência de pedidos de reembolso, se só olharmos quantos registros estão associados ao parlamentar.

In [46]:
import numpy as np

keys = ['ideDocumento', 'numAno', 'ideDocumento']
# df_reimbursements_2020.groupby(keys)['vlrLiquido'].agg(np.sum)
df_reimbursements_2020.groupby(keys)['vlrLiquido'].agg("sum")

ideDocumento  numAno  ideDocumento
0             2020    0               2175020.40
10009         2020    10009              -960.57
10010         2020    10010              -699.66
10026         2020    10026                65.24
10033         2020    10033              -434.70
                                         ...    
9968          2020    9968               -756.67
9971          2020    9971               -834.45
9972          2020    9972               -839.45
9984          2020    9984               -371.57
9998          2020    9998              -1428.57
Name: vlrLiquido, Length: 134087, dtype: float64

In [45]:
df_reimbursements_2020.groupby(keys).agg({"vlrLiquido": "sum"}).reset_index(drop=True)
#('month', as_index=False).agg({"duration": "sum"})

Unnamed: 0,vlrLiquido
0,2175020.40
1,-960.57
2,-699.66
3,65.24
4,-434.70
...,...
134082,-756.67
134083,-834.45
134084,-839.45
134085,-371.57
