# Desafio

### 1) Acesse a api da camara, e recupere os reembolsos do ano de 2018

1. Leitura da API e download da `response` na nossa máquina
2. Extração do arquivo zip
3. Não esqueça de fechar o arquivo, depois de salvar ele!

In [1]:
import requests
from zipfile import ZipFile

# fazendo o download do conteúdo do arquivo
url = f"http://www.camara.leg.br/cotas/Ano-2018.csv.zip"
r = requests.get(url)

file = open(f"Ano-2018.csv.zip", "wb")
file.write(r.content)
file.close()

zip_file = ZipFile(f"Ano-2018.csv.zip", "r")
zip_file.extract(member=f"Ano-2018.csv", path=f"reembolso-2018")
zip_file.close()

### 2) Leia o Arquivo csv

1. Vamos passar o `DTYPE` para garantir que o CSV será lido com os tipos corretos
2. Utilizar o `display.max_columns` nos ajuda a conseguir ler os dados sem que o jupyter comprima eles
3. O nosso csv utiliza `;` como separador das colunas, por isso, precisamos informar isso no momento de leitura dos dados

In [2]:
import pandas as pd
pd.set_option("display.max_columns", None)

DTYPE = {
    "txNomeParlamentar": str,
    "ideCadastro": str,
    "nuCarteiraParlamentar": str,
    "nuLegislatura": str,
    "sgUF": str,
    "sgPartido": str,
    "codLegislatura": str,
    "numSubCota": str,
    "txtDescricao": str,
    "numEspecificacaoSubCota": str,
    "txtDescricaoEspecificacao": str,
    "txtFornecedor": str,
    "txtCNPJCPF": str,
    "txtNumero": str,
    "indTipoDocumento": str,
    "datEmissao": str,
    "vlrDocumento": float,
    "vlrGlosa": str,
    "vlrLiquido": float,
    "numMes": str,
    "numAno": str,
    "numParcela": str,
    "txtPassageiro": str,
    "txtTrecho": str,
    "numLote": str,
    "numRessarcimento": str,
    "nuDeputadoId": str,
    "ideDocumento": str,
    "cpf": str
}

df_reembolso = pd.read_csv(
    "reembolso-2018/Ano-2018.csv",
    sep=";",
    dtype=DTYPE
)

### 3) Visualize 10 linhas aleatórias

1. Visualizar uma amostra aleatoria dos dados é importante para nos ajudar a encontrar situações "estranhas" na nossa base, e assim, entender melhor os dados.

In [3]:
df_reembolso.sample(10)

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
160561,Flávia Morais,54779537134,160598,422,2015,GO,PDT,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,Auto Posto Comercial Gitirana Ltda,059.189.190/0018-2,22708,4,2018-04-24T00:00:00,229.81,0,229.81,4,2018,0,,,1494852,,,,2229,6580368,https://www.camara.leg.br/cota-parlamentar/not...
160393,Zeca Dirceu,3098871946,160592,468,2015,PR,PT,55,999,PASSAGEM AÉREA - RPA,0,,Cia Aérea - TAM,020.128.620/0016-0,Bilhete: 957-2182.815927,0,2018-11-06T00:00:00,908.49,0,908.49,11,2018,0,Zeca Dirceu,BSB/CGH/NVT,0,0.0,,,2238,1618847,
163476,ARNALDO JORDY,21062862287,160602,18,2015,PA,PPS,55,10,TELEFONIA,0,,TELEMAR NORTE LESTE S/A. - EM RECUPERACAO JUDI...,330.001.180/0092-6,00000246623,0,2018-09-01T00:00:00,98.58,0,98.58,8,2018,0,,,1531476,,,,2341,6677583,
248151,Diego Garcia,4702291955,178929,447,2015,PR,PODE,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,Yu Cozinha Oriental Comercio de Alim. ltda,084.055.680/0010-2,20678,4,2018-03-05T00:00:00,63.76,0,63.76,3,2018,0,,,1471553,,,,3043,6519942,https://www.camara.leg.br/cota-parlamentar/not...
120163,Paulo Abi-Ackel,30825628172,141516,263,2015,MG,PSDB,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,CASCOL COMBUSTIVEIS PARA VEICULOS LTDA,003.065.970/0311-2,48589,4,2018-01-15T00:00:00,129.63,0,129.63,1,2018,0,,,1457568,,,,1904,6482129,https://www.camara.leg.br/cota-parlamentar/not...
244677,Tadeu Alencar,35284420420,178922,161,2015,PE,PSB,55,11,SERVIÇOS POSTAIS,0,,EL SHADAI COMERCIO E SERVICOS LTDA,699.528.020/0010-6,5418,0,2018-03-28T00:00:00,2.55,0,2.55,3,2018,0,,,1487545,,,,2945,6561109,https://www.camara.leg.br/cota-parlamentar/doc...
111073,José Guimarães,9324577387,141470,103,2015,CE,PT,55,11,SERVIÇOS POSTAIS,0,,CORREIOS - ENCOMENDA PAC,000.000.000/0000-7,RSP : 2252332,1,2018-08-02T16:18:17,229.25,0,229.25,8,2018,0,,,0,0.0,,,1861,0,
147305,Danrlei de Deus Hinterholz,70157324087,160552,495,2015,RS,PSD,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,CASCOL COMBUSTIVEIS PARA VEICULOS LTDA,003.065.970/0630-8,174085,4,2018-04-12T00:00:00,100.0,0,100.0,4,2018,0,,,1486230,,,,2242,6556852,https://www.camara.leg.br/cota-parlamentar/not...
47079,JOSÉ MENTOR,53455843891,74275,367,2015,SP,PT,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,BORSSATO ARACARIGUAMA AUTO POSTO LT,004.012.690/0018-0,144261,4,2018-08-02T00:00:00,180.0,0,180.0,8,2018,0,,,1523979,,,,1567,6652339,https://www.camara.leg.br/cota-parlamentar/not...
239683,VENEZIANO VITAL DO RÊGO,71346376468,178913,137,2015,PB,PSB,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,COMERCIAL DE COMBUSTIVEIS COSTINHA LTDA ME,184.310.180/0010-3,334578,4,2018-03-23T00:00:00,100.0,0,100.0,3,2018,0,,,1479414,,,,3060,6540152,https://www.camara.leg.br/cota-parlamentar/not...


### 4) Existem registros com `ideDocumento` nulo?

In [4]:
df_reembolso[df_reembolso.ideDocumento.isna()]

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento


O campo`ideDocumento` é o **Identificador Único do Documento Fiscal ou do Recibo**, todo gasto parlamentar precisa ter esse ID, ele significa que o documento fiscal foi recebido e cadastrado na base da Câmara dos Deputados.

Esse campo infelizmente não está descrito no [dicionário de dados](https://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/explicacoes-sobre-o-formato-dos-arquivos-xml). Conseguimos saber o seu significado olhando algumas mensagens compartilhadas pela comunidade no GitHub, como [essa](https://github.com/victorpedrocs/dados-abertos-cd/wiki/Fontes).

Verificar se ele está nulo, é uma forma de validar a qualidade dos nossos dados. Imagina como seria ruim se na base tivessemos registros onde esse campo estivesse nulo?

Mais informações sobre o `isna()` ou `isnull()` veja a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html).

> Você sabia que no pandas `isna()` e `isnull()` são a mesma coisa?

### 5) Converta a coluna `datEmissao` para `datetime`, e descubra quantos reembolsos aconteram no primeiro semestre de 2018

O tipo atualmente da coluna `datEmissao` é `Object`, por isso não conseguiremos realizar algumas operações que são especificas para elementos do tipo `datetime`, como capiturar apenas o mês ou utilizar um filtro de datas.

In [5]:
df_reembolso["datEmissao"].dtypes

dtype('O')

Para converter para `datetime` precisamos utilizar a função `to_datetime`, passando no `format` qual o formato iremos utilizar.

Para saber mais sobre esse padrão de data e hora, recomendo a documentação do [W3C](https://www.w3.org/TR/NOTE-datetime) e do [Python](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)

In [6]:
df_reembolso["datEmissao"] = pd.to_datetime(
    df_reembolso.datEmissao,
    format="%Y-%m-%d"
)

*Não esqueça de sobreescrever a coluna `datEmissao` com o resultado da função `to_datetime`.*

Para responder a segunda parte da pergunta, vamos precisar utilizar a função [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) do pandas, que nós permite acessar um conjunto de linhas a partir do index.

Visto isso, vamos precisar antes converter a coluna `datEmissao` no index do dataframe:

In [7]:
df_reembolso.set_index("datEmissao").head(1)

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
2018-12-20,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,046.448.200/0017-7,10473,4,454.41,0,454.41,12,2018,0,,,1550817,,,,2812,6728796,https://www.camara.leg.br/cota-parlamentar/not...


E depois vamos filtrar utilizando o `loc` pelos index que estão entre o primeiro semestre de 2018:

In [8]:
df_reembolso_ps = df_reembolso.set_index("datEmissao").loc["2018-01-01":"2018-06-30"]

Com o `.shape` você consegue ver que tiramos apenas uma amostra dos dados:

In [9]:
df_reembolso_ps.shape

(159694, 31)

Dessa forma, podemos ver que no primeiro semestre de 2018 tivemos 159.694 reembolsos!

In [10]:
df_reembolso_ps.drop_duplicates().shape

(159694, 31)

#### Existem registros com `datEmissao` nulos? Se sim, quantos?

Olhando para a base como um todo, podemos filtrar por apenas `datEmissao` que estejam nulos:

In [11]:
df_reembolso[df_reembolso.datEmissao.isna()].shape

(10043, 32)

E caso queiramos atrabalhar apenas com reembolsos que tenham `datEmissao` não nulo, precisamos remover os registros nulos da base rodando o seguinte código:

In [12]:
df_reembolso = df_reembolso[~df_reembolso.datEmissao.isna()]

Mas e o dataframe com os dados apenas do primeiro semestre?

Ele não terá valores nulos, porque lá no momento em que filtramos os registros nós deixamos claro que gostaríamos que a coluna `datEmissao` tivesse algum valor (no caso, valores correspondentes ao primeiro semestre de 2018)

In [13]:
df_reembolso_ps[df_reembolso_ps.index.isna()]

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1


#### Existem registros de outros anos no arquivo de 2018? Se sim, quais anos e quantos registros há nessas datas?

Quando estamos trabalhando com uma base nova, é interessante que façamos a mais diversas perguntas, como essa ai de cima.

Mesmo a base sendo especifica de um ano, é importante que verifiquemos a consistência desses dados.

Com a ajuda do método [`dt`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html) que está disponível em **colunas do time datetime**, podemos acessar o ano, mês e dia desse registro.

Dessa forma, para acessar o ano da data de emissão dos reembolsos, vamos fazer o seguinte:

In [14]:
df_reembolso.datEmissao.dt.year.unique()

array([2018, 2019, 2017])

Após constatar que temos registros fora do ano de 2018, vamos filtrar por eles e contar quantos são:

In [52]:
df_reembolso_ntps = df_reembolso[df_reembolso.datEmissao.dt.year != 2018]

In [53]:
df_reembolso_ntps.shape

(1792, 34)

Será que esses 1.792 registros são únicos ou tem algo repetido? Vamos utilizar o `drop_duplicates()` para responder isso.

In [17]:
df_reembolso_ntps.drop_duplicates().shape

(1792, 32)

Caso você queira saber quantos registros temos por datas fora do ano de 2018, podemos utilizar a função `groupby()`, agrupando por `datEmissao` e contando a quantidade de `ideDocumento`:

In [18]:
df_reembolso_ntps.groupby("datEmissao")["ideDocumento"].count().sort_values(ascending=False)

datEmissao
2019-01-16    621
2019-01-10    151
2019-01-07    135
2019-01-01    101
2019-01-02     91
             ... 
2019-02-01      1
2017-12-17      1
2019-01-26      1
2017-03-22      1
2017-03-20      1
Name: ideDocumento, Length: 88, dtype: int64

> O que você acha que pode ter acontecido nessa base?

### 6) Quais os meses que mais tem solicitação de reembolso?

Utilizando de novo no método [`dt`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html), vamos agora extrair o mês das datas e salvar o resultado em uma nova coluna auxiliar:

In [19]:
df_reembolso["datEmissaoMes"] = df_reembolso.datEmissao.dt.month

In [20]:
df_reembolso["datEmissaoMes"]

0         12
1          2
2          9
3         10
4          2
          ..
292784    12
292786    12
292787    12
292788     1
292789    12
Name: datEmissaoMes, Length: 282747, dtype: int64

Para saber quantos registros tivemos por mês, vamos precisar utilizar de novo o `groupby`, mas dessa vez agrupando pela coluna auxiliar que criamos no passo anterior:

In [21]:
df_reembolso.groupby("datEmissaoMes")["ideDocumento"].count().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,ideDocumento
datEmissaoMes,Unnamed: 1_level_1
3,31349
5,31099
4,29288
6,27448
7,24971
2,24232
11,23578
10,21670
12,20336
8,20323


No mês de **março** e **maio** é quando tem mais solicitação de reembolso

#### Como seria para agrupar os dados no formato `mes/ano` , ao invés de apenas mês?

Agrupar por mês é legal para ter uma visão mais ampla de sacionalidade, mas como vimos anteriormente, essa base não tem dados apenas de 2018! Por isso, vamos precisar agrupar por ano também.

Uma forma de fazer é criando uma função [`lambda`](https://wiki.python.org.br/PythonFuncional), que será aplicada ([`apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html)) em uma coluna (nesse caso o `datEmissao`). Para todas as linhas dessa coluna iremos aplicar a função lambda abaixo, essa função recebe um valor, que será do tipo `datetime` (já que a coluna `datEmissao` é do tipo `datetime`, todas as linhas nessa coluna também serão desse mesmo tipo), e a partir desse valor será extraído o mês e o ano, que serão utilizados na construção de uma string. O resultado dessa função será armazenado na coluna `datEmissaoMesAno`.


* Mais informações sobre funções Lambda, veja esse [blog post](https://www.covildodev.com.br/artigo/funcao-lambda-python).

In [22]:
df_reembolso["datEmissaoMesAno"] = df_reembolso.datEmissao.apply(lambda linha: f"{linha.month}/{linha.year}")

In [23]:
df_reembolso["datEmissaoMesAno"]

0         12/2018
1          2/2018
2          9/2018
3         10/2018
4          2/2018
           ...   
292784    12/2018
292786    12/2018
292787    12/2018
292788     1/2019
292789    12/2018
Name: datEmissaoMesAno, Length: 282747, dtype: object

In [24]:
df_reembolso.groupby("datEmissaoMesAno")["ideDocumento"].count().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,ideDocumento
datEmissaoMesAno,Unnamed: 1_level_1
3/2018,31336
5/2018,31099
4/2018,29288
6/2018,27448
7/2018,24969
2/2018,24122
11/2018,23563
10/2018,21668
8/2018,20323
12/2018,20178


Interessante que os registros diferentes de 2018 são tão pequenos, tirando janeiro de 2019, que o resultado atual é quase o mesmo do exercício anterior.

### 7) Limpe a coluna `txtCNPJCPF`: ela deve conter somente dígitos numéricos

Com o objetivo de normalizar os registros presentes nessa coluna, iremos remover qualquer caracter diferente de número.

In [25]:
df_reembolso["txtCNPJCPF"]

0         046.448.200/0017-7
1         106.385.970/0015-8
2         248.825.670/0010-5
3         248.825.670/0010-5
4         037.139.030/0010-8
                 ...        
292784    075.756.510/0015-9
292786    009.829.330/0012-1
292787    274.020.970/0011-5
292788    022.149.320/0016-2
292789    020.128.620/0016-0
Name: txtCNPJCPF, Length: 282747, dtype: object

Para realizar essa remoção iremos utilizar a função `replace`, ela é bem parecida com aquela que vimos no começo do curso quando estavámos aprendendo `strings`. A diferença que o `replace` do pandas, possuí alguns argumentos a mais, como você pode ver na [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) oficial. Um desses argumentos novos é o `regex=True`, com ele nós podemos passar um regex como condição da string que será buscada e alterada.

* Para saber mais sobre regex, recomendo alguns links:

    * https://blog.geekhunter.com.br/python-regex/
    * https://docs.python.org/pt-br/3/howto/regex.html
    * https://www.w3schools.com/python/python_regex.asp

In [26]:
df_reembolso["txtCNPJCPF"] = df_reembolso["txtCNPJCPF"].replace(to_replace=r"\D", value="", regex=True)

Após atualizar a coluna `txtCNPJCPF` com o retorno da função `replace`, ficaremos com o seguinte resultado:

In [27]:
df_reembolso["txtCNPJCPF"]

0         04644820000177
1         10638597000158
2         24882567000105
3         24882567000105
4         03713903000108
               ...      
292784    07575651000159
292786    00982933000121
292787    27402097000115
292788    02214932000162
292789    02012862000160
Name: txtCNPJCPF, Length: 282747, dtype: object

### 8) Quais são os valores únicos do campo `indTipoDocumento`? Substitua o conteúdo pela respectiva legenda

*Dica*: 0 (Zero), para Nota Fiscal; 1 (um), para Recibo; e 2, para Despesa no Exterior.

Caso você tenha curiosidade de saber quais os valores disponíveis nessa coluna, utilize a função `unique()`:

In [28]:
df_reembolso.indTipoDocumento.unique()

array(['4', '0', '1', '2', '3'], dtype=object)

Caso você tenha percebido, os código `3` e `4` não estão na documentação oficial da [API](https://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/explicacoes-sobre-o-formato-dos-arquivos-xml). **Vamos ignorar os outros valores, por que não estão na documentação oficinal.**

> Pesquisando no GitHub sobre esse campo, podemos encontrar essa [Issue](https://github.com/CamaraDosDeputados/dados-abertos/issues/93) aberta, onde se questionam o que seriam esses outros valores. Essa issue foi aberta em 2017 e a documentação continua desatualizada até então.

Utilizando de novo a função `replace`, iremos agora passar no argumento `to_replace` um **dicionário**. Onde as chaves desse dicionário são o conteúdo antigo que queremos alterar, e os valores são os novos conteúdos que queremos colocar no local.

In [29]:
converters = {
    "0": "nota_fiscal",
    "1": "recibo",
    "2": "despesa_exterior",
    "3": None,
    "4": None
}

df_reembolso.indTipoDocumento.replace(to_replace=converters, inplace=True)

> O argumento `inplace` é legal porque ele já altera o dataframe, não precisamos pegar o resultado da operação e sobreescrever a coluna, ele já faz isso pela gente o/

Agora você pode observar que essa coluna não possuí mais aqueles valores numericos:

In [30]:
df_reembolso.indTipoDocumento.unique()

array([None, 'nota_fiscal', 'recibo', 'despesa_exterior'], dtype=object)

### 9) Agrupe o valor total de despesas por fornecedor, mês e ano. Você encontrou algum padrão?

O objetivo dessa questão é tentar encontrar se existe algum padrão no gasto realizado pelos parlamentares.

In [31]:
import numpy as np

Para conseguir responder essa pergunta vamos utilizar o `groupBy`, passando como argumento o nome do fornecedor e a data da despesas. Como a coluna `vlrLiquido` pode possuir valores nulos, vamos utilizar também a função [`nansum`](https://numpy.org/doc/stable/reference/generated/numpy.nansum.html) do Numpy, que ignora valores NaN e realiza a soma de todos os elementos dentro de uma lista.

In [32]:
df_reembolso.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
20317,Cia Aérea - GOL,10,2502925.52
20318,Cia Aérea - GOL,11,2497405.47
20342,Cia Aérea - TAM,11,2241271.59
20341,Cia Aérea - TAM,10,2113908.99
20310,Cia Aérea - GOL,3,2060594.25
20312,Cia Aérea - GOL,5,2042906.57
20334,Cia Aérea - TAM,3,1948712.47
20336,Cia Aérea - TAM,5,1923575.38
20311,Cia Aérea - GOL,4,1874972.7
20314,Cia Aérea - GOL,7,1853015.07


### 10) Quais os 10 parlamentares que mais solicitaram reembolso?

Essa questão é bem semelhante com a anterior :)

In [33]:
df_reembolso.groupby(["txNomeParlamentar"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,vlrLiquido
267,Jhonatan de Jesus,560527.3
444,REMÍDIO MONAI,547939.04
284,Jéssica Sales,546646.53
81,CARLOS ANDRADE,543766.8
51,Arlindo Chinaglia,543388.24
123,Dagoberto Nogueira,536589.15
16,ANGELIM,531860.4
356,MARIA HELENA,531839.64
111,CÉSAR HALUM,531666.82
185,Flaviano Melo,530007.61


#### Como ficaria a resposta, caso queiramos saber quais os seus estados e partidos?

In [34]:
df_reembolso.groupby(["txNomeParlamentar", "sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,sgPartido,sgUF,vlrLiquido
267,Jhonatan de Jesus,PRB,RR,560527.3
431,REMÍDIO MONAI,PR,RR,547939.04
284,Jéssica Sales,MDB,AC,546646.53
81,CARLOS ANDRADE,PHS,RR,543766.8
51,Arlindo Chinaglia,PT,SP,543388.24
123,Dagoberto Nogueira,PDT,MS,536589.15
16,ANGELIM,PT,AC,531860.4
343,MARIA HELENA,MDB,RR,531839.64
111,CÉSAR HALUM,PRB,TO,531666.82
185,Flaviano Melo,MDB,AC,530007.61


### 11) Quais os partidos e os estados que mais solicitaram reembolso?

Continuando no mesmo tipo de questão das duas últimas :)

In [35]:
df_reembolso.groupby(["sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,sgPartido,sgUF,vlrLiquido
243,PSDB,SP,4621629.28
274,PT,SP,4185776.1
271,PT,RS,3330704.67
263,PT,MG,3129844.33
257,PT,BA,3054192.45
19,DEM,RJ,3048067.24
119,PP,RS,2511445.29
230,PSDB,MG,2388037.41
166,PRB,SP,2360305.35
145,PR,RJ,2263563.34


### 12) Recupere os reembolsos de 2019 e acrescente aos dados de 2018

Antes de adicionar os dados de 2019 na base que temos atualmente, vamos dar uma olhada no nome das colunas e na quantidade de registros que temos atualmente:

In [36]:
df_reembolso.columns

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'datPagamentoRestituicao', 'vlrRestituicao',
       'nuDeputadoId', 'ideDocumento', 'urlDocumento', 'datEmissaoMes',
       'datEmissaoMesAno'],
      dtype='object')

In [37]:
df_reembolso.shape

(282747, 34)

Após ler o arquivo de 2019 (não esqueça de baixar ele), vamos verificar se o esquema de colunas se mantém o mesmo:

In [38]:
import requests
from zipfile import ZipFile

# fazendo o download do conteúdo do arquivo
url = f"http://www.camara.leg.br/cotas/Ano-2019.csv.zip"
r = requests.get(url)

file = open(f"Ano-2019.csv.zip", "wb")
file.write(r.content)
file.close()

zip_file = ZipFile(f"Ano-2019.csv.zip", "r")
zip_file.extract(member=f"Ano-2019.csv", path=f"reembolso-2019")
zip_file.close()

In [39]:
df_reembolso_19 = pd.read_csv(
    "reembolso-2019/Ano-2019.csv",
    sep=";",
    dtype=DTYPE
)

df_reembolso_19.columns

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'datPagamentoRestituicao', 'vlrRestituicao',
       'nuDeputadoId', 'ideDocumento', 'urlDocumento'],
      dtype='object')

In [40]:
df_reembolso_19.shape

(289453, 32)

Estando tudo certo, vamos concatenar os dados dos dois dataframes, gerando um novo dataframe:

In [41]:
df_final = pd.concat([df_reembolso, df_reembolso_19], ignore_index=True)

Agora nos temos 582.186 mil registros :)

In [42]:
df_final.shape

(572200, 34)

Mas será que todos são registros únicos?

In [43]:
df_final = df_final.drop_duplicates()

df_final.shape

(572200, 34)

Aparentemente sim!

### 13) Responda novamente as questões 9, 10 e 11. Houve alguma mudança nos resultados?

In [44]:
df_final["datEmissao"] = pd.to_datetime(
    df_final.datEmissao,
    format="%Y-%m-%d"
)

df_final["txtCNPJCPF"] = df_final["txtCNPJCPF"].str.replace(r"\D", "", regex=True)

In [45]:
df_final.head()

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento,datEmissaoMes,datEmissaoMesAno
0,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,4644820000177,10473,,2018-12-20,454.41,0,454.41,12,2018,0,,,1550817,,,,2812,6728796,https://www.camara.leg.br/cota-parlamentar/not...,12.0,12/2018
1,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BONNA COMERCIAL DE ALIMENTOS EIRELI,10638597000158,105,,2018-02-21,242.9,0,242.9,2,2018,0,,,1467117,,,,2812,6508293,https://www.camara.leg.br/cota-parlamentar/not...,2.0,2/2018
2,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CAFE DO FLAVIO EIRELLI-ME,24882567000105,40792,,2018-09-05,79.0,0,79.0,9,2018,0,,,1527969,,,,2812,6666881,https://www.camara.leg.br/cota-parlamentar/not...,9.0,9/2018
3,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CAFE DO FLAVIO EIRELLI-ME,24882567000105,42181,,2018-10-16,207.0,0,207.0,10,2018,0,,,1532624,,,,2812,6681167,https://www.camara.leg.br/cota-parlamentar/not...,10.0,10/2018
4,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CRISTIANE FERREIRA EPP,3713903000108,409,,2018-02-05,98.75,0,98.75,2,2018,0,,,1460984,,,,2812,6491959,https://www.camara.leg.br/cota-parlamentar/not...,2.0,2/2018


In [46]:
df_final["datEmissaoMes"] = df_final.datEmissao.apply(lambda x: f"{x.month}")

In [47]:
df_final.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
33980,Cia Aérea - GOL,10,5046671.32
34010,Cia Aérea - TAM,5,4562958.34
34004,Cia Aérea - TAM,10,4458986.99
33986,Cia Aérea - GOL,5,4376687.48
34009,Cia Aérea - TAM,4,4370795.64
33989,Cia Aérea - GOL,8,4350622.67
33981,Cia Aérea - GOL,11,4313124.34
34005,Cia Aérea - TAM,11,4135965.95
34008,Cia Aérea - TAM,3,4097828.56
34007,Cia Aérea - TAM,2,4094889.94


In [48]:
df_final["datEmissaoMes"] = df_final.datEmissao.apply(lambda x: f"{x.month}/{x.year}")

In [49]:
df_final.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
39486,Cia Aérea - TAM,5/2019,2639382.96
39484,Cia Aérea - TAM,4/2019,2628222.82
39480,Cia Aérea - TAM,2/2019,2627533.35
39444,Cia Aérea - GOL,8/2019,2590982.64
39426,Cia Aérea - GOL,10/2019,2543745.8
39425,Cia Aérea - GOL,10/2018,2502925.52
39427,Cia Aérea - GOL,11/2018,2497405.47
39474,Cia Aérea - TAM,10/2019,2345078.0
39438,Cia Aérea - GOL,5/2019,2333780.91
39492,Cia Aérea - TAM,8/2019,2264387.35


In [50]:
df_final.groupby(["txNomeParlamentar"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,vlrLiquido
406,Jhonatan de Jesus,1114907.65
441,Jéssica Sales,1083968.58
350,Hiran Gonçalves,1062028.74
233,Edio Lopes,1055843.7
285,Flaviano Melo,1050079.06
772,Silas Câmara,1038108.73
711,Rafael Motta,1036385.12
349,Hildo Rocha,1034901.12
63,André Abdon,1028350.67
825,Vinicius Gurgel,1028117.81


In [51]:
df_final.groupby(["sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,sgPartido,sgUF,vlrLiquido
307,PSDB,SP,7697258.31
343,PT,SP,7606271.48
330,PT,MG,6626740.84
324,PT,BA,6207382.65
340,PT,RS,5736791.14
126,PL,SP,4557707.3
161,PP,PR,4433434.97
264,PSD,BA,4408868.1
154,PP,MG,4344113.45
276,PSD,RJ,4334420.57
