# Desafio

### 1) Acesse a api da camara, e recupere os reembolsos do ano de 2018

1. Leitura da API e download da `response` na nossa máquina
2. Extração do arquivo zip
3. Não esqueça de fechar o arquivo, depois de salvar ele!

In [5]:
import requests
from zipfile import ZipFile

# fazendo o download do conteúdo do arquivo
url = f"http://www.camara.leg.br/cotas/Ano-2018.csv.zip"
r = requests.get(url)

file = open(f"Ano-2018.csv.zip", "wb")
file.write(r.content)
file.close()

zip_file = ZipFile(f"Ano-2018.csv.zip", "r")
zip_file.extract(member=f"Ano-2018.csv", path=f"reembolso-2018")
zip_file.close()

### 2) Leia o Arquivo csv 

1. Vamos passar o `DTYPE` para garantir que o CSV será lido com os tipos corretos
2. Utilizar o `display.max_columns` nos ajuda a conseguir ler os dados sem que o jupyter comprima eles
3. O nosso csv utiliza `;` como separador das colunas, por isso, precisamos informar isso no momento de leitura dos dados

In [17]:
import pandas as pd
pd.set_option("display.max_columns", None)

DTYPE = {
    "txNomeParlamentar": str,
    "ideCadastro": str,
    "nuCarteiraParlamentar": str,
    "nuLegislatura": str,
    "sgUF": str,
    "sgPartido": str,
    "codLegislatura": str,
    "numSubCota": str,
    "txtDescricao": str,
    "numEspecificacaoSubCota": str,
    "txtDescricaoEspecificacao": str,
    "txtFornecedor": str,
    "txtCNPJCPF": str,
    "txtNumero": str,
    "indTipoDocumento": str,
    "datEmissao": str,
    "vlrDocumento": float,
    "vlrGlosa": str,
    "vlrLiquido": float,
    "numMes": str,
    "numAno": str,
    "numParcela": str,
    "txtPassageiro": str,
    "txtTrecho": str,
    "numLote": str,
    "numRessarcimento": str,
    "nuDeputadoId": str,
    "ideDocumento": str,
}

df_reembolso = pd.read_csv(
    "reembolso-2018/Ano-2018.csv", 
    sep=";", 
    dtype=DTYPE
) 

### 3) Visualize 10 linhas aleatórias

1. Visualizar uma amostra aleatoria dos dados é importante para nos ajudar a encontrar situações "estranhas" na nossa base, e assim, entender melhor os dados.

In [7]:
df_reembolso.sample(10)

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
216686,Tia Eron,66858930000.0,178862,577,2015,BA,PRB,55,11,SERVIÇOS POSTAIS,0,,CORREIOS - SEDEX CONVENCIONAL,000.000.000/0000-7,RSP : 2249087,1,2018-06-29T10:57:52,65.67,0,65.67,6,2018,0,,,0,0.0,,3078,0,
106190,Chico D'Angelo,47247440000.0,141439,293,2015,RJ,PDT,55,999,PASSAGEM AÉREA - RPA,0,,Cia Aérea - AVIANCA,025.758.290/0014-8,Bilhete: 2435474219,0,2018-02-21T00:00:00,1073.03,0,1073.03,2,2018,0,Chico D'Angelo,BSB/SDU,0,0.0,,1799,1530763,
245517,Capitão Fábio Abreu,48140600000.0,178924,112,2015,PI,PR,55,11,SERVIÇOS POSTAIS,0,,CORREIOS - ENVELOPE BÁSICO/CONVENCIONAL - PLÁS...,000.000.000/0000-7,RSP : 2249844,1,2018-07-10T15:17:52,3.6,0,3.6,7,2018,0,,,0,0.0,,2896,0,
188503,Luiz Nishimori,8781461000.0,162332,459,2015,PR,PR,55,4,"CONSULTORIAS, PESQUISAS E TRABALHOS TÉCNICOS.",0,,W J MENDES PESQUISAS - EIRELI,152.931.910/0010-2,000000000232,0,2018-12-14T00:00:00,38000.0,0,38000.0,12,2018,0,,,1550011,,,2424,6727002,https://www.camara.leg.br/cota-parlamentar/doc...
176442,Eros Biondini,84470670000.0,160640,242,2015,MG,PROS,55,122,"SERVIÇO DE TÁXI, PEDÁGIO E ESTACIONAMENTO",0,,CONCESSIONARIA BR-040 S.A.,197.260.480/0010-0,255,1,2018-03-08T00:00:00,5.3,0,5.3,3,2018,0,,,1475601,,,2385,6530283,https://www.camara.leg.br/cota-parlamentar/doc...
126636,Vinicius Carvalho,82286020000.0,141555,397,2015,SP,PRB,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,REDE LK DE POSTOS LTDA,018.208.060/0027-0,239029,4,2018-08-01T00:00:00,212.92,0,212.92,8,2018,0,,,1527389,,,1951,6664898,https://www.camara.leg.br/cota-parlamentar/not...
57158,Maria do Rosário,48989370000.0,74398,508,2015,RS,PT,55,11,SERVIÇOS POSTAIS,0,,EMPRESA BRASILEIRA DE CORREIOS E TELEGRAFOS,340.283.164/3798-6,1428296965,0,2018-02-08T00:00:00,45.05,0,45.05,2,2018,0,,,1466019,,,1605,6505380,https://www.camara.leg.br/cota-parlamentar/doc...
286748,OSMAR BERTOLDI,68642730000.0,180545,531,2015,PR,DEM,55,1,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,0,,Copel Distribuição S.A.,043.688.980/0010-6,27776317,0,2018-07-11T00:00:00,77.02,0,77.02,7,2018,0,,,1519587,,,3091,6643465,https://www.camara.leg.br/cota-parlamentar/doc...
122623,Rodrigo de Castro,83035610000.0,141531,268,2015,MG,PSDB,55,10,TELEFONIA,0,,Telefonica Brasil S.A.,025.581.570/0016-2,16874706,0,2018-11-13T00:00:00,1434.92,0,1434.92,11,2018,0,,,1543187,,,1928,6709379,
271245,Baleia Rossi,17816720000.0,178975,342,2015,SP,MDB,55,11,SERVIÇOS POSTAIS,0,,CORREIOS - SEDEX 10 COM AR,000.000.000/0000-7,RSP : 2252061,1,2018-07-31T12:39:46,71.3,0,71.3,7,2018,0,,,0,0.0,,3021,0,


### 4) Existem registros com `ideDocumento` nulo?

In [9]:
df_reembolso[df_reembolso.ideDocumento.isna()]

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento


Caso você não lembre `ideDocumento` é **Identificador Único do Parlamentar**. Verificar se ele está nulo, é uma forma de validar a qualidade dos nossos dados. Imagina como seria ruim se na base tivessemos registros onde esse campo estivesse nulo? 

Mais informações sobre o `isna()` ou `isnull()` veja a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html). 

> Você sabia que no pandas `isna()` e `isnull()` são a mesma coisa? 

### 5) Converta a coluna `datEmissao` para `datetime`, e descubra quantos reembolsos aconteram no primeiro semestre de 2018

O tipo atualmente da coluna `datEmissao` é `Object`, por isso não conseguiremos realizar algumas operações que são especificas para elementos do tipo `datetime`, como capiturar apenas o mês ou utilizar um filtro de datas. 

In [11]:
df_reembolso["datEmissao"].dtypes

dtype('O')

Para converter para `datetime` precisamos utilizar a função `to_datetime`, passando no `format` qual o formato iremos utilizar. 

Para saber mais sobre esse padrão de data e hora, recomendo a documentação do [W3C](https://www.w3.org/TR/NOTE-datetime)

In [18]:
df_reembolso["datEmissao"] = pd.to_datetime(
    df_reembolso.datEmissao, 
    format="%Y-%m-%d"
) 

*Não esqueça de sobreescrever a coluna `datEmissao` com o resultado da função `to_datetime`.* 

Para responder a segunda parte da pergunta, vamos precisar utilizar a função [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) do pandas, que nós permite acessar um conjunto de linhas a partir do index.

Visto isso, vamos precisar antes converter a coluna `datEmissao` no index do dataframe:

In [14]:
df_reembolso.set_index("datEmissao").head(1)

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
2018-12-20T00:00:00,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,046.448.200/0017-7,10473,4,454.41,0,454.41,12,2018,0,,,1550817,,,2812,6728796,https://www.camara.leg.br/cota-parlamentar/not...


E depois vamos filtrar utilizando o `loc` pelos index que estão entre o primeiro semestre de 2018:

In [19]:
df_reembolso_ps = df_reembolso.set_index("datEmissao").loc["2018-01-01":"2018-06-30"]

Com o `.shape` você consegue ver que tiramos apenas uma amostra dos dados:

In [23]:
df_reembolso_ps.shape

(159658, 30)

Dessa forma, podemos ver que no primeiro semestre de 2018 tivemos 147.525 reembolsos!

In [20]:
len(df_reembolso_ps.ideDocumento.unique())

147525

#### Existem registros com `datEmissao` nulos? Se sim, quantos?

Olhando para a base como um todo, podemos filtrar por apenas `datEmissao` que estejam nulos:

In [24]:
df_reembolso[df_reembolso.datEmissao.isna()].shape

(10043, 31)

E caso queiramos atrabalhar apenas com reembolsos que tenham `datEmissao` não nulo, precisamos remover os registros nulos da base rodando o seguinte código:

In [88]:
df_reembolso = df_reembolso[~df_reembolso.datEmissao.isna()]

Mas e o dataframe com os dados apenas do primeiro semestre? 

Ele não terá valores nulos, porque lá no momento em que filtramos os registros nós deixamos claro que gostaríamos que a coluna `datEmissao` tivesse algum valor (no caso, valores correspondentes ao primeiro semestre de 2018)

In [31]:
df_reembolso_ps[df_reembolso_ps.index.isna()]

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1


#### Existem registros de outros anos no arquivo de 2018? Se sim, quais anos e quantos registros há nessas datas?

Quando estamos trabalhando com uma base nova, é interessante que façamos a mais diversas perguntas, como essa ai de cima. 

Mesmo a base sendo especifica de um ano, é importante que verifiquemos a consistência desses dados. 

Com a ajuda do método [`dt`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html) que está disponível em **colunas do time datetime**, podemos acessar o ano, mês e dia desse registro.

Dessa forma, para acessar o ano da data de emissão dos reembolsos, vamos fazer o seguinte:

In [38]:
df_reembolso.datEmissao.dt.year.unique()

array([2018., 2019.,   nan, 2017.])

Após constatar que temos registros fora do ano de 2018, vamos filtrar por eles e contar quantos são:

In [52]:
df_reembolso_ntps = df_reembolso[df_reembolso.datEmissao.dt.year != 2018.]

In [53]:
df_reembolso_ntps.shape

(11835, 31)

Será que esses 11.835 registros são únicos ou tem algo repetido? Vamos utilizar o `unique()` para responder isso.

In [54]:
len(df_reembolso_ntps.ideDocumento.unique())

901

In [59]:
df_reembolso_ntps.datEmissao.sort_values(ascending=False).unique()

array(['2019-03-22T00:00:00.000000000', '2019-03-15T00:00:00.000000000',
       '2019-03-13T00:00:00.000000000', '2019-03-11T00:00:00.000000000',
       '2019-03-01T00:00:00.000000000', '2019-02-28T00:00:00.000000000',
       '2019-02-27T00:00:00.000000000', '2019-02-26T00:00:00.000000000',
       '2019-02-21T00:00:00.000000000', '2019-02-20T00:00:00.000000000',
       '2019-02-19T00:00:00.000000000', '2019-02-18T00:00:00.000000000',
       '2019-02-13T00:00:00.000000000', '2019-02-12T00:00:00.000000000',
       '2019-02-11T00:00:00.000000000', '2019-02-10T00:00:00.000000000',
       '2019-02-08T00:00:00.000000000', '2019-02-07T00:00:00.000000000',
       '2019-02-06T00:00:00.000000000', '2019-02-05T00:00:00.000000000',
       '2019-02-04T00:00:00.000000000', '2019-02-01T00:00:00.000000000',
       '2019-01-31T00:00:00.000000000', '2019-01-30T00:00:00.000000000',
       '2019-01-29T00:00:00.000000000', '2019-01-28T00:00:00.000000000',
       '2019-01-26T00:00:00.000000000', '2019-01-25

Caso você queira saber quantos registros temos por datas fora do ano de 2018, podemos utilizar a função `groupby()`, agrupando por `datEmissao` e contando a quantidade de `ideDocumento`:

In [73]:
df_reembolso_ntps.groupby("datEmissao")["ideDocumento"].count().sort_values(ascending=False)

datEmissao
2019-01-16    621
2019-01-10    151
2019-01-07    135
2019-01-01    101
2019-01-02     91
             ... 
2019-02-01      1
2017-12-17      1
2019-01-26      1
2017-03-22      1
2017-03-20      1
Name: ideDocumento, Length: 88, dtype: int64

> O que você acha que pode ter acontecido nessa base? 

### 6) Quais os meses que mais tem solicitação de reembolso?

Utilizando de novo no método [`dt`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html), vamos agora extrair o mês das datas e salvar o resultado em uma nova coluna auxiliar:

In [35]:
df_reembolso["datEmissaoMes"] = df_reembolso.datEmissao.dt.month

In [36]:
df_reembolso["datEmissaoMes"]

0         12.0
1          2.0
2          9.0
3         10.0
4          2.0
          ... 
292749     NaN
292750    12.0
292751    12.0
292752     1.0
292753    12.0
Name: datEmissaoMes, Length: 292754, dtype: float64

Para saber quantos registros tivemos por mês, vamos precisar utilizar de novo o `groupby`, mas dessa vez agrupando pela coluna auxiliar que criamos no passo anterior:

In [37]:
df_reembolso.groupby("datEmissaoMes")["ideDocumento"].count().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,ideDocumento
datEmissaoMes,Unnamed: 1_level_1
3.0,31334
5.0,31097
4.0,29282
6.0,27447
7.0,24971
2.0,24220
11.0,23578
10.0,21670
12.0,20336
8.0,20323


No mês de **março** e **maio** é quando tem mais solicitação de reembolso

#### Como seria para agrupar os dados no formato `mes/ano` , ao invés de apenas mês?

Agrupar por mês é legal para ter uma visão mais ampla de sacionalidade, mas como vimos anteriormente, essa base não tem dados apenas de 2018! Por isso, vamos precisar agrupar por ano também. 

Uma forma de fazer é criando uma função [`lambda`](https://wiki.python.org.br/PythonFuncional), que será aplicada ([`apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html)) em uma coluna (nesse caso o `datEmissao`). Para todas as linhas dessa coluna iremos aplicar a função lambda abaixo, essa função recebe um valor, que será do tipo `datetime` (já que a coluna `datEmissao` é do tipo `datetime`, todas as linhas nessa coluna também serão desse mesmo tipo), e a partir desse valor será extraído o mês e o ano, que serão utilizados na construção de uma string. O resultado dessa função será armazenado na coluna `datEmissaoMesAno`.


* Mais informações sobre funções Lambda, veja esse [blog post](https://www.covildodev.com.br/artigo/funcao-lambda-python).

In [38]:
df_reembolso["datEmissaoMesAno"] = df_reembolso.datEmissao.apply(lambda linha: f"{linha.month}/{linha.year}")

In [39]:
df_reembolso["datEmissaoMesAno"]

0         12/2018
1          2/2018
2          9/2018
3         10/2018
4          2/2018
           ...   
292749    nan/nan
292750    12/2018
292751    12/2018
292752     1/2019
292753    12/2018
Name: datEmissaoMesAno, Length: 292754, dtype: object

In [40]:
df_reembolso.groupby("datEmissaoMesAno")["ideDocumento"].count().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,ideDocumento
datEmissaoMesAno,Unnamed: 1_level_1
3/2018,31321
5/2018,31097
4/2018,29282
6/2018,27447
7/2018,24969
2/2018,24110
11/2018,23563
10/2018,21668
8/2018,20323
12/2018,20178


Interessante que os registros diferentes de 2018 são tão pequenos, tirando janeiro de 2019, que o resultado atual é quase o mesmo do exercício anterior.

### 7) Limpe a coluna `txtCNPJCPF`: ela deve conter somente dígitos numéricos

Com o objetivo de normalizar os registros presentes nessa coluna, iremos remover qualquer caracter diferente de número.

In [90]:
df_reembolso["txtCNPJCPF"]

0         046.448.200/0017-7
1         106.385.970/0015-8
2         248.825.670/0010-5
3         248.825.670/0010-5
4         037.139.030/0010-8
                 ...        
292728    075.756.510/0015-9
292730    009.829.330/0012-1
292731    274.020.970/0011-5
292732    022.149.320/0016-2
292733    020.128.620/0016-0
Name: txtCNPJCPF, Length: 282691, dtype: object

Para realizar essa remoção iremos utilizar a função `replace`, ela é bem parecida com aquela que vimos no começo do curso quando estavámos aprendendo `strings`. A diferença que o `replace` do pandas, possuí alguns argumentos a mais, como você pode ver na [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) oficial. Um desses argumentos novos é o `regex=True`, com ele nós podemos passar um regex como condição da string que será buscada e alterada. 

* Para saber mais sobre regex, recomendo alguns links:

    * https://blog.geekhunter.com.br/python-regex/
    * https://docs.python.org/pt-br/3/howto/regex.html
    * https://www.w3schools.com/python/python_regex.asp

In [91]:
df_reembolso["txtCNPJCPF"] = df_reembolso["txtCNPJCPF"].str.replace(to_replace=r"\D", "", regex=True)

Após atualizar a coluna `txtCNPJCPF` com o retorno da função `replace`, ficaremos com o seguinte resultado:

In [92]:
df_reembolso["txtCNPJCPF"]

0         04644820000177
1         10638597000158
2         24882567000105
3         24882567000105
4         03713903000108
               ...      
292728    07575651000159
292730    00982933000121
292731    27402097000115
292732    02214932000162
292733    02012862000160
Name: txtCNPJCPF, Length: 282691, dtype: object

### 8) Quais são os valores únicos do campo `indTipoDocumento`? Substitua o conteúdo pela respectiva legenda

*Dica*: 0 (Zero), para Nota Fiscal; 1 (um), para Recibo; e 2, para Despesa no Exterior.

Caso você tenha curiosidade de saber quais os valores disponíveis nessa coluna, utilize a função `unique()`:

In [93]:
df_reembolso.indTipoDocumento.unique()

array(['4', '0', '1', '2', '3'], dtype=object)

Caso você tenha percebido, os código `3` e `4` não estão na documentação oficial da [API](https://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/explicacoes-sobre-o-formato-dos-arquivos-xml). Por isso vamos ignorar esses valores :( 

Utilizando de novo a função `replace`, iremos agora passar no argumento `to_replace` um **dicionário**. Onde as chaves desse dicionário são o conteúdo antigo que queremos alterar, e os valores são os novos conteúdos que queremos colocar no local.

In [94]:
converters = {
    "0": "nota_fiscal",
    "1": "recibo",
    "2": "despesa_exterior",
    "3": None,
    "4": None
}

df_reembolso.indTipoDocumento.replace(to_replace=converters, inplace=True)

> O argumento `inplace` é legal porque ele já altera o dataframe, não precisamos pegar o resultado da operação e sobreescrever a coluna, ele já faz isso pela gente o/

Agora você pode observar que essa coluna não possuí mais aqueles valores numericos:

In [95]:
df_reembolso.indTipoDocumento.unique()

array([None, 'nota_fiscal', 'recibo', 'despesa_exterior', '3'],
      dtype=object)

### 9) Agrupe o valor total de despesas por fornecedor, mês e ano. Você encontrou algum padrão?

In [98]:
import numpy as np

In [99]:
df_reembolso.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
20347,Cia Aérea - GOL,10/2018,2502925.52
20348,Cia Aérea - GOL,11/2018,2497405.47
20372,Cia Aérea - TAM,11/2018,2241271.59
20371,Cia Aérea - TAM,10/2018,2113908.99
20351,Cia Aérea - GOL,3/2018,2060594.25
20353,Cia Aérea - GOL,5/2018,2042906.57
20375,Cia Aérea - TAM,3/2018,1948712.47
20377,Cia Aérea - TAM,5/2018,1923575.38
20352,Cia Aérea - GOL,4/2018,1874972.7
20355,Cia Aérea - GOL,7/2018,1853015.07


### 10) Quais os 10 parlamentares que mais solicitaram reembolso?

In [103]:
df_reembolso.groupby(["txNomeParlamentar"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,vlrLiquido
267,Jhonatan de Jesus,560527.3
444,REMÍDIO MONAI,547939.04
284,Jéssica Sales,546646.53
81,CARLOS ANDRADE,543766.8
51,Arlindo Chinaglia,543388.24
124,Dagoberto Nogueira,536589.15
17,ANGELIM,531860.4
358,MARIA HELENA,531839.64
111,CÉSAR HALUM,531666.82
185,Flaviano Melo,530007.61


#### Como ficaria a resposta, caso queiramos saber quais os seus estados e partidos?

In [102]:
df_reembolso.groupby(["txNomeParlamentar", "sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,sgPartido,sgUF,vlrLiquido
267,Jhonatan de Jesus,PRB,RR,560527.3
431,REMÍDIO MONAI,PR,RR,547939.04
284,Jéssica Sales,MDB,AC,546646.53
81,CARLOS ANDRADE,PHS,RR,543766.8
51,Arlindo Chinaglia,PT,SP,543388.24
124,Dagoberto Nogueira,PDT,MS,536589.15
17,ANGELIM,PT,AC,531860.4
345,MARIA HELENA,MDB,RR,531839.64
111,CÉSAR HALUM,PRB,TO,531666.82
185,Flaviano Melo,MDB,AC,530007.61


### 11) Quais os partidos e os estados que mais solicitaram reembolso?

In [104]:
df_reembolso.groupby(["sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,sgPartido,sgUF,vlrLiquido
243,PSDB,SP,4621629.28
274,PT,SP,4185776.1
271,PT,RS,3330704.67
263,PT,MG,3129844.33
257,PT,BA,3054192.45
19,DEM,RJ,3048067.24
119,PP,RS,2511445.29
230,PSDB,MG,2388037.41
166,PRB,SP,2360305.35
145,PR,RJ,2263563.34


### 12) Recupere os reembolsos de 2019 e acrescente aos dados de 2018

In [109]:
df_reembolso.columns

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'vlrRestituicao', 'nuDeputadoId', 'ideDocumento',
       'urlDocumento'],
      dtype='object')

In [114]:
df_reembolso.shape

(292734, 31)

In [110]:
df_reembolso_19 = pd.read_csv(
    "reembolso-2019/Ano-2019.csv", 
    sep=";", 
    dtype=DTYPE
)

df_reembolso_19.columns

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'vlrRestituicao', 'nuDeputadoId', 'ideDocumento',
       'urlDocumento'],
      dtype='object')

In [115]:
df_reembolso_19.shape

(289452, 31)

In [112]:
df_final = pd.concat([df_reembolso, df_reembolso_19], ignore_index=True)

In [113]:
df_final.shape

(582186, 31)

In [117]:
df_final = df_final.drop_duplicates()

df_final.shape

(582186, 31)

### 13) Responda novamente as questões 9, 10 e 11. Houve alguma mudança nos resultados?

In [118]:
df_final["datEmissao"] = pd.to_datetime(
    df_final.datEmissao, 
    format="%Y-%m-%d"
) 

df_final["txtCNPJCPF"] = df_final["txtCNPJCPF"].str.replace(r"\D", "", regex=True)

In [119]:
df_final.head()

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
0,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,4644820000177,10473,4,2018-12-20,454.41,0,454.41,12,2018,0,,,1550817,,,2812,6728796,https://www.camara.leg.br/cota-parlamentar/not...
1,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BONNA COMERCIAL DE ALIMENTOS EIRELI,10638597000158,105,4,2018-02-21,242.9,0,242.9,2,2018,0,,,1467117,,,2812,6508293,https://www.camara.leg.br/cota-parlamentar/not...
2,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CAFE DO FLAVIO EIRELLI-ME,24882567000105,40792,4,2018-09-05,79.0,0,79.0,9,2018,0,,,1527969,,,2812,6666881,https://www.camara.leg.br/cota-parlamentar/not...
3,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CAFE DO FLAVIO EIRELLI-ME,24882567000105,42181,4,2018-10-16,207.0,0,207.0,10,2018,0,,,1532624,,,2812,6681167,https://www.camara.leg.br/cota-parlamentar/not...
4,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CRISTIANE FERREIRA EPP,3713903000108,409,4,2018-02-05,98.75,0,98.75,2,2018,0,,,1460984,,,2812,6491959,https://www.camara.leg.br/cota-parlamentar/not...


In [126]:
df_final["datEmissaoMes"] = df_final.datEmissao.apply(lambda x: f"{x.month}")

In [127]:
df_final.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
33981,Cia Aérea - GOL,10,5046671.32
34011,Cia Aérea - TAM,5,4562958.34
34005,Cia Aérea - TAM,10,4458986.99
33987,Cia Aérea - GOL,5,4376687.48
34010,Cia Aérea - TAM,4,4370795.64
33990,Cia Aérea - GOL,8,4350622.67
33982,Cia Aérea - GOL,11,4313124.34
34006,Cia Aérea - TAM,11,4135965.95
34009,Cia Aérea - TAM,3,4097828.56
34008,Cia Aérea - TAM,2,4094889.94


In [129]:
df_final["datEmissaoMes"] = df_final.datEmissao.apply(lambda x: f"{x.month}/{x.year}")

In [130]:
df_final.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
39487,Cia Aérea - TAM,5/2019,2639382.96
39485,Cia Aérea - TAM,4/2019,2628222.82
39481,Cia Aérea - TAM,2/2019,2627533.35
39445,Cia Aérea - GOL,8/2019,2590982.64
39427,Cia Aérea - GOL,10/2019,2543745.8
39426,Cia Aérea - GOL,10/2018,2502925.52
39428,Cia Aérea - GOL,11/2018,2497405.47
39475,Cia Aérea - TAM,10/2019,2345078.0
39439,Cia Aérea - GOL,5/2019,2333780.91
39493,Cia Aérea - TAM,8/2019,2264387.35


In [131]:
df_final.groupby(["txNomeParlamentar"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,vlrLiquido
406,Jhonatan de Jesus,1115781.55
441,Jéssica Sales,1084703.12
350,Hiran Gonçalves,1063153.44
234,Edio Lopes,1057764.57
286,Flaviano Melo,1051355.53
771,Silas Câmara,1040134.99
710,Rafael Motta,1037232.85
349,Hildo Rocha,1036810.75
63,André Abdon,1028589.54
824,Vinicius Gurgel,1028511.03


In [132]:
df_final.groupby(["sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,sgPartido,sgUF,vlrLiquido
306,PSDB,SP,8132307.59
342,PT,SP,7624879.71
329,PT,MG,6640933.71
323,PT,BA,6213677.25
339,PT,RS,5748143.61
126,PL,SP,4557707.3
263,PSD,BA,4414071.58
154,PP,MG,4353151.77
275,PSD,RJ,4341860.02
88,PDT,CE,4161447.98
