# Desafio

### 1) Acesse a api da camara, e recupere os reembolsos do ano de 2018

1. Leitura da API e download da `response` na nossa máquina
2. Extração do arquivo zip
3. Não esqueça de fechar o arquivo, depois de salvar ele!

In [1]:
import requests
from zipfile import ZipFile

# fazendo o download do conteúdo do arquivo
url = f"http://www.camara.leg.br/cotas/Ano-2018.csv.zip"
r = requests.get(url)

file = open(f"Ano-2018.csv.zip", "wb")
file.write(r.content)
file.close()

zip_file = ZipFile(f"Ano-2018.csv.zip", "r")
zip_file.extract(member=f"Ano-2018.csv", path=f"reembolso-2018")
zip_file.close()

### 2) Leia o Arquivo csv

1. Vamos passar o `DTYPE` para garantir que o CSV será lido com os tipos corretos
2. Utilizar o `display.max_columns` nos ajuda a conseguir ler os dados sem que o jupyter comprima eles
3. O nosso csv utiliza `;` como separador das colunas, por isso, precisamos informar isso no momento de leitura dos dados

In [2]:
import pandas as pd
pd.set_option("display.max_columns", None)

DTYPE = {
    "txNomeParlamentar": str,
    "ideCadastro": str,
    "nuCarteiraParlamentar": str,
    "nuLegislatura": str,
    "sgUF": str,
    "sgPartido": str,
    "codLegislatura": str,
    "numSubCota": str,
    "txtDescricao": str,
    "numEspecificacaoSubCota": str,
    "txtDescricaoEspecificacao": str,
    "txtFornecedor": str,
    "txtCNPJCPF": str,
    "txtNumero": str,
    "indTipoDocumento": str,
    "datEmissao": str,
    "vlrDocumento": float,
    "vlrGlosa": str,
    "vlrLiquido": float,
    "numMes": str,
    "numAno": str,
    "numParcela": str,
    "txtPassageiro": str,
    "txtTrecho": str,
    "numLote": str,
    "numRessarcimento": str,
    "nuDeputadoId": str,
    "ideDocumento": str,
    "cpf": str
}

df_reembolso = pd.read_csv(
    "reembolso-2018/Ano-2018.csv",
    sep=";",
    dtype=DTYPE
)

### 3) Visualize 10 linhas aleatórias

1. Visualizar uma amostra aleatoria dos dados é importante para nos ajudar a encontrar situações "estranhas" na nossa base, e assim, entender melhor os dados.

In [3]:
df_reembolso.sample(10)

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
98854,Rogério Peninha Mendonça,,160651,483,2015,SC,MDB,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,PROSPERA COMÉRCIO DE ALIMENTOS LTDA ME,229.473.020/0010-4,46487,0,2018-11-27T00:00:00,30.8,3,27.8,11,2018,0,,,1546812,,,,2244,6719146,https://www.camara.leg.br/cota-parlamentar/doc...
18283,VALDIR COLATTO,,74010,489,2015,SC,MDB,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,POSTO COMERCIAL NORTE LTDA,050.845.880/0012-2,46568,4,2018-11-09T00:00:00,173.01,0,173.01,11,2018,0,,,1541374,,,,527,6704385,https://www.camara.leg.br/cota-parlamentar/not...
59809,Laerte Bessa,,141478,580,2015,DF,PL,55,1,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,0,,SHOPPING DO ALUNO LIVRARIA E PAPELARIA LTDA,089.953.500/0014-7,23151,4,2018-08-08T00:00:00,566.0,0,566.0,8,2018,0,,,1521871,,,,1867,6649706,https://www.camara.leg.br/cota-parlamentar/not...
69164,Marcelo Aro,,146788,236,2015,MG,PP,55,1,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,0,,CIA DA MÍDIA LOCAÇÕES DE EQUIP. P/ EVENTOS LTD...,062.474.540/0014-8,1458,1,2018-08-06T00:00:00,435.0,0,435.0,7,2018,0,,,1522881,,,,3015,6653082,https://www.camara.leg.br/cota-parlamentar/doc...
96467,WILSON FILHO,,160636,139,2015,PB,PTB,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,LAURITA FIGUEIREDO DE MEDEIROS,056.292.490/0018-4,22434,4,2018-07-27T00:00:00,108.0,0,108.0,7,2018,0,,,1518440,,,,2366,6639664,https://www.camara.leg.br/cota-parlamentar/not...
36056,JUTAHY JUNIOR,,74570,206,2015,BA,PSDB,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,PARAISO COMERCIO DE DERIVADOS DO PETROLEO E SE...,340.607.640/0019-4,99335,4,2018-11-11T00:00:00,100.0,0,100.0,11,2018,0,,,1543657,,,,198,6711049,https://www.camara.leg.br/cota-parlamentar/not...
53497,Cleber Verde,,141408,70,2015,MA,MDB,55,5,DIVULGAÇÃO DA ATIVIDADE PARLAMENTAR.,0,,WILIBALDO MIGUEL BORGMANN NETO,297.633.330/0015-4,935301,0,2018-06-04T00:00:00,4000.0,0,4000.0,5,2018,0,,,1501158,,,,1804,6595656,https://www.camara.leg.br/cota-parlamentar/doc...
124615,Sergio Vidigal,,178874,283,2015,ES,PDT,55,1,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,0,,CENTRAL CARTUCHOS LTDA - ME,054.307.340/0012-4,14208,0,2018-03-28T00:00:00,85.0,35,50.0,3,2018,0,,,1485457,,,,3046,6555763,https://www.camara.leg.br/cota-parlamentar/doc...
123250,Evair Vieira de Melo,,178871,274,2015,ES,PP,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,POSTO CAILA LTDA,093.558.550/0010-0,4705,4,2018-03-20T00:00:00,200.04,0,200.04,3,2018,0,,,1478163,,,,2984,6537144,https://www.camara.leg.br/cota-parlamentar/not...
65537,ROGÉRIO MARINHO,,141535,124,2015,RN,PSDB,55,3,COMBUSTÍVEIS E LUBRIFICANTES.,1,Veículos Automotores,driver car transportes e combustiveis ltda,000.122.110/0022-5,78402,4,2018-04-30T00:00:00,100.0,0,100.0,4,2018,0,,,1490279,,,,1931,6568258,https://www.camara.leg.br/cota-parlamentar/not...


### 4) Existem registros com `ideDocumento` nulo?

In [4]:
df_reembolso[df_reembolso.ideDocumento.isna()]

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento


O campo`ideDocumento` é o **Identificador Único do Documento Fiscal ou do Recibo**, todo gasto parlamentar precisa ter esse ID, ele significa que o documento fiscal foi recebido e cadastrado na base da Câmara dos Deputados.

Esse campo infelizmente não está descrito no [dicionário de dados](https://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/explicacoes-sobre-o-formato-dos-arquivos-xml). Conseguimos saber o seu significado olhando algumas mensagens compartilhadas pela comunidade no GitHub, como [essa](https://github.com/victorpedrocs/dados-abertos-cd/wiki/Fontes).

Verificar se ele está nulo, é uma forma de validar a qualidade dos nossos dados. Imagina como seria ruim se na base tivessemos registros onde esse campo estivesse nulo?

Mais informações sobre o `isna()` ou `isnull()` veja a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html).

> Você sabia que no pandas `isna()` e `isnull()` são a mesma coisa?

### 5) Converta a coluna `datEmissao` para `datetime`, e descubra quantos reembolsos aconteceram no primeiro semestre de 2018

O tipo atualmente da coluna `datEmissao` é `Object`, por isso não conseguiremos realizar algumas operações que são especificas para elementos do tipo `datetime`, como capturar apenas o mês ou utilizar um filtro de datas.

In [5]:
df_reembolso["datEmissao"].dtypes

dtype('O')

Para converter para `datetime` precisamos utilizar a função `to_datetime`, passando no `format` qual o formato iremos utilizar.

Para saber mais sobre esse padrão de data e hora, recomendo a documentação do [W3C](https://www.w3.org/TR/NOTE-datetime) e do [Python](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)

In [6]:
df_reembolso['datEmissao'] = df_reembolso['datEmissao'].astype('datetime64[ns]')

df_reembolso['datEmissao'] = pd.to_datetime(df_reembolso['datEmissao'], format='%Y-%m-%d')

df_reembolso['datEmissao']

0        2018-06-26
1        2018-05-22
2        2018-06-06
3        2018-03-12
4        2018-03-12
            ...    
166046   2018-12-20
166047   2018-12-20
166048   2018-12-20
166049   2018-12-20
166050   2019-01-08
Name: datEmissao, Length: 166051, dtype: datetime64[ns]

*Não esqueça de sobreescrever a coluna `datEmissao` com o resultado da função `to_datetime`.*

Para responder a segunda parte da pergunta, vamos precisar utilizar a função [`loc`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html) do pandas, que nós permite acessar um conjunto de linhas a partir do index.

Visto isso, vamos precisar antes converter a coluna `datEmissao` no index do dataframe:

In [7]:
df_reembolso.set_index("datEmissao").head(1)

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1
2018-06-26,AVANTE,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,046.448.200/0017-7,5507,4,181.37,0,181.37,6,2018,0,,,1510946,,,,3175,6621498,https://www.camara.leg.br/cota-parlamentar/not...


E depois vamos filtrar utilizando o `loc` pelos index que estão entre o primeiro semestre de 2018:

In [8]:
df_reembolso_ps = df_reembolso.set_index("datEmissao").loc["2018-01-01":"2018-06-30"]

Com o `.shape` você consegue ver que tiramos apenas uma amostra dos dados:

In [9]:
df_reembolso_ps.shape

(97314, 31)

Dessa forma, podemos ver que no primeiro semestre de 2018 tivemos 159.694 reembolsos!

Obs: Rodei outra vez e deu 97.314 reembolsos

In [10]:
df_reembolso_ps.drop_duplicates().shape

(97314, 31)

#### Existem registros com `datEmissao` nulos? Se sim, quantos?

Olhando para a base como um todo, podemos filtrar por apenas `datEmissao` que estejam nulos:

In [11]:
df_reembolso[df_reembolso.datEmissao.isna()].shape

(0, 32)

E caso queiramos atrabalhar apenas com reembolsos que tenham `datEmissao` não nulo, precisamos remover os registros nulos da base rodando o seguinte código:

In [12]:
df_reembolso = df_reembolso[~df_reembolso.datEmissao.isna()]

Mas e o dataframe com os dados apenas do primeiro semestre?

Ele não terá valores nulos, porque lá no momento em que filtramos os registros nós deixamos claro que gostaríamos que a coluna `datEmissao` tivesse algum valor (no caso, valores correspondentes ao primeiro semestre de 2018)

In [14]:
df_reembolso_ps[df_reembolso_ps.index.isna()]

Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1


#### Existem registros de outros anos no arquivo de 2018? Se sim, quais anos e quantos registros há nessas datas?

Quando estamos trabalhando com uma base nova, é interessante que façamos a mais diversas perguntas, como essa ai de cima.

Mesmo a base sendo especifica de um ano, é importante que verifiquemos a consistência desses dados.

Com a ajuda do método [`dt`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html) que está disponível em **colunas do time datetime**, podemos acessar o ano, mês e dia desse registro.

Dessa forma, para acessar o ano da data de emissão dos reembolsos, vamos fazer o seguinte:

In [15]:
df_reembolso.datEmissao.dt.year.unique()

array([2018, 2019, 2017])

Após constatar que temos registros fora do ano de 2018, vamos filtrar por eles e contar quantos são:

In [16]:
df_reembolso_ntps = df_reembolso[df_reembolso.datEmissao.dt.year != 2018]

In [17]:
df_reembolso_ntps.shape

(900, 32)

Será que esses 1.792 registros são únicos ou tem algo repetido? Vamos utilizar o `drop_duplicates()` para responder isso.

In [18]:
df_reembolso_ntps.drop_duplicates().shape

(900, 32)

Caso você queira saber quantos registros temos por datas fora do ano de 2018, podemos utilizar a função `groupby()`, agrupando por `datEmissao` e contando a quantidade de `ideDocumento`:

In [19]:
df_reembolso_ntps.groupby("datEmissao")["ideDocumento"].count().sort_values(ascending=False)

datEmissao
2019-01-01    101
2019-01-02     91
2019-01-03     77
2019-01-07     60
2019-01-09     56
             ... 
2017-12-04      1
2019-01-26      1
2017-12-17      1
2017-03-22      1
2017-03-20      1
Name: ideDocumento, Length: 87, dtype: int64

> O que você acha que pode ter acontecido nessa base?

### 6) Quais os meses que mais tem solicitação de reembolso?

Utilizando de novo no método [`dt`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dt.html), vamos agora extrair o mês das datas e salvar o resultado em uma nova coluna auxiliar:

In [20]:
df_reembolso["datEmissaoMes"] = df_reembolso.datEmissao.dt.month

In [21]:
df_reembolso["datEmissaoMes"]

0          6
1          5
2          6
3          3
4          3
          ..
166046    12
166047    12
166048    12
166049    12
166050     1
Name: datEmissaoMes, Length: 166051, dtype: int32

Para saber quantos registros tivemos por mês, vamos precisar utilizar de novo o `groupby`, mas dessa vez agrupando pela coluna auxiliar que criamos no passo anterior:

In [22]:
df_reembolso.groupby("datEmissaoMes")["ideDocumento"].count().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,ideDocumento
datEmissaoMes,Unnamed: 1_level_1
3,18479
5,18300
4,17678
6,17026
7,15576
2,14767
11,12546
1,11787
8,11450
12,11084


No mês de **março** e **maio** é quando tem mais solicitação de reembolso

#### Como seria para agrupar os dados no formato `mes/ano` , ao invés de apenas mês?

Agrupar por mês é legal para ter uma visão mais ampla de sacionalidade, mas como vimos anteriormente, essa base não tem dados apenas de 2018! Por isso, vamos precisar agrupar por ano também.

Uma forma de fazer é criando uma função [`lambda`](https://wiki.python.org.br/PythonFuncional), que será aplicada ([`apply()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html)) em uma coluna (nesse caso o `datEmissao`). Para todas as linhas dessa coluna iremos aplicar a função lambda abaixo, essa função recebe um valor, que será do tipo `datetime` (já que a coluna `datEmissao` é do tipo `datetime`, todas as linhas nessa coluna também serão desse mesmo tipo), e a partir desse valor será extraído o mês e o ano, que serão utilizados na construção de uma string. O resultado dessa função será armazenado na coluna `datEmissaoMesAno`.


* Mais informações sobre funções Lambda, veja esse [blog post](https://www.covildodev.com.br/artigo/funcao-lambda-python).

In [23]:
df_reembolso["datEmissaoMesAno"] = df_reembolso.datEmissao.apply(lambda linha: f"{linha.month}/{linha.year}")

In [24]:
df_reembolso["datEmissaoMesAno"]

0          6/2018
1          5/2018
2          6/2018
3          3/2018
4          3/2018
           ...   
166046    12/2018
166047    12/2018
166048    12/2018
166049    12/2018
166050     1/2019
Name: datEmissaoMesAno, Length: 166051, dtype: object

In [25]:
df_reembolso.groupby("datEmissaoMesAno")["ideDocumento"].count().sort_values(ascending=False).to_frame()

Unnamed: 0_level_0,ideDocumento
datEmissaoMesAno,Unnamed: 1_level_1
3/2018,18470
5/2018,18300
4/2018,17678
6/2018,17026
7/2018,15574
2/2018,14741
11/2018,12531
8/2018,11450
1/2018,11099
12/2018,10926


Interessante que os registros diferentes de 2018 são tão pequenos, tirando janeiro de 2019, que o resultado atual é quase o mesmo do exercício anterior.

### 7) Limpe a coluna `txtCNPJCPF`: ela deve conter somente dígitos numéricos

Com o objetivo de normalizar os registros presentes nessa coluna, iremos remover qualquer caracter diferente de número.

In [26]:
df_reembolso["txtCNPJCPF"]

0         046.448.200/0017-7
1         246.489.700/0016-6
2         367.564.350/0010-8
3         292.865.450/0019-8
4         292.865.450/0019-8
                 ...        
166046    075.756.510/0015-9
166047    075.756.510/0015-9
166048    009.829.330/0012-1
166049    274.020.970/0011-5
166050    022.149.320/0016-2
Name: txtCNPJCPF, Length: 166051, dtype: object

Para realizar essa remoção iremos utilizar a função `replace`, ela é bem parecida com aquela que vimos no começo do curso quando estavámos aprendendo `strings`. A diferença que o `replace` do pandas, possuí alguns argumentos a mais, como você pode ver na [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html) oficial. Um desses argumentos novos é o `regex=True`, com ele nós podemos passar um regex como condição da string que será buscada e alterada.

* Para saber mais sobre regex, recomendo alguns links:

    * https://blog.geekhunter.com.br/python-regex/
    * https://docs.python.org/pt-br/3/howto/regex.html
    * https://www.w3schools.com/python/python_regex.asp

In [27]:
df_reembolso["txtCNPJCPF"] = df_reembolso["txtCNPJCPF"].replace(to_replace=r"\D", value="", regex=True)

Após atualizar a coluna `txtCNPJCPF` com o retorno da função `replace`, ficaremos com o seguinte resultado:

In [28]:
df_reembolso["txtCNPJCPF"]

0         04644820000177
1         24648970000166
2         36756435000108
3         29286545000198
4         29286545000198
               ...      
166046    07575651000159
166047    07575651000159
166048    00982933000121
166049    27402097000115
166050    02214932000162
Name: txtCNPJCPF, Length: 166051, dtype: object

### 8) Quais são os valores únicos do campo `indTipoDocumento`? Substitua o conteúdo pela respectiva legenda

*Dica*: 0 (Zero), para Nota Fiscal; 1 (um), para Recibo; e 2, para Despesa no Exterior.

Caso você tenha curiosidade de saber quais os valores disponíveis nessa coluna, utilize a função `unique()`:

In [29]:
df_reembolso.indTipoDocumento.unique()

array(['4', '0', '1', '2', '3'], dtype=object)

Caso você tenha percebido, os código `3` e `4` não estão na documentação oficial da [API](https://www2.camara.leg.br/transparencia/cota-para-exercicio-da-atividade-parlamentar/explicacoes-sobre-o-formato-dos-arquivos-xml). **Vamos ignorar os outros valores, por que não estão na documentação oficinal.**

> Pesquisando no GitHub sobre esse campo, podemos encontrar essa [Issue](https://github.com/CamaraDosDeputados/dados-abertos/issues/93) aberta, onde se questionam o que seriam esses outros valores. Essa issue foi aberta em 2017 e a documentação continua desatualizada até então.

Utilizando de novo a função `replace`, iremos agora passar no argumento `to_replace` um **dicionário**. Onde as chaves desse dicionário são o conteúdo antigo que queremos alterar, e os valores são os novos conteúdos que queremos colocar no local.

In [30]:
converters = {
    "0": "nota_fiscal",
    "1": "recibo",
    "2": "despesa_exterior",
    "3": None,
    "4": None
}

df_reembolso.indTipoDocumento.replace(to_replace=converters, inplace=True)

> O argumento `inplace` é legal porque ele já altera o dataframe, não precisamos pegar o resultado da operação e sobreescrever a coluna, ele já faz isso pela gente o/

Agora você pode observar que essa coluna não possuí mais aqueles valores numericos:

In [31]:
df_reembolso.indTipoDocumento.unique()

array([None, 'nota_fiscal', 'recibo', 'despesa_exterior'], dtype=object)

### 9) Agrupe o valor total de despesas por fornecedor, mês e ano. Você encontrou algum padrão?

O objetivo dessa questão é tentar encontrar se existe algum padrão no gasto realizado pelos parlamentares.

In [32]:
import numpy as np

Para conseguir responder essa pergunta vamos utilizar o `groupBy`, passando como argumento o nome do fornecedor e a data da despesas. Como a coluna `vlrLiquido` pode possuir valores nulos, vamos utilizar também a função [`nansum`](https://numpy.org/doc/stable/reference/generated/numpy.nansum.html) do Numpy, que ignora valores NaN e realiza a soma de todos os elementos dentro de uma lista.

In [36]:
df_reembolso.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
60806,TELEFONICA BRASIL S.A.,2,344227.13
60805,TELEFONICA BRASIL S.A.,1,302807.53
60807,TELEFONICA BRASIL S.A.,3,235048.26
27828,GP COBERTURA JORNALISTICA LTDA ME,12,222500.0
60896,TELEFÔNICA BRASIL S.A. VIVO,7,208554.71
60833,TELEFONICA BRASIL S.A. VIVO,10,200051.51
60299,"T2 COMUNICACAO, VIDEO E PRODUCOES EIRELI - EPP",12,188500.0
19637,CRIATIVA GRAFICA E EDITORA LTDA,12,150000.0
60789,TELEFONICA BRASIL S.A,4,149310.21
60295,"T2 COMUNICACAO, VIDEO E PRODUCOES EIRELI - EPP",5,148000.0


### 10) Quais os 10 parlamentares que mais solicitaram reembolso?

Essa questão é bem semelhante com a anterior :)

In [34]:
df_reembolso.groupby(["txNomeParlamentar"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,vlrLiquido
112,CÉSAR HALUM,518195.2
146,ELIZEU DIONIZIO,480956.01
125,Dagoberto Nogueira,469268.21
269,Jhonatan de Jesus,465779.2
1,ADAIL CARNEIRO,458612.0
134,Delegado Éder Mauro,456875.92
559,Zeca Cavalcanti,454949.37
469,Ricardo Teobaldo,453276.74
442,REMÍDIO MONAI,451906.07
0,ABEL MESQUITA JR.,451381.12


#### Como ficaria a resposta, caso queiramos saber quais os seus estados e partidos?

In [37]:
df_reembolso.groupby(["txNomeParlamentar", "sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,sgPartido,sgUF,vlrLiquido
111,CÉSAR HALUM,PRB,TO,518195.2
144,ELIZEU DIONIZIO,PSB,MS,480956.01
123,Dagoberto Nogueira,PSDB,MS,469268.21
267,Jhonatan de Jesus,REPUBLICANOS,RR,465779.2
1,ADAIL CARNEIRO,PODE,CE,458612.0
132,Delegado Éder Mauro,PL,PA,456875.92
546,Zeca Cavalcanti,PTB,PE,454949.37
457,Ricardo Teobaldo,PODE,PE,453276.74
430,REMÍDIO MONAI,PR,RR,451906.07
0,ABEL MESQUITA JR.,DEM,RR,451381.12


### 11) Quais os partidos e os estados que mais solicitaram reembolso?

Continuando no mesmo tipo de questão das duas últimas :)

In [38]:
df_reembolso.groupby(["sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,sgPartido,sgUF,vlrLiquido
216,PSDB,SP,3591212.88
244,PT,SP,3102103.61
241,PT,RS,2463721.66
106,PP,MG,2387966.81
227,PT,BA,2276794.48
113,PP,PR,2239246.22
183,PSD,MG,2179571.66
233,PT,MG,2118433.48
189,PSD,RJ,2016223.46
276,REPUBLICANOS,SP,1988467.62


### 12) Recupere os reembolsos de 2019 e acrescente aos dados de 2018

Antes de adicionar os dados de 2019 na base que temos atualmente, vamos dar uma olhada no nome das colunas e na quantidade de registros que temos atualmente:

In [39]:
df_reembolso.columns

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'datPagamentoRestituicao', 'vlrRestituicao',
       'nuDeputadoId', 'ideDocumento', 'urlDocumento', 'datEmissaoMes',
       'datEmissaoMesAno'],
      dtype='object')

Obs Felipe: antes de eu tentar, o formato era (282747, 34) 

In [40]:
df_reembolso.shape

(166051, 34)

Após ler o arquivo de 2019 (não esqueça de baixar ele), vamos verificar se o esquema de colunas se mantém o mesmo:

In [41]:
import requests
from zipfile import ZipFile

# fazendo o download do conteúdo do arquivo
url = f"http://www.camara.leg.br/cotas/Ano-2019.csv.zip"
r = requests.get(url)

file = open(f"Ano-2019.csv.zip", "wb")
file.write(r.content)
file.close()

zip_file = ZipFile(f"Ano-2019.csv.zip", "r")
zip_file.extract(member=f"Ano-2019.csv", path=f"reembolso-2019")
zip_file.close()

In [42]:
df_reembolso_19 = pd.read_csv(
    "reembolso-2019/Ano-2019.csv",
    sep=";",
    dtype=DTYPE
)

df_reembolso_19.columns

Index(['txNomeParlamentar', 'cpf', 'ideCadastro', 'nuCarteiraParlamentar',
       'nuLegislatura', 'sgUF', 'sgPartido', 'codLegislatura', 'numSubCota',
       'txtDescricao', 'numEspecificacaoSubCota', 'txtDescricaoEspecificacao',
       'txtFornecedor', 'txtCNPJCPF', 'txtNumero', 'indTipoDocumento',
       'datEmissao', 'vlrDocumento', 'vlrGlosa', 'vlrLiquido', 'numMes',
       'numAno', 'numParcela', 'txtPassageiro', 'txtTrecho', 'numLote',
       'numRessarcimento', 'datPagamentoRestituicao', 'vlrRestituicao',
       'nuDeputadoId', 'ideDocumento', 'urlDocumento'],
      dtype='object')

In [43]:
df_reembolso_19.shape

(177248, 32)

Estando tudo certo, vamos concatenar os dados dos dois dataframes, gerando um novo dataframe:

In [44]:
df_final = pd.concat([df_reembolso, df_reembolso_19], ignore_index=True)

Agora nos temos 582.186 mil registros :)

Obs Felipe: no meu (343299, 34)

In [45]:
df_final.shape

(343299, 34)

Mas será que todos são registros únicos?

In [46]:
df_final = df_final.drop_duplicates()

df_final.shape

(343299, 34)

Aparentemente sim!

### 13) Responda novamente as questões 9, 10 e 11. Houve alguma mudança nos resultados?

In [48]:
df_final["datEmissao"] = df_final["datEmissao"].astype("datetime64[ns]")

df_final["datEmissao"] = pd.to_datetime(
    df_final.datEmissao,
    format="%Y-%m-%d"
    )

df_final["txtCNPJCPF"] = df_final["txtCNPJCPF"].str.replace(r"\D", "", regex=True)

In [49]:
df_final.head()

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento,datEmissaoMes,datEmissaoMesAno
0,AVANTE,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,4644820000177,5507,,2018-06-26,181.37,0,181.37,6,2018,0,,,1510946,,,,3175,6621498,https://www.camara.leg.br/cota-parlamentar/not...,6.0,6/2018
1,AVANTE,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CASA DE CARNES GOMES E ARAUJO,24648970000166,37545,,2018-05-22,259.28,0,259.28,5,2018,0,,,1496849,,,,3175,6585814,https://www.camara.leg.br/cota-parlamentar/not...,5.0,5/2018
2,AVANTE,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,FRED RESTAURANTE LTDA,36756435000108,11609,,2018-06-06,353.0,21,332.0,6,2018,0,,,1502980,,,,3175,6599785,https://www.camara.leg.br/cota-parlamentar/not...,6.0,6/2018
3,AVANTE,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,JAMILLE LAFAIATE DE ANDRADE MORAIS,29286545000198,27368,nota_fiscal,2018-03-12,300.0,0,300.0,3,2018,0,,,1479240,,,,3175,6539679,https://www.camara.leg.br/cota-parlamentar/doc...,3.0,3/2018
4,AVANTE,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,JAMILLE LAFAIETE DE ANDRADE MORAIS 06555315130,29286545000198,27367,nota_fiscal,2018-03-12,330.0,0,330.0,3,2018,0,,,1479240,,,,3175,6539680,https://www.camara.leg.br/cota-parlamentar/doc...,3.0,3/2018


In [50]:
df_final["datEmissaoMes"] = df_final.datEmissao.apply(lambda x: f"{x.month}")

In [51]:
df_final.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
104294,TELEFONICA BRASIL S.A.,2,378425.95
104405,TELEFÔNICA BRASIL S.A. VIVO,7,349674.79
104290,TELEFONICA BRASIL S.A.,1,347164.39
103628,TAM LINHAS AEREAS S/A.,2,292252.32
103442,"T2 COMUNICACAO, VIDEO E PRODUCOES EIRELI - EPP",12,289454.0
104295,TELEFONICA BRASIL S.A.,3,274317.88
47397,GP COBERTURA JORNALISTICA LTDA ME,12,271500.0
73513,PANTANAL VEÍCULOS LTDA,8,269592.0
73505,PANTANAL VEÍCULOS LTDA,11,267989.86
6725,ARTGRAFICA PREMIO LTDA - ME,12,261001.2


In [52]:
df_final["datEmissaoMes"] = df_final.datEmissao.apply(lambda x: f"{x.month}/{x.year}")

In [53]:
df_final.groupby(["txtFornecedor", "datEmissaoMes"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:20]

Unnamed: 0,txtFornecedor,datEmissaoMes,vlrLiquido
119464,TELEFONICA BRASIL S.A.,2/2018,344227.13
119454,TELEFONICA BRASIL S.A.,1/2018,283497.72
83891,PANTANAL VEÍCULOS LTDA,11/2019,247992.99
83905,PANTANAL VEÍCULOS LTDA,8/2019,243592.0
118666,TAM LINHAS AEREAS S/A.,2/2019,237116.44
54223,GOLD CAR BRASILIA LOCADORA DE VEICULOS ME,10/2019,235710.0
119467,TELEFONICA BRASIL S.A.,3/2018,235048.26
54517,GP COBERTURA JORNALISTICA LTDA ME,12/2018,222500.0
83903,PANTANAL VEÍCULOS LTDA,7/2019,214830.0
83901,PANTANAL VEÍCULOS LTDA,6/2019,212976.0


In [54]:
df_final.groupby(["txNomeParlamentar"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,txNomeParlamentar,vlrLiquido
769,Shéridan,941239.7
409,Jhonatan de Jesus,893969.71
204,Delegado Éder Mauro,875471.82
721,Ricardo Teobaldo,865149.94
819,Vicentinho Júnior,856841.69
353,Hiran Gonçalves,853659.88
429,João Daniel,839160.41
173,Célio Silveira,834816.93
185,Dagoberto Nogueira,830766.57
64,André Abdon,825137.69


In [55]:
df_final.groupby(["sgPartido", "sgUF"], as_index=False) \
    .agg({"vlrLiquido": np.nansum})\
    .sort_values(by="vlrLiquido", ascending=False)[0:10]

Unnamed: 0,sgPartido,sgUF,vlrLiquido
268,PSDB,SP,5592984.73
301,PT,SP,5450865.98
288,PT,MG,4524561.09
282,PT,BA,4467872.9
346,REPUBLICANOS,SP,4419128.1
110,PL,SP,4334978.51
298,PT,RS,4210956.49
137,PP,MG,4105300.94
144,PP,PR,4059069.35
239,PSD,RJ,3522786.45
