# Formas de baixar os csvs

In [3]:
from zipfile import ZipFile

import requests

# fazendo o download do conteúdo do arquivo
url = "http://www.camara.leg.br/cotas/Ano-2018.csv.zip"
r = requests.get(url)

# como acessar o conteúdo do arquivo?
# r.content

# como verificar se a requisição deu certo?
# r.status (lista de status)

file = open("Ano-2018.csv.zip", "wb")
file.write(r.content)
file.close()

zip_file = ZipFile(f"Ano-2018.csv.zip", "r")
zip_file.extract(member=f"Ano-2018.csv", path=f"reembolso-2018")
zip_file.close()

## Podemos ler os arquivos de outro jeito


precisamos ler e escrever como `bytes objects` sem nenhum `deecoding`

In [4]:
with open("Ano-2018-teste.csv.zip", "w") as file:
    file.write(r.content)

TypeError: write() argument must be str, not bytes

o `with` é legal porque:

* ele é um gerenciador de contexto (`context manager`) 
* ele gerencia sozinho toda fase de configuração para trabalhar com um arquivo (`setup`) e o encerramento dessa seção de trabalho (`teardown`)

In [5]:
with open("Ano-2018-teste.csv.zip", "wb") as file:
    file.write(r.content)

In [6]:
with ZipFile(f"Ano-2018.csv.zip", "r") as zip_file:
    zip_file.extract(member=f"Ano-2018.csv", path=f"reembolso-2018")

Utilizando o pandas diretamente

In [7]:
import pandas as pd

pd.set_option("display.max_columns", None)

df = pd.read_csv("http://www.camara.leg.br/cotas/Ano-2018.csv.zip", sep=";", compression="zip")

df.head()

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
0,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BISCOITOS CASEIROS HOMONNAI LTDA,046.448.200/0017-7,10473,4,2018-12-20T00:00:00,454.41,0.0,454.41,12,2018,0,,,1550817,,,,2812,6728796,https://www.camara.leg.br/cota-parlamentar/not...
1,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,BONNA COMERCIAL DE ALIMENTOS EIRELI,106.385.970/0015-8,105,4,2018-02-21T00:00:00,242.9,0.0,242.9,2,2018,0,,,1467117,,,,2812,6508293,https://www.camara.leg.br/cota-parlamentar/not...
2,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CAFE DO FLAVIO EIRELLI-ME,248.825.670/0010-5,40792,4,2018-09-05T00:00:00,79.0,0.0,79.0,9,2018,0,,,1527969,,,,2812,6666881,https://www.camara.leg.br/cota-parlamentar/not...
3,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CAFE DO FLAVIO EIRELLI-ME,248.825.670/0010-5,42181,4,2018-10-16T00:00:00,207.0,0.0,207.0,10,2018,0,,,1532624,,,,2812,6681167,https://www.camara.leg.br/cota-parlamentar/not...
4,LID.GOV-CD,,,,2015,,,55,13,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,0,,CRISTIANE FERREIRA EPP,037.139.030/0010-8,409,4,2018-02-05T00:00:00,98.75,0.0,98.75,2,2018,0,,,1460984,,,,2812,6491959,https://www.camara.leg.br/cota-parlamentar/not...


# Qual a importância de passar o tipo das colunas na hora de leitura do csv?

O pandas pode errar quando tenta determinar o tipo das variáveis (ele lê todos os dados antes), para facilitar isso, passamos o tipo das colunas.

In [8]:
df.dtypes

txNomeParlamentar             object
cpf                          float64
ideCadastro                  float64
nuCarteiraParlamentar        float64
nuLegislatura                  int64
sgUF                          object
sgPartido                     object
codLegislatura                 int64
numSubCota                     int64
txtDescricao                  object
numEspecificacaoSubCota        int64
txtDescricaoEspecificacao     object
txtFornecedor                 object
txtCNPJCPF                    object
txtNumero                     object
indTipoDocumento               int64
datEmissao                    object
vlrDocumento                 float64
vlrGlosa                     float64
vlrLiquido                   float64
numMes                         int64
numAno                         int64
numParcela                     int64
txtPassageiro                 object
txtTrecho                     object
numLote                        int64
numRessarcimento             float64
d

In [9]:
DTYPE = {
    "txNomeParlamentar": str,
    "cpf": str,
    "ideCadastro": str,
    "nuCarteiraParlamentar": str,
    "nuLegislatura": str,
    "sgUF": str,
    "sgPartido": str,
    "codLegislatura": str,
    "numSubCota": str,
    "txtDescricao": str,
    "numEspecificacaoSubCota": str,
    "txtDescricaoEspecificacao": str,
    "txtFornecedor": str,
    "txtCNPJCPF": str,
    "txtNumero": str,
    "indTipoDocumento": str,
    "datEmissao": str,
    "vlrDocumento": float,
    "vlrGlosa": str,
    "vlrLiquido": float,
    "numMes": str,
    "numAno": str,
    "numParcela": str,
    "txtPassageiro": str,
    "txtTrecho": str,
    "numLote": str,
    "numRessarcimento": str,
    "nuDeputadoId": str,
    "ideDocumento": str,
}

df_reembolso = pd.read_csv(
    "http://www.camara.leg.br/cotas/Ano-2018.csv.zip", sep=";", compression="zip", dtype=DTYPE
)

In [10]:
df_reembolso.dtypes

txNomeParlamentar             object
cpf                           object
ideCadastro                   object
nuCarteiraParlamentar         object
nuLegislatura                 object
sgUF                          object
sgPartido                     object
codLegislatura                object
numSubCota                    object
txtDescricao                  object
numEspecificacaoSubCota       object
txtDescricaoEspecificacao     object
txtFornecedor                 object
txtCNPJCPF                    object
txtNumero                     object
indTipoDocumento              object
datEmissao                    object
vlrDocumento                 float64
vlrGlosa                      object
vlrLiquido                   float64
numMes                        object
numAno                        object
numParcela                    object
txtPassageiro                 object
txtTrecho                     object
numLote                       object
numRessarcimento              object
d

# Funções úteis

## `astype()`

In [11]:
df_reembolso.astype("object").dtypes

txNomeParlamentar            object
cpf                          object
ideCadastro                  object
nuCarteiraParlamentar        object
nuLegislatura                object
sgUF                         object
sgPartido                    object
codLegislatura               object
numSubCota                   object
txtDescricao                 object
numEspecificacaoSubCota      object
txtDescricaoEspecificacao    object
txtFornecedor                object
txtCNPJCPF                   object
txtNumero                    object
indTipoDocumento             object
datEmissao                   object
vlrDocumento                 object
vlrGlosa                     object
vlrLiquido                   object
numMes                       object
numAno                       object
numParcela                   object
txtPassageiro                object
txtTrecho                    object
numLote                      object
numRessarcimento             object
datPagamentoRestituicao     

In [12]:
df_reembolso.astype({"vlrRestituicao": "object"}).dtypes

txNomeParlamentar             object
cpf                           object
ideCadastro                   object
nuCarteiraParlamentar         object
nuLegislatura                 object
sgUF                          object
sgPartido                     object
codLegislatura                object
numSubCota                    object
txtDescricao                  object
numEspecificacaoSubCota       object
txtDescricaoEspecificacao     object
txtFornecedor                 object
txtCNPJCPF                    object
txtNumero                     object
indTipoDocumento              object
datEmissao                    object
vlrDocumento                 float64
vlrGlosa                      object
vlrLiquido                   float64
numMes                        object
numAno                        object
numParcela                    object
txtPassageiro                 object
txtTrecho                     object
numLote                       object
numRessarcimento              object
d

## `to_datetime()`

In [13]:
df_reembolso.datEmissao.dtypes

dtype('O')

In [14]:
df_reembolso.datEmissao

0         2018-12-20T00:00:00
1         2018-02-21T00:00:00
2         2018-09-05T00:00:00
3         2018-10-16T00:00:00
4         2018-02-05T00:00:00
                 ...         
292785                    NaN
292786    2018-12-20T00:00:00
292787    2018-12-20T00:00:00
292788    2019-01-08T00:00:00
292789    2018-12-28T00:00:00
Name: datEmissao, Length: 292790, dtype: object

In [15]:
pd.to_datetime(df_reembolso.datEmissao, format="%Y-%m-%d")

0        2018-12-20
1        2018-02-21
2        2018-09-05
3        2018-10-16
4        2018-02-05
            ...    
292785          NaT
292786   2018-12-20
292787   2018-12-20
292788   2019-01-08
292789   2018-12-28
Name: datEmissao, Length: 292790, dtype: datetime64[ns]

In [16]:
df_reembolso_2 = pd.read_csv(
    "http://www.camara.leg.br/cotas/Ano-2019.csv.zip",
    sep=";",
    compression="zip",
    dtype=DTYPE,
    parse_dates=["datEmissao"],
)

In [17]:
df_reembolso_2.datEmissao

0        2019-01-16
1        2019-02-04
2        2019-02-25
3        2019-03-28
4        2019-05-07
            ...    
289448   2019-12-11
289449   2019-12-31
289450   2019-12-18
289451          NaT
289452   2020-01-31
Name: datEmissao, Length: 289453, dtype: datetime64[ns]

### Coisinhas legais com datas

In [18]:
df_reembolso_2.datEmissao.dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x7fc22fd965b0>

In [19]:
df_reembolso_2.datEmissao.dt.day_name()

0         Wednesday
1            Monday
2            Monday
3          Thursday
4           Tuesday
            ...    
289448    Wednesday
289449      Tuesday
289450    Wednesday
289451          NaN
289452       Friday
Name: datEmissao, Length: 289453, dtype: object

In [20]:
df_reembolso_2.datEmissao.dt.dayofweek

0         2.0
1         0.0
2         0.0
3         3.0
4         1.0
         ... 
289448    2.0
289449    1.0
289450    2.0
289451    NaN
289452    4.0
Name: datEmissao, Length: 289453, dtype: float64

In [21]:
df_reembolso_2.datEmissao.dt.year

0         2019.0
1         2019.0
2         2019.0
3         2019.0
4         2019.0
           ...  
289448    2019.0
289449    2019.0
289450    2019.0
289451       NaN
289452    2020.0
Name: datEmissao, Length: 289453, dtype: float64

In [22]:
df_reembolso_2.datEmissao.dt.month

0          1.0
1          2.0
2          2.0
3          3.0
4          5.0
          ... 
289448    12.0
289449    12.0
289450    12.0
289451     NaN
289452     1.0
Name: datEmissao, Length: 289453, dtype: float64

### Intervalo de datas (range de datas)

Definição (em inglês):

> `.loc` access a group of rows and columns by label(s) or a boolean array.

> `.loc[]` is primarily label based, but may also be used with a boolean array.

In [23]:
df_reembolso_2.loc[
    (df_reembolso_2.datEmissao >= "2018-01-01") & (df_reembolso_2.datEmissao <= "2018-04-30")
]

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento


In [24]:
df_reembolso_2.set_index("datEmissao").loc["2018-01-01":"2018-04-30"]

  df_reembolso_2.set_index("datEmissao").loc["2018-01-01":"2018-04-30"]


Unnamed: 0_level_0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
datEmissao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1


# O caso do `vlrLiquido`

Aqui nós podemos ver que temos valores negativos. Esse valores são referentes a bilhetes de compensação, bilhete de compensação é o bilhete aéreo não voado, que foi reembolsado à Câmara dos Deputados. Portanto, o valor relativo aos bilhetes compensados (não voados) são reembolsados/devolvidos à Casa, deduzindo-se as taxas de cancelamento e de no-show, de acordo com as regras tarifárias da companhia aérea respectiva.

Esse crédito pode voltar para a conta corrente do parlamentar mantida na companhia aérea para ser utilizado com nova emissão de passagem aérea ou poderá voltar para a CEAP do respectivo parlamentar, ficando disponível para utilização com as demais despesas.

In [25]:
df_reembolso.vlrLiquido.min()

-4906.0

In [26]:
df_reembolso.vlrLiquido.describe()

count    292790.000000
mean        735.774893
std        2480.869955
min       -4906.000000
25%          50.000000
50%         192.110000
75%         671.030000
max      130000.000000
Name: vlrLiquido, dtype: float64

In [27]:
negative_documents = df_reembolso_2[df_reembolso_2["vlrLiquido"] < 0]

len(negative_documents)

10739

In [28]:
negative_documents["ideDocumento"]

920       1640498
1759         2203
1763         2275
1766         1660
1772          313
           ...   
289164    1708904
289176    1723048
289177    1724703
289178    1723049
289318    1724810
Name: ideDocumento, Length: 10739, dtype: object

In [29]:
positive_documents = df_reembolso_2[
    (df_reembolso_2["ideDocumento"].isin(negative_documents["ideDocumento"]))
    & (df_reembolso_2["vlrLiquido"] > 0)
]
positive_documents.head()

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
1758,Fausto Pinato,28022995819,66828,355,2019,SP,PP,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,GLLN8G,0,2019-11-20 12:00:00,1386.5,0,1386.5,11,2019,0,Fausto Ruy Pinato,BSB/CGH,0,0,,,2917,2203,
1762,Fausto Pinato,28022995819,66828,355,2019,SP,PP,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,KSKZ8B,0,2019-11-21 12:00:00,1791.57,0,1791.57,11,2019,0,Fausto Ruy Pinato,BSB/CGH,0,0,,,2917,2275,
1765,Fausto Pinato,28022995819,66828,355,2019,SP,PP,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,LM8MGG,0,2019-10-21 12:00:00,1277.57,0,1277.57,10,2019,0,Roberto Holanda Craveiro,BSB/GRU,0,0,,,2917,1660,
1771,Fausto Pinato,28022995819,66828,355,2019,SP,PP,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,VRF7MH,0,2019-07-17 12:00:00,1432.88,0,1432.88,7,2019,0,Fausto Ruy Pinato,SDU/BSB,0,0,,,2917,313,
3113,Bacelar,10626409500,69871,184,2019,BA,PV,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,CR6F4R,0,2019-10-10 12:00:00,1046.13,0,1046.13,10,2019,0,JOAO CARLOS BACELAR BATISTA,SSA/BSB,0,0,,,2985,1503,


In [30]:
len(positive_documents)

601

In [31]:
positive_documents.iloc[0].to_frame()

Unnamed: 0,1758
txNomeParlamentar,Fausto Pinato
cpf,28022995819
ideCadastro,66828
nuCarteiraParlamentar,355
nuLegislatura,2019
sgUF,SP
sgPartido,PP
codLegislatura,56
numSubCota,998
txtDescricao,PASSAGEM AÉREA - SIGEPA


In [32]:
sample = negative_documents[negative_documents.duplicated(subset="ideDocumento")].iloc[
    1
]  # , keep = {‘last’, ‘first’, ‘false’)

In [33]:
df_reembolso_2[df_reembolso_2["ideDocumento"] == sample["ideDocumento"]]

Unnamed: 0,txNomeParlamentar,cpf,ideCadastro,nuCarteiraParlamentar,nuLegislatura,sgUF,sgPartido,codLegislatura,numSubCota,txtDescricao,numEspecificacaoSubCota,txtDescricaoEspecificacao,txtFornecedor,txtCNPJCPF,txtNumero,indTipoDocumento,datEmissao,vlrDocumento,vlrGlosa,vlrLiquido,numMes,numAno,numParcela,txtPassageiro,txtTrecho,numLote,numRessarcimento,datPagamentoRestituicao,vlrRestituicao,nuDeputadoId,ideDocumento,urlDocumento
3134,Bacelar,10626409500,69871,184,2019,BA,PV,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,RMQ2VW,0,2019-09-26 12:00:00,1423.46,0,1423.46,9,2019,0,JOAO CARLOS BACELAR BATISTA,SSA/BSB,0,0,,,2985,1205,
3135,Bacelar,10626409500,69871,184,2019,BA,PV,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,RMQ2VW,0,2019-10-01 12:00:00,-25.0,0,-25.0,10,2019,0,JOAO CARLOS BACELAR BATISTA,SSA/BSB,0,0,,,2985,1205,
3136,Bacelar,10626409500,69871,184,2019,BA,PV,56,998,PASSAGEM AÉREA - SIGEPA,0,,GOL,,RMQ2VW,0,2019-11-28 12:00:00,-1330.14,0,-1330.14,11,2019,0,JOAO CARLOS BACELAR BATISTA,BSB/BSB,0,0,,,2985,1205,
