# Exercícios - Tratamento dos Dados 🪢

Nos exercícios da aula 04, começamos a explorar as despesas de cotas dos parlamentares da Câmara dos Deputados, através dos conjuntos de dados disponíveis 
no Portal de Dados Aberto (https://dadosabertos.camara.leg.br/). Nos exercícios
desta aula, vamos exercitar como tratar de forma apropriada os dados disponibilizados
em conjuntos de dados diferentes, de forma a continuar a preparar uma base de dados limpa e organizada para realizar o nosso trabalho como analistas 🔎.

Vamos primeiro carregar os dados relativos aos deputados. Carregue o arquivo do tipo ```.csv``` em um *dataframe* utilizando a url abaixo e investigue o seu conteúdo. Limpe-o, mantendo somente as colunas mais relevantes (nome, ufNascimento, municipioNascimento, idLegislaturaInicial, idLegislaturaFinal).

In [1]:
import pandas as pd
#lê o arquivo .csv da url abaixo.
url = 'http://dadosabertos.camara.leg.br/arquivos/deputados/csv/deputados.csv'
df_dep = pd.read_csv(url, sep=';', encoding='utf-8')

In [2]:
df_dep.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7818 entries, 0 to 7817
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   uri                   7818 non-null   object 
 1   nome                  7818 non-null   object 
 2   idLegislaturaInicial  7818 non-null   int64  
 3   idLegislaturaFinal    7818 non-null   int64  
 4   nomeCivil             7818 non-null   object 
 5   cpf                   0 non-null      float64
 6   siglaSexo             7818 non-null   object 
 7   urlRedeSocial         469 non-null    object 
 8   urlWebsite            63 non-null     object 
 9   dataNascimento        6912 non-null   object 
 10  dataFalecimento       3899 non-null   object 
 11  ufNascimento          6833 non-null   object 
 12  municipioNascimento   6399 non-null   object 
dtypes: float64(1), int64(2), object(10)
memory usage: 794.1+ KB


In [3]:
#Deletando as colunas desnecessárias.
df_dep.drop(columns=['uri','nomeCivil','cpf','siglaSexo','urlRedeSocial','urlWebsite','dataNascimento','dataFalecimento'],inplace=True)

In [4]:
#Verificando os valores nulos.
print(df_dep.isnull().sum())

nome                       0
idLegislaturaInicial       0
idLegislaturaFinal         0
ufNascimento             985
municipioNascimento     1419
dtype: int64


O arquivo baixado contém os dados de todos os deputados que já passaram pela Câmara. Estamos interessados nos deputados que foram eleitos em 2018 e reeleitos em 2022. Para isso, filtre o *dataframe* de forma a manter somente os deputados que foram eleitos em 2018 (idLegislaturaInicial = 56) e reeleitos em 2022 (idLegislaturaFinal = 57).

In [5]:
#Filtrando os deputados que foram reeleitos
df_dep = df_dep[(df_dep['idLegislaturaInicial'].isin([56])) & (df_dep['idLegislaturaFinal'].isin([57]))]

Agora, vamos baixar os arquivos de despesas de cotas dos deputados. Podemos baixar os arquivos no formato ```.csv```, por ano, a partir da url no formato abaixo:
```
http://www.camara.leg.br/cotas/Ano-{ano}.csv.zip
```
em que:

{ano} é o ano em que a despesa ocorreu.

Baixe os arquivos correspondentes aos anos 2023, 2022 e 2021. Carregue-os em *dataframes* e investigue o seu conteúdo. Limpe-os, mantendo somente as seguintes colunas: ['txNomeParlamentar','sgPartido','txtDescricao','txtFornecedor','vlrDocumento','vlrGlosa','vlrLiquido','datEmissao']. Além disso, faça a conversão da coluna 'datEmissao' para o tipo ```datetime```.

In [6]:
url = 'http://www.camara.leg.br/cotas/Ano-2023.csv.zip'
df_desp_2023 = pd.read_csv(url, sep=';', encoding='utf-8')

url = 'http://www.camara.leg.br/cotas/Ano-2022.csv.zip'
df_desp_2022 = pd.read_csv(url, sep=';', encoding='utf-8')

url = 'http://www.camara.leg.br/cotas/Ano-2021.csv.zip'
df_desp_2021 = pd.read_csv(url, sep=';', encoding='utf-8')

  df_desp_2023 = pd.read_csv(url, sep=';', encoding='utf-8')
  df_desp_2022 = pd.read_csv(url, sep=';', encoding='utf-8')
  df_desp_2021 = pd.read_csv(url, sep=';', encoding='utf-8')


In [7]:
df_desp_2023 = df_desp_2023[['txNomeParlamentar','sgPartido','txtDescricao','txtFornecedor','vlrDocumento','vlrGlosa','vlrLiquido','datEmissao']]
df_desp_2023['datEmissao'] = pd.to_datetime(df_desp_2023['datEmissao'])
df_desp_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 136795 entries, 0 to 136794
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   txNomeParlamentar  136795 non-null  object        
 1   sgPartido          136285 non-null  object        
 2   txtDescricao       136795 non-null  object        
 3   txtFornecedor      136795 non-null  object        
 4   vlrDocumento       136795 non-null  float64       
 5   vlrGlosa           136795 non-null  float64       
 6   vlrLiquido         136795 non-null  float64       
 7   datEmissao         136282 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 8.3+ MB


In [8]:
df_desp_2022 = df_desp_2022[['txNomeParlamentar','sgPartido','txtDescricao','txtFornecedor','vlrDocumento','vlrGlosa','vlrLiquido','datEmissao']]
df_desp_2022['datEmissao'] = pd.to_datetime(df_desp_2022['datEmissao'])
df_desp_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 208570 entries, 0 to 208569
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   txNomeParlamentar  208570 non-null  object        
 1   sgPartido          207943 non-null  object        
 2   txtDescricao       208570 non-null  object        
 3   txtFornecedor      208570 non-null  object        
 4   vlrDocumento       208570 non-null  float64       
 5   vlrGlosa           208570 non-null  float64       
 6   vlrLiquido         208570 non-null  float64       
 7   datEmissao         202455 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 12.7+ MB


In [9]:
df_desp_2021 = df_desp_2021[['txNomeParlamentar','sgPartido','txtDescricao','txtFornecedor','vlrDocumento','vlrGlosa','vlrLiquido','datEmissao']]
df_desp_2021['datEmissao'] = pd.to_datetime(df_desp_2021['datEmissao'])
df_desp_2021.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 218438 entries, 0 to 218437
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   txNomeParlamentar  218438 non-null  object        
 1   sgPartido          217580 non-null  object        
 2   txtDescricao       218438 non-null  object        
 3   txtFornecedor      218438 non-null  object        
 4   vlrDocumento       218438 non-null  float64       
 5   vlrGlosa           218438 non-null  float64       
 6   vlrLiquido         218438 non-null  float64       
 7   datEmissao         212303 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 13.3+ MB


Concatene as três bases de dados de despesas em um único *dataframe*.

In [10]:
#Concatenando as bases de dados de despesas de 2021 e 2022
df_desp_2021_2022_2023 = pd.concat([df_desp_2021,df_desp_2022,df_desp_2023])
df_desp_2021_2022_2023.info()

<class 'pandas.core.frame.DataFrame'>
Index: 563803 entries, 0 to 136794
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   txNomeParlamentar  563803 non-null  object        
 1   sgPartido          561808 non-null  object        
 2   txtDescricao       563803 non-null  object        
 3   txtFornecedor      563803 non-null  object        
 4   vlrDocumento       563803 non-null  float64       
 5   vlrGlosa           563803 non-null  float64       
 6   vlrLiquido         563803 non-null  float64       
 7   datEmissao         551040 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 38.7+ MB


In [11]:
#Só estamos interessados nas despesas que possuem data de emissão diferente de null.
#Deletar linhas que não contém data de emissão.
df_desp_2021_2022_2023 = df_desp_2021_2022_2023[~df_desp_2021_2022_2023['datEmissao'].isnull()]   

In [12]:
df_desp_2021_2022_2023.info()

<class 'pandas.core.frame.DataFrame'>
Index: 551040 entries, 0 to 136794
Data columns (total 8 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   txNomeParlamentar  551040 non-null  object        
 1   sgPartido          549045 non-null  object        
 2   txtDescricao       551040 non-null  object        
 3   txtFornecedor      551040 non-null  object        
 4   vlrDocumento       551040 non-null  float64       
 5   vlrGlosa           551040 non-null  float64       
 6   vlrLiquido         551040 non-null  float64       
 7   datEmissao         551040 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
memory usage: 37.8+ MB


Por fim, faça um merge entre os *dataframes* de deputados e despesas, de forma a manter somente as despesas dos deputados que foram eleitos em 2018 e reeleitos em 2022. Além disso, crie duas novas colunas baseadas na data de emissão da nota fiscal ```datEmissao```; as colunas ```mes``` e ```ano``` conterão o mês e o ano em que a nota fiscal foi emitida. Defina essas duas colunas como indexes do novo *dataframe*.Salve o resultado em um arquivo ```.csv```.

In [13]:
#Vamos fazer um inner join do dataframe de deputados com o dataframe de despesas, para cruzar
#somente os deputados que tiverem despesas e vice-versa.
df_dep_desp = pd.merge(df_dep,df_desp_2021_2022_2023,how='inner',left_on=['nome'],right_on=['txNomeParlamentar'])

In [14]:
df_dep_desp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 138696 entries, 0 to 138695
Data columns (total 13 columns):
 #   Column                Non-Null Count   Dtype         
---  ------                --------------   -----         
 0   nome                  138696 non-null  object        
 1   idLegislaturaInicial  138696 non-null  int64         
 2   idLegislaturaFinal    138696 non-null  int64         
 3   ufNascimento          138696 non-null  object        
 4   municipioNascimento   138696 non-null  object        
 5   txNomeParlamentar     138696 non-null  object        
 6   sgPartido             138696 non-null  object        
 7   txtDescricao          138696 non-null  object        
 8   txtFornecedor         138696 non-null  object        
 9   vlrDocumento          138696 non-null  float64       
 10  vlrGlosa              138696 non-null  float64       
 11  vlrLiquido            138696 non-null  float64       
 12  datEmissao            138696 non-null  datetime64[ns]
dtyp

In [15]:
#Vamos criar mais duas colunas, mes e ano, e indexar o dataframe com elas
df_dep_desp['mes'] = df_dep_desp['datEmissao'].apply(lambda x: int(x.month))
df_dep_desp['ano'] = df_dep_desp['datEmissao'].apply(lambda x: int(x.year))


In [16]:
df_dep_desp.set_index(['mes','ano'],inplace=True)
df_dep_desp

Unnamed: 0_level_0,Unnamed: 1_level_0,nome,idLegislaturaInicial,idLegislaturaFinal,ufNascimento,municipioNascimento,txNomeParlamentar,sgPartido,txtDescricao,txtFornecedor,vlrDocumento,vlrGlosa,vlrLiquido,datEmissao
mes,ano,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
5,2021,Acácio Favacho,56,57,AP,Macapá,Acácio Favacho,MDB,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,EDVALDO FRANCISCO DE OLIVEIRA,398.28,0.0,398.28,2021-05-04 00:00:00
12,2021,Acácio Favacho,56,57,AP,Macapá,Acácio Favacho,MDB,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,NELY PRADO MASUKO,5000.00,0.0,5000.00,2021-12-02 00:00:00
10,2021,Acácio Favacho,56,57,AP,Macapá,Acácio Favacho,MDB,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,NELY PRADO MASUKO,5000.00,0.0,5000.00,2021-10-04 00:00:00
11,2021,Acácio Favacho,56,57,AP,Macapá,Acácio Favacho,MDB,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,NELY PRADO MASUKO,5000.00,0.0,5000.00,2021-11-01 00:00:00
12,2021,Acácio Favacho,56,57,AP,Macapá,Acácio Favacho,MDB,MANUTENÇÃO DE ESCRITÓRIO DE APOIO À ATIVIDADE ...,NELY PRADO MASUKO,5000.00,0.0,5000.00,2021-12-30 00:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4,2023,Zé Vitor,56,57,MG,Araguari,Zé Vitor,PL,PASSAGEM AÉREA - SIGEPA,GOL,589.31,0.0,589.31,2023-04-24 12:00:00
5,2023,Zé Vitor,56,57,MG,Araguari,Zé Vitor,PL,PASSAGEM AÉREA - SIGEPA,TAM,1200.13,0.0,1200.13,2023-05-08 12:00:00
4,2023,Zé Vitor,56,57,MG,Araguari,Zé Vitor,PL,PASSAGEM AÉREA - RPA,Cia Aérea - GOL,78.05,0.0,78.05,2023-04-10 00:00:00
4,2023,Zé Vitor,56,57,MG,Araguari,Zé Vitor,PL,PASSAGEM AÉREA - RPA,Cia Aérea - GOL,820.12,0.0,820.12,2023-04-27 00:00:00


In [17]:
df_dep_desp.to_csv('./data/df_dep_desp.csv')