# Translating the Senate dataset
As we say in [this article](https://medium.com/data-science-brigade/expandindo-a-serenata-de-amor-para-outras-esferas-48bed204d36d), we are expanding our project to other datasets, the first one will be the Senate Quota dataset.

In [1]:
import pandas as pd

data = pd.read_csv('../data/senate_2017.csv',sep=';',encoding = "ISO-8859-1", skiprows=1)
data.columns = map(str.lower, data.columns)
data.shape

(6156, 10)

In [2]:
data.head()

Unnamed: 0,ano,mes,senador,tipo_despesa,cnpj_cpf,fornecedor,documento,data,detalhamento,valor_reembolsado
0,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000034079,18/01/2017,Despesa com pagamento de energia elétrica para...,97
1,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/17,17/01/2017,Despesa com aluguel de imóvel para uso do escr...,6000
2,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,744526352,18/01/2017,Despesa com pagamento de telefone celular para...,41804
3,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",13.419.034/0001-67,e-Destinos.com.br,2LLTII,23/01/2017,"Companhia Aérea: LATAM, Localizador: 2LLTII. P...",195895
4,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",63.764.211/0001-10,TRANSCONTINENTAL AGÊNCIA DE VIAGENS LTDA,2QXSBC,24/01/2017,"Companhia Aérea: LATAM, Localizador: 2QXSBC. P...",117867


In [3]:
data.iloc[0]

ano                                                               2017
mes                                                                  1
senador                                                   ACIR GURGACZ
tipo_despesa         Aluguel de imóveis para escritório político, c...
cnpj_cpf                                            05.914.650/0001-66
fornecedor                            ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA
documento                                                    000034079
data                                                        18/01/2017
detalhamento         Despesa com pagamento de energia elétrica para...
valor_reembolsado                                                   97
Name: 0, dtype: object

## Translating the dataset

In [4]:
data.rename(columns={
        'ano': 'year',
        'mes': 'month',
        'senador': 'congressperson_name',
        'tipo_despesa': 'expense_type',
        'cnpj_cpf': 'cnpj_cpf',
        'fornecedor': 'supplier',
        'documento': 'document_id',
        'data': 'date',
        'detalhamento': 'expense_details',
        'valor_reembolsado': 'reimbursement_value',
    }, inplace=True)

## Expense types translation

In [5]:
data['expense_type'] = data['expense_type'].astype('category')
data['expense_type'].cat.categories

Index(['Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
       'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
       'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
       'Divulgação da atividade parlamentar',
       'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
       'Passagens aéreas, aquáticas e terrestres nacionais',
       'Serviços de Segurança Privada'],
      dtype='object')

In [6]:
data['expense_type'].cat.rename_categories([
        'Rent of real estate for political office, comprising expenses concerning them',
        'Acquisition of consumables for use in the political office, including acquisition or leasing of software, postal expenses, acquisition of publications, rental of furniture and equipment',
        'Recruitment of consultancies, advisory services, research, technical work and other services in support of the exercise of the parliamentary mandate',
        'Publicity of parliamentary activity',
        'Locomotion, lodging, food, fuels and lubricants',
        'National air, water and land transport',
        'Private Security Services',
    ], inplace=True)

In [7]:
data.head()

Unnamed: 0,year,month,congressperson_name,expense_type,cnpj_cpf,supplier,document_id,date,expense_details,reimbursement_value
0,2017,1,ACIR GURGACZ,"Rent of real estate for political office, comp...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000034079,18/01/2017,Despesa com pagamento de energia elétrica para...,97
1,2017,1,ACIR GURGACZ,"Rent of real estate for political office, comp...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/17,17/01/2017,Despesa com aluguel de imóvel para uso do escr...,6000
2,2017,1,ACIR GURGACZ,"Rent of real estate for political office, comp...",05.423.963/0001-11,OI MÓVEL S.A.,744526352,18/01/2017,Despesa com pagamento de telefone celular para...,41804
3,2017,1,ACIR GURGACZ,"National air, water and land transport",13.419.034/0001-67,e-Destinos.com.br,2LLTII,23/01/2017,"Companhia Aérea: LATAM, Localizador: 2LLTII. P...",195895
4,2017,1,ACIR GURGACZ,"National air, water and land transport",63.764.211/0001-10,TRANSCONTINENTAL AGÊNCIA DE VIAGENS LTDA,2QXSBC,24/01/2017,"Companhia Aérea: LATAM, Localizador: 2QXSBC. P...",117867


In [8]:
data.iloc[0]

year                                                                2017
month                                                                  1
congressperson_name                                         ACIR GURGACZ
expense_type           Rent of real estate for political office, comp...
cnpj_cpf                                              05.914.650/0001-66
supplier                                ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA
document_id                                                    000034079
date                                                          18/01/2017
expense_details        Despesa com pagamento de energia elétrica para...
reimbursement_value                                                   97
Name: 0, dtype: object

## Dataset properties
The Federal Senate datasets are divided by years, we have data from the year `2008 - 2013`. It had experienced a few changes through time. So I'll be telling this dataset properties below:

* Until 2013 there wasn't a expense details field, but the other older dataset already have this field, but empty.
* Until 2010 there wasn't the `National air, water and land transport` and `Private Security Services` categories of expense type, so when we start translating all the data we need to check if the dataset has those categories.
* Studying the datasets to what we are doing by now, we can start using the `cnpj_cpf` classifier from the begining, since the data is pretty good to use.

This is a `work in progress` we are aiming to be adding it soon to our project.