# Introdução

Nesse estudo vamos realizar uma análise exploratória a respeito dos dados abertos de Gastos Públicos de Senadores.

A base de dados foi disponibilizada atraves do Portal da Transparencia do Governo Federal, sendo emitida pelo Ministério do Planejamento, Desenvolvimento e Gestão.

# Glossário

**CEAPS**: Cota para Exercício de Atividade Parlamentar dos Senadores

# Dataset

Dataset disponível [clicando aqui](https://drive.google.com/drive/folders/1vd-lBx8yaMkxY2urLFRazS8Z_SIpkRL1).

# Expectativas

Entender melhor os gastos públicos e quais são os principais ofensores de gastos.

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("ceaps_dataset.csv", delimiter=";", encoding="latin1", skiprows=1)

In [4]:
df.head(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
0,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011328,13/01/2016,Despesa com pagamento de energia elétrica para...,736
1,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011327,18/01/2016,Pagamento de energia elétrica para o escritóri...,20684
2,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,04/01/2016,"Despesa com pagamento de aluguel, utilizado pa...",6000
3,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,661639001,16/01/2016,despesa com pagamento de telefonia para o escr...,40748
4,2016,1,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,06/01/2016,Aquisição de publicação virtual de conteúdo jo...,550


In [5]:
df.columns

Index(['ANO', 'MES', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR',
       'DOCUMENTO', 'DATA', 'DETALHAMENTO', 'VALOR_REEMBOLSADO'],
      dtype='object')

In [6]:
df.count()

ANO                  26691
MES                  26691
SENADOR              26691
TIPO_DESPESA         26691
CNPJ_CPF             26691
FORNECEDOR           26691
DOCUMENTO            24647
DATA                 26691
DETALHAMENTO         21308
VALOR_REEMBOLSADO    26691
dtype: int64

In [7]:
df.dtypes

ANO                   int64
MES                   int64
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DOCUMENTO            object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
dtype: object

In [8]:
df.shape

(26691, 10)

In [9]:
df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].str.replace(',', '.')
df['VALOR_REEMBOLSADO'] = pd.to_numeric(df['VALOR_REEMBOLSADO'])
df.head(5)

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO
0,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011328,13/01/2016,Despesa com pagamento de energia elétrica para...,73.6
1,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011327,18/01/2016,Pagamento de energia elétrica para o escritóri...,206.84
2,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,04/01/2016,"Despesa com pagamento de aluguel, utilizado pa...",6000.0
3,2016,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,661639001,16/01/2016,despesa com pagamento de telefonia para o escr...,407.48
4,2016,1,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,06/01/2016,Aquisição de publicação virtual de conteúdo jo...,550.0


In [10]:
df.describe()

Unnamed: 0,ANO,MES,VALOR_REEMBOLSADO
count,26691.0,26691.0,26691.0
mean,2016.0,6.470908,947.484513
std,0.0,3.257134,2733.820037
min,2016.0,1.0,0.01
25%,2016.0,4.0,124.0
50%,2016.0,6.0,324.79
75%,2016.0,9.0,956.865
max,2016.0,12.0,256980.0


In [25]:
df.columns

Index(['ANO', 'MES', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR',
       'DOCUMENTO', 'DATA', 'DETALHAMENTO', 'VALOR_REEMBOLSADO',
       'MAIOR_QUE_100', 'DIA'],
      dtype='object')

In [11]:
df['MAIOR_QUE_100'] = 0
df.loc[df['VALOR_REEMBOLSADO'] > 100.00, 'MAIOR_QUE_100'] = 1

In [13]:
#Alterando as barras por traço
df['DATA'] = df['DATA'].str.replace('/','-')
#Limpando os anos sujos do dataset
df['DATA'] = df['DATA'].str.replace('5017', '2017')
df['DATA'] = df['DATA'].str.replace('3016', '2016')
df['DATA'] = df['DATA'].str.replace('216', '2016')
df['DATA'] = df['DATA'].str.replace('200', '2016')
df['DATA'] = df['DATA'].str.replace('206','2016')
#Convertendo para datetime
df['DATA'] = pd.to_datetime(df['DATA'])

In [20]:
df['ANO'] = df['DATA'].dt.year

In [21]:
df['MES'] = df['DATA'].dt.month

In [22]:
df['DIA'] = df['DATA'].dt.day

In [30]:
df = df.filter(['DATA', 'ANO', 'MES', 'DIA', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR',
       'DOCUMENTO', 'DETALHAMENTO', 'VALOR_REEMBOLSADO'])

In [41]:
df['TIPO_DESPESA'].unique().tolist()

['Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.',
 'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ',
 'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar',
 'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes',
 'Passagens aéreas, aquáticas e terrestres nacionais',
 'Divulgação da atividade parlamentar',
 'Serviços de Segurança Privada']

In [44]:
mapper = {'Aluguel de imóveis para escritório político, compreendendo despesas concernentes a eles.': 'Aluguel de imóveis', 
         'Aquisição de material de consumo para uso no escritório político, inclusive aquisição ou locação de software, despesas postais, aquisição de publicações, locação de móveis e de equipamentos. ': 'Aquisição de material',
         'Contratação de consultorias, assessorias, pesquisas, trabalhos técnicos e outros serviços de apoio ao exercício do mandato parlamentar': 'Contratação de terceiro',
         'Locomoção, hospedagem, alimentação, combustíveis e lubrificantes': 'Despesas com viagens',
         'Passagens aéreas, aquáticas e terrestres nacionais': 'Despesas com transporte',
         'Divulgação da atividade parlamentar': 'Despesas com marketing',
         'Serviços de Segurança Privada': 'Despesas com segurança'}

df['TIPO_DESPESA'] = df['TIPO_DESPESA'].map(mapper)

In [45]:
df.head(5)

Unnamed: 0,DATA,ANO,MES,DIA,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DETALHAMENTO,VALOR_REEMBOLSADO
0,2016-01-13,2016,1,13,ACIR GURGACZ,Aluguel de imóveis,05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011328,Despesa com pagamento de energia elétrica para...,73.6
1,2016-01-18,2016,1,18,ACIR GURGACZ,Aluguel de imóveis,05.914.650/0001-66,ELETROBRÁS DISTRIBUIÇÃO RONDÔNIA,000011327,Pagamento de energia elétrica para o escritóri...,206.84
2,2016-04-01,2016,4,1,ACIR GURGACZ,Aluguel de imóveis,004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/16,"Despesa com pagamento de aluguel, utilizado pa...",6000.0
3,2016-01-16,2016,1,16,ACIR GURGACZ,Aluguel de imóveis,05.423.963/0001-11,OI MÓVEL S.A.,661639001,despesa com pagamento de telefonia para o escr...,407.48
4,2016-06-01,2016,6,1,ACIR GURGACZ,Aquisição de material,62.652.961/0001-38,AGÊNCIA ESTADO S.A.,00608918,Aquisição de publicação virtual de conteúdo jo...,550.0


In [46]:
df['TIPO_DESPESA'].unique().tolist()

['Aluguel de imóveis',
 'Aquisição de material',
 'Contratação de terceiro',
 'Despesas com viagens',
 'Despesas com transporte',
 'Despesas com marketing',
 'Despesas com segurança']

In [53]:
df.to_csv("ceaps_dataset_data_cleansing.csv", index=False, sep=";", encoding="latin1")