<a href="https://colab.research.google.com/github/Siri2191/Projeto-Senadores/blob/main/Sobre_os_Senadores_em_mandato.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Contexto: </h1>

---

No Brasil cada senador é eleito por duas legislaturas de 4 anos, ou seja, o mandato de um senador dura um total de 8 anos, sendo que a cada quatro se renova 2/3 e nos quatro anos seguintes, 1/3 do senado. Dando um total de 1 inteiro a cada 8 anos.

A ideia desta análise e traçar um perfil dos senadores em mandato atual (até 2022), ano de eleição, e após as eleições, comparara se houve alguma diferença no perfil. 

Os dados serão tirados do portal da tranparencia do senado. 



# Importando bibliotecas

---

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go 
from datetime import date
from scipy.stats import ttest_ind 

#Importando dados

---

In [2]:
df = pd.read_csv("https://www.senado.leg.br/transparencia/LAI/secrh/parla_inter_csv.csv", encoding= '1252',sep=';',header=1)
df.head()				

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,DTNASC,EMAIL,CHEFE_GAB,ENDERECO
0,ACIR GURGACZ,PDT,RO,Titular,2015 / 2023,"(61)3303-3131,(61)3303-3132,",25/02/1962,sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,2019 / 2027,"(61)3303-9011,(61)3303-9014,",03/04/1975,sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,2015 / 2023,"(61)3303-5717,",15/07/1970,sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...
3,ALVARO DIAS,PODEMOS,PR,Titular,2015 / 2023,"(61)3303-4059,(61)3303-4060,",07/12/1944,sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...
4,ANGELO CORONEL,PSD,BA,Titular,2019 / 2027,"(61)3303-6103,(61)3303-6105,",03/05/1958,sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...


# Distribuição dos sexos no senado
---

In [3]:
df['NOME_PARLAMENTAR'].unique()

array(['ACIR GURGACZ', 'ALESSANDRO VIEIRA', 'ALEXANDRE SILVEIRA',
       'ALVARO DIAS', 'ANGELO CORONEL', 'CARLOS PORTINHO', 'CARLOS VIANA',
       'CHICO RODRIGUES', 'CONFUCIO MOURA', 'DANIELLA RIBEIRO',
       'DARIO BERGER', 'DAVI ALCOLUMBRE', 'EDUARDO BRAGA',
       'EDUARDO GIRÃO', 'EDUARDO VELLOSO', 'ELIANE NOGUEIRA',
       'ELIZIANE GAMA', 'ELMANO FÉRRER', 'ESPERIDIÃO AMIN',
       'FABIANO CONTARATO', 'FERNANDO BEZERRA COELHO', 'FERNANDO COLLOR',
       'FLÁVIO ARNS', 'FLÁVIO BOLSONARO', 'GIORDANO', 'GUARACY SILVEIRA',
       'HUMBERTO COSTA', 'IRAJÁ', 'IVETE DA SILVEIRA', 'IZALCI LUCAS',
       'JADER BARBALHO', 'JAQUES WAGNER', 'JARBAS VASCONCELOS',
       'JAYME CAMPOS', 'JEAN PAUL PRATES', 'JORGE KAJURU', 'JOSÉ SERRA',
       'JULIO VENTURA', 'LASIER MARTINS', 'LEILA BARROS', 'LUCAS BARRETO',
       'LUIS CARLOS HEINZE', 'LUIZ DO CARMO', 'LUIZ PASTORE',
       'MAILZA GOMES', 'MARA GABRILLI', 'MARCELO CASTRO', 'MARCOS DO VAL',
       'MARCOS ROGÉRIO', 'MARGARETH BUZETTI', 

In [4]:
df['SEXO'] = ['H', 'H', 'H',
       'H', 'H', 'H', 'H',
       'H', 'H', 'M',
       'H', 'H', 'H',
       'H', 'H', 'M',
       'M', 'H', 'H',
       'H', 'H', 'H',
       'H', 'H', 'H', 'H',
       'H', 'H', 'M', 'H',
       'H', 'H', 'H',
       'H', 'H', 'H','M', 'H',
       'H', 'H', 'M', 'H',
       'H', 'H', 'H',
       'M', 'M', 'H', 'H',
       'H', 'M', 'M',
       'M', 'H', 'H',
       'M', 'H', 'H',
       'H', 'H', 'H', 'H',
       'H', 'H', 'H',
       'H', 'H', 'H', 'H',
       'H', 'H', 'M', 'M',
       'H', 'H', 'H',
       'H', 'H','H', 'M','H']

In [5]:
df.head()

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,DTNASC,EMAIL,CHEFE_GAB,ENDERECO,SEXO
0,ACIR GURGACZ,PDT,RO,Titular,2015 / 2023,"(61)3303-3131,(61)3303-3132,",25/02/1962,sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,2019 / 2027,"(61)3303-9011,(61)3303-9014,",03/04/1975,sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,2015 / 2023,"(61)3303-5717,",15/07/1970,sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H
3,ALVARO DIAS,PODEMOS,PR,Titular,2015 / 2023,"(61)3303-4059,(61)3303-4060,",07/12/1944,sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...,H
4,ANGELO CORONEL,PSD,BA,Titular,2019 / 2027,"(61)3303-6103,(61)3303-6105,",03/05/1958,sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H


In [6]:
fig = px.histogram(df, x="SEXO",title ='Distribuição dos Senadores de acordo com o sexo no ano de 2022',text_auto=True)
fig.update_traces(textfont_size=20)           
fig.show()

In [7]:
fig = px.histogram(df, x="PARTIDO", color="SEXO", title ='Distribuição dos sexos por partido', text_auto = True)
fig.show()

In [8]:
pct_h =  df.query('SEXO == "H"')['SEXO'].count()/len(df)*100
pct_m = df.query('SEXO == "M"')['SEXO'].count()/len(df)*100


print('No senado atual, {:.2f} % são mulheres e {:.2f}% são homens'.format(pct_m, pct_h))

No senado atual, 18.52 % são mulheres e 81.48% são homens


#Sobre as idades do senado
---


In [9]:
df.dtypes

NOME_PARLAMENTAR                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          object
PARTIDO                                                                

In [10]:
df['DTNASC'] = pd.to_datetime(df['DTNASC'],format='%d/%m/%Y',errors = 'coerce')  # transformando data em datetime

df.dtypes

NOME_PARLAMENTAR                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  object
PARTIDO                                                        

In [11]:
 df['IDADE'] = date.today().year - df['DTNASC'].dt.year

In [12]:
df

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,DTNASC,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE
0,ACIR GURGACZ,PDT,RO,Titular,2015 / 2023,"(61)3303-3131,(61)3303-3132,",1962-02-25,sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,2019 / 2027,"(61)3303-9011,(61)3303-9014,",1975-04-03,sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,47
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,2015 / 2023,"(61)3303-5717,",1970-07-15,sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,52
3,ALVARO DIAS,PODEMOS,PR,Titular,2015 / 2023,"(61)3303-4059,(61)3303-4060,",1944-12-07,sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...,H,78
4,ANGELO CORONEL,PSD,BA,Titular,2019 / 2027,"(61)3303-6103,(61)3303-6105,",1958-05-03,sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,64
...,...,...,...,...,...,...,...,...,...,...,...,...
76,VANDERLAN CARDOSO,PSD,GO,Titular,2019 / 2027,"(61)3303-2092,(61)3303-2099,",1962-11-15,sen.vanderlancardoso@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,60
77,VENEZIANO VITAL DO RÊGO,MDB,PB,Titular,2019 / 2027,"(61)3303-2252,(61)3303-2481,",1970-07-17,sen.venezianovitaldorego@senado.leg.br,Daniel Queiroz De Medeiros Chianca,SENADO FEDERAL ANEXO 1 20º PAVIMENTO ...,H,52
78,WELLINGTON FAGUNDES,PL,MT,Titular,2015 / 2023,"(61)3303-6219,(61)3303-3778,",1957-06-01,sen.wellingtonfagundes@senado.leg.br,Fernando Pereira Damasceno,SENADO FEDERAL ANEXO 1 19º PAVIMENTO ...,H,65
79,ZENAIDE MAIA,PROS,RN,Titular,2019 / 2027,"(61)3303-2371,(61)3303-2372,",1954-11-27,sen.zenaidemaia@senado.leg.br,Maria Lucia Sigmaringa Seixas,SENADO FEDERAL ANEXO 1 8º PAVIMENTO ...,M,68


In [13]:
# retirando a data de nascimento após calcular a idade de cada parlamentar

df.drop(columns = ['DTNASC'], axis = 0 , inplace = True)

In [14]:
df['IDADE'].describe()

count    81.000000
mean     62.469136
std      11.832251
min      39.000000
25%      52.000000
50%      64.000000
75%      72.000000
max      84.000000
Name: IDADE, dtype: float64

In [15]:
df.loc[df['IDADE']==39]

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE
27,IRAJÁ,PSD,TO,Titular,2019 / 2027,"(61)3303-6469,(61)3303-6474",sen.iraja@senado.leg.br,Vilmar Bomfim Ayres Da Fonseca,SENADO FEDERAL ANEXO 1 21º PAVIMENTO ...,H,39


In [16]:
df.loc[df['IDADE']==84]

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE
55,OGARI PACHECO,UNIÃO,TO,2º Suplente,2019 / 2027,"(61)3303-6349,(61)3303-6352,(61)3303-6354",sen.ogaripacheco@senado.leg.br,Walter Germano De Oliveira,SENADO FEDERAL ANEXO 1 5º PAVIMENTO ...,M,84


In [17]:
fig = px.box(df, x="IDADE",color='SEXO', title='Distribuição das idades por sexo no senado atual')
fig.show()

## Teste para média de idades entre homens e mulheres:
---

H0: media de idade dos homens = media de idades das mulheres

H1: media de idade dos homens <= media de idades das mulheres

significância de 5%

In [18]:
sample_h = df.loc[df['SEXO']=='H']['IDADE']
sample_m = df.loc[df['SEXO']=='M']['IDADE']

print('A média da amostra masculina : {:.3f} \nA média da amostra feminina : {:.3f}'.format(sample_h.mean(),sample_m.mean()))

print('A variância da amostra masculina : {:.3f} \nA variânica da amostra feminina : {:.3f}'.format(sample_h.var(),sample_m.var()))

A média da amostra masculina : 61.742 
A média da amostra feminina : 65.667
A variância da amostra masculina : 129.825 
A variânica da amostra feminina : 183.810


In [19]:
sample_h = df.loc[df['SEXO']=='H']['IDADE']
sample_m = df.loc[df['SEXO']=='M']['IDADE']

# assumo que as variancias das amostras são diferentes

stats, p_value = ttest_ind(sample_h,sample_m,equal_var=False)

print('A estatitica do teste  é : {:.4f} \nO pvalor do teste é: {:.4f}'.format(stats,p_value))

A estatitica do teste  é : -1.0406 
O pvalor do teste é: 0.3113


<h2> Observação:</h2>

Pode-se dizer que a média de idade das mulheres é estatisticamente maior que a media de idades dos homens no senado.

# Calculando o tempo de mandato de cada senador atual

---

In [20]:
separador = df['MANDATO'].str.split('/', n=1, expand=True)
df['MANDATO_INICIO'] = list(map(int,separador[0]))
df['MANDATO_FINAL'] = list(map(int,separador[1]))
df.head()

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE,MANDATO_INICIO,MANDATO_FINAL
0,ACIR GURGACZ,PDT,RO,Titular,2015 / 2023,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,2015,2023
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,2019 / 2027,"(61)3303-9011,(61)3303-9014,",sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,47,2019,2027
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,2015 / 2023,"(61)3303-5717,",sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,52,2015,2023
3,ALVARO DIAS,PODEMOS,PR,Titular,2015 / 2023,"(61)3303-4059,(61)3303-4060,",sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...,H,78,2015,2023
4,ANGELO CORONEL,PSD,BA,Titular,2019 / 2027,"(61)3303-6103,(61)3303-6105,",sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,64,2019,2027


In [21]:
df.drop(columns=['MANDATO'],axis=0,inplace=True)

In [22]:
df.head()

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE,MANDATO_INICIO,MANDATO_FINAL
0,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,2015,2023
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,"(61)3303-9011,(61)3303-9014,",sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,47,2019,2027
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,"(61)3303-5717,",sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,52,2015,2023
3,ALVARO DIAS,PODEMOS,PR,Titular,"(61)3303-4059,(61)3303-4060,",sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...,H,78,2015,2023
4,ANGELO CORONEL,PSD,BA,Titular,"(61)3303-6103,(61)3303-6105,",sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,64,2019,2027


In [23]:
df['TEMPO_MANDATO'] = 2022 - df['MANDATO_INICIO']
df.head()

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE,MANDATO_INICIO,MANDATO_FINAL,TEMPO_MANDATO
0,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,2015,2023,7
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,"(61)3303-9011,(61)3303-9014,",sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,47,2019,2027,3
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,"(61)3303-5717,",sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,52,2015,2023,7
3,ALVARO DIAS,PODEMOS,PR,Titular,"(61)3303-4059,(61)3303-4060,",sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...,H,78,2015,2023,7
4,ANGELO CORONEL,PSD,BA,Titular,"(61)3303-6103,(61)3303-6105,",sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,64,2019,2027,3


In [24]:
df['PCT_DE_MANDATO'] = (df['TEMPO_MANDATO'] / 8)*100

In [25]:
df.head()

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE,MANDATO_INICIO,MANDATO_FINAL,TEMPO_MANDATO,PCT_DE_MANDATO
0,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,2015,2023,7,87.5
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,"(61)3303-9011,(61)3303-9014,",sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,47,2019,2027,3,37.5
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,"(61)3303-5717,",sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,52,2015,2023,7,87.5
3,ALVARO DIAS,PODEMOS,PR,Titular,"(61)3303-4059,(61)3303-4060,",sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...,H,78,2015,2023,7,87.5
4,ANGELO CORONEL,PSD,BA,Titular,"(61)3303-6103,(61)3303-6105,",sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...,H,64,2019,2027,3,37.5


# Mesclando os dados de reembolso com os dados dos senadores atuais 
---

No [portal da transparência](https://www12.senado.leg.br/dados-abertos/conjuntos?portal=Administrativo&grupo=senadores), na parte de dados abertos, é possivel obter um CSV com os valores de pedido de reembolso de cada senador. Irei mesclar os dois dataset para analisar os gasto de reembolso dos senadores em exercicios. Esse dataset será também utilizado em outros notbooks:


- Serie temporal com senadores atuais

- Sobre os Reembolsos dos senadores atuais 

In [26]:
# lendo os dados que possuem os valores reembolsados dos senadores entre 2015 e 2022

for i in range(15,23):
  df_r = pd.read_csv('https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_20{}.csv'.format(i), encoding='1252', sep=';', header=1)
  globals()['df_r%s' % i] = df_r

df_reembolso = pd.concat([df_r15,df_r16,df_r18,df_r17,df_r18,df_r19,df_r20,df_r21,df_r22], join ='outer', ignore_index=True) 

In [27]:
df_reembolso.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2015,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,647777,14/01/2015,,5234,2000857.0
1,2015,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000647776,18/01/2015,Despesa com pagamento de energia elétrica para...,16817,2001140.0
2,2015,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/15,30/01/2015,Despesa com pagamento de aluguel de imóvel par...,5000,2001144.0
3,2015,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,556241490,19/01/2015,Despesa com pagamento de telefonia para uso do...,41695,2001141.0
4,2015,1,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,07.170.542/0001-51,INK JET INFORMATICA E PAPELARIA LTDA EPP,14654,09/01/2015,Despesa com material de consumo para uso do es...,1085,2001139.0


In [28]:
# retirando colunas de ano e mês 

df_reembolso.drop(columns = ['ANO','MES'],axis=0, inplace = True)
df_reembolso.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,647777,14/01/2015,,5234,2000857.0
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000647776,18/01/2015,Despesa com pagamento de energia elétrica para...,16817,2001140.0
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/15,30/01/2015,Despesa com pagamento de aluguel de imóvel par...,5000,2001144.0
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,556241490,19/01/2015,Despesa com pagamento de telefonia para uso do...,41695,2001141.0
4,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,07.170.542/0001-51,INK JET INFORMATICA E PAPELARIA LTDA EPP,14654,09/01/2015,Despesa com material de consumo para uso do es...,1085,2001139.0


In [29]:
# substituindo os valoes azios do detalhamento por 'sem detalhamento'

df_reembolso['DETALHAMENTO'].fillna('Sem detalhamento',inplace=True) 
df_reembolso.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,647777,14/01/2015,Sem detalhamento,5234,2000857.0
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000647776,18/01/2015,Despesa com pagamento de energia elétrica para...,16817,2001140.0
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/15,30/01/2015,Despesa com pagamento de aluguel de imóvel par...,5000,2001144.0
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,556241490,19/01/2015,Despesa com pagamento de telefonia para uso do...,41695,2001141.0
4,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,07.170.542/0001-51,INK JET INFORMATICA E PAPELARIA LTDA EPP,14654,09/01/2015,Despesa com material de consumo para uso do es...,1085,2001139.0


In [30]:
df_reembolso.rename(columns = {'SENADOR':'NOME_PARLAMENTAR'},inplace=True)
df_reembolso.head()

Unnamed: 0,NOME_PARLAMENTAR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,647777,14/01/2015,Sem detalhamento,5234,2000857.0
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000647776,18/01/2015,Despesa com pagamento de energia elétrica para...,16817,2001140.0
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/15,30/01/2015,Despesa com pagamento de aluguel de imóvel par...,5000,2001144.0
3,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,556241490,19/01/2015,Despesa com pagamento de telefonia para uso do...,41695,2001141.0
4,ACIR GURGACZ,Aquisição de material de consumo para uso no e...,07.170.542/0001-51,INK JET INFORMATICA E PAPELARIA LTDA EPP,14654,09/01/2015,Despesa com material de consumo para uso do es...,1085,2001139.0


In [31]:
#anexando os dois dataset's

df = pd.merge(df,df_reembolso,how = 'left' , on = 'NOME_PARLAMENTAR' )
df

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,TELEFONES,EMAIL,CHEFE_GAB,ENDERECO,SEXO,IDADE,...,TEMPO_MANDATO,PCT_DE_MANDATO,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,...,7,87.5,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,647777,14/01/2015,Sem detalhamento,5234,2000857.0
1,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,...,7,87.5,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000647776,18/01/2015,Despesa com pagamento de energia elétrica para...,16817,2001140.0
2,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,...,7,87.5,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/15,30/01/2015,Despesa com pagamento de aluguel de imóvel par...,5000,2001144.0
3,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,...,7,87.5,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,556241490,19/01/2015,Despesa com pagamento de telefonia para uso do...,41695,2001141.0
4,ACIR GURGACZ,PDT,RO,Titular,"(61)3303-3131,(61)3303-3132,",sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...,H,60,...,7,87.5,Aquisição de material de consumo para uso no e...,07.170.542/0001-51,INK JET INFORMATICA E PAPELARIA LTDA EPP,14654,09/01/2015,Despesa com material de consumo para uso do es...,1085,2001139.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
82005,ZEQUINHA MARINHO,PL,PA,Titular,"(61)3303-6623,",sen.zequinhamarinho@senado.leg.br,Alexandre Bodani Cavalcante,SENADO FEDERAL ANEXO 2 ALA TEOTÔNIO VILELA G...,H,63,...,3,37.5,"Aluguel de imóveis para escritório político, c...",06.855.175/0007-52,SERVI SAN LTDA.,5039,22/08/2022,Sem detalhamento,80646,2187007.0
82006,ZEQUINHA MARINHO,PL,PA,Titular,"(61)3303-6623,",sen.zequinhamarinho@senado.leg.br,Alexandre Bodani Cavalcante,SENADO FEDERAL ANEXO 2 ALA TEOTÔNIO VILELA G...,H,63,...,3,37.5,Aquisição de material de consumo para uso no e...,08.672.139/0001-93,C2A SEVIÇOS EM TECNOLOGIA DA INFORMATICA EIRELI,8313,30/08/2022,Sem detalhamento,475,2187008.0
82007,ZEQUINHA MARINHO,PL,PA,Titular,"(61)3303-6623,",sen.zequinhamarinho@senado.leg.br,Alexandre Bodani Cavalcante,SENADO FEDERAL ANEXO 2 ALA TEOTÔNIO VILELA G...,H,63,...,3,37.5,"Locomoção, hospedagem, alimentação, combustíve...",27.522.923/0001-60,Casarao da Vila Restaurante LTDA - ME,000127032,03/08/2022,Sem detalhamento,2657,2184892.0
82008,ZEQUINHA MARINHO,PL,PA,Titular,"(61)3303-6623,",sen.zequinhamarinho@senado.leg.br,Alexandre Bodani Cavalcante,SENADO FEDERAL ANEXO 2 ALA TEOTÔNIO VILELA G...,H,63,...,3,37.5,"Passagens aéreas, aquáticas e terrestres nacio...",22.052.777/0001-32,Exceller Tour,FLXNAO,02/08/2022,"Companhia Aérea: GOL, Localizador: FLXNAO. Pas...",314046,2185426.0


In [32]:
# verificando se o número de senadores está correto

len(df['NOME_PARLAMENTAR'].unique())

81

In [43]:
df.columns

Index(['NOME_PARLAMENTAR', 'PARTIDO', 'UF', 'TITULARIDADE', 'TELEFONES',
       'EMAIL', 'CHEFE_GAB',
       'ENDERECO                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 82010 entries, 0 to 82009
Data columns (total 22 columns):
 #   Column                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                

In [44]:
# retirando colunas quenão serão utilizadas


# a variavel endereço tem um problema de espaço

df.drop(columns =['TELEFONES','TITULARIDADE','EMAIL','ENDERECO                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              '], axis = 0, inplace=True)

In [45]:
df.columns

Index(['NOME_PARLAMENTAR', 'PARTIDO', 'UF', 'CHEFE_GAB', 'SEXO', 'IDADE',
       'MANDATO_INICIO', 'MANDATO_FINAL', 'TEMPO_MANDATO', 'PCT_DE_MANDATO',
       'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR', 'DOCUMENTO', 'DATA',
       'DETALHAMENTO', 'VALOR_REEMBOLSADO', 'COD_DOCUMENTO'],
      dtype='object')

In [47]:
df.dtypes

NOME_PARLAMENTAR      object
PARTIDO               object
UF                    object
CHEFE_GAB             object
SEXO                  object
IDADE                  int64
MANDATO_INICIO         int64
MANDATO_FINAL          int64
TEMPO_MANDATO          int64
PCT_DE_MANDATO       float64
TIPO_DESPESA          object
CNPJ_CPF              object
FORNECEDOR            object
DOCUMENTO             object
DATA                  object
DETALHAMENTO          object
VALOR_REEMBOLSADO     object
COD_DOCUMENTO        float64
dtype: object

In [48]:
# transformando a data em datetime

df['DATA'] = pd.to_datetime(df['DATA'],format='%d/%m/%Y',errors = 'coerce') 

df.dtypes

NOME_PARLAMENTAR             object
PARTIDO                      object
UF                           object
CHEFE_GAB                    object
SEXO                         object
IDADE                         int64
MANDATO_INICIO                int64
MANDATO_FINAL                 int64
TEMPO_MANDATO                 int64
PCT_DE_MANDATO              float64
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DOCUMENTO                    object
DATA                 datetime64[ns]
DETALHAMENTO                 object
VALOR_REEMBOLSADO            object
COD_DOCUMENTO               float64
dtype: object

In [51]:
# exportando o dataset

df.to_csv('df_reembolso_senado_atual.csv')