<a href="https://colab.research.google.com/github/Siri2191/Projeto-Senadores/blob/main/Despesas_Senadores_2017_2021.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<h1>Contexto:</h1>

---

Trata-se de uma analise exploratória sobre as despesas dos senadores. Os dados foram retirados do portal da transparencia da [Caesp](https://www12.senado.leg.br/dados-abertos/conjuntos?portal=Administrativo&grupo=orcamento-do-senado). 



# Importando Bicliotecas:

---



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# Carregando os dados
---

In [None]:
for i in range(17,22):
  df = pd.read_csv('https://www.senado.gov.br/transparencia/LAI/verba/despesa_ceaps_20{}.csv'.format(i), encoding='1252', sep=';', header=1)
  globals()['df_%s' % i] = df

In [None]:
df_17.head()

Unnamed: 0,ANO,MES,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000034079,18/01/2017,Despesa com pagamento de energia elétrica para...,97,2060286
1,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/17,17/01/2017,Despesa com aluguel de imóvel para uso do escr...,6000,2057638
2,2017,1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,744526352,18/01/2017,Despesa com pagamento de telefone celular para...,41804,2060285
3,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",13.419.034/0001-67,e-Destinos.com.br,2LLTII,23/01/2017,"Companhia Aérea: LATAM, Localizador: 2LLTII. P...",195895,2060289
4,2017,1,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",63.764.211/0001-10,TRANSCONTINENTAL AGÊNCIA DE VIAGENS LTDA,2QXSBC,24/01/2017,"Companhia Aérea: LATAM, Localizador: 2QXSBC. P...",117867,2057639


# Juntando os df's em um só
--- 

In [None]:
df = pd.concat([df_17,df_18,df_19,df_20,df_21], join ='outer', ignore_index=True) 

In [None]:

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 104066 entries, 0 to 104065
Data columns (total 11 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   ANO                104066 non-null  int64 
 1   MES                104066 non-null  int64 
 2   SENADOR            104066 non-null  object
 3   TIPO_DESPESA       104066 non-null  object
 4   CNPJ_CPF           104066 non-null  object
 5   FORNECEDOR         104066 non-null  object
 6   DOCUMENTO          99702 non-null   object
 7   DATA               104066 non-null  object
 8   DETALHAMENTO       69269 non-null   object
 9   VALOR_REEMBOLSADO  104066 non-null  object
 10  COD_DOCUMENTO      104066 non-null  int64 
dtypes: int64(3), object(8)
memory usage: 8.7+ MB


# Analisando valores vázios
---

In [None]:

df.isnull().sum()

ANO                      0
MES                      0
SENADOR                  0
TIPO_DESPESA             0
CNPJ_CPF                 0
FORNECEDOR               0
DOCUMENTO             4364
DATA                     0
DETALHAMENTO         34797
VALOR_REEMBOLSADO        0
COD_DOCUMENTO            0
dtype: int64

In [None]:
df.isnull().sum()['DOCUMENTO']/len(df)*100

4.193492591240174

* A variavel documento representa o número do documento que o senador apresenta como comprovante para receber o reembolso. Existem cerca de 4364 documentos não apresentados entre 17 e 21, o que representa 4,19% de todos os dados. 

* Estes valores são candidatos a uma analise mais cuidadosa, que será feita nesta [aqui]()

# Observação e transformação dos tipos das variáveis

---


In [None]:
df.dtypes

ANO                   int64
MES                   int64
SENADOR              object
TIPO_DESPESA         object
CNPJ_CPF             object
FORNECEDOR           object
DOCUMENTO            object
DATA                 object
DETALHAMENTO         object
VALOR_REEMBOLSADO    object
COD_DOCUMENTO         int64
dtype: object

In [None]:
df['DATA']

0         18/01/2017
1         17/01/2017
2         18/01/2017
3         23/01/2017
4         24/01/2017
             ...    
104061    01/12/2021
104062    15/12/2021
104063    17/12/2021
104064    27/12/2021
104065    29/12/2021
Name: DATA, Length: 104066, dtype: object

In [None]:
df['DATA'] = pd.to_datetime(df['DATA'],format='%d/%m/%Y',errors = 'coerce')  # transformando data em datetime

In [None]:
df.DATA

0        2017-01-18
1        2017-01-17
2        2017-01-18
3        2017-01-23
4        2017-01-24
            ...    
104061   2021-12-01
104062   2021-12-15
104063   2021-12-17
104064   2021-12-27
104065   2021-12-29
Name: DATA, Length: 104066, dtype: datetime64[ns]

In [None]:
df.dtypes

ANO                           int64
MES                           int64
SENADOR                      object
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DOCUMENTO                    object
DATA                 datetime64[ns]
DETALHAMENTO                 object
VALOR_REEMBOLSADO            object
COD_DOCUMENTO                 int64
dtype: object

In [None]:
df['DATA'].min()

Timestamp('1957-12-19 00:00:00')

In [None]:
df['DATA'].max()

Timestamp('2107-08-29 00:00:00')

* Aparentemente existem dados incoerentes. Como não há como saber a data real do pedido de reembolso, estes valores serão retirados, só mantendo a faixa entre os anos de 2017 e 2021. 

In [None]:
'''
 Dropando os dados datados antes dde 2017 e depois de 2021
'''

df.drop(df.loc[df.DATA.dt.year<2017].index, inplace=True)
df.drop(df.loc[df.DATA.dt.year>2021].index, inplace=True) 

In [None]:
df['DATA'].min()

Timestamp('2017-01-01 00:00:00')

In [None]:
df['DATA'].max()

Timestamp('2021-12-31 00:00:00')

In [None]:
'''
Os valores de ano e Mês já estão dentro da variavel DATA
Por isto irei retirar essas duas variaveis
'''
df.drop(df[['ANO','MES']], axis=1,inplace=True)

In [None]:
df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].str.replace(',','.')  # trocando a virgula por ponto
df['VALOR_REEMBOLSADO'] = df['VALOR_REEMBOLSADO'].astype(float) # convertendo em float

In [None]:
df.dtypes

SENADOR                      object
TIPO_DESPESA                 object
CNPJ_CPF                     object
FORNECEDOR                   object
DOCUMENTO                    object
DATA                 datetime64[ns]
DETALHAMENTO                 object
VALOR_REEMBOLSADO           float64
COD_DOCUMENTO                 int64
dtype: object

In [None]:
df.head()

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
0,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.914.650/0001-66,ENERGISA,000034079,2017-01-18,Despesa com pagamento de energia elétrica para...,97.0,2060286
1,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",004.948.028-63,GILBERTO PISELO DO NASCIMENTO,001/17,2017-01-17,Despesa com aluguel de imóvel para uso do escr...,6000.0,2057638
2,ACIR GURGACZ,"Aluguel de imóveis para escritório político, c...",05.423.963/0001-11,OI MÓVEL S.A.,744526352,2017-01-18,Despesa com pagamento de telefone celular para...,418.04,2060285
3,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",13.419.034/0001-67,e-Destinos.com.br,2LLTII,2017-01-23,"Companhia Aérea: LATAM, Localizador: 2LLTII. P...",1958.95,2060289
4,ACIR GURGACZ,"Passagens aéreas, aquáticas e terrestres nacio...",63.764.211/0001-10,TRANSCONTINENTAL AGÊNCIA DE VIAGENS LTDA,2QXSBC,2017-01-24,"Companhia Aérea: LATAM, Localizador: 2QXSBC. P...",1178.67,2057639


# Sobre os Senadores

---

No Brasil cada senador é eleito por duas legislaturas de 4 anos, ou seja, o mandato de um senador dura um total de 8 anos, sendo que a cada quatro se renova 2/3 e nos quatro anos seguintes, 1/3 do senado. Dando um total de 1 inteiro a cada 8 anos.

Acrescentarei o tempo de mandato de cada senador para posteriomente fazer uma analise dos pedidos de reembolso em função dos periodo de mandato.

Uma analise mais cuidadosa sobre o perfil do senado atual se encontra [aqui]()


In [None]:
print('O  número de senadores no df é de : {} \n Alguns não estão mais em mandato'.format(len(df['SENADOR'].unique())))

O  número de senadores no df é de : 160 
 Alguns não estão mais em mandato


In [None]:
df['SENADOR'].unique()

array(['ACIR GURGACZ', 'AÉCIO NEVES', 'AIRTON SANDOVAL',
       'ALOYSIO NUNES FERREIRA', 'ALVARO DIAS', 'ANA AMÉLIA',
       'ÂNGELA PORTELA', 'ANTONIO ANASTASIA', 'ANTÔNIO CARLOS VALADARES',
       'ARMANDO MONTEIRO', 'ATAÍDES OLIVEIRA', 'BENEDITO DE LIRA',
       'CÁSSIO CUNHA LIMA', 'CIDINHO SANTOS', 'CIRO NOGUEIRA',
       'CRISTOVAM BUARQUE', 'DALIRIO BEBER', 'DÁRIO BERGER',
       'DAVI ALCOLUMBRE', 'EDISON LOBÃO', 'EDUARDO AMORIM',
       'EDUARDO BRAGA', 'EDUARDO LOPES', 'ELBER BATALHA', 'ELMANO FÉRRER',
       'FÁTIMA BEZERRA', 'FERNANDO BEZERRA COELHO', 'FERNANDO COLLOR',
       'FLEXA RIBEIRO', 'GARIBALDI ALVES FILHO', 'GLADSON CAMELI',
       'GLEISI HOFFMANN', 'HÉLIO JOSÉ', 'HUMBERTO COSTA', 'IVO CASSOL',
       'JADER BARBALHO', 'JOÃO ALBERTO SOUZA', 'JOÃO CAPIBERIBE',
       'JORGE VIANA', 'JOSÉ AGRIPINO', 'JOSÉ ANÍBAL', 'JOSÉ MARANHÃO',
       'JOSÉ MEDEIROS', 'JOSÉ PIMENTEL', 'JOSÉ SERRA', 'KÁTIA ABREU',
       'LASIER MARTINS', 'LÍDICE DA MATA', 'LINDBERGH FARIAS',
 

In [None]:
senadores_atual = pd.read_csv("https://www.senado.leg.br/transparencia/LAI/secrh/parla_inter_csv.csv", encoding= '1252',sep=';',header=1)
senadores_atual.head()				

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,TITULARIDADE,MANDATO,TELEFONES,DTNASC,EMAIL,CHEFE_GAB,ENDERECO
0,ACIR GURGACZ,PDT,RO,Titular,2015 / 2023,"(61)3303-3131,(61)3303-3132,",25/02/1962,sen.acirgurgacz@senado.leg.br,Marcello Augusto Castro Varella,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,2019 / 2027,"(61)3303-9011,(61)3303-9014,",03/04/1975,sen.alessandrovieira@senado.leg.br,Elaine Da Silva Gontijo,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,2015 / 2023,"(61)3303-5717,",15/07/1970,sen.alexandresilveira@senado.leg.br,-,SENADO FEDERAL ANEXO 2 ALA TANCREDO NEVES GA...
3,ALVARO DIAS,PODEMOS,PR,Titular,2015 / 2023,"(61)3303-4059,(61)3303-4060,",07/12/1944,sen.alvarodias@senado.leg.br,Paulo Kepler Duarte Sampaio Júnior,SENADO FEDERAL ANEXO 2 ALA NILO COELHO 1º PA...
4,ANGELO CORONEL,PSD,BA,Titular,2019 / 2027,"(61)3303-6103,(61)3303-6105,",03/05/1958,sen.angelocoronel@senado.leg.br,Natanael Alves Ferreira,SENADO FEDERAL ANEXO 2 ALA AFFONSO ARINOS GA...


In [None]:
len(senadores_atual['NOME_PARLAMENTAR'].unique())

81

In [None]:
senadores_atual.columns

Index(['NOME_PARLAMENTAR', 'PARTIDO', 'UF', 'TITULARIDADE', 'MANDATO',
       'TELEFONES', 'DTNASC', 'EMAIL', 'CHEFE_GAB',
       'ENDERECO                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             

In [None]:
senadores_atual.drop(senadores_atual[[ 'TITULARIDADE','TELEFONES', 'EMAIL', 'CHEFE_GAB','DTNASC','ENDERECO                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              ']],axis=1,inplace=True)

In [None]:
senadores_atual.head()

Unnamed: 0,NOME_PARLAMENTAR,PARTIDO,UF,MANDATO
0,ACIR GURGACZ,PDT,RO,2015 / 2023
1,ALESSANDRO VIEIRA,PSDB,SE,2019 / 2027
2,ALEXANDRE SILVEIRA,PSD,MG,2015 / 2023
3,ALVARO DIAS,PODEMOS,PR,2015 / 2023
4,ANGELO CORONEL,PSD,BA,2019 / 2027


# Analise exploratória sobre os valores Reembolsados

---

In [None]:
df['VALOR_REEMBOLSADO'].describe()

count    103804.000000
mean       1177.413687
std        2869.065304
min        -243.400000
25%         135.000000
50%         348.695000
75%        1251.212500
max      270000.000000
Name: VALOR_REEMBOLSADO, dtype: float64

* Aparetemente pode existir valores de reembolso negativo.Vale apena observar este comportamento

* O Maior valor reembolsado foi de R$ 270.000,00

In [None]:
df.loc[(df['VALOR_REEMBOLSADO']<0)]

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
4384,DÁRIO BERGER,"Contratação de consultorias, assessorias, pesq...",73.228.876/0001-63,TV CLIPAGEM LTDA. EPP.,1661,2017-06-02,Despesa com Monitoramento de Informação Jornal...,-243.4,2068568


* O valor negativo foi pedido pelo senador [DARIO BERGER](https://www25.senado.leg.br/web/senadores/senador/-/perfil/5537) pelo serviço prestado pela TV CLipagem que hj recebe o nome de [Studio CLipagem](https://www.studioclipagem.com.br/) em Florianopolis. 
* O senador Dario Berger é de Santa Catarina. 

In [None]:
df.loc[(df['VALOR_REEMBOLSADO']==270000)]

Unnamed: 0,SENADOR,TIPO_DESPESA,CNPJ_CPF,FORNECEDOR,DOCUMENTO,DATA,DETALHAMENTO,VALOR_REEMBOLSADO,COD_DOCUMENTO
4716,DAVI ALCOLUMBRE,Divulgação da atividade parlamentar,29.337.655/0001-31,Start print Comunicação Visual Eireli,36,2018-03-15,,270000.0,2090997


* O maior valor neste periodo foi pedido pelo senador [DAVI ALCOLUMBRE](https://www25.senado.leg.br/web/senadores/senador/-/perfil/3830) e foi oferecido pela empresa [Start Print](https://www.startprint.bsb.br/) que trabalha com layouts e sinalização de fachadas. 

* A sede da empresa se localiza em Brasilia e foi fundada no dia 2/01/2018, quase 2 meses antes de prestar o serviço de R$ 270.000,00. [Info's
sobre a empresa](https://brasilcnpj.org/df/brasilia/start-print-comunicacao-visual-ltda-29337655000131)
* Seu fundador é [LUIZ FLAVIO ARMONDES MOREIRA](https://www.jusbrasil.com.br/processos/nome/185392909/luiz-flavio-armondes-moreira) que responde a 7 processos . 	

In [None]:
np.quantile(df['VALOR_REEMBOLSADO'],q =0.90)

2537.47

* 90% dos VALORES REEMBOLSADOS se encontram abaixo de R$ 3000,00. 

In [None]:
df.groupby('SENADOR')['VALOR_REEMBOLSADO'].count().sort_values(ascending=False)

SENADOR
WELLINGTON FAGUNDES        3390
HUMBERTO COSTA             2797
PAULO PAIM                 2783
JOSÉ SERRA                 2284
FERNANDO BEZERRA COELHO    2075
                           ... 
PINTO ITAMARATY               4
SIQUEIRA CAMPOS               4
VIRGINIO DE CARVALHO          3
PASTOR VALADARES              3
NAILDE PANTA                  1
Name: VALOR_REEMBOLSADO, Length: 160, dtype: int64