In [52]:
import pandas as pd
import sqlite3

In [53]:
ceaps_2018 = pd.read_csv('dados/CEAPS_2018.csv')
ceaps_2019 = pd.read_csv('dados/CEAPS_2019.csv')
ceaps_2020 = pd.read_csv('dados/CEAPS_2020.csv')
ceaps_2021 = pd.read_csv('dados/CEAPS_2021.csv')
ceaps_2022 = pd.read_csv('dados/CEAPS_2022.csv')

In [54]:
ceaps_2018.columns

Index(['ANO', 'MES', 'SENADOR', 'TIPO_DESPESA', 'CNPJ_CPF', 'FORNECEDOR',
       'DOCUMENTO', 'DATA', 'DETALHAMENTO', 'VALOR_REEMBOLSADO',
       'COD_DOCUMENTO'],
      dtype='object')

## Instalando bibliotecas para a manipulação dos dados através de SQL

### !pip install ipython-sql
> Biblioteca responsável pela interpretação do SQL

In [55]:
# usando sqlite3 para criar uma conexão

cnn = sqlite3.connect('jupyter_ceaps.db')

In [56]:
ceaps_2018.to_sql('db_2018',cnn)
ceaps_2019.to_sql('db_2019',cnn)
ceaps_2020.to_sql('db_2020',cnn)
ceaps_2021.to_sql('db_2021',cnn)
ceaps_2022.to_sql('db_2022',cnn)

11529

In [57]:
# carregar módulo do sql para o ipython

%load_ext sql

%sql sqlite:///jupyter_ceaps.db

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


## Manipulando dados em SQL

In [58]:
%%sql

SELECT SENADOR, ROUND(SUM(VALOR_REEMBOLSADO)) AS GASTOS
FROM db_2018 GROUP BY SENADOR


 * sqlite:///jupyter_ceaps.db
Done.


SENADOR,GASTOS
ACIR GURGACZ,9917.0
AIRTON SANDOVAL,67113.0
ALVARO DIAS,7732.0
ANA AMÉLIA,93892.0
ANTONIO ANASTASIA,81273.0
ANTÔNIO CARLOS VALADARES,30467.0
ARMANDO MONTEIRO,131992.0
ATAÍDES OLIVEIRA,38154.0
AÉCIO NEVES,50334.0
BENEDITO DE LIRA,39589.0


In [59]:
# Transofrmando dados em dataframe

gastos_2018 = pd.read_sql_query("SELECT SENADOR, ROUND(SUM(VALOR_REEMBOLSADO)) AS GASTOS_2018 FROM db_2018 GROUP BY SENADOR ORDER BY GASTOS_2018", cnn)

gastos_2019 = pd.read_sql_query("SELECT SENADOR, ROUND(SUM(VALOR_REEMBOLSADO)) AS GASTOS_2019 FROM db_2019 GROUP BY SENADOR ORDER BY GASTOS_2019", cnn)

gastos_2020 = pd.read_sql_query("SELECT SENADOR, ROUND(SUM(VALOR_REEMBOLSADO)) AS GASTOS_2020 FROM db_2020 GROUP BY SENADOR ORDER BY GASTOS_2020", cnn)

gastos_2021 = pd.read_sql_query("SELECT SENADOR, ROUND(SUM(VALOR_REEMBOLSADO)) AS GASTOS_2021 FROM db_2021 GROUP BY SENADOR ORDER BY GASTOS_2021", cnn)

gastos_2022 = pd.read_sql_query("SELECT SENADOR, ROUND(SUM(VALOR_REEMBOLSADO)) AS GASTOS_2022 FROM db_2022 GROUP BY SENADOR ORDER BY GASTOS_2022", cnn)


## Inserindo dados novamente no banco de dados para trabalhar com *joins* no SQL

In [60]:
gastos_2018.to_sql('sql_2018',cnn)
gastos_2019.to_sql('sql_2019',cnn)
gastos_2020.to_sql('sql_2020',cnn)
gastos_2021.to_sql('sql_2021',cnn)
gastos_2022.to_sql('sql_2022',cnn)

90

# Dados sobre partidos políticos e Unidades Federativas

In [61]:
# Iportando dados dos senadores
# Adicionando "encoding='utf8'" para carreegamento de caracteres especiais

dados_uf = pd.read_html('https://www25.senado.leg.br/web/senadores/em-exercicio/-/e/por-uf', encoding='utf8')
dados_uf = dados_uf[0]

# Excluindo colunas desnecessárias
dados_uf = dados_uf.drop(['Período','Telefones','Correio Eletrônico'], axis=1)

dados_uf

Unnamed: 0,Nome,Partido,UF
0,AC - Acre,AC - Acre,AC - Acre
1,Eduardo Velloso,UNIÃO,AC
2,Mailza Gomes,PP,AC
3,Maria das Vitórias,PSD,AC
4,AL - Alagoas,AL - Alagoas,AL - Alagoas
...,...,...,...
103,Mara Gabrilli,PSDB,SP
104,TO - Tocantins,TO - Tocantins,TO - Tocantins
105,Guaracy Silveira,PP,TO
106,Irajá,PSD,TO


### Será necessário filtrar esse dataframe para fazer a tabela 'senadores.csv'

In [62]:
dados_uf.columns

Index(['Nome', 'Partido', 'UF'], dtype='object')

### Adicionando dados ao banco de dados 

In [63]:
dados_uf.to_sql("info_senadores",cnn)

108

In [64]:
%%sql

select * from info_senadores

 * sqlite:///jupyter_ceaps.db
Done.


index,Nome,Partido,UF
0,AC - Acre,AC - Acre,AC - Acre
1,Eduardo Velloso,UNIÃO,AC
2,Mailza Gomes,PP,AC
3,Maria das Vitórias,PSD,AC
4,AL - Alagoas,AL - Alagoas,AL - Alagoas
5,Fernando Collor,PTB,AL
6,Rafael Tenório,MDB,AL
7,Rodrigo Cunha,UNIÃO,AL
8,AM - Amazonas,AM - Amazonas,AM - Amazonas
9,Eduardo Braga,MDB,AM


# Banco de dados da lista de senadores geral
> Fonte: https://www25.senado.leg.br/web/senadores

In [65]:
senadores = pd.read_csv('dados/senadores.csv')

senadores = senadores.drop(['TELEFONES','DTNASC','EMAIL','CHEFE_GAB','ENDERECO'], axis=1)

# Alterando nome das colunas
senadores.rename(columns={'NOME_PARLAMENTAR': 'SENADOR'}, inplace=True)

senadores

Unnamed: 0,SENADOR,PARTIDO,UF,TITULARIDADE,MANDATO
0,ACIR GURGACZ,PDT,RO,Titular,2015 / 2023
1,ALESSANDRO VIEIRA,PSDB,SE,Titular,2019 / 2027
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente,2015 / 2023
3,ALVARO DIAS,PODEMOS,PR,Titular,2015 / 2023
4,ANGELO CORONEL,PSD,BA,Titular,2019 / 2027
...,...,...,...,...,...
76,VANDERLAN CARDOSO,PSD,GO,Titular,2019 / 2027
77,VENEZIANO VITAL DO RÊGO,MDB,PB,Titular,2019 / 2027
78,WELLINGTON FAGUNDES,PL,MT,Titular,2015 / 2023
79,ZENAIDE MAIA,PROS,RN,Titular,2019 / 2027


# Enviando dataframes para database do SQL

In [66]:
senadores.to_sql('senadores',cnn)

81

# Unindo os dois dataframes em um só

Foi necessário criar um mecanismo de identificação de VARCHARs no SQL para rodar os joins corretamente:

> LOWER(REPLACE(x.SENADOR, ' ', '')) = LOWER(REPLACE(y.SENADOR, ' ', ''))

Infelizmente o cruzamento dos dados revelou uma distoência entre as tabelas, mostrando um número bem inferior aos totais.

In [67]:
%%sql

SELECT x.SENADOR, x.UF, x.PARTIDO, y.GASTOS_2018
FROM senadores AS x
INNER JOIN  sql_2018 AS y
ON LOWER(REPLACE(x.SENADOR, ' ', '')) = LOWER(REPLACE(y.SENADOR, ' ', ''))

 * sqlite:///jupyter_ceaps.db
Done.


SENADOR,UF,PARTIDO,GASTOS_2018
ACIR GURGACZ,RO,PDT,9917.0
ALVARO DIAS,PR,PODEMOS,7732.0
DAVI ALCOLUMBRE,AP,UNIÃO,27668.0
EDUARDO BRAGA,AM,MDB,8220.0
ELMANO FÉRRER,PI,PP,41180.0
FERNANDO BEZERRA COELHO,PE,MDB,129131.0
FERNANDO COLLOR,AL,PTB,436.0
GUARACY SILVEIRA,TO,PP,15593.0
HUMBERTO COSTA,PE,PT,111989.0
JADER BARBALHO,PA,MDB,2370.0


## Tabela de senadores afastados do serviço
> O site do senado apresenta duas tabelas de senadores afastados ou em vacância, aqui vamos unir essas tabelas.

In [68]:
#Tabela 01

data = pd.read_html('https://www25.senado.leg.br/web/senadores/fora-de-exercicio', encoding='utf8')
data = data[0]

data = data.drop(labels=[0,3,14,16,21], axis=0)

data

Unnamed: 0,Nome,Partido,UF,Motivo do afastamento
1,Ciro Nogueira,PP,PI,Afastamento do exercício
2,Diego Tavares,PP,PB,Afastamento do exercício
4,Carlos Fávaro,PSD,MT,Licença com convocação de suplente (sup 120 dias)
5,Cid Gomes,PDT,CE,Licença com convocação de suplente (sup 120 dias)
6,Eduardo Gomes,PL,TO,Licença com convocação de suplente (sup 120 dias)
7,Jorginho Mello,PL,SC,Licença com convocação de suplente (sup 120 dias)
8,Kátia Abreu,PP,TO,Licença com convocação de suplente (sup 120 dias)
9,Marcio Bittar,UNIÃO,AC,Licença com convocação de suplente (sup 120 dias)
10,Renan Calheiros,MDB,AL,Licença com convocação de suplente (sup 120 dias)
11,Rose de Freitas,MDB,ES,Licença com convocação de suplente (sup 120 dias)


In [69]:
# Tabela 02

data2 = pd.read_html('<div class="tab-pane sf-large-table-container active" id="vacancia"> <table class="table" title="Senadores fora de exercício"> <thead> <tr> <th>Nome</th> <th>Partido <a href="javascript:return 0;" data-toggle="tooltip" data-trigger="click" data-title="Informa filiação partidária na data do afastamento" data-original-title="" title=""><i class="icon icon-info-sign"></i></a></th> <th>UF</th> <th>Motivo do afastamento</th> </tr> </thead> <tbody> <tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/5529">Antonio Anastasia</a></td> <td>PSD</td> <td>MG</td> <td><span>Renúncia</span> </td> </tr><tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/751">Arolde de Oliveira</a></td> <td>PSD</td> <td>RJ</td> <td><span>Falecimento</span> </td> </tr><tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/3713">Fátima Bezerra</a></td> <td>PT</td> <td>RN</td> <td><span>Renúncia</span> </td> </tr><tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/4558">Gladson Cameli</a></td> <td>PP</td> <td>AC</td> <td><span>Renúncia</span> </td> </tr><tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/5929">Juíza Selma</a></td> <td>PODEMOS</td> <td>MT</td> <td><span>Cassação de registro/diploma pela Justiça Eleitoral</span> </td> </tr><tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/5666">Major Olimpio</a></td> <td>PSL</td> <td>SP</td> <td><span>Falecimento</span> </td> </tr><tr> <td><a href="https://www25.senado.leg.br/web/senadores/senador/-/perfil/456">Ronaldo Caiado</a></td> <td>DEM</td> <td>GO</td> <td><span>Renúncia</span> </td> </tr> </tbody> </table> </div>')
data2 = data2[0]
data2

Unnamed: 0,Nome,Partido,UF,Motivo do afastamento
0,Antonio Anastasia,PSD,MG,Renúncia
1,Arolde de Oliveira,PSD,RJ,Falecimento
2,Fátima Bezerra,PT,RN,Renúncia
3,Gladson Cameli,PP,AC,Renúncia
4,Juíza Selma,PODEMOS,MT,Cassação de registro/diploma pela Justiça Elei...
5,Major Olimpio,PSL,SP,Falecimento
6,Ronaldo Caiado,DEM,GO,Renúncia


## Unindo tabelas com a função _concat_ ( )

In [70]:
# criando frames para indexação da função concat

frames = [data, data2]

data_final = pd.concat(frames)

# reordena o index embaralhado pela função concat()
data_final.reset_index()

data_final = data_final.drop(labels=[33,34])

data_final.reset_index(drop=True)

# Alterando nome das colunas
data_final.rename(columns={'Nome': 'SENADOR', 'Partido':'PARTIDO', 
                          'Motivo do afastamento':'TITULARIDADE'}, inplace=True)

data_final

Unnamed: 0,SENADOR,PARTIDO,UF,TITULARIDADE
1,Ciro Nogueira,PP,PI,Afastamento do exercício
2,Diego Tavares,PP,PB,Afastamento do exercício
4,Carlos Fávaro,PSD,MT,Licença com convocação de suplente (sup 120 dias)
5,Cid Gomes,PDT,CE,Licença com convocação de suplente (sup 120 dias)
6,Eduardo Gomes,PL,TO,Licença com convocação de suplente (sup 120 dias)
7,Jorginho Mello,PL,SC,Licença com convocação de suplente (sup 120 dias)
8,Kátia Abreu,PP,TO,Licença com convocação de suplente (sup 120 dias)
9,Marcio Bittar,UNIÃO,AC,Licença com convocação de suplente (sup 120 dias)
10,Renan Calheiros,MDB,AL,Licença com convocação de suplente (sup 120 dias)
11,Rose de Freitas,MDB,ES,Licença com convocação de suplente (sup 120 dias)


## Tabela de senadores em legislatura
> Fonte: https://www25.senado.leg.br/web/senadores

In [71]:
senadores = pd.read_csv('dados/senadores.csv')

senadores = senadores.drop(['TELEFONES','DTNASC','EMAIL','CHEFE_GAB','ENDERECO','MANDATO'], axis=1)

# Alterando nome das colunas
senadores.rename(columns={'NOME_PARLAMENTAR': 'SENADOR'}, inplace=True)

senadores

Unnamed: 0,SENADOR,PARTIDO,UF,TITULARIDADE
0,ACIR GURGACZ,PDT,RO,Titular
1,ALESSANDRO VIEIRA,PSDB,SE,Titular
2,ALEXANDRE SILVEIRA,PSD,MG,1º Suplente
3,ALVARO DIAS,PODEMOS,PR,Titular
4,ANGELO CORONEL,PSD,BA,Titular
...,...,...,...,...
76,VANDERLAN CARDOSO,PSD,GO,Titular
77,VENEZIANO VITAL DO RÊGO,MDB,PB,Titular
78,WELLINGTON FAGUNDES,PL,MT,Titular
79,ZENAIDE MAIA,PROS,RN,Titular


In [72]:
# Importando dataframe do site do senado
index = list(range(0,108))

info_senadores = pd.read_html('https://www25.senado.leg.br/web/senadores/em-exercicio', encoding='utf8')
info_senadores = info_senadores[0]
info_senadores = info_senadores.drop(['Período','Telefones','Correio Eletrônico'], axis=1)
info_senadores

Unnamed: 0,Nome,Partido,UF
0,AC - Acre,AC - Acre,AC - Acre
1,Eduardo Velloso,UNIÃO,AC
2,Mailza Gomes,PP,AC
3,Maria das Vitórias,PSD,AC
4,AL - Alagoas,AL - Alagoas,AL - Alagoas
...,...,...,...
103,Mara Gabrilli,PSDB,SP
104,TO - Tocantins,TO - Tocantins,TO - Tocantins
105,Guaracy Silveira,PP,TO
106,Irajá,PSD,TO


In [73]:
# Alterando nome das colunas
info_senadores.rename(columns={'Nome': 'SENADOR', 'Partido': 'PARTIDO'}, inplace=True)

# Apply UPPERCASE
info_senadores['SENADOR'] = info_senadores['SENADOR'].str.upper()

# Retirando linhas desnecessárias (contendo nomes de estado)

d = {'SENADOR': info_senadores['SENADOR'], 'PARTIDO':info_senadores['PARTIDO'],'UF':info_senadores['UF']}
d = pd.DataFrame(data=d, index=index)

lst = list(range(0,107,4))
d=d.drop(lst, axis=0)

info_senadores = d
info_senadores


Unnamed: 0,SENADOR,PARTIDO,UF
1,EDUARDO VELLOSO,UNIÃO,AC
2,MAILZA GOMES,PP,AC
3,MARIA DAS VITÓRIAS,PSD,AC
5,FERNANDO COLLOR,PTB,AL
6,RAFAEL TENÓRIO,MDB,AL
...,...,...,...
102,JOSÉ SERRA,PSDB,SP
103,MARA GABRILLI,PSDB,SP
105,GUARACY SILVEIRA,PP,TO
106,IRAJÁ,PSD,TO


# Unindo tabelas de senadores em legislatura e afastados

In [74]:
frames = [data_final, senadores,info_senadores]

data = pd.concat(frames)

data.reset_index(drop=True)

data

Unnamed: 0,SENADOR,PARTIDO,UF,TITULARIDADE
1,Ciro Nogueira,PP,PI,Afastamento do exercício
2,Diego Tavares,PP,PB,Afastamento do exercício
4,Carlos Fávaro,PSD,MT,Licença com convocação de suplente (sup 120 dias)
5,Cid Gomes,PDT,CE,Licença com convocação de suplente (sup 120 dias)
6,Eduardo Gomes,PL,TO,Licença com convocação de suplente (sup 120 dias)
...,...,...,...,...
102,JOSÉ SERRA,PSDB,SP,
103,MARA GABRILLI,PSDB,SP,
105,GUARACY SILVEIRA,PP,TO,
106,IRAJÁ,PSD,TO,


## Exportando tabela para o banco de dados

In [75]:
data.to_sql('data1',cnn)

200

In [76]:
%%sql 

select UPPER(SENADOR) as SENADOR, PARTIDO, UF from data1 group by senador

 * sqlite:///jupyter_ceaps.db
(sqlite3.OperationalError) no such table: data1
[SQL: select UPPER(SENADOR) as SENADOR, PARTIDO, UF from data1 group by senador]
(Background on this error at: https://sqlalche.me/e/14/e3q8)


## Retiando registros repetidos e campos desnecessários

In [77]:
table1 = pd.read_sql_query('select UPPER(SENADOR) as SENADOR, PARTIDO, UF from data1 group by senador', cnn)
table1

Unnamed: 0,SENADOR,PARTIDO,UF
0,ACIR GURGACZ,PDT,RO
1,ALESSANDRO VIEIRA,PSDB,SE
2,ALEXANDRE SILVEIRA,PSD,MG
3,ALVARO DIAS,PODEMOS,PR
4,ANGELO CORONEL,PSD,BA
...,...,...,...
119,VIRGINIO DE CARVALHO,DEM,SE
120,WELLINGTON FAGUNDES,PL,MT
121,WEVERTON ROCHA,PDT,MA
122,ZENAIDE MAIA,PROS,RN


# Adicionando gastos de 2018 - 2022

## Retirando repetições

In [80]:
dados = pd.read_sql_query("SELECT (UPPER(a.SENADOR)) as SENADOR, a.UF, a.PARTIDO, b.GASTOS_2018, c.GASTOS_2019, d.GASTOS_2020, e.GASTOS_2021, f.GASTOS_2022 FROM data1 AS a INNER JOIN sql_2018 AS b ON LOWER(REPLACE(a.SENADOR, ' ', '')) = LOWER(REPLACE(b.SENADOR, ' ', '')) INNER JOIN sql_2019 AS c ON LOWER(REPLACE(b.SENADOR, ' ', '')) = LOWER(REPLACE(c.SENADOR, ' ', '')) INNER JOIN sql_2020 AS d ON LOWER(REPLACE(c.SENADOR, ' ', '')) = LOWER(REPLACE(d.SENADOR, ' ', '')) INNER JOIN sql_2021 AS e ON LOWER(REPLACE(d.SENADOR, ' ', '')) = LOWER(REPLACE(e.SENADOR, ' ', '')) INNER JOIN sql_2022 AS f ON LOWER(REPLACE(e.SENADOR, ' ', '')) = LOWER(REPLACE(f.SENADOR, ' ', ''))",cnn)

dados.to_sql('df_final',cnn)

# Retirando repetições
dados = pd.read_sql_query('select distinct * from df_final group by senador', cnn)

# retirando campo de índice
dados = dados.drop(['index'], axis=1)

dados

Unnamed: 0,SENADOR,UF,PARTIDO,GASTOS_2018,GASTOS_2019,GASTOS_2020,GASTOS_2021,GASTOS_2022
0,ACIR GURGACZ,RO,PDT,9917.0,13850.0,24334.0,4313.0,1206.0
1,ALVARO DIAS,PR,PODEMOS,7732.0,12780.0,1715.0,27.0,4166.0
2,ANTONIO ANASTASIA,MG,PSD,81273.0,138170.0,72869.0,114417.0,6490.0
3,DAVI ALCOLUMBRE,AP,UNIÃO,27668.0,4743.0,514.0,12558.0,120.0
4,DÁRIO BERGER,SC,PSB,74294.0,92645.0,47244.0,53187.0,34317.0
5,EDUARDO BRAGA,AM,MDB,8220.0,9364.0,2768.0,6254.0,2150.0
6,ELMANO FÉRRER,PI,PP,41180.0,80159.0,53287.0,77723.0,50688.0
7,FERNANDO BEZERRA COELHO,PE,MDB,129131.0,84348.0,79195.0,61151.0,46459.0
8,FERNANDO COLLOR,AL,PTB,436.0,275.0,1869.0,9533.0,12339.0
9,HUMBERTO COSTA,PE,PT,111989.0,95218.0,26354.0,72834.0,65412.0


In [None]:
# exportando dados

#dados.to_csv('tabela_gastos_2018_2022.csv')