# POC Projeto de Dissertação

## Sistema para checagem de doações de campanhas eleitorais por pessoas físicas e suas relações com empresas

**Objetivo**

Essa POC (Proof of Concept) tem o objetivo de validar os datasets, APIs, ferramentas e ideias a serem utilizadas no projeto através de um escopo menor.

**Candidato escolhido**: Geraldo Alckmin (PSDB)

**Motivação**: é o pré-candidato a presidente mais consolidado (com chances de concorrer) entre os que se apresentaram até agora. PSDB sempre apresenta candidatos à presidência, governo dos estados e capitais, o que nos dá uma volume maior de dados de doações pra trabalhar, além de podemos usar dados de apoio de campanhas anteriores do Alckmin para prefeitura/governo de SP.

**Eleições do Alckmin**

- 2002 - Governo do estado de São Paulo (eleito no segundo turno)
- 2006 - Presidência do Brasil (Derrotado no segundo turno)
- 2008 - Prefeitura de São Paulo (Derrotado no primeiro turno)
- 2010 - Governo do estado de São Paulo (eleito no primeiro turno)
- 2014 - Governo do estado de São Paulo (eleito no primeiro turno)

In [1]:
import pandas as pd
import glob
from sqlalchemy import create_engine, text


# Leitura do arquivo extraído do site do TSE que contem as receitas dos candidatos de SP nas Eleições de 2014
doacoes_candidato = pd.read_csv('/home/aiquis/Datasets/prestacao_contas_2014_sp/receitas_candidatos_2014_SP.txt',
                                sep=';', encoding='latin_1',
                                dtype={'CNPJ Prestador Conta': str, 'CPF do candidato': str,
                                       'CPF/CNPJ do doador': str, 'CPF/CNPJ do doador originário': str},
                                thousands='.', decimal=',',
                                low_memory=True, na_values=['#NULO', -1])

# Renomeando as colunas do DataFrame para que fiquem mais fáceis de trabalhar
doacoes_candidato.columns = ['cod_eleicao', 'desc_eleicao', 'data_hora',
                             'cnpj_prestador_conta', 'sequencial_candidato',
                             'uf', 'sigla_partido', 'num_candidato', 'cargo',
                             'nome_candidato', 'cpf_candidato', 'num_recibo_eleitoral',
                             'num_documento', 'cpf_cnpj_doador', 'nome_doador',
                             'nome_doador_receita', 'sigla_ue_doador', 'num_partido_doador',
                             'num_candidato_doador', 'cod_setor_econ_doador',
                             'setor_econ_doador', 'data_receita', 'valor_receita',
                             'tipo_receita', 'fonte_recurso', 'especie_recurso',
                             'desc_receita', 'cpf_cnpj_doador_originario',
                             'nome_doador_originario', 'tipo_doador_originario',
                             'setor_econ_doador_originario', 'nome_doador_originario_rf']

# Atribui ao DataFrame doacoes_alckmin apenas as doações referentes ao candidato Alckmin
doacoes_alckmin = doacoes_candidato[doacoes_candidato.cpf_candidato == 54914906872]

# Mantendo no DataFrame somente as colunas que são interessantes à análise
doacoes_alckmin = doacoes_candidato[['cpf_cnpj_doador', 'nome_doador',
                                     'nome_doador_receita', 'sigla_ue_doador', 'cod_setor_econ_doador', 'setor_econ_doador', 'valor_receita',
                                     'tipo_receita', 'tipo_receita', 'fonte_recurso', 'especie_recurso',
                                     'desc_receita', 'cpf_cnpj_doador_originario',
                                     'nome_doador_originario', 'tipo_doador_originario',
                                     'setor_econ_doador_originario', 'nome_doador_originario_rf']]

print(doacoes_alckmin.info())  # 80.876 registros

# Separando os diferentes tipos de doadores em DataFrames diferentes para analisá-los separadamente

doacoes_alckmin_pf = doacoes_alckmin[doacoes_alckmin.tipo_doador_originario == 'F']
# 3.089 registros
doacoes_alckmin_pj = doacoes_alckmin[doacoes_alckmin.tipo_doador_originario == 'J']
# 14.470 registros
doacoes_alckmin_nan = doacoes_alckmin[doacoes_alckmin.tipo_doador_originario.isnull(
)]  # 63.317 registros

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80876 entries, 0 to 80875
Data columns (total 17 columns):
cpf_cnpj_doador                 80747 non-null object
nome_doador                     80747 non-null object
nome_doador_receita             80736 non-null object
sigla_ue_doador                 46316 non-null object
cod_setor_econ_doador           48511 non-null float64
setor_econ_doador               48511 non-null object
valor_receita                   80876 non-null float64
tipo_receita                    80876 non-null object
tipo_receita                    80876 non-null object
fonte_recurso                   80876 non-null object
especie_recurso                 80876 non-null object
desc_receita                    53687 non-null object
cpf_cnpj_doador_originario      17559 non-null object
nome_doador_originario          17565 non-null object
tipo_doador_originario          17559 non-null object
setor_econ_doador_originario    14447 non-null object
nome_doador_originario_rf

O volume de doações feitos pelas próprias instituições partidárias é muito alto e acaba ficando descrepante com as doações feitas por empresas ou pessoas. Para ter uma análise melhor, vou retirar das doações as doações que tiveram `nome_doador` que contenham os seguintes termos:

- Direção
- Comitê
- ELEIÇÃO 2014
- ELEIÇAO 2014
- ELEICAO 2014

In [2]:
def sum_doacoes_cpfcnpj(doacoes):
    """Função que retorna um DataFrame com a soma das doações agregadas por CPF/CNPJ e nome do doador"""
    doacoes_agrupadas = doacoes.groupby(['cpf_cnpj_doador', 'nome_doador_receita'])[
        'valor_receita'].sum().to_frame(name='sum').sort_values('sum', ascending=False)
    return doacoes_agrupadas


def limpa_doacoes_partido(doacoes):
    """Retorna um DataFrame sem doações vindas de instiuções partidárias (direção, comitê, outros candidatos etc)"""
    doacoes_limpas = (~doacoes['nome_doador_receita'].str.contains('Direção', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('Comitê', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('ELEIÇÃO', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('ELEIÇAO', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('ELEICAO', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('ELEIÇÕES', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('ELEIÇOES', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('ELEICOES', na=False) &
                      ~doacoes['nome_doador_receita'].str.contains('PARTIDO', na=False))
    doacoes = doacoes[doacoes_limpas == True]
    return doacoes


doacoes_alckmin_nan = limpa_doacoes_partido(doacoes_alckmin_nan)
doacoes_alckmin_nan = sum_doacoes_cpfcnpj(doacoes_alckmin_nan)

doacoes_alckmin_nan.index.rename('cpf_cnpj_doador', level=0, inplace=True)
doacoes_alckmin_nan.index.rename('nome_doador_receita', level=1, inplace=True)

doacoes_alckmin_nan

Unnamed: 0_level_0,Unnamed: 1_level_0,sum
cpf_cnpj_doador,nome_doador_receita,Unnamed: 2_level_1
60701190000104,ITAU UNIBANCO S.A.,4068000.00
04449030000130,ADOBE ASSESSORIA DE SERVICOS CADASTRAIS S.A.,2500000.00
61649810000168,SUCOCITRICO CUTRALE LTDA,2303000.00
51466860000156,SAO MARTINHO S/A,2272400.00
61186680000174,BANCO BMG SA,2225000.00
61442737000159,INDUSTRIAS BRASILEIRAS DE ARTIGOS REFRATARIOS - IBAR - LTDA,2190000.00
62011788000199,LITUCERA LIMPEZA E ENGENHARIA LTDA,2100000.00
10265949000177,COPERSUCAR S.A.,2010576.00
63935829000104,SPIRAL DO BRASIL LTDA,1771746.82
39318225000126,BRAZIL TRADING LTDA,1700000.00


Após analisar os 3 DataFrames (PF, PJ e NaN) vemos que a maior parte das doações (tanto de empresas quanto de pessoas físicas) está no `doacoes_alckmin_nan`. Por conta disso, vamos seguir a análise utilizando esse DataFrame e deixar os outros de lado por enquanto.

In [3]:
# Atribuição das top 20 empresas que doaram pra campanha do Alckimin em 2014 para o DataFrame doacoes_alckmin_nan_top20
doacoes_alckmin_nan_top20 = doacoes_alckmin_nan[0:20]
doacoes_alckmin_nan_top20 = doacoes_alckmin_nan_top20.reset_index()
doacoes_alckmin_nan_top20

Unnamed: 0,cpf_cnpj_doador,nome_doador_receita,sum
0,60701190000104,ITAU UNIBANCO S.A.,4068000.0
1,4449030000130,ADOBE ASSESSORIA DE SERVICOS CADASTRAIS S.A.,2500000.0
2,61649810000168,SUCOCITRICO CUTRALE LTDA,2303000.0
3,51466860000156,SAO MARTINHO S/A,2272400.0
4,61186680000174,BANCO BMG SA,2225000.0
5,61442737000159,INDUSTRIAS BRASILEIRAS DE ARTIGOS REFRATARIOS ...,2190000.0
6,62011788000199,LITUCERA LIMPEZA E ENGENHARIA LTDA,2100000.0
7,10265949000177,COPERSUCAR S.A.,2010576.0
8,63935829000104,SPIRAL DO BRASIL LTDA,1771746.82
9,39318225000126,BRAZIL TRADING LTDA,1700000.0


In [4]:
"""
Nessa parte do código fazemos a leitura da base de sócios de empresas no Brasil, obtida no site da Receita Federal e
tratada e disponibilizada em formato CSV/sqlite no seguinte repositório https://github.com/turicas/socios-brasil

Optei por fazer o download do arquivo .sqlite atualizado no dia 02/02/2018 ao invés de rodar os scripts que estão
no repositório acima mencionado

A query é executado no banco SQLite e traz todos os registros do QSA das top 20 empresas doadoras para a campanha do
Alckmin ao governo de SP em 2014
"""

query = text(
"""
    SELECT  cnpj_empresa,
            tipo_socio,
            cpf_cnpj_socio,
            qualificacao_socio,
            nome_socio
    FROM socios
    WHERE cnpj_empresa IN
    ('60701190000104',
    '04449030000130',
    '61649810000168',
    '51466860000156',
    '61186680000174',
    '61442737000159',
    '62011788000199',
    '10265949000177',
    '63935829000104',
    '39318225000126',
    '50220656000198',
    '19377221000101',
    '07359641000186',
    '33010851000174',
    '01637895000132',
    '02038394000100',
    '47080619001199',
    '05332851000155',
    '08411277000119',
    '48540421000131')
""")
engine = create_engine('sqlite:////mnt/hgfs/SharedVM/socios-brasil.sqlite')

socios = pd.read_sql(query, con=engine)

socios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 5 columns):
cnpj_empresa          209 non-null object
tipo_socio            209 non-null object
cpf_cnpj_socio        209 non-null object
qualificacao_socio    209 non-null object
nome_socio            209 non-null object
dtypes: object(5)
memory usage: 8.2+ KB


In [5]:
# Merge da base de sócios com o DataFrame de top 20 doadores
doacoes_alckmin_nan_top20 = doacoes_alckmin_nan_top20.merge(socios, how='inner', left_on='cpf_cnpj_doador',
                                right_on='cnpj_empresa')
print(doacoes_alckmin_nan_top20)

#doacoes_alckmin_nan_top20.to_csv(r"/home/aiquis/Datasets/top20_doadores_alckmin_2014.csv", sep=';', header=True, index=False)

    cpf_cnpj_doador                                nome_doador_receita  \
0    60701190000104                                 ITAU UNIBANCO S.A.   
1    60701190000104                                 ITAU UNIBANCO S.A.   
2    60701190000104                                 ITAU UNIBANCO S.A.   
3    60701190000104                                 ITAU UNIBANCO S.A.   
4    60701190000104                                 ITAU UNIBANCO S.A.   
5    60701190000104                                 ITAU UNIBANCO S.A.   
6    60701190000104                                 ITAU UNIBANCO S.A.   
7    60701190000104                                 ITAU UNIBANCO S.A.   
8    60701190000104                                 ITAU UNIBANCO S.A.   
9    60701190000104                                 ITAU UNIBANCO S.A.   
10   60701190000104                                 ITAU UNIBANCO S.A.   
11   60701190000104                                 ITAU UNIBANCO S.A.   
12   60701190000104                   

In [6]:
"""
Essa parte do código é onde trazemos e tratamos a lista de tweets que contém o termo "alckmin" gerados no
período de campanha eleitoral de 2014, que foi de 06/07/14 até 05/10/2014. Para obter esses tweets foi utilizado
o script disponibilizado no seguinte repositório https://github.com/Jefferson-Henrique/GetOldTweets-python pois
a API pública do Twitter só permite recuperar tweets de até 1 semana pra trás da data corrente
"""

arquivos_path = r'/home/aiquis/Datasets'
arquivos = glob.glob(arquivos_path + "/tweets_alckmin_*.csv")

alckmin_tweets_campanha = pd.DataFrame()
lista = []

for arquivo in arquivos:
    df = pd.read_csv(arquivo, sep=';')
    lista.append(df)
    
alckmin_tweets_campanha = pd.concat(lista)

alckmin_tweets_campanha = alckmin_tweets_campanha.drop(['Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12'], axis=1)

alckmin_tweets_campanha.info()

alckmin_tweets_campanha.to_csv(r"/home/aiquis/Datasets/alckmin_tweets_campanha.csv", sep=';', header=True, index=False)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 122254 entries, 0 to 40353
Data columns (total 10 columns):
date         122254 non-null object
favorites    122254 non-null int64
geo          2302 non-null object
hashtags     19731 non-null object
id           119953 non-null object
mentions     25422 non-null object
permalink    119958 non-null object
retweets     122254 non-null int64
text         122254 non-null object
username     0 non-null float64
dtypes: float64(1), int64(2), object(7)
memory usage: 10.3+ MB


In [7]:
"""
Gerei um regex para cada uma das top 20 doadoras (as que tinham nome fantasia claro) para buscar, na lista
de tweets que contém o termo "alckmin" quais também contém o nome de uma de suas principais doadoras
"""

string_itau = r'(?i)(itau|itaú|unibanco|itau unibanco|itaú unibanco)'
string_bmg = r'(?i)(banco bmg|bmg)'
string_copersucar = r'(?i)(copersucar)'
string_ibar = r'(?i)(ibar|indústria brasileira de artigos refratários)'
string_serveng = r'(?i)(serveng)'
string_martinho = r'(?i)(são martinho|sao martinho)'
string_cutrale = r'(?i)(cutrale)'
string_litucera = r'(?i)(litucera)'
string_bradesco = r'(?i)(bradesco)'
string_spiral = r'(?i)(spiral)'
string_gerdau = r'(?i)(gerdau)'
string_votorantim = r'(?i)(votorantim)'
string_bf = r'(?i)(bf promotora|bradesco promotora)'
string_guarani = r'(?i)(guarani|guarani s.a.|guarani sa)'
string_dmdl = r'(?i)(dmdl)'
string_australia = r'(?i)(australia|australia empreendimentos|australia empreendimentos imobiliarios|australia empreendimentos imobiliários)'

def tweets_empresas(df, regex_empresa):
    """
    Recebe um dataframe com tweets e uma string regex e retorna um DataFrame com os tweets que contém o termo
    """
    tweets_series = pd.Series(df['text']).str.contains(regex_empresa)
    df_empresa = df[tweets_series == True]
    return df_empresa

def gera_csv(df, filename):
    df.to_csv(r"/home/aiquis/Datasets/"+filename+".csv", sep=';', header=True, index=False)

In [8]:
"""
Printando o resultado da busca por todas as empresas na lista dos tweets que contém o termo "alckmin".
O primeiro número dentro do parêntese, após o nome do DataFrame, é a quantidade de registros contidos
no DataFrame
"""

df_tweets_itau_alckmin = tweets_empresas(alckmin_tweets_campanha, string_itau)
print('df_tweets_itau_alckmin'+' '+str(df_tweets_itau_alckmin.shape))

df_tweets_bmg_alckmin = tweets_empresas(alckmin_tweets_campanha, string_bmg)
print('df_tweets_bmg_alckmin'+' '+str(df_tweets_bmg_alckmin.shape))

df_tweets_copersucar_alckmin = tweets_empresas(alckmin_tweets_campanha, string_copersucar)
print('df_tweets_copersucar_alckmin'+' '+str(df_tweets_copersucar_alckmin.shape))

df_tweets_ibar_alckmin = tweets_empresas(alckmin_tweets_campanha, string_ibar)
print('df_tweets_ibar_alckmin'+' '+str(df_tweets_ibar_alckmin.shape))

df_tweets_serveng_alckmin = tweets_empresas(alckmin_tweets_campanha, string_serveng)
print('df_tweets_serveng_alckmin'+' '+str(df_tweets_serveng_alckmin.shape))

df_tweets_martinho_alckmin = tweets_empresas(alckmin_tweets_campanha, string_martinho)
print('df_tweets_martinho_alckmin'+' '+str(df_tweets_martinho_alckmin.shape))

df_tweets_cutrale_alckmin = tweets_empresas(alckmin_tweets_campanha, string_cutrale)
print('df_tweets_cutrale_alckmin'+' '+str(df_tweets_cutrale_alckmin.shape))

df_tweets_litucera_alckmin = tweets_empresas(alckmin_tweets_campanha, string_litucera)
print('df_tweets_litucera_alckmin'+' '+str(df_tweets_litucera_alckmin.shape))

df_tweets_bradesco_alckmin = tweets_empresas(alckmin_tweets_campanha, string_bradesco)
print('df_tweets_bradesco_alckmin'+' '+str(df_tweets_bradesco_alckmin.shape))

df_tweets_spiral_alckmin = tweets_empresas(alckmin_tweets_campanha, string_spiral)
print('df_tweets_spiral_alckmin'+' '+str(df_tweets_spiral_alckmin.shape))

df_tweets_gerdau_alckmin = tweets_empresas(alckmin_tweets_campanha, string_gerdau)
print('df_tweets_gerdau_alckmin'+' '+str(df_tweets_gerdau_alckmin.shape))

df_tweets_votorantim_alckmin = tweets_empresas(alckmin_tweets_campanha, string_votorantim)
print('df_tweets_votorantim_alckmin'+' '+str(df_tweets_votorantim_alckmin.shape))

df_tweets_bf_alckmin = tweets_empresas(alckmin_tweets_campanha, string_bf)
print('df_tweets_bf_alckmin'+' '+str(df_tweets_bf_alckmin.shape))

df_tweets_guarani_alckmin = tweets_empresas(alckmin_tweets_campanha, string_guarani)
print('df_tweets_guarani_alckmin'+' '+str(df_tweets_guarani_alckmin.shape))

df_tweets_dmdl_alckmin = tweets_empresas(alckmin_tweets_campanha, string_dmdl)
print('df_tweets_dmdl_alckmin'+' '+str(df_tweets_dmdl_alckmin.shape))

df_tweets_australia_alckmin = tweets_empresas(alckmin_tweets_campanha, string_australia)
print('df_tweets_australia_alckmin'+' '+str(df_tweets_australia_alckmin.shape))



df_tweets_itau_alckmin (29, 10)
df_tweets_bmg_alckmin (6, 10)
df_tweets_copersucar_alckmin (1, 10)
df_tweets_ibar_alckmin (5, 10)
df_tweets_serveng_alckmin (1, 10)
df_tweets_martinho_alckmin (0, 10)
df_tweets_cutrale_alckmin (0, 10)
df_tweets_litucera_alckmin (0, 10)
df_tweets_bradesco_alckmin (0, 10)
df_tweets_spiral_alckmin (2, 10)
df_tweets_gerdau_alckmin (0, 10)
df_tweets_votorantim_alckmin (1, 10)
df_tweets_bf_alckmin (0, 10)
df_tweets_guarani_alckmin (7, 10)
df_tweets_dmdl_alckmin (0, 10)
df_tweets_australia_alckmin (3, 10)
