# <center> Udacity - Nanodegree Engenheiro de Machine Learning </center>
## <center> Capstone Project </center>
## <center> Eliézer F. Bourchardt </center>
## <center> Predição de Eleição de Candidatos a Deputados Estadual e Federal </center>


### <center>Parte 1 - Preparação do Dataset</center>
Os dados utilizados são referente a eleição de 2014 e disponibilizados pelo TSE:
* Dados dos candidatos em http://agencia.tse.jus.br/estatistica/sead/odsele/consulta_cand/consulta_cand_2014.zip
* Dados dos bens do candidato em  http://agencia.tse.jus.br/estatistica/sead/odsele/bem_candidato/bem_candidato_2014.zip
* Dados das receitas dos candidatos em https://www.kaggle.com/felipeleiteantunes/electoral-donations-brazil2014/downloads/receitas_candidatos_2014_brasil.txt

* Os dois primeiros datasets estão disponíveis separados por UF, neste projeto é necessário que eles estejam consolidados em um único arquivo. 
* Para esta tarefa, basta executar o script "merge_files_brazil.py" disponível juntamente com este projeto. 
* Este script irá gerar um arquivo "bem_candidato_2014_Brazil.csv" e "consulta_cand_2014_Brazil.csv".

### 1.1 Importação das bibliotecas e preparação do ambiente

In [1]:
import pandas as pd
import numpy as np
import platform
from IPython.display import display, HTML
import os.path

import matplotlib.pyplot as plt

In [2]:
%matplotlib inline

In [3]:
pd.options.display.float_format = '{:.2f}'.format
pd.set_option('display.max_columns', None)

In [4]:
# Define o diretório onde estão os datasets e verifica se o diretório está correto
path = 'Data//'
print ('Path OK:' if os.path.exists(path) else 'Path não localizado:')
print(path)

Path OK:
Data//


### 1.2 Preparação do dataset de Candidatos

In [5]:
# Carrega os dados dos candidatos
df_candidatos = pd.read_csv(path+'consulta_cand_2014_Brazil.csv', encoding='latin1', sep=';')
display(df_candidatos.head())
print(df_candidatos.shape)

Unnamed: 0,DATA_GERACAO,HORA_GERACAO,ANO_ELEICAO,NUM_TURNO,DESCRICAO_ELEICAO,SIGLA_UF,SIGLA_UE,DESCRICAO_UE,CODIGO_CARGO,DESCRICAO_CARGO,NOME_CANDIDATO,SEQUENCIAL_CANDIDATO,NUMERO_CANDIDATO,CPF_CANDIDATO,NOME_URNA_CANDIDATO,COD_SITUACAO_CANDIDATURA,DES_SITUACAO_CANDIDATURA,NUMERO_PARTIDO,SIGLA_PARTIDO,NOME_PARTIDO,CODIGO_LEGENDA,SIGLA_LEGENDA,COMPOSICAO_LEGENDA,NOME_LEGENDA,CODIGO_OCUPACAO,DESCRICAO_OCUPACAO,DATA_NASCIMENTO,NUM_TITULO_ELEITORAL_CANDIDATO,IDADE_DATA_ELEICAO,CODIGO_SEXO,DESCRICAO_SEXO,COD_GRAU_INSTRUCAO,DESCRICAO_GRAU_INSTRUCAO,CODIGO_ESTADO_CIVIL,DESCRICAO_ESTADO_CIVIL,CODIGO_COR_RACA,DESCRICAO_COR_RACA,CODIGO_NACIONALIDADE,DESCRICAO_NACIONALIDADE,SIGLA_UF_NASCIMENTO,CODIGO_MUNICIPIO_NASCIMENTO,NOME_MUNICIPIO_NASCIMENTO,DESPESA_MAX_CAMPANHA,COD_SIT_TOT_TURNO,DESC_SIT_TOT_TURNO,NM_EMAIL
0,05/11/2017,03:00:48,2014,1,Eleições Gerais 2014,AC,AC,ACRE,7,DEPUTADO ESTADUAL,BENEDITO SILVA BARBOSA,10000000504,23230,30790301253,PROFESSOR BENE,2,DEFERIDO,23,PPS,PARTIDO POPULAR SOCIALISTA,10000000034,#NULO#,PPS / PR / SD,Aliança Por Um Acre Melhor III,266,PROFESSOR DE ENSINO MÉDIO,15/05/1968,340902410,46,2,MASCULINO,8,SUPERIOR COMPLETO,9,DIVORCIADO(A),3,PARDA,1,BRASILEIRA NATA,AC,-3,RIO BRANCO,1000000,5,SUPLENTE,#NULO#
1,05/11/2017,03:00:48,2014,1,Eleições Gerais 2014,AC,AC,ACRE,7,DEPUTADO ESTADUAL,MARIA APARECIDA ALVES DE SOUZA,10000000055,12221,70651396204,CIDA BAIANINHA,2,DEFERIDO,12,PDT,PARTIDO DEMOCRÁTICO TRABALHISTA,10000000021,#NULO#,PDT,PARTIDO ISOLADO,254,VIGILANTE,22/07/1982,4063702488,32,4,FEMININO,6,ENSINO MÉDIO COMPLETO,1,SOLTEIRO(A),3,PARDA,1,BRASILEIRA NATA,BA,-3,BOM JESUS DA LAPA,600000,5,SUPLENTE,#NULO#
2,05/11/2017,03:00:48,2014,1,Eleições Gerais 2014,AC,AC,ACRE,7,DEPUTADO ESTADUAL,ASTÉRIO DE PAULA MOREIRA FILHO,10000000206,51012,9136452220,ASTÉRIO MOREIRA,2,DEFERIDO,51,PEN,PARTIDO ECOLÓGICO NACIONAL,10000000028,#NULO#,PT / PEN / PROS,FRENTE POPULAR DO ACRE 5,277,DEPUTADO,24/02/1961,1389522410,53,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),3,PARDA,1,BRASILEIRA NATA,AC,-3,BRASILEIA,600000,5,SUPLENTE,ASTERIOMOREIRA12@GMAIL.COM
3,05/11/2017,03:00:48,2014,1,Eleições Gerais 2014,AC,AC,ACRE,7,DEPUTADO ESTADUAL,JOSÉ MASTRANGELO FILHO,10000000514,23444,80854710272,JOSÉ MASTRANGELO,2,DEFERIDO,23,PPS,PARTIDO POPULAR SOCIALISTA,10000000034,#NULO#,PPS / PR / SD,Aliança Por Um Acre Melhor III,171,JORNALISTA E REDATOR,11/05/1984,3989252496,30,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,1,BRASILEIRA NATA,AC,-3,RIO BRANCO,1000000,5,SUPLENTE,#NULO#
4,05/11/2017,03:00:48,2014,1,Eleições Gerais 2014,AC,AC,ACRE,7,DEPUTADO ESTADUAL,CARLOS ANDRÉ MENEZES DE OLIVEIRA,10000000519,23999,51483092291,ANDRÉ MENEZES,2,DEFERIDO,23,PPS,PARTIDO POPULAR SOCIALISTA,10000000034,#NULO#,PPS / PR / SD,Aliança Por Um Acre Melhor III,244,TÉCNICO EM EDIFICAÇÕES,03/10/1980,3437152496,34,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,1,SOLTEIRO(A),1,BRANCA,1,BRASILEIRA NATA,AC,-3,RIO BRANCO,1000000,5,SUPLENTE,#NULO#


(26245, 46)


<b>Exploração inicial</b>

In [6]:
# lista todos os cargos da eleição
df_candidatos[['CODIGO_CARGO', 'DESCRICAO_CARGO']].groupby(['CODIGO_CARGO', 'DESCRICAO_CARGO']).count()

CODIGO_CARGO,DESCRICAO_CARGO
1,PRESIDENTE
2,VICE-PRESIDENTE
3,GOVERNADOR
4,VICE-GOVERNADOR
5,SENADOR
6,DEPUTADO FEDERAL
7,DEPUTADO ESTADUAL
8,DEPUTADO DISTRITAL
9,1º SUPLENTE
10,2º SUPLENTE


In [7]:
# lista os códigos de cor/raça
df_candidatos[['CODIGO_COR_RACA', 'DESCRICAO_COR_RACA']].groupby(['CODIGO_COR_RACA', 'DESCRICAO_COR_RACA']).count()

CODIGO_COR_RACA,DESCRICAO_COR_RACA
1,BRANCA
2,PRETA
3,PARDA
4,AMARELA
5,INDÍGENA


In [8]:
# Lista as situações das candidaturas e seus códigos
df_candidatos[['COD_SITUACAO_CANDIDATURA', 
               'DES_SITUACAO_CANDIDATURA']].groupby(['COD_SITUACAO_CANDIDATURA', 
                                                     'DES_SITUACAO_CANDIDATURA']).count()


COD_SITUACAO_CANDIDATURA,DES_SITUACAO_CANDIDATURA
2,DEFERIDO
4,INDEFERIDO COM RECURSO
5,CANCELADO
6,RENÚNCIA
7,FALECIDO
10,CASSADO
13,NÃO CONHECIMENTO DO PEDIDO
14,INDEFERIDO
16,DEFERIDO COM RECURSO
17,SUBSTITUTO PENDENTE DE JULGAMENTO


In [9]:
# Separa as colunas de interesse que são relevantes para a análise
cols_of_interest = ['SIGLA_UF','CODIGO_CARGO','DESCRICAO_CARGO','NOME_CANDIDATO','SEQUENCIAL_CANDIDATO',
                    'COD_SITUACAO_CANDIDATURA','DES_SITUACAO_CANDIDATURA','NUMERO_PARTIDO','CODIGO_LEGENDA',
                    'CODIGO_OCUPACAO','DESCRICAO_OCUPACAO','IDADE_DATA_ELEICAO','CODIGO_SEXO','DESCRICAO_SEXO',
                    'COD_GRAU_INSTRUCAO','DESCRICAO_GRAU_INSTRUCAO','CODIGO_ESTADO_CIVIL','DESCRICAO_ESTADO_CIVIL',
                    'CODIGO_COR_RACA','DESCRICAO_COR_RACA','CODIGO_NACIONALIDADE','DESCRICAO_NACIONALIDADE',
                    'DESPESA_MAX_CAMPANHA','COD_SIT_TOT_TURNO','DESC_SIT_TOT_TURNO']

df_candidatos = df_candidatos[cols_of_interest]

# Filtra apenas os candidatos a deputado (federal, estadual e distrital) 
df_candidatos = df_candidatos[(df_candidatos['CODIGO_CARGO'] >= 6) & 
                              (df_candidatos['CODIGO_CARGO'] <= 8)] 

# E somente candidaturas deferidas ou deferido com recurso
df_candidatos = df_candidatos[((df_candidatos['COD_SITUACAO_CANDIDATURA']) == 2) | 
                              ((df_candidatos['COD_SITUACAO_CANDIDATURA']) == 16)] 

quantidade_candidatos = df_candidatos[(df_candidatos['COD_SITUACAO_CANDIDATURA'] == 2) | 
                                      (df_candidatos['COD_SITUACAO_CANDIDATURA'] == 16)].shape[0]

quantidade_eleitos = df_candidatos[(df_candidatos['COD_SIT_TOT_TURNO'] == 2) | 
                                   (df_candidatos['COD_SIT_TOT_TURNO'] == 3)].shape[0]

print ('Total de candidatos a deputados com candidaturas deferidas: ', quantidade_candidatos)
print ('Total de candidatos eleitos:', quantidade_eleitos, ((quantidade_eleitos / quantidade_candidatos)*100),'%')

Total de candidatos a deputados com candidaturas deferidas:  21124
Total de candidatos eleitos: 1572 7.441772391592501 %


### 1.3 Preparação do dataset dos bens declarados dos candidatos

In [10]:
df_bem = pd.read_csv(path+'bem_candidato_2014_Brazil.csv', encoding='latin1', sep=';')
df_bem.head()

Unnamed: 0,DATA_GERACAO,HORA_GERACAO,ANO_ELEICAO,DESCRICAO_ELEICAO,SIGLA_UF,SQ_CANDIDATO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,DETALHE_BEM,VALOR_BEM,DATA_ULTIMA_ATUALIZACAO,HORA_ULTIMA_ATUALIZACAO
0,05/11/2017,03:00:31,2014,Eleições Gerais 2014,AC,10000000001,32,Quotas ou quinhões de capital,8360 QUOTAS DE CAPITAL SOCIAL DA EMPRESA MARMU...,8360.0,01/10/2016,13:41:32
1,05/11/2017,03:00:31,2014,Eleições Gerais 2014,AC,10000000001,21,"Veículo automotor terrestre: caminhão, automóv...","AUTOMÓVEL HILUX CD,",143000.0,01/10/2016,13:41:32
2,05/11/2017,03:00:31,2014,Eleições Gerais 2014,AC,10000000001,45,"Aplicação de renda fixa (CDB, RDB e outros)",POUPEX BANCO DO BRASIL,148.84,01/10/2016,13:41:32
3,05/11/2017,03:00:31,2014,Eleições Gerais 2014,AC,10000000001,61,Depósito bancário em conta corrente no País,SALDO EM CONTA BANCÁRIA (BANCO DO BRASIL),937.91,01/10/2016,13:41:32
4,05/11/2017,03:00:31,2014,Eleições Gerais 2014,AC,10000000001,61,Depósito bancário em conta corrente no País,SALDO EM CONTA BANCÁRIA (BANCO DO BRASIL) CONT...,4152.12,01/10/2016,13:41:32


In [11]:
# visualiza os bens de um candidato aleatório, para posterior conferência
cand_teste = 270000000212
df_bem[df_bem['SQ_CANDIDATO'] == cand_teste ]

Unnamed: 0,DATA_GERACAO,HORA_GERACAO,ANO_ELEICAO,DESCRICAO_ELEICAO,SIGLA_UF,SQ_CANDIDATO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,DETALHE_BEM,VALOR_BEM,DATA_ULTIMA_ATUALIZACAO,HORA_ULTIMA_ATUALIZACAO
82205,05/11/2017,03:00:31,2014,Eleições Gerais 2014,TO,270000000212,21,"Veículo automotor terrestre: caminhão, automóv...","UM VEICULO FORD FIESTA , ANO 206/2007",22000.0,01/10/2016,15:41:32
82206,05/11/2017,03:00:31,2014,Eleições Gerais 2014,TO,270000000212,29,Outros bens móveis,"LOTE URBANO DE 384 Mª, RUA 13 DE MAIO, NOVO AL...",20000.0,01/10/2016,15:41:32
82207,05/11/2017,03:00:31,2014,Eleições Gerais 2014,TO,270000000212,29,Outros bens móveis,"UM LOTE URBANO DE 360 Mª, LOTEAMENTO LUZIMANGU...",30000.0,01/10/2016,15:41:32


In [12]:
df_soma_bens = df_bem.groupby(['SQ_CANDIDATO']).agg({'VALOR_BEM': lambda x: x.sum()}).reset_index()

In [13]:
# confere se os valores estão corretos
display(df_soma_bens[df_soma_bens['SQ_CANDIDATO'] == cand_teste])

Unnamed: 0,SQ_CANDIDATO,VALOR_BEM
15143,270000000212,72000.0


<b>Realiza o merge da soma dos bens com o dataset de candidatos</b>

In [14]:
df_candidatos = df_candidatos.merge(df_soma_bens, left_on = 'SEQUENCIAL_CANDIDATO', right_on = 'SQ_CANDIDATO', how='left')
df_candidatos.drop('SQ_CANDIDATO', axis=1, inplace=True)
display(df_candidatos[df_candidatos['SEQUENCIAL_CANDIDATO'] == cand_teste])


Unnamed: 0,SIGLA_UF,CODIGO_CARGO,DESCRICAO_CARGO,NOME_CANDIDATO,SEQUENCIAL_CANDIDATO,COD_SITUACAO_CANDIDATURA,DES_SITUACAO_CANDIDATURA,NUMERO_PARTIDO,CODIGO_LEGENDA,CODIGO_OCUPACAO,DESCRICAO_OCUPACAO,IDADE_DATA_ELEICAO,CODIGO_SEXO,DESCRICAO_SEXO,COD_GRAU_INSTRUCAO,DESCRICAO_GRAU_INSTRUCAO,CODIGO_ESTADO_CIVIL,DESCRICAO_ESTADO_CIVIL,CODIGO_COR_RACA,DESCRICAO_COR_RACA,CODIGO_NACIONALIDADE,DESCRICAO_NACIONALIDADE,DESPESA_MAX_CAMPANHA,COD_SIT_TOT_TURNO,DESC_SIT_TOT_TURNO,VALOR_BEM
21122,TO,7,DEPUTADO ESTADUAL,GLAUCO RAFAEL DA COSTA MADUREIRA,270000000212,2,DEFERIDO,12,270000000008,297,SERVIDOR PÚBLICO ESTADUAL,30,2,MASCULINO,7,SUPERIOR INCOMPLETO,3,CASADO(A),1,BRANCA,1,BRASILEIRA NATA,1500000,5,SUPLENTE,72000.0


In [15]:
if df_candidatos.shape[0] == quantidade_candidatos:
    print('Merge OK')

Merge OK


### 1.4 Preparação do dataset das receitas (doações) dos candidatos

In [16]:
df_doacoes = pd.read_csv(path+'receitas_candidatos_2014_brasil.txt.zip', compression='zip', 
                         encoding='latin1', sep=';', decimal=",")
df_doacoes = df_doacoes[df_doacoes['Cargo'].str.startswith('Deputado')]

  interactivity=interactivity, compiler=compiler, result=result)


In [17]:
df_doacoes[df_doacoes['Sequencial Candidato'] == 10000000393]

Unnamed: 0,Cód. Eleição,Desc. Eleição,Data e hora,CNPJ Prestador Conta,Sequencial Candidato,UF,Sigla Partido,Numero candidato,Cargo,Nome candidato,CPF do candidato,Numero Recibo Eleitoral,Numero do documento,CPF/CNPJ do doador,Nome do doador,Nome do doador (Receita Federal),Sigla UE doador,Número partido doador,Número candidato doador,Cod setor econômico do doador,Setor econômico do doador,Data da receita,Valor receita,Tipo receita,Fonte recurso,Especie recurso,Descricao da receita,CPF/CNPJ do doador originário,Nome do doador originário,Tipo doador originário,Setor econômico do doador originário,Nome do doador originário (Receita Federal)
219601,143,Eleições Gerais 2014,09/07/201617:15:01,20573276000176,10000000393,AC,DEM,25195,Deputado Estadual,SEBASTIANA RIBEIRO DOS SANTOS OLIVEIRA,81465432272,251950700000AC000006,#NULO,20603438000171,Comitê Financeiro Único,ELEICAO 2014 COMITE FINANCEIRO AC UNICO DEM,AC,25,25195,9492800,Atividades de organizações políticas,30/09/201400:00:00,164.0,Recursos de outros candidatos/comitês,Fundo Partidario,Estimado,GASOLINA COMUM,#NULO,#NULO,#NULO,#NULO,#NULO
225261,143,Eleições Gerais 2014,09/07/201617:15:01,20573276000176,10000000393,AC,DEM,25195,Deputado Estadual,SEBASTIANA RIBEIRO DOS SANTOS OLIVEIRA,81465432272,251950700000AC000007,#NULO,20603438000171,Comitê Financeiro Único,ELEICAO 2014 COMITE FINANCEIRO AC UNICO DEM,AC,25,25195,9492800,Atividades de organizações políticas,03/10/201400:00:00,165.0,Recursos de outros candidatos/comitês,Fundo Partidario,Estimado,GASOLINA COMUM,#NULO,#NULO,#NULO,#NULO,#NULO
225651,143,Eleições Gerais 2014,09/07/201617:15:01,20573276000176,10000000393,AC,DEM,25195,Deputado Estadual,SEBASTIANA RIBEIRO DOS SANTOS OLIVEIRA,81465432272,251950700000AC000005,#NULO,20603438000171,Comitê Financeiro Único,ELEICAO 2014 COMITE FINANCEIRO AC UNICO DEM,AC,25,25195,9492800,Atividades de organizações políticas,25/09/201400:00:00,164.0,Recursos de outros candidatos/comitês,Fundo Partidario,Estimado,GASOLINA COMUM,#NULO,#NULO,#NULO,#NULO,#NULO
226326,143,Eleições Gerais 2014,09/07/201617:15:01,20573276000176,10000000393,AC,DEM,25195,Deputado Estadual,SEBASTIANA RIBEIRO DOS SANTOS OLIVEIRA,81465432272,251950700000AC000001,#NULO,20603438000171,Comitê Financeiro Único,ELEICAO 2014 COMITE FINANCEIRO AC UNICO DEM,AC,25,25195,9492800,Atividades de organizações políticas,28/07/201400:00:00,164.0,Recursos de outros candidatos/comitês,Fundo Partidario,Estimado,50 LITROS DE GASOLINA AO CUSTO UNITARIO 3·28 (...,#NULO,#NULO,#NULO,#NULO,#NULO
246396,143,Eleições Gerais 2014,09/07/201617:15:01,20573276000176,10000000393,AC,DEM,25195,Deputado Estadual,SEBASTIANA RIBEIRO DOS SANTOS OLIVEIRA,81465432272,251950700000AC000004,#NULO,20603438000171,Comitê Financeiro Único,ELEICAO 2014 COMITE FINANCEIRO AC UNICO DEM,AC,25,25195,9492800,Atividades de organizações políticas,29/07/201400:00:00,164.0,Recursos de outros candidatos/comitês,Fundo Partidario,Estimado,50 LITROS DE GASILINA AO CUSTO UNITARIO 3·28 (...,#NULO,#NULO,#NULO,#NULO,#NULO
252886,143,Eleições Gerais 2014,09/07/201617:15:01,20573276000176,10000000393,AC,DEM,25195,Deputado Estadual,SEBASTIANA RIBEIRO DOS SANTOS OLIVEIRA,81465432272,251950700000AC000002,#NULO,20603438000171,Comitê Financeiro Único,ELEICAO 2014 COMITE FINANCEIRO AC UNICO DEM,AC,25,25195,9492800,Atividades de organizações políticas,29/07/201400:00:00,90.0,Recursos de outros candidatos/comitês,Fundo Partidario,Estimado,SANTINHOS 4X4 CORES PAPEL TOCHE (10 MILHEROS D...,#NULO,#NULO,#NULO,#NULO,#NULO


In [18]:
df_doacoes['Fonte recurso'].unique()

array(['Nao especificado', 'Outros Recursos nao descritos',
       'Fundo Partidario'], dtype=object)

#### Doações indiretas
Atribui as doações os dados das doações indiretas quando diferente de #NULO  

Setor econômico do doador = Setor econômico do doador originário  
CPF/CNPJ do doador = CPF/CNPJ do doador originário  
Nome do doador = Nome do doador originário  
Nome do doador (Receita Federal) = Nome do doador originário (Receita Federal)  

Essa etapa é necessária para rastrear de qual setor econômico veio a doação.  
Quando é doação indireta, no setor economico do doador fica como doação de partido político.  

In [19]:
df_doacoes.loc[(df_doacoes['Setor econômico do doador originário']!='#NULO') , 'Setor econômico do doador'] = df_doacoes['Setor econômico do doador originário']
df_doacoes.loc[(df_doacoes['CPF/CNPJ do doador originário']!='#NULO') , 'CPF/CNPJ do doador'] = df_doacoes['CPF/CNPJ do doador originário']
df_doacoes.loc[(df_doacoes['Nome do doador originário']!='#NULO') , 'Nome do doador'] = df_doacoes['Nome do doador originário']
df_doacoes.loc[(df_doacoes['Nome do doador originário (Receita Federal)']!='#NULO') , 'Nome do doador (Receita Federal)'] = df_doacoes['Nome do doador originário (Receita Federal)']

#### Setores econômicos

In [20]:
df_setores = df_doacoes.groupby(['Setor econômico do doador']).agg({'Valor receita': lambda x: x.sum()}).reset_index()

In [21]:
setores = list(df_setores.sort_values(by=['Valor receita'], ascending=[0])['Setor econômico do doador'])

In [22]:
# Carrega a tabela de cnaes 
df_cnae = pd.read_excel(path+'Subclasses CNAE 2.2 - Estrutura.xls', header=None, skiprows=5)
# verifica se a primeiro coluna não tem valores
print (df_cnae[0].unique())
# então exclui a coluna
df_cnae.drop(0, axis=1, inplace=True)
# renomeia as colunas para ficar mais amigável
df_cnae.columns = ['secao', 'divisao', 'grupo', 'classe', 'subclasse', 'denominacao']
display(df_cnae)

[ nan]


Unnamed: 0,secao,divisao,grupo,classe,subclasse,denominacao
0,A,,,,,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."
1,,01,,,,"AGRICULTURA, PECUÁRIA E SERVIÇOS RELACIONADOS"
2,,,01.1,,,Produção de lavouras temporárias
3,,,,01.11-3,,Cultivo de cereais
4,,,,,0111-3/01,Cultivo de arroz
5,,,,,0111-3/02,Cultivo de milho
6,,,,,0111-3/03,Cultivo de trigo
7,,,,,0111-3/99,Cultivo de outros cereais não especificados an...
8,,,,01.12-1,,Cultivo de algodão herbáceo e de outras fibras...
9,,,,,0112-1/01,Cultivo de algodão herbáceo


In [23]:
# verifica se todos os setores estão na estrutra dos cnaes
for setor in setores:
    if df_cnae[df_cnae['denominacao'] == setor].shape[0] == 0:
        print(setor)

#NULO
Comércio varejista de outros artigos de uso doméstico não especificados anteriormente


In [24]:
# verifica os valores da coluna secao
df_cnae['secao'].unique()

array(['A', nan,
       '2.2 Estrutura detalhada da CNAE-Subclasses 2.2: seções, divisões, grupos, classes e subclasses',
       '(continuação)', 'Seção', 'B', 'C',
       '2.2 Estrutura detalhada da CNAE-Subclasses 2.2 seções, divisões, grupos, classes e subclasses',
       'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P',
       'Q', 'R', 'S', '(conclusão)', 'T', 'U',
       'Resoluções Concla: 01/2006 de 04/09/2006; 02/2006 de 15/02/2006 e 01/2007 de 16/05/2007'], dtype=object)

In [25]:
# função para verificar se valor é NaN
def is_nan(x):
    return (x is np.nan or x != x)

In [26]:
# completa a tabela para adicionar as seções a todos os cnaes
for ind, secao in enumerate(df_cnae['secao']):
    if not is_nan(secao) and len(secao) == 1:
        secao_ok = secao
    else:
        df_cnae.loc[ind,'secao'] = secao_ok


In [27]:
# exclui as outras colunas que não são necessárias nesse momento.
df_cnae.drop('divisao', axis=1, inplace=True)
df_cnae.drop('grupo', axis=1, inplace=True)
df_cnae.drop('subclasse', axis=1, inplace=True)
df_cnae.drop('classe', axis=1, inplace=True)

display(df_cnae)

Unnamed: 0,secao,denominacao
0,A,"AGRICULTURA, PECUÁRIA, PRODUÇÃO FLORESTAL, PES..."
1,A,"AGRICULTURA, PECUÁRIA E SERVIÇOS RELACIONADOS"
2,A,Produção de lavouras temporárias
3,A,Cultivo de cereais
4,A,Cultivo de arroz
5,A,Cultivo de milho
6,A,Cultivo de trigo
7,A,Cultivo de outros cereais não especificados an...
8,A,Cultivo de algodão herbáceo e de outras fibras...
9,A,Cultivo de algodão herbáceo


In [28]:
# exclui alguma denominação duplicada
df_cnae.drop_duplicates('denominacao', inplace=True)

In [29]:
# verifica se o merge ficou OK
total_doacoes = df_doacoes.shape[0]
df_doacoes = df_doacoes.merge(df_cnae, left_on='Setor econômico do doador', right_on='denominacao', how='left')
if total_doacoes == df_doacoes.shape[0]:
    print('Merge OK')
else:
    print(total_doacoes, df_doacoes.shape[0])

Merge OK


In [30]:
df_doacoes.drop('denominacao', axis=1, inplace=True)
df_doacoes

Unnamed: 0,Cód. Eleição,Desc. Eleição,Data e hora,CNPJ Prestador Conta,Sequencial Candidato,UF,Sigla Partido,Numero candidato,Cargo,Nome candidato,CPF do candidato,Numero Recibo Eleitoral,Numero do documento,CPF/CNPJ do doador,Nome do doador,Nome do doador (Receita Federal),Sigla UE doador,Número partido doador,Número candidato doador,Cod setor econômico do doador,Setor econômico do doador,Data da receita,Valor receita,Tipo receita,Fonte recurso,Especie recurso,Descricao da receita,CPF/CNPJ do doador originário,Nome do doador originário,Tipo doador originário,Setor econômico do doador originário,Nome do doador originário (Receita Federal),secao
0,143,Eleições Gerais 2014,09/07/201617:15:01,20571797000194,90000000725,GO,PSD,5555,Deputado Federal,JOSE MARIO SCHREINER,41877004987,055550600000GO000090,553338000003336,1256007000131,GOVESA GOIANIA VEICULOS S/A,GOVESA GOIANIA VEICULOS SA,#NULO,#NULO,5555,4511101,"Comércio a varejo de automóveis, camionetas e ...",16/10/201400:00:00,100000.00,Recursos de pessoas jurídicas,Nao especificado,Transferência eletrônica,#NULO,#NULO,#NULO,#NULO,#NULO,#NULO,G
1,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000035,#NULO,11055596534,CARMEM LUCIA N MAGALHÃES,CARMEN LUCIA MEIRA MAGALHAES,BA,10,1012,9492800,Atividades de organizações políticas,16/09/201400:00:00,575.00,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,PERFURADOS 85X22CM NF 415,11055596534,CARMEM LUCIA N MAGALHÃES,F,#NULO,CARMEN LUCIA MEIRA MAGALHAES,S
2,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000027,#NULO,29369070559,GERALDO NASCIMENTO SANTOS,GERALDO NASCIMENTO SANTOS,BA,10,1012,9492800,Atividades de organizações políticas,16/09/201400:00:00,2079.20,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,PERFURADOS 85X22CM NF 604,29369070559,GERALDO NASCIMENTO SANTOS,F,#NULO,GERALDO NASCIMENTO SANTOS,S
3,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000028,#NULO,70296782491,VALTER LUCAS PEREIRA,VALTER LUCAS PEREIRA,BA,10,1012,9492800,Atividades de organizações políticas,16/09/201400:00:00,3900.00,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,BID HAND 150X75CM NF 604,70296782491,VALTER LUCAS PEREIRA,F,#NULO,VALTER LUCAS PEREIRA,S
4,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000025,#NULO,70296782491,VALTER LUCAS PEREIRA,VALTER LUCAS PEREIRA,BA,10,1012,9492800,Atividades de organizações políticas,10/09/201400:00:00,1204.00,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,PLACAS EM ARO MADEIRA 2·00X1·00,70296782491,VALTER LUCAS PEREIRA,F,#NULO,VALTER LUCAS PEREIRA,S
5,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000031,#NULO,73605816720,ISNARD PIMENTA DE ARAUJO,ISNARD PIMENTA DE ARAUJO,BA,10,1012,9492800,Atividades de organizações políticas,16/09/201400:00:00,3705.00,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,SANTINHOS10X07CM 4X0 COR PAPEL OFFSET 75G NF 415,73605816720,ISNARD PIMENTA DE ARAUJO,F,#NULO,ISNARD PIMENTA DE ARAUJO,S
6,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000026,#NULO,80690416504,NEIALBERT A FERREIRA,NEIALBERT NASCIMENTO FERREIRA,BA,10,1012,9492800,Atividades de organizações políticas,16/09/201400:00:00,224.75,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,PLOTAGEM DE KOMBI NF 604 LANÇADO UNID EM FUNÇÃ...,80690416504,NEIALBERT A FERREIRA,F,#NULO,NEIALBERT NASCIMENTO FERREIRA,S
7,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000014,#NULO,13511416515,CARLOS ALBERTO DOS SANTOS FERREIRA,CARLOS ALBERTO DOS SANTOS FERREIRA,BA,10,1012,9492800,Atividades de organizações políticas,31/07/201400:00:00,3000.00,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,BIG HAND 75X150CM,13511416515,CARLOS ALBERTO DOS SANTOS FERREIRA,F,#NULO,CARLOS ALBERTO DOS SANTOS FERREIRA,S
8,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000015,#NULO,13511416515,CARLOS ALBERTO DOS SANTOS FERREIRA,CARLOS ALBERTO DOS SANTOS FERREIRA,BA,10,1012,9492800,Atividades de organizações políticas,31/07/201400:00:00,21.75,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,ADESIVO 50X40CM,13511416515,CARLOS ALBERTO DOS SANTOS FERREIRA,F,#NULO,CARLOS ALBERTO DOS SANTOS FERREIRA,S
9,143,Eleições Gerais 2014,09/07/201617:15:01,20567761000137,50000000670,BA,PRB,1012,Deputado Federal,ERONILDES VASCONCELOS CARVALHO,66858933549,010120600000BA000011,#NULO,57993467500,MARIA CELIA SOUZA DE ALMEIDA,MARIA CELIA SOUZA DE ALMEIDA,BA,10,1012,9492800,Atividades de organizações políticas,31/07/201400:00:00,2622.00,Recursos de outros candidatos/comitês,Outros Recursos nao descritos,Estimado,PERFURADO 85X22CM,57993467500,MARIA CELIA SOUZA DE ALMEIDA,F,#NULO,MARIA CELIA SOUZA DE ALMEIDA,S


In [31]:
#setor_nulo = df_doacoes[(df_doacoes['Setor econômico do doador'] == '#NULO') & (df_doacoes['Tipo receita'] != 'Recursos de pessoas físicas')]
#setor_nulo
#setor_nulo['Valor receita'].sum()
#422.150.855,33
#333.106.526.27

In [32]:
# apenas um cnae não foi encontrado, dessa forma atribui manualmente 
df_doacoes.loc[df_doacoes['Setor econômico do doador'] == 
               'Comércio varejista de outros artigos de uso doméstico não especificados anteriormente','secao'] = 'G'
df_doacoes.loc[df_doacoes['Setor econômico do doador'] == '#NULO','secao'] = 'SETOR_NAO_IDENTIFICADO'

In [33]:
df_soma_doacoes = df_doacoes.groupby(['Sequencial Candidato','secao']).agg({'Valor receita': lambda x: x.sum()}).reset_index()
display(df_soma_doacoes)

Unnamed: 0,Sequencial Candidato,secao,Valor receita
0,10000000021,F,10000.00
1,10000000021,S,2101.81
2,10000000021,SETOR_NAO_IDENTIFICADO,18964.00
3,10000000022,C,5000.00
4,10000000022,G,5000.00
5,10000000022,S,380.00
6,10000000022,SETOR_NAO_IDENTIFICADO,6150.00
7,10000000023,S,1141.55
8,10000000024,S,3506.45
9,10000000025,M,600.00


In [34]:
# pivot do dataframe 
df_soma_doacoes = df_soma_doacoes.pivot(index='Sequencial Candidato', columns='secao')['Valor receita'].fillna(0)

In [35]:
renamed = {chr(i):'SETOR_'+chr(i) for i in range(ord('A'),ord('S')+1)} 
df_soma_doacoes.rename(columns=renamed, inplace=True)
df_soma_doacoes

secao,SETOR_A,SETOR_B,SETOR_C,SETOR_D,SETOR_E,SETOR_F,SETOR_G,SETOR_H,SETOR_I,SETOR_J,SETOR_K,SETOR_L,SETOR_M,SETOR_N,SETOR_O,SETOR_P,SETOR_Q,SETOR_R,SETOR_S,SETOR_NAO_IDENTIFICADO
Sequencial Candidato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
10000000021,0.00,0.00,0.00,0.00,0.00,10000.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,2101.81,18964.00
10000000022,0.00,0.00,5000.00,0.00,0.00,0.00,5000.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,380.00,6150.00
10000000023,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,1141.55,0.00
10000000024,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,3506.45,0.00
10000000025,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,600.00,0.00,0.00,0.00,0.00,0.00,13054.89,18800.00
10000000026,0.00,0.00,0.00,0.00,0.00,0.00,220.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,3677.35
10000000027,0.00,0.00,0.00,5000.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,1697.29,13000.00
10000000028,0.00,0.00,0.00,0.00,0.00,0.00,10000.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,15000.00,0.00
10000000031,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,2056.90,2900.00
10000000032,0.00,0.00,0.00,0.00,0.00,2000.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,0.00,455.72,0.00


#### Realiza o merge com o dataset de doações

In [36]:
df_candidatos = df_candidatos.merge(df_soma_doacoes, left_on = 'SEQUENCIAL_CANDIDATO', right_index=True, how='left')
display(df_candidatos[df_candidatos['SEQUENCIAL_CANDIDATO'] == cand_teste])


Unnamed: 0,SIGLA_UF,CODIGO_CARGO,DESCRICAO_CARGO,NOME_CANDIDATO,SEQUENCIAL_CANDIDATO,COD_SITUACAO_CANDIDATURA,DES_SITUACAO_CANDIDATURA,NUMERO_PARTIDO,CODIGO_LEGENDA,CODIGO_OCUPACAO,DESCRICAO_OCUPACAO,IDADE_DATA_ELEICAO,CODIGO_SEXO,DESCRICAO_SEXO,COD_GRAU_INSTRUCAO,DESCRICAO_GRAU_INSTRUCAO,CODIGO_ESTADO_CIVIL,DESCRICAO_ESTADO_CIVIL,CODIGO_COR_RACA,DESCRICAO_COR_RACA,CODIGO_NACIONALIDADE,DESCRICAO_NACIONALIDADE,DESPESA_MAX_CAMPANHA,COD_SIT_TOT_TURNO,DESC_SIT_TOT_TURNO,VALOR_BEM,SETOR_A,SETOR_B,SETOR_C,SETOR_D,SETOR_E,SETOR_F,SETOR_G,SETOR_H,SETOR_I,SETOR_J,SETOR_K,SETOR_L,SETOR_M,SETOR_N,SETOR_O,SETOR_P,SETOR_Q,SETOR_R,SETOR_S,SETOR_NAO_IDENTIFICADO
21122,TO,7,DEPUTADO ESTADUAL,GLAUCO RAFAEL DA COSTA MADUREIRA,270000000212,2,DEFERIDO,12,270000000008,297,SERVIDOR PÚBLICO ESTADUAL,30,2,MASCULINO,7,SUPERIOR INCOMPLETO,3,CASADO(A),1,BRANCA,1,BRASILEIRA NATA,1500000,5,SUPLENTE,72000.0,0.0,0.0,0.0,0.0,0.0,1000.0,8691.69,0.0,0.0,0.0,0.0,0.0,0.0,148.0,0.0,0.0,0.0,0.0,17000.0,9831.4


In [37]:
if df_candidatos.shape[0] == quantidade_candidatos:
    print('Merge OK')


Merge OK


#### Realiza a soma de doações por tipo de receita (Fisica/Juridica)

In [38]:
print(df_doacoes['Tipo receita'].unique())
map_tp_receita = {'Recursos de pessoas jurídicas': 'TP_RECEITA_JURIDICA',
                  'Recursos de outros candidatos/comitês': 'TP_RECEITA_OUTRO',
                  'Recursos de partido político': 'TP_RECEITA_PARTIDO',
                  'Doações pela Internet': 'TP_RECEITA_INTERNET',
                  'Recursos de pessoas físicas': 'TP_RECEITA_FISICA',
                  'Recursos de origens não identificadas': 'TP_RECEITA_NAO_IDENTIFICADA',
                  'Recursos próprios': 'TP_RECEITA_PROPRIO',
                  'Rendimentos de aplicações financeiras' : 'TP_RECEITA_APLICACAO',
                  'Comercialização de bens ou realização de eventos': 'TP_RECEITA_EVENTO'
                 }
df_doacoes['Tipo receita map'] = df_doacoes['Tipo receita'].map(map_tp_receita)
print(df_doacoes['Tipo receita map'].unique())

['Recursos de pessoas jurídicas' 'Recursos de outros candidatos/comitês'
 'Recursos de partido político' 'Doações pela Internet'
 'Recursos de pessoas físicas' 'Recursos de origens não identificadas'
 'Recursos próprios' 'Rendimentos de aplicações financeiras'
 'Comercialização de bens ou realização de eventos']
['TP_RECEITA_JURIDICA' 'TP_RECEITA_OUTRO' 'TP_RECEITA_PARTIDO'
 'TP_RECEITA_INTERNET' 'TP_RECEITA_FISICA' 'TP_RECEITA_NAO_IDENTIFICADA'
 'TP_RECEITA_PROPRIO' 'TP_RECEITA_APLICACAO' 'TP_RECEITA_EVENTO']


In [39]:
df_soma_doacoes = df_doacoes.groupby(['Sequencial Candidato','Tipo receita map']).agg({'Valor receita': lambda x: x.sum()}).reset_index()

display(df_soma_doacoes)

Unnamed: 0,Sequencial Candidato,Tipo receita map,Valor receita
0,10000000021,TP_RECEITA_FISICA,4000.00
1,10000000021,TP_RECEITA_OUTRO,12101.81
2,10000000021,TP_RECEITA_PROPRIO,14964.00
3,10000000022,TP_RECEITA_FISICA,6150.00
4,10000000022,TP_RECEITA_OUTRO,10380.00
5,10000000023,TP_RECEITA_OUTRO,1141.55
6,10000000024,TP_RECEITA_OUTRO,3506.45
7,10000000025,TP_RECEITA_FISICA,16800.00
8,10000000025,TP_RECEITA_JURIDICA,600.00
9,10000000025,TP_RECEITA_OUTRO,13054.89


In [40]:
df_soma_doacoes = df_soma_doacoes.pivot(index='Sequencial Candidato', columns='Tipo receita map')['Valor receita'].fillna(0)
display(df_soma_doacoes)

Tipo receita map,TP_RECEITA_APLICACAO,TP_RECEITA_EVENTO,TP_RECEITA_FISICA,TP_RECEITA_INTERNET,TP_RECEITA_JURIDICA,TP_RECEITA_NAO_IDENTIFICADA,TP_RECEITA_OUTRO,TP_RECEITA_PARTIDO,TP_RECEITA_PROPRIO
Sequencial Candidato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
10000000021,0.00,0.00,4000.00,0.00,0.00,0.00,12101.81,0.00,14964.00
10000000022,0.00,0.00,6150.00,0.00,0.00,0.00,10380.00,0.00,0.00
10000000023,0.00,0.00,0.00,0.00,0.00,0.00,1141.55,0.00,0.00
10000000024,0.00,0.00,0.00,0.00,0.00,0.00,3506.45,0.00,0.00
10000000025,0.00,0.00,16800.00,0.00,600.00,0.00,13054.89,0.00,2000.00
10000000026,0.00,0.00,0.00,0.00,0.00,0.00,220.00,0.00,3677.35
10000000027,0.00,0.00,7000.00,0.00,0.00,0.00,6697.29,0.00,6000.00
10000000028,0.00,0.00,0.00,0.00,10000.00,0.00,15000.00,0.00,0.00
10000000031,0.00,0.00,2000.00,0.00,0.00,0.00,2056.90,0.00,900.00
10000000032,0.00,0.00,0.00,0.00,0.00,0.00,2455.72,0.00,0.00


#### Realiza o merge com a soma de doações por tipo de receita

In [41]:
df_candidatos = df_candidatos.merge(df_soma_doacoes, 
                                    left_on = 'SEQUENCIAL_CANDIDATO', 
                                    right_index=True, how='left')
display(df_candidatos[df_candidatos['SEQUENCIAL_CANDIDATO'] == cand_teste])


Unnamed: 0,SIGLA_UF,CODIGO_CARGO,DESCRICAO_CARGO,NOME_CANDIDATO,SEQUENCIAL_CANDIDATO,COD_SITUACAO_CANDIDATURA,DES_SITUACAO_CANDIDATURA,NUMERO_PARTIDO,CODIGO_LEGENDA,CODIGO_OCUPACAO,DESCRICAO_OCUPACAO,IDADE_DATA_ELEICAO,CODIGO_SEXO,DESCRICAO_SEXO,COD_GRAU_INSTRUCAO,DESCRICAO_GRAU_INSTRUCAO,CODIGO_ESTADO_CIVIL,DESCRICAO_ESTADO_CIVIL,CODIGO_COR_RACA,DESCRICAO_COR_RACA,CODIGO_NACIONALIDADE,DESCRICAO_NACIONALIDADE,DESPESA_MAX_CAMPANHA,COD_SIT_TOT_TURNO,DESC_SIT_TOT_TURNO,VALOR_BEM,SETOR_A,SETOR_B,SETOR_C,SETOR_D,SETOR_E,SETOR_F,SETOR_G,SETOR_H,SETOR_I,SETOR_J,SETOR_K,SETOR_L,SETOR_M,SETOR_N,SETOR_O,SETOR_P,SETOR_Q,SETOR_R,SETOR_S,SETOR_NAO_IDENTIFICADO,TP_RECEITA_APLICACAO,TP_RECEITA_EVENTO,TP_RECEITA_FISICA,TP_RECEITA_INTERNET,TP_RECEITA_JURIDICA,TP_RECEITA_NAO_IDENTIFICADA,TP_RECEITA_OUTRO,TP_RECEITA_PARTIDO,TP_RECEITA_PROPRIO
21122,TO,7,DEPUTADO ESTADUAL,GLAUCO RAFAEL DA COSTA MADUREIRA,270000000212,2,DEFERIDO,12,270000000008,297,SERVIDOR PÚBLICO ESTADUAL,30,2,MASCULINO,7,SUPERIOR INCOMPLETO,3,CASADO(A),1,BRANCA,1,BRASILEIRA NATA,1500000,5,SUPLENTE,72000.0,0.0,0.0,0.0,0.0,0.0,1000.0,8691.69,0.0,0.0,0.0,0.0,0.0,0.0,148.0,0.0,0.0,0.0,0.0,17000.0,9831.4,0.0,0.0,1000.0,0.0,0.0,0.0,9839.69,17000.0,8831.4


In [42]:
if df_candidatos.shape[0] == quantidade_candidatos:
    print('Merge OK')


Merge OK


#### Soma todas as doações

In [43]:
df_soma_doacoes = df_doacoes.groupby(['Sequencial Candidato']).agg({'Valor receita': lambda x: x.sum()}).reset_index()
df_soma_doacoes.rename(columns={'Valor receita':'VALOR_RECEITA'}, inplace=True)
df_soma_doacoes.head()

Unnamed: 0,Sequencial Candidato,VALOR_RECEITA
0,10000000021,31065.81
1,10000000022,16530.0
2,10000000023,1141.55
3,10000000024,3506.45
4,10000000025,32454.89


### Realiza o merge do valor das somas totais de doações

In [44]:
df_candidatos = df_candidatos.merge(df_soma_doacoes,
                                    left_on = 'SEQUENCIAL_CANDIDATO', 
                                    right_on='Sequencial Candidato', 
                                    how='left')
df_candidatos.drop('Sequencial Candidato', axis=1, inplace=True)
display(df_candidatos[df_candidatos['SEQUENCIAL_CANDIDATO'] == 10000000021])

Unnamed: 0,SIGLA_UF,CODIGO_CARGO,DESCRICAO_CARGO,NOME_CANDIDATO,SEQUENCIAL_CANDIDATO,COD_SITUACAO_CANDIDATURA,DES_SITUACAO_CANDIDATURA,NUMERO_PARTIDO,CODIGO_LEGENDA,CODIGO_OCUPACAO,DESCRICAO_OCUPACAO,IDADE_DATA_ELEICAO,CODIGO_SEXO,DESCRICAO_SEXO,COD_GRAU_INSTRUCAO,DESCRICAO_GRAU_INSTRUCAO,CODIGO_ESTADO_CIVIL,DESCRICAO_ESTADO_CIVIL,CODIGO_COR_RACA,DESCRICAO_COR_RACA,CODIGO_NACIONALIDADE,DESCRICAO_NACIONALIDADE,DESPESA_MAX_CAMPANHA,COD_SIT_TOT_TURNO,DESC_SIT_TOT_TURNO,VALOR_BEM,SETOR_A,SETOR_B,SETOR_C,SETOR_D,SETOR_E,SETOR_F,SETOR_G,SETOR_H,SETOR_I,SETOR_J,SETOR_K,SETOR_L,SETOR_M,SETOR_N,SETOR_O,SETOR_P,SETOR_Q,SETOR_R,SETOR_S,SETOR_NAO_IDENTIFICADO,TP_RECEITA_APLICACAO,TP_RECEITA_EVENTO,TP_RECEITA_FISICA,TP_RECEITA_INTERNET,TP_RECEITA_JURIDICA,TP_RECEITA_NAO_IDENTIFICADA,TP_RECEITA_OUTRO,TP_RECEITA_PARTIDO,TP_RECEITA_PROPRIO,VALOR_RECEITA
347,AC,7,DEPUTADO ESTADUAL,HENRY ANTONIO SILVA NOGUEIRA,10000000021,2,DEFERIDO,12,10000000021,296,SERVIDOR PÚBLICO FEDERAL,34,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),3,PARDA,1,BRASILEIRA NATA,600000,5,SUPLENTE,565000.0,0.0,0.0,0.0,0.0,0.0,10000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2101.81,18964.0,0.0,0.0,4000.0,0.0,0.0,0.0,12101.81,0.0,14964.0,31065.81


In [45]:
if df_candidatos.shape[0] == quantidade_candidatos:
    print('Merge OK')

Merge OK


### 1.5 Salva o dataset gerado em um arquivo .csv

In [46]:
# Gera o arquivo CSV para ser utilizado
df_candidatos.to_csv(path+'dados_tratados.csv', index = False, encoding='latin1')