# Projeto Candidato x Investimento

***

Este notebook tem o intuito de <b>estudar uma possível correlação entre financiamento eleitoral e numero de votos</b> obtidos por candidatos em eleições diretas. O estudo será feito nas seguintes etapas:


<b><font color=green> 1. Coleta e limpeza de dados.</b></font>

<b><font color=green> 2. Analise das variáveis</b></font>


Abaixo seguem as etapas detalhadas:



***

## 1. <font color=red>COLETA E LIMPEZA DE DADOS</font>

Inicialmente a coleta de dados foi feita através do endereço:

> https://basedosdados.org/dataset/br-tse-eleicoes?bdm_table=detalhes_votacao_municipio_zona

In [1]:
pip install basedosdados

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
import basedosdados as bd

# Para carregar o dado direto no pandas
df = bd.read_table(dataset_id='br_tse_eleicoes',
                   table_id='detalhes_votacao_municipio',
                   billing_project_id="projeto-alforriah-raphael")

Downloading: 100%|██████████| 292596/292596 [01:31<00:00, 3215.18rows/s]


In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
df.head()

Unnamed: 0,ano,turno,tipo_eleicao,sigla_uf,id_municipio,id_municipio_tse,cargo,aptos,secoes,secoes_agregadas,...,comparecimento,abstencoes,votos_validos,votos_brancos,votos_nulos,votos_legenda,proporcao_comparecimento,proporcao_votos_validos,proporcao_votos_brancos,proporcao_votos_nulos
0,1994,1,eleicao ordinaria,AC,1200013,1120,deputado estadual,3332,0,0,...,2599,733,2111,204,235,49,78.001198,81.223549,7.849173,9.041939
1,1994,1,eleicao ordinaria,AC,1200013,1120,deputado federal,3332,0,0,...,2599,733,1678,455,376,90,78.001198,64.563293,17.506733,14.467103
2,1994,1,eleicao ordinaria,AC,1200013,1120,governador,3332,0,0,...,2599,733,2031,477,91,0,78.001198,78.145439,18.353212,3.501347
3,1994,1,eleicao ordinaria,AC,1200013,1120,presidente,6664,0,0,...,5198,1466,4322,524,352,0,78.001198,83.147362,10.0808,6.771835
4,1994,1,eleicao ordinaria,AC,1200013,1120,senador,3332,0,0,...,2599,733,3570,1247,381,0,78.001198,137.36052,47.979992,14.659485


In [6]:
# verificando o tamanho do dataframe
df.shape

(292596, 22)

In [7]:
# verificando as colunas do dataframe
df.columns

Index(['ano', 'turno', 'tipo_eleicao', 'sigla_uf', 'id_municipio',
       'id_municipio_tse', 'cargo', 'aptos', 'secoes', 'secoes_agregadas',
       'aptos_totalizadas', 'secoes_totalizadas', 'comparecimento',
       'abstencoes', 'votos_validos', 'votos_brancos', 'votos_nulos',
       'votos_legenda', 'proporcao_comparecimento', 'proporcao_votos_validos',
       'proporcao_votos_brancos', 'proporcao_votos_nulos'],
      dtype='object')

In [8]:
# criando um dicionário com os valores únicos de cada coluna
categorias_variáveis={}

for coluna in df.columns:
    categorias_variáveis[coluna] = df[coluna].unique()

In [9]:
# olhando os valores emcontrados
categorias_variáveis

{'ano': <IntegerArray>
 [1994, 1996, 1998, 2000, 2004, 2008, 2014, 2020, 2016, 2002, 2012, 2010, 2018,
  2006]
 Length: 14, dtype: Int64,
 'turno': <IntegerArray>
 [1, 2]
 Length: 2, dtype: Int64,
 'tipo_eleicao': array(['eleicao ordinaria', 'eleicoes suplementares 2008',
        'eleicao suplementar de cabo frio',
        'eleicao suplementar de rio das ostras',
        'eleicao suplementar de teresopolis',
        'rj - suplementar de aperibe', 'rj - suplementar de iguaba grande',
        'rj - suplementar de laje do muriae',
        'rj - suplementar de mangaratiba', 'rj - suplementar de paraty',
        'eleicao sup de pres tancredo neves',
        'eleicao suplem muquem do sao francisco',
        'eleicao suplementar camamu-ba', 'eleicao suplementar de macarani',
        'eleicao suplementar sidrolandia-ms',
        'eleicoes municipais 2020 - ap',
        'eleicao suplementar governador am', 'alto taquari-mt-jul-2017',
        'conquista d oeste-mt-mar/2017',
        'eleicao sup

In [10]:
# criando um dataframe que contabiliza os valores nulos em cada variável
valores_nulos = {}

for coluna in df.columns:
    valores_nulos[coluna] = pd.isnull(df['ano']).sum()

In [11]:
# olhando a soma dos valores nulos de vada variável
valores_nulos

{'ano': 0,
 'turno': 0,
 'tipo_eleicao': 0,
 'sigla_uf': 0,
 'id_municipio': 0,
 'id_municipio_tse': 0,
 'cargo': 0,
 'aptos': 0,
 'secoes': 0,
 'secoes_agregadas': 0,
 'aptos_totalizadas': 0,
 'secoes_totalizadas': 0,
 'comparecimento': 0,
 'abstencoes': 0,
 'votos_validos': 0,
 'votos_brancos': 0,
 'votos_nulos': 0,
 'votos_legenda': 0,
 'proporcao_comparecimento': 0,
 'proporcao_votos_validos': 0,
 'proporcao_votos_brancos': 0,
 'proporcao_votos_nulos': 0}

In [12]:
# verificando o número de municípios
df.groupby('id_municipio').sum().shape

(5570, 17)

In [13]:
# criando um dataframe com os códigos e os nomes dos municípios
url_municipios_tse = 'https://raw.githubusercontent.com/betafcc/Municipios-Brasileiros-TSE/fe2694220eb7280a3df01e985641f34078989aa8/municipios_brasileiros_tse.csv'

dados_id_municipios_tse = pd.read_csv(url_municipios_tse, index_col = 0)
dados_id_municipios_tse.drop('capital', axis=1, inplace=True)
dados_id_municipios_tse

Unnamed: 0_level_0,uf,nome_municipio,codigo_ibge
codigo_tse,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1120,AC,ACRELÂNDIA,1200013
1570,AC,ASSIS BRASIL,1200054
1058,AC,BRASILÉIA,1200104
1007,AC,BUJARI,1200138
1015,AC,CAPIXABA,1200179
...,...,...,...
96199,TO,TOCANTÍNIA,1721109
73458,TO,TUPIRAMA,1721257
73237,TO,TUPIRATINS,1721307
96652,TO,WANDERLÂNDIA,1722081


In [14]:
df.columns

Index(['ano', 'turno', 'tipo_eleicao', 'sigla_uf', 'id_municipio',
       'id_municipio_tse', 'cargo', 'aptos', 'secoes', 'secoes_agregadas',
       'aptos_totalizadas', 'secoes_totalizadas', 'comparecimento',
       'abstencoes', 'votos_validos', 'votos_brancos', 'votos_nulos',
       'votos_legenda', 'proporcao_comparecimento', 'proporcao_votos_validos',
       'proporcao_votos_brancos', 'proporcao_votos_nulos'],
      dtype='object')

In [15]:
dados_votos_validos = df[['ano', 'turno', 'tipo_eleicao', 'sigla_uf', 'id_municipio_tse', 'cargo', 'votos_validos', 'proporcao_votos_validos']]
dados_votos_validos

Unnamed: 0,ano,turno,tipo_eleicao,sigla_uf,id_municipio_tse,cargo,votos_validos,proporcao_votos_validos
0,1994,1,eleicao ordinaria,AC,1120,deputado estadual,2111,81.223549
1,1994,1,eleicao ordinaria,AC,1120,deputado federal,1678,64.563293
2,1994,1,eleicao ordinaria,AC,1120,governador,2031,78.145439
3,1994,1,eleicao ordinaria,AC,1120,presidente,4322,83.147362
4,1994,1,eleicao ordinaria,AC,1120,senador,3570,137.360520
...,...,...,...,...,...,...,...,...
292591,2018,2,eleicao ordinaria,PR,74926,presidente,2077,93.348312
292592,2018,2,eleicao ordinaria,PR,74942,presidente,3355,93.480080
292593,2018,2,eleicao ordinaria,PR,74969,presidente,2670,94.379639
292594,2018,2,eleicao ordinaria,PR,79472,presidente,4066,95.535713


In [16]:
dados_votos_validos.query("sigla_uf == 'AC'").groupby(['tipo_eleicao', 'cargo'])['votos_validos'].sum()

tipo_eleicao                 cargo            
eleicao ordinaria            deputado estadual    1972881
                             deputado federal     1907496
                             governador           2635611
                             prefeito             2524246
                             presidente           3879011
                             senador              3013003
                             vereador             2010210
eleicoes suplementares 2008  prefeito               10608
Name: votos_validos, dtype: Int64

In [17]:
dados_votos_validos.head()

Unnamed: 0,ano,turno,tipo_eleicao,sigla_uf,id_municipio_tse,cargo,votos_validos,proporcao_votos_validos
0,1994,1,eleicao ordinaria,AC,1120,deputado estadual,2111,81.223549
1,1994,1,eleicao ordinaria,AC,1120,deputado federal,1678,64.563293
2,1994,1,eleicao ordinaria,AC,1120,governador,2031,78.145439
3,1994,1,eleicao ordinaria,AC,1120,presidente,4322,83.147362
4,1994,1,eleicao ordinaria,AC,1120,senador,3570,137.36052


In [None]:
import basedosdados as bd

# Para carregar o dado direto no pandas
df2 = bd.read_table(dataset_id='br_tse_eleicoes',
                   table_id='resultados_candidato_municipio',
                   billing_project_id="projeto-alforriah-raphael")

Downloading:  38%|███▊      | 8832231/23308865 [21:02<33:42, 7157.02rows/s] 