Dados extraídos de: https://www.tse.jus.br/eleicoes/estatisticas/repositorio-de-dados-eleitorais-1/repositorio-de-dados-eleitorais

Acesso em: 09/12/2020.

# Bibliotecas e configurações iniciais

In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

pd.set_option('display.max_columns', None)

# Importando Dados

## Colunas

In [2]:
colunasMunicipal = [
    'DATA', 'HORA', 'ANO_ELEICAO', 'NR_TURNO', 'TIPO_ELEICAO', 'SG_UF', 'NUM',
    'NUM2', 'CIDADE', 'NUM3', 'NUM4', 'DS_CARGO', 'LETRA', 'PALAVRA',
    'COLIGACAO', 'SG_PARTIDO', 'NUM5', 'PARTIDO', 'QT_VOTOS_NOMINAIS',
    'QT_VOTOS_LEGENDA', 'ALGO'
]

colunasFederal1 = [
    'DATA', 'HORA', 'ANO_ELEICAO', 'NR_TURNO', 'TIPO_ELEICAO', 'SG_UF',
    'PAIS', 'NUM', 'NUM2', 'NUM3', 'CANDIDATO', 'CANDIDATO2', 'DS_CARGO',
    'NUM4', 'ALGO1', 'NUM5', 'DEFERIDO', 'NUM6', 'ELEITO', 'NUM_PARTIDO',
    'SG_PARTIDO', 'PARTIDO', 'NUM7', 'COLIGACAO', 'COLIGACAO_PARTIDOS',
    'QT_VOTOS_NOMINAIS'
]

colunasFederal2 = [
    'DATA', 'HORA', 'ANO_ELEICAO', 'NR_TURNO', 'TIPO_ELEICAO', 'SG_UF', 'NUM',
    'NUM2', 'CIDADE', 'NUM3', 'NUM4', 'DS_CARGO', 'COLIGACAO', 'SG_COLIGACAO',
    'N_IDEN', 'SG_PARTIDO', 'N_PARTIDO', 'PARTIDO', 'QT_VOTOS_NOMINAIS',
    'QT_VOTOS_LEGENDA', 'ALGO'
]

colunas_1990 = [
    'DATA', 'HORA', 'ANO_ELEICAO', 'NR_TURNO', 'TIPO_ELEICAO', 'SG_UF',
    'SG_UF2', 'NUM', 'DS_CARGO', 'COLIGACAO', 'NOM_COLIGACAO', 'SG_COLIGACAO',
    'SG_PARTIDO', 'N_PARTIDO', 'PARTIDO', 'QT_VOTOS_NOMINAIS',
    'QT_VOTOS_LEGENDA'
]

## 1990 - Estadual

In [3]:
datasets = [
    'VOTACAO_PARTIDO_UF_1990_AL.txt', 'VOTACAO_PARTIDO_UF_1990_AM.txt',
    'VOTACAO_PARTIDO_UF_1990_AP.txt', 'VOTACAO_PARTIDO_UF_1990_BA.txt',
    'VOTACAO_PARTIDO_UF_1990_CE.txt', 'VOTACAO_PARTIDO_UF_1990_DF.txt',
    'VOTACAO_PARTIDO_UF_1990_ES.txt', 'VOTACAO_PARTIDO_UF_1990_GO.txt',
    'VOTACAO_PARTIDO_UF_1990_MA.txt', 'VOTACAO_PARTIDO_UF_1990_MG.txt',
    'VOTACAO_PARTIDO_UF_1990_MS.txt', 'VOTACAO_PARTIDO_UF_1990_MT.txt',
    'VOTACAO_PARTIDO_UF_1990_PA.txt', 'VOTACAO_PARTIDO_UF_1990_PB.txt',
    'VOTACAO_PARTIDO_UF_1990_PE.txt', 'VOTACAO_PARTIDO_UF_1990_PI.txt',
    'VOTACAO_PARTIDO_UF_1990_PR.txt', 'VOTACAO_PARTIDO_UF_1990_RJ.txt',
    'VOTACAO_PARTIDO_UF_1990_RN.txt', 'VOTACAO_PARTIDO_UF_1990_RO.txt',
    'VOTACAO_PARTIDO_UF_1990_RR.txt', 'VOTACAO_PARTIDO_UF_1990_RS.txt',
    'VOTACAO_PARTIDO_UF_1990_SC.txt', 'VOTACAO_PARTIDO_UF_1990_SE.txt',
    'VOTACAO_PARTIDO_UF_1990_SP.txt', 'VOTACAO_PARTIDO_UF_1990_TO.txt'
]

df_1990 = pd.read_csv('dados_partido/VOTACAO_PARTIDO_UF_1990_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunas_1990)
for data in datasets:
    df = pd.read_csv('dados_partido/' + data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunas_1990)
    df_1990 = pd.concat([df_1990, df])

## 1994 - Federal/Estadual

In [4]:
datasets = [
    'votacao_partido_munzona_1994_AL.txt',
    'votacao_partido_munzona_1994_AM.txt',
    'votacao_partido_munzona_1994_AP.txt',
    'votacao_partido_munzona_1994_BA.txt',
    'votacao_partido_munzona_1994_BR.txt',
    'votacao_partido_munzona_1994_GO.txt',
    'votacao_partido_munzona_1994_MA.txt',
    'votacao_partido_munzona_1994_MS.txt',
    'votacao_partido_munzona_1994_PI.txt',
    'votacao_partido_munzona_1994_RR.txt',
    'votacao_partido_munzona_1994_RS.txt',
    'votacao_partido_munzona_1994_SC.txt',
    'votacao_partido_munzona_1994_SE.txt',
    'votacao_partido_munzona_1994_SP.txt',
    'votacao_partido_munzona_1994_TO.txt'
]

df_1994 = pd.read_csv('dados_partido/votacao_partido_munzona_1994_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasFederal2)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasFederal2)
    df_1994 = pd.concat([df_1994, df])

## 1996 - Municipal

In [5]:
datasets = [
    'votacao_partido_munzona_1996_AL.txt',
    'votacao_partido_munzona_1996_AM.txt',
    'votacao_partido_munzona_1996_AP.txt',
    'votacao_partido_munzona_1996_BA.txt',
    'votacao_partido_munzona_1996_CE.txt',
    'votacao_partido_munzona_1996_ES.txt',
    'votacao_partido_munzona_1996_GO.txt',
    'votacao_partido_munzona_1996_MA.txt',
    'votacao_partido_munzona_1996_MG.txt',
    'votacao_partido_munzona_1996_MS.txt',
    'votacao_partido_munzona_1996_PA.txt',
    'votacao_partido_munzona_1996_PB.txt',
    'votacao_partido_munzona_1996_PE.txt',
    'votacao_partido_munzona_1996_PI.txt',
    'votacao_partido_munzona_1996_RN.txt',
    'votacao_partido_munzona_1996_RO.txt',
    'votacao_partido_munzona_1996_RR.txt',
    'votacao_partido_munzona_1996_RS.txt',
    'votacao_partido_munzona_1996_SE.txt',
    'votacao_partido_munzona_1996_SP.txt',
    'votacao_partido_munzona_1996_TO.txt'
]
df_1996 = pd.read_csv('dados_partido/votacao_partido_munzona_1996_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasMunicipal)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasMunicipal)
    df_1996 = pd.concat([df_1996, df])

## 1998 - Federal/Estadual

In [6]:
datasets = [
    'votacao_partido_munzona_1998_AL.txt',
    'votacao_partido_munzona_1998_AM.txt',
    'votacao_partido_munzona_1998_AP.txt',
    'votacao_partido_munzona_1998_BA.txt',
    'votacao_partido_munzona_1998_BR.txt',
    'votacao_partido_munzona_1998_CE.txt',
    'votacao_partido_munzona_1998_DF.txt',
    'votacao_partido_munzona_1998_ES.txt',
    'votacao_partido_munzona_1998_GO.txt',
    'votacao_partido_munzona_1998_MA.txt',
    'votacao_partido_munzona_1998_MG.txt',
    'votacao_partido_munzona_1998_MS.txt',
    'votacao_partido_munzona_1998_MT.txt',
    'votacao_partido_munzona_1998_PA.txt',
    'votacao_partido_munzona_1998_PB.txt',
    'votacao_partido_munzona_1998_PE.txt',
    'votacao_partido_munzona_1998_PI.txt',
    'votacao_partido_munzona_1998_PR.txt',
    'votacao_partido_munzona_1998_RJ.txt',
    'votacao_partido_munzona_1998_RN.txt',
    'votacao_partido_munzona_1998_RO.txt',
    'votacao_partido_munzona_1998_RR.txt',
    'votacao_partido_munzona_1998_RS.txt',
    'votacao_partido_munzona_1998_SC.txt',
    'votacao_partido_munzona_1998_SE.txt',
    'votacao_partido_munzona_1998_SP.txt',
    'votacao_partido_munzona_1998_TO.txt',
    'votacao_partido_munzona_1998_ZZ.txt'
]

df_1998 = pd.read_csv('dados_partido/votacao_partido_munzona_1998_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasFederal2)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasFederal2)
    df_1998 = pd.concat([df_1998, df])

## 2000 - Municipal

In [7]:
datasets = [
    'votacao_partido_munzona_2000_AL.txt',
    'votacao_partido_munzona_2000_AM.txt',
    'votacao_partido_munzona_2000_AP.txt',
    'votacao_partido_munzona_2000_BA.txt',
    'votacao_partido_munzona_2000_CE.txt',
    'votacao_partido_munzona_2000_ES.txt',
    'votacao_partido_munzona_2000_GO.txt',
    'votacao_partido_munzona_2000_MA.txt',
    'votacao_partido_munzona_2000_MG.txt',
    'votacao_partido_munzona_2000_MS.txt',
    'votacao_partido_munzona_2000_MT.txt',
    'votacao_partido_munzona_2000_PA.txt',
    'votacao_partido_munzona_2000_PB.txt',
    'votacao_partido_munzona_2000_PE.txt',
    'votacao_partido_munzona_2000_PI.txt',
    'votacao_partido_munzona_2000_PR.txt',
    'votacao_partido_munzona_2000_RJ.txt',
    'votacao_partido_munzona_2000_RN.txt',
    'votacao_partido_munzona_2000_RO.txt',
    'votacao_partido_munzona_2000_RR.txt',
    'votacao_partido_munzona_2000_RS.txt',
    'votacao_partido_munzona_2000_SC.txt',
    'votacao_partido_munzona_2000_SE.txt',
    'votacao_partido_munzona_2000_SP.txt',
    'votacao_partido_munzona_2000_TO.txt',
]
df_2000 = pd.read_csv('dados_partido/votacao_partido_munzona_2000_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasMunicipal)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasMunicipal)
    df_2000 = pd.concat([df_2000, df])

## 2002 - Federal/Estadual

In [8]:
datasets = [
    'votacao_partido_munzona_2002_AL.txt',
    'votacao_partido_munzona_2002_AM.txt',
    'votacao_partido_munzona_2002_AP.txt',
    'votacao_partido_munzona_2002_BA.txt',
    'votacao_partido_munzona_2002_BR.txt',
    'votacao_partido_munzona_2002_CE.txt',
    'votacao_partido_munzona_2002_DF.txt',
    'votacao_partido_munzona_2002_ES.txt',
    'votacao_partido_munzona_2002_GO.txt',
    'votacao_partido_munzona_2002_MA.txt',
    'votacao_partido_munzona_2002_MG.txt',
    'votacao_partido_munzona_2002_MS.txt',
    'votacao_partido_munzona_2002_MT.txt',
    'votacao_partido_munzona_2002_PA.txt',
    'votacao_partido_munzona_2002_PB.txt',
    'votacao_partido_munzona_2002_PE.txt',
    'votacao_partido_munzona_2002_PI.txt',
    'votacao_partido_munzona_2002_PR.txt',
    'votacao_partido_munzona_2002_RJ.txt',
    'votacao_partido_munzona_2002_RN.txt',
    'votacao_partido_munzona_2002_RO.txt',
    'votacao_partido_munzona_2002_RR.txt',
    'votacao_partido_munzona_2002_RS.txt',
    'votacao_partido_munzona_2002_SC.txt',
    'votacao_partido_munzona_2002_SE.txt',
    'votacao_partido_munzona_2002_SP.txt',
    'votacao_partido_munzona_2002_TO.txt',
    'votacao_partido_munzona_2002_ZZ.txt'
]

df_2002 = pd.read_csv('dados_partido/votacao_partido_munzona_2002_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasFederal2)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasFederal2)
    df_2002 = pd.concat([df_2002, df])

## 2004 - Municipal

In [9]:
datasets = [
    'votacao_partido_munzona_2004_AL.txt',
    'votacao_partido_munzona_2004_AM.txt',
    'votacao_partido_munzona_2004_AP.txt',
    'votacao_partido_munzona_2004_BA.txt',
    'votacao_partido_munzona_2004_CE.txt',
    'votacao_partido_munzona_2004_ES.txt',
    'votacao_partido_munzona_2004_GO.txt',
    'votacao_partido_munzona_2004_MA.txt',
    'votacao_partido_munzona_2004_MG.txt',
    'votacao_partido_munzona_2004_MS.txt',
    'votacao_partido_munzona_2004_MT.txt',
    'votacao_partido_munzona_2004_PA.txt',
    'votacao_partido_munzona_2004_PB.txt',
    'votacao_partido_munzona_2004_PE.txt',
    'votacao_partido_munzona_2004_PI.txt',
    'votacao_partido_munzona_2004_PR.txt',
    'votacao_partido_munzona_2004_RJ.txt',
    'votacao_partido_munzona_2004_RN.txt',
    'votacao_partido_munzona_2004_RO.txt',
    'votacao_partido_munzona_2004_RR.txt',
    'votacao_partido_munzona_2004_RS.txt',
    'votacao_partido_munzona_2004_SC.txt',
    'votacao_partido_munzona_2004_SE.txt',
    'votacao_partido_munzona_2004_SP.txt',
    'votacao_partido_munzona_2004_TO.txt',
]
df_2004 = pd.read_csv('dados_partido/votacao_partido_munzona_2004_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasMunicipal)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasMunicipal)
    df_2004 = pd.concat([df_2004, df])

## 2006 - Estadual/Federal

In [10]:
datasets = [
    'votacao_partido_munzona_2006_AL.txt',
    'votacao_partido_munzona_2006_AM.txt',
    'votacao_partido_munzona_2006_AP.txt',
    'votacao_partido_munzona_2006_BA.txt',
    'votacao_partido_munzona_2006_BR.txt',
    'votacao_partido_munzona_2006_CE.txt',
    'votacao_partido_munzona_2006_DF.txt',
    'votacao_partido_munzona_2006_ES.txt',
    'votacao_partido_munzona_2006_GO.txt',
    'votacao_partido_munzona_2006_MA.txt',
    'votacao_partido_munzona_2006_MG.txt',
    'votacao_partido_munzona_2006_MS.txt',
    'votacao_partido_munzona_2006_MT.txt',
    'votacao_partido_munzona_2006_PA.txt',
    'votacao_partido_munzona_2006_PB.txt',
    'votacao_partido_munzona_2006_PE.txt',
    'votacao_partido_munzona_2006_PI.txt',
    'votacao_partido_munzona_2006_PR.txt',
    'votacao_partido_munzona_2006_RJ.txt',
    'votacao_partido_munzona_2006_RN.txt',
    'votacao_partido_munzona_2006_RO.txt',
    'votacao_partido_munzona_2006_RR.txt',
    'votacao_partido_munzona_2006_RS.txt',
    'votacao_partido_munzona_2006_SC.txt',
    'votacao_partido_munzona_2006_SE.txt',
    'votacao_partido_munzona_2006_SP.txt',
    'votacao_partido_munzona_2006_TO.txt',
    'votacao_partido_munzona_2006_ZZ.txt'
]

df_2006 = pd.read_csv('dados_partido/votacao_partido_munzona_2006_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasFederal2)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasFederal2)
    df_2006 = pd.concat([df_2006, df])

## 2008 - Municipal

In [11]:
datasets = [
    'votacao_partido_munzona_2008_AL.txt',
    'votacao_partido_munzona_2008_AM.txt',
    'votacao_partido_munzona_2008_AP.txt',
    'votacao_partido_munzona_2008_BA.txt',
    'votacao_partido_munzona_2008_CE.txt',
    'votacao_partido_munzona_2008_ES.txt',
    'votacao_partido_munzona_2008_GO.txt',
    'votacao_partido_munzona_2008_MA.txt',
    'votacao_partido_munzona_2008_MG.txt',
    'votacao_partido_munzona_2008_MS.txt',
    'votacao_partido_munzona_2008_MT.txt',
    'votacao_partido_munzona_2008_PA.txt',
    'votacao_partido_munzona_2008_PB.txt',
    'votacao_partido_munzona_2008_PE.txt',
    'votacao_partido_munzona_2008_PI.txt',
    'votacao_partido_munzona_2008_PR.txt',
    'votacao_partido_munzona_2008_RJ.txt',
    'votacao_partido_munzona_2008_RN.txt',
    'votacao_partido_munzona_2008_RO.txt',
    'votacao_partido_munzona_2008_RR.txt',
    'votacao_partido_munzona_2008_RS.txt',
    'votacao_partido_munzona_2008_SC.txt',
    'votacao_partido_munzona_2008_SE.txt',
    'votacao_partido_munzona_2008_SP.txt',
    'votacao_partido_munzona_2008_TO.txt',
]
df_2008 = pd.read_csv('dados_partido/votacao_partido_munzona_2008_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasMunicipal)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasMunicipal)
    df_2008 = pd.concat([df_2008, df])

## 2010 - Federal/Estadual

In [12]:
datasets = [
    'votacao_partido_munzona_2010_AL.txt',
    'votacao_partido_munzona_2010_AM.txt',
    'votacao_partido_munzona_2010_AP.txt',
    'votacao_partido_munzona_2010_BA.txt',
    'votacao_partido_munzona_2010_BR.txt',
    'votacao_partido_munzona_2010_CE.txt',
    'votacao_partido_munzona_2010_DF.txt',
    'votacao_partido_munzona_2010_ES.txt',
    'votacao_partido_munzona_2010_GO.txt',
    'votacao_partido_munzona_2010_MA.txt',
    'votacao_partido_munzona_2010_MG.txt',
    'votacao_partido_munzona_2010_MS.txt',
    'votacao_partido_munzona_2010_MT.txt',
    'votacao_partido_munzona_2010_PA.txt',
    'votacao_partido_munzona_2010_PB.txt',
    'votacao_partido_munzona_2010_PE.txt',
    'votacao_partido_munzona_2010_PI.txt',
    'votacao_partido_munzona_2010_PR.txt',
    'votacao_partido_munzona_2010_RJ.txt',
    'votacao_partido_munzona_2010_RN.txt',
    'votacao_partido_munzona_2010_RO.txt',
    'votacao_partido_munzona_2010_RR.txt',
    'votacao_partido_munzona_2010_RS.txt',
    'votacao_partido_munzona_2010_SC.txt',
    'votacao_partido_munzona_2010_SE.txt',
    'votacao_partido_munzona_2010_SP.txt',
    'votacao_partido_munzona_2010_TO.txt',
    'votacao_partido_munzona_2010_VT.txt',
    'votacao_partido_munzona_2010_ZZ.txt'
]

df_2010 = pd.read_csv('dados_partido/votacao_partido_munzona_2010_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasFederal2)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasFederal2)
    df_2010 = pd.concat([df_2010, df])

## 2012 - Municipal

In [13]:
datasets = [
    'votacao_partido_munzona_2012_AL.txt',
    'votacao_partido_munzona_2012_AM.txt',
    'votacao_partido_munzona_2012_AP.txt',
    'votacao_partido_munzona_2012_BA.txt',
    'votacao_partido_munzona_2012_CE.txt',
    'votacao_partido_munzona_2012_ES.txt',
    'votacao_partido_munzona_2012_GO.txt',
    'votacao_partido_munzona_2012_MA.txt',
    'votacao_partido_munzona_2012_MG.txt',
    'votacao_partido_munzona_2012_MS.txt',
    'votacao_partido_munzona_2012_MT.txt',
    'votacao_partido_munzona_2012_PA.txt',
    'votacao_partido_munzona_2012_PB.txt',
    'votacao_partido_munzona_2012_PE.txt',
    'votacao_partido_munzona_2012_PI.txt',
    'votacao_partido_munzona_2012_PR.txt',
    'votacao_partido_munzona_2012_RJ.txt',
    'votacao_partido_munzona_2012_RN.txt',
    'votacao_partido_munzona_2012_RO.txt',
    'votacao_partido_munzona_2012_RR.txt',
    'votacao_partido_munzona_2012_RS.txt',
    'votacao_partido_munzona_2012_SC.txt',
    'votacao_partido_munzona_2012_SE.txt',
    'votacao_partido_munzona_2012_SP.txt',
    'votacao_partido_munzona_2012_TO.txt',
]
df_2012 = pd.read_csv('dados_partido/votacao_partido_munzona_2012_AC.txt',
                      error_bad_lines=False,
                      header=None,
                      sep=';',
                      encoding="ISO-8859-1",
                      names=colunasMunicipal)
for data in datasets:
    df = pd.read_csv('dados_partido/'+data,
                     error_bad_lines=False,
                     header=None,
                     sep=';',
                     encoding="ISO-8859-1",
                     names=colunasMunicipal)
    df_2012 = pd.concat([df_2012, df])

## 2014 - Federal/Estadual

In [14]:
df_2014 = pd.read_csv('dados_partido/votacao_partido_munzona_2014_BRASIL.csv',
                      error_bad_lines=False,
                      sep=';',
                      encoding="ISO-8859-1")

## 2016 - Municipal

In [15]:
df_2016 = pd.read_csv('dados_partido/votacao_partido_munzona_2016_BRASIL.csv',
                      error_bad_lines=False,
                      sep=';',
                      encoding="ISO-8859-1")

## 2018 - Federal/Estadual

In [16]:
df_2018 = pd.read_csv('dados_partido/votacao_partido_munzona_2018_BRASIL.csv',
                      error_bad_lines=False,
                      sep=';',
                      encoding="ISO-8859-1")

## 2020 - Municipal

In [17]:
df_2020 = pd.read_csv('dados_partido/votacao_partido_munzona_2020_BRASIL.csv',
                      error_bad_lines=False,
                      sep=';',
                      encoding="ISO-8859-1")

# Tratamento dos dados

In [18]:
def transform(df):
    df1 = df[['NR_TURNO', 'SG_PARTIDO', 'QT_VOTOS_NOMINAIS', 'QT_VOTOS_LEGENDA', 'DS_CARGO', 'SG_UF']]
    df1 = df1.groupby(['SG_PARTIDO', 'DS_CARGO', 'SG_UF', 'NR_TURNO']).sum()
    df1 = df1.reset_index(drop=False)
    df1['ANO_ELEICAO'] = df['ANO_ELEICAO'].iloc[0]
    return df1

In [19]:
final = pd.concat([
    transform(df_2020),
    transform(df_2018),
    transform(df_2016),
    transform(df_2014),
    transform(df_2012),
    transform(df_2010),
    transform(df_2008),
    transform(df_2006),
    transform(df_2004),
    transform(df_2002),
    transform(df_2000),
    transform(df_1998),
    transform(df_1996),
    transform(df_1994),
    transform(df_1990)
],
                  ignore_index=True)
final

Unnamed: 0,SG_PARTIDO,DS_CARGO,SG_UF,NR_TURNO,QT_VOTOS_NOMINAIS,QT_VOTOS_LEGENDA,ANO_ELEICAO
0,AVANTE,Prefeito,AC,1.0,2294.0,0.0,2020.0
1,AVANTE,Prefeito,AL,1.0,831.0,0.0,2020.0
2,AVANTE,Prefeito,AM,1.0,20107.0,0.0,2020.0
3,AVANTE,Prefeito,AM,2.0,466970.0,0.0,2020.0
4,AVANTE,Prefeito,AP,1.0,16521.0,0.0,2020.0
...,...,...,...,...,...,...,...
24090,PTdoB,GOVERNADOR,DF,1.0,4208.0,0.0,1990.0
24091,PTdoB,SENADOR,AP,1.0,3432.0,0.0,1990.0
24092,PTdoB,SENADOR,DF,1.0,3579.0,0.0,1990.0
24093,PTdoB,SENADOR,MG,1.0,297430.0,0.0,1990.0


In [20]:
final.isnull().sum()

SG_PARTIDO           0
DS_CARGO             0
SG_UF                0
NR_TURNO             0
QT_VOTOS_NOMINAIS    0
QT_VOTOS_LEGENDA     0
ANO_ELEICAO          0
dtype: int64

In [21]:
final['DS_CARGO'] = final['DS_CARGO'].str.upper()

In [22]:
final['DS_CARGO'].value_counts()

DEPUTADO FEDERAL                                                                        4899
VEREADOR                                                                                4843
DEPUTADO ESTADUAL                                                                       4820
PREFEITO                                                                                4399
PRESIDENTE                                                                              2044
SENADOR                                                                                 1483
GOVERNADOR                                                                              1396
DEPUTADO DISTRITAL                                                                       207
VOCÊ É A FAVOR DA | ALTERAÇÃO DO NOME | DA CIDADE DE EMBU" | PARA "EMBU DAS ARTES"?"       2
VOCÊ É A FAVOR | DA CRIAÇÃO DO MUNICÍPIO DE | EXTREMA DE RONDÔNIA?                         2
Name: DS_CARGO, dtype: int64

In [23]:
final['DS_CARGO'].replace(
    'VOCÊ É A FAVOR DA | ALTERAÇÃO DO NOME | DA CIDADE DE EMBU" | PARA "EMBU DAS ARTES"?"',
    np.nan,
    inplace=True)
final['DS_CARGO'].replace(
    'VOCÊ É A FAVOR | DA CRIAÇÃO DO MUNICÍPIO DE | EXTREMA DE RONDÔNIA?',
    np.nan,
    inplace=True)
final.dropna(inplace=True)
final.reset_index(drop=True, inplace=True)

In [24]:
final['ANO_ELEICAO'] = final['ANO_ELEICAO'].astype(int)
# Partidos que mudaram de nome:
# https://pt.wikipedia.org/wiki/Predefini%C3%A7%C3%A3o:Partidos_pol%C3%ADticos_no_Brasil_que_mudaram_de_nome_ap%C3%B3s_a_crise_pol%C3%ADtica_de_2014
final['SG_PARTIDO'] = final['SG_PARTIDO'].str.upper()
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PR', 'PL')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PTN', 'PODE')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PT DO B', 'AVANTE')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PEN', 'PATRIOTA')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PMDB', 'MDB')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PSDC', 'DC')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PRB', 'REPUBLICANOS')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PPS', 'CIDADANIA')
final['SG_PARTIDO'] = final['SG_PARTIDO'].replace('PFL', 'DEM')

In [25]:
final = final[final['SG_UF'] != 'BR']

In [26]:
for column in final.columns:
    if final[column].dtype == 'float64':
        final[column] = final[column].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  final[column] = final[column].astype(int)


In [27]:
final.reset_index(drop=True, inplace=True)
final

Unnamed: 0,SG_PARTIDO,DS_CARGO,SG_UF,NR_TURNO,QT_VOTOS_NOMINAIS,QT_VOTOS_LEGENDA,ANO_ELEICAO
0,AVANTE,PREFEITO,AC,1,2294,0,2020
1,AVANTE,PREFEITO,AL,1,831,0,2020
2,AVANTE,PREFEITO,AM,1,20107,0,2020
3,AVANTE,PREFEITO,AM,2,466970,0,2020
4,AVANTE,PREFEITO,AP,1,16521,0,2020
...,...,...,...,...,...,...,...
24077,PTDOB,GOVERNADOR,DF,1,4208,0,1990
24078,PTDOB,SENADOR,AP,1,3432,0,1990
24079,PTDOB,SENADOR,DF,1,3579,0,1990
24080,PTDOB,SENADOR,MG,1,297430,0,1990


In [28]:
final.to_csv('exports/partidos.csv', sep=';', decimal=',', index=False)