# Trabalho Final - Coleta, Análise e Preparação de Dados

## Grupo: Davi Kniest, João Antonio Hilgert Merck e Otávio De Carli Albuquerque

### Descrição do Problema:
Compreender quanto o nível de ensino do candidato influencia para se eleger nas eleições municipais do Rio Grande do Sul nos anos de 2012, 2016 e 2020;

### Datasets escolhidos:
Dados adquiridos a partir do Portal de Dados Oficial do TSE, onde buscamos filtrar por um contexto municipal das votações do Rio Grande do Sul nos anos de 2020, 2016 e 2012;

ANO 2020
- Resultados: https://dadosabertos.tse.jus.br/dataset/resultados-2020/resource/db0b6c75-dc82-48d8-b207-ba2b420ec58a
- Consulta de candidatos: https://dadosabertos.tse.jus.br/dataset/candidatos-2020-subtemas/resource/8187b1aa-5026-4908-a15a-0bf777ee6701

ANO 2016
- Resultados: https://dadosabertos.tse.jus.br/dataset/resultados-2016/resource/ccd2564b-a576-4c17-a603-31e49f980667
- Consulta de candidatos: https://dadosabertos.tse.jus.br/dataset/candidatos-2016/resource/8ecf472b-9caa-4755-9faa-b95bd7aef0d3

ANO 2012
- Resultados: https://dadosabertos.tse.jus.br/dataset/resultados-2012/resource/01f124d9-d4a0-4e96-9d1c-7be06e63adb2
- Consulta de candidatos: https://dadosabertos.tse.jus.br/dataset/candidatos-2012/resource/900bf233-4f13-4e2a-b600-205e4f27986c

### Dependências

In [62]:
import os
import pandas as pd

## Preparação dos Dados

Leitura dos datasets

In [63]:
caminho_consulta = [
    './datasets/consulta_cand_2012_RS.csv',
    './datasets/consulta_cand_2016_RS.csv',
    './datasets/consulta_cand_2020_RS.csv'
]

caminho_resultado = [
    './datasets/votacao_candidato_munzona_2012_RS.csv',
    './datasets/votacao_candidato_munzona_2016_RS.csv',
    './datasets/votacao_candidato_munzona_2020_RS.csv'
]

### Limpeza dos dados

Remoção de atributos desnecessários para todos ambos datasets

In [64]:
remover_consulta = [
    'DT_GERACAO', 'HH_GERACAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO',
    'DT_ELEICAO', 'TP_ABRANGENCIA', 'SG_UF', 'NM_URNA_CANDIDATO',
    'CD_SITUACAO_CANDIDATO_URNA','NM_TIPO_DESTINACAO_VOTOS','CD_SITUACAO_CANDIDATO_TOT',
    'DS_SITUACAO_CANDIDATO_TOT','ST_PREST_CONTAS','ST_SUBSTITUIDO',
    'SQ_SUBSTITUIDO','SQ_ORDEM_SUPLENCIA','DT_ACEITE_CANDIDATURA'
    'NM_SOCIAL_CANDIDATO', 'NM_EMAIL', 'CD_DETALHE_SITUACAO_CAND',
    'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO', 'NR_CANDIDATO',
    'NP_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'SQ_COLIGACAO', 'NM_TIPO_ELEICAO',
    'NM_COLIGACAO', 'DS_COMPOSICAO_COLIGACAO', 'DS_SIT_TOT_TURNO','CD_NACIONALIDADE',
    'DS_NACIONALIDADE', 'SG_UF_NASCIMENTO', 'CD_MUNICIPIO_NASCIMENTO',
    'NM_MUNICIPIO_NASCIMENTO', 'DT_NASCIMENTO', 'NR_CPF_CANDIDATO', 
    'NR_IDADE_DATA_POSSE', 'NR_TITULO_ELEITORAL_CANDIDATO', 'CD_GENERO',
    'DS_GENERO', 'CD_ESTADO_CIVIL', 'DS_ESTADO_CIVIL', 'CD_COR_RACA',
    'DS_COR_RACA', 'CD_SIT_TOT_TURNO', 'VR_DESPESA_MAX_CAMPANHA', 'ST_REELEICAO',
    'ST_DECLARAR_BENS', 'NR_PROTOCOLO_CANDIDATURA', 'NR_PROCESSO',
    'CD_SITUACAO_CANDIDATO_PLEITO', 'DS_SITUACAO_CANDIDATO_PLEITO',
    'CD_SITUACAO_CANDIDADO_URNA', 'DS_SITUACAO_CANDIDATO_URNA',
    'ST_CANDIDATO_INSERIDO_URNA', 'NR_PARTIDO', 'NR_FEDERACAO',
    'NM_FEDERACAO', 'SG_FEDERACAO','DS_COMPOSICAO_FEDERACAO'
]

remover_resultado = [
    'DT_GERACAO', 'HH_GERACAO', 'NR_TURNO', 'CD_ELEICAO', 'DS_ELEICAO',
    'DT_ELEICAO', 'TP_ABRANGENCIA', 'SG_UF', 'SG_UE', 'NM_UE',
    'CD_MUNICIPIO', 'NM_MUNICIPIO', 'CD_CARGO', 'DS_CARGO',
    'NR_CANDIDATO', 'NM_CANDIDATO', 'NM_URNA', 'NM_SOCIAL_CANDIDATO',
    'CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA',
    'CD_DETALHE_SITUACAO_CAND', 'DS_DETALHE_SITUACAO_CAND', 'TP_AGREMIACAO',
    'NR_PARTIDO', 'SG_PARTIDO', 'NM_PARTIDO', 'SQ_COLIGACAO', 'NM_COLIGACAO',
    'DS_COMPOSICAO_COLIGACAO'
]


In [65]:
import csv

for caminho_consulta in caminho_consulta:
    try:
        dataset = pd.read_csv(caminho_consulta, encoding='latin1', sep=';')

        dataset_filtrado = dataset.drop(columns=remover_consulta, errors='ignore')

        dataset_filtrado.to_csv(
            caminho_consulta,
            index=False,
            sep=';', 
            encoding='latin1', 
            quotechar='"', 
            quoting=csv.QUOTE_NONNUMERIC 
        )
        print(f"Arquivo processado e salvo: {caminho_consulta}")
    except Exception as e:
        print(f"Erro ao processar o arquivo {caminho_consulta}: {e}")

for caminho_resultado in caminho_resultado:
    try:
        dataset = pd.read_csv(caminho_resultado, encoding='latin1', sep=';')

        dataset_filtrado = dataset.drop(columns=remover_resultado, errors='ignore')

        dataset_filtrado.to_csv(
            caminho_resultado,
            index=False,
            sep=';', 
            encoding='latin1', 
            quotechar='"',
            quoting=csv.QUOTE_NONNUMERIC
        )
        print(f"Arquivo processado e salvo: {caminho_resultado}")
    except Exception as e:
        print(f"Erro ao processar o arquivo {caminho_resultado}: {e}")


Arquivo processado e salvo: ./datasets/consulta_cand_2012_RS.csv
Arquivo processado e salvo: ./datasets/consulta_cand_2016_RS.csv
Arquivo processado e salvo: ./datasets/consulta_cand_2020_RS.csv
Arquivo processado e salvo: ./datasets/votacao_candidato_munzona_2012_RS.csv
Arquivo processado e salvo: ./datasets/votacao_candidato_munzona_2016_RS.csv
Arquivo processado e salvo: ./datasets/votacao_candidato_munzona_2020_RS.csv


### Integração dos datasets para facilitar a limpeza

In [66]:
def unir_arquivos(lista_caminhos, arquivo_saida):
    try:
        dfs = []
        
        for caminho in lista_caminhos:
            df = pd.read_csv(caminho, encoding='latin1', sep=';')
            dfs.append(df)

        df_unido = pd.concat(dfs, ignore_index=True)
        
        df_unido.to_csv(arquivo_saida, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
        print(f"Arquivo consolidado salvo em: {arquivo_saida}")
    except Exception as e:
        print(f"Erro ao consolidar arquivos: {e}")

unir_arquivos(caminho_consulta, './datasets/consulta_cand_RS.csv')
unir_arquivos(caminho_resultado, './datasets/votacao_cand_RS.csv')

Erro ao consolidar arquivos: [Errno 13] Permission denied: '.'
Erro ao consolidar arquivos: [Errno 13] Permission denied: '.'


### Limpeza e integração de dados do dataset 'votacao_candidato'

* Limpeza de duplicatas

In [67]:
votacao_candidato_path = './datasets/votacao_cand_RS.csv'

def remover_duplicatas(caminho_entrada, caminho_saida):
    try:
        df = pd.read_csv(caminho_entrada, encoding='latin1', sep=';')
        
        df_sem_duplicatas = df.drop_duplicates()
        
        df_sem_duplicatas.to_csv(caminho_saida, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
        
        print(f"Arquivo sem duplicatas salvo em: {caminho_saida}")
    except Exception as e:
        print(f"Erro ao remover duplicatas do arquivo {caminho_entrada}: {e}")

remover_duplicatas(votacao_candidato_path, './datasets/votacao_cand_RS.csv')

Erro ao remover duplicatas do arquivo ./datasets/votacao_cand_RS.csv: [Errno 2] No such file or directory: './datasets/votacao_cand_RS.csv'


* Filtragem por apenas Eleição Ordinária
* Remoção dos atributos: CD_TIPO_ELEICAO, NM_TIPO_ELEICAO, NR_ZONA e ST_VOTO_EM_TRANSITO

In [68]:
colunas_remover = ['CD_TIPO_ELEICAO', 'NM_TIPO_ELEICAO', 'NR_ZONA', 'ST_VOTO_EM_TRANSITO']

try:
    df = pd.read_csv(votacao_candidato_path, encoding='latin1', sep=';')
    
    df_filtrado = df[df['CD_TIPO_ELEICAO'] == 2]

    df_filtrado = df_filtrado.drop(columns=colunas_remover, errors='ignore')
    
    df_filtrado.to_csv(votacao_candidato_path, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
    
    print(f"Arquivo filtrado salvo em: {votacao_candidato_path}")
except Exception as e:
    print(f"Erro ao filtrar e processar o arquivo: {e}")

Erro ao filtrar e processar o arquivo: [Errno 2] No such file or directory: './datasets/votacao_cand_RS.csv'


* Sendo o ID composto por ANO_ELEICAO + SQ_CANDIDATO, somar os votos e criar um novo atributo: VOTOS_TOTAIS

In [69]:
try:
    df = pd.read_csv(votacao_candidato_path, encoding='latin1', sep=';')
    
    df['ID'] = df['ANO_ELEICAO'].astype(str) + '_' + df['SQ_CANDIDATO'].astype(str)
    
    df_agrupado = df.groupby('ID', as_index=False).agg({
        'ANO_ELEICAO': 'first',
        'SQ_CANDIDATO': 'first',
        'QT_VOTOS_NOMINAIS': 'sum'
    })
    
    df_agrupado = df_agrupado.rename(columns={'QT_VOTOS_NOMINAIS': 'VOTOS_TOTAIS'})
    
    df_agrupado.to_csv(votacao_candidato_path, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
    
    print(f"Arquivo consolidado com VOTOS_TOTAIS salvo em: {votacao_candidato_path}")
except Exception as e:
    print(f"Erro ao consolidar os votos: {e}")

Erro ao consolidar os votos: [Errno 2] No such file or directory: './datasets/votacao_cand_RS.csv'


### Limpeza e integração de dados do dataset 'consulta_cand'

* Limpeza de duplicatas

In [70]:
consulta_cand_path = './datasets/consulta_cand_RS.csv'

def remover_duplicatas(caminho_entrada, caminho_saida):
    try:
        df = pd.read_csv(caminho_entrada, encoding='latin1', sep=';')
        
        df_sem_duplicatas = df.drop_duplicates()
        
        df_sem_duplicatas.to_csv(caminho_saida, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
        
        print(f"Arquivo sem duplicatas salvo em: {caminho_saida}")
    except Exception as e:
        print(f"Erro ao remover duplicatas do arquivo {caminho_entrada}: {e}")

remover_duplicatas(consulta_cand_path, './datasets/votacao_cand_RS.csv')

Erro ao remover duplicatas do arquivo ./datasets/consulta_cand_RS.csv: [Errno 2] No such file or directory: './datasets/consulta_cand_RS.csv'


* União das zonas eleitorais e remoção de SG_UE.

In [71]:
colunas_remover = ['SG_UE']

try:
    df = pd.read_csv(consulta_cand_path, encoding='latin1', sep=';')
    
    df['ID'] = df['ANO_ELEICAO'].astype(str) + '_' + df['SQ_CANDIDATO'].astype(str)
    
    df_agrupado = df.groupby('ID', as_index=False).first()
    
    df_agrupado = df_agrupado.drop(columns=colunas_remover, errors='ignore')
    
    df_agrupado.to_csv(consulta_cand_path, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
    
    print(f"Arquivo consolidado por cidade salvo em: {consulta_cand_path}")
except Exception as e:
    print(f"Erro ao consolidar o arquivo consulta_candidatos: {e}")

Erro ao consolidar o arquivo consulta_candidatos: [Errno 2] No such file or directory: './datasets/consulta_cand_RS.csv'


* Agrupamento por 'CD_SITUACAO_CANDIDATURA' = 2, significando candidato APTO para se eleger
* Após agrupamento, remoção dos atributos 'CD_SITUACAO_CANDIDATURA' e 'DS_SITUACAO_CANDIDATURA'

In [72]:
colunas_remover = ['CD_SITUACAO_CANDIDATURA', 'DS_SITUACAO_CANDIDATURA', 'CD_TIPO_ELEICAO']

try:
    df = pd.read_csv(consulta_cand_path, encoding='latin1', sep=';')
    
    df_filtrado = df[(df['CD_SITUACAO_CANDIDATURA'] == 12) & (df['CD_TIPO_ELEICAO'] == 2)]
    
    df_filtrado['ID'] = df_filtrado['ANO_ELEICAO'].astype(str) + '_' + df_filtrado['SQ_CANDIDATO'].astype(str)
    
    df_agrupado = df_filtrado.drop(columns=colunas_remover, errors='ignore')
    
    df_agrupado.to_csv(consulta_cand_path, index=False, sep=';', encoding='latin1', quotechar='"', quoting=1)
    
    print(f"Arquivo filtrado e consolidado por cidade salvo em: {consulta_cand_path}")
except Exception as e:
    print(f"Erro ao filtrar e consolidar o arquivo consulta_candidatos: {e}")

Erro ao filtrar e consolidar o arquivo consulta_candidatos: [Errno 2] No such file or directory: './datasets/consulta_cand_RS.csv'
