# Data Preparation

---
## Carregando os dados

Primeiro, vamos importar todas as bibliotecas que serão utilizadas ao longo deste exercício.

In [None]:
# -*- coding: utf-8 -*-

import numpy as np # importa a biblioteca usada para trabalhar com vetores e matrizes
import pandas as pd # importa a biblioteca usada para trabalhar com dataframes (dados em formato de tabela) e análise de dados

# bibliotecas usadas para geracao de graficos
import seaborn as sns
import matplotlib.pyplot as plt

Agora vamos carregar o dataset de receita por candidato em 2022 do RS para fazer sua preparação

In [None]:
df_receita_candidatos = pd.read_csv( 'datasets/receitas_candidatos_2022_RS.csv', encoding='latin1', sep=';') 

Para entendermos melhor o dataset a seguir vamos olhar as 10 primeiras linhas

In [None]:
pd.set_option('display.max_columns', None)
df_receita_candidatos.head(n=10)

Depois de entender melhor os dados vimos que nessa planilha tem algumas colunas desnecessarias, então vamos exluir elas abaixo.

In [None]:
df_receita_candidatos.drop(['DT_GERACAO',
'HH_GERACAO',
'ANO_ELEICAO',
'CD_TIPO_ELEICAO',
'NM_TIPO_ELEICAO',
'CD_ELEICAO',
'DS_ELEICAO',
'DT_ELEICAO',
'ST_TURNO',
'SQ_PRESTADOR_CONTAS',
'SG_UE',
'NM_UE',
'NR_CPF_CANDIDATO',
'CD_CNAE_DOADOR',
'DS_CNAE_DOADOR',
'NR_CPF_CNPJ_DOADOR',
'NM_DOADOR',
'NM_DOADOR_RFB',
'DS_ESFERA_PARTIDARIA_DOADOR',
'NM_MUNICIPIO_DOADOR',
'SQ_CANDIDATO_DOADOR',
'NR_CANDIDATO_DOADOR',
'CD_CARGO_CANDIDATO_DOADOR',
'DS_CARGO_CANDIDATO_DOADOR',
'NR_PARTIDO_DOADOR',
'SG_PARTIDO_DOADOR',
'NM_PARTIDO_DOADOR',
'NR_RECIBO_DOACAO',
'NR_DOCUMENTO_DOACAO',
'SQ_RECEITA',
'DT_RECEITA',
'DS_GENERO',
'DS_COR_RACA', 'SG_UF_DOADOR', 'DS_NATUREZA_RECURSO_ESTIMAVEL', 'DS_RECEITA'], axis=1, inplace=True)

In [None]:
pd.set_option('display.max_columns', None)
df_receita_candidatos.head(n=3, )

Agora vamos fazer importar o dataset de consulta candidatos do RS em 2022

In [None]:
df_consulta_cand = pd.read_csv( 'datasets/consulta_cand_2022_RS.csv', encoding='latin1', sep=';')

pd.set_option('display.max_columns', None)
df_consulta_cand.head(n=5)

Depois de importar e fazer uma primeira validação vamos remover as colunas desnecessarias: 

In [None]:
df_consulta_cand.drop(["DT_GERACAO",
"HH_GERACAO",
"ANO_ELEICAO",
"TP_ABRANGENCIA",
"SG_UE",
"NM_UE",
"SQ_CANDIDATO",
"NM_URNA_CANDIDATO",
"NM_SOCIAL_CANDIDATO",
"NR_CPF_CANDIDATO",
"DS_EMAIL",
"CD_SITUACAO_CANDIDATURA",
"DS_SITUACAO_CANDIDATURA",
"NR_FEDERACAO",
"NM_FEDERACAO",
"SG_FEDERACAO",
"DS_COMPOSICAO_FEDERACAO",
"SQ_COLIGACAO",
"NM_COLIGACAO",
"DS_COMPOSICAO_COLIGACAO",
"SG_UF_NASCIMENTO",
"DT_NASCIMENTO",
"NR_TITULO_ELEITORAL_CANDIDATO",
"CD_GENERO",
"CD_GRAU_INSTRUCAO",
"CD_ESTADO_CIVIL",
"DS_ESTADO_CIVIL",
"CD_COR_RACA",
"DS_COR_RACA",
"CD_OCUPACAO",], axis=1, inplace=True)

In [None]:
pd.set_option('display.max_columns', None)
df_consulta_cand.head(n=3, )

Agora vamos realizar a importação do ultimo dataset, o de votação por seção para verificarmos quantos votos cada condidato 

In [None]:
df_votacao_secao = pd.read_csv( 'datasets/votacao_secao_2022_RS.csv', encoding='latin1', sep=';')

pd.set_option('display.max_columns', None)
df_votacao_secao.head(n=5)

Desse dataset precisamos somente do Número do candidato e da quantdade de votos. 

In [None]:
df_votacao_secao = df_votacao_secao[['NR_VOTAVEL', 'QT_VOTOS']]
print(df_votacao_secao)

# Tratamento de atributos com valores ausentes

Agora depois de limpar colunas que não fazer falta para nos vamos verificar os valores faltantes.

In [None]:
nulos = df_receita_candidatos[df_receita_candidatos.isin(['#NULO']).any(axis=1)].index

df_receita_candidatos.iloc[nulos]

Como percebemos acima temos alguns valor de `DS_FONTE_RECEITA` , `DS_ORIGEM_RECEITA`  e em `DS_ESPECIE_RECEITA`que estão como nulo então vamos subistituir os mesmos por valores defaults

In [None]:
df_receita_candidatos['DS_FONTE_RECEITA'] = df_receita_candidatos['DS_FONTE_RECEITA'].replace('#NULO', 'OUTROS RECURSOS')
df_receita_candidatos['DS_ORIGEM_RECEITA'] = df_receita_candidatos['DS_ORIGEM_RECEITA'].replace('#NULO', 'OUTROS')
df_receita_candidatos['DS_ESPECIE_RECEITA'] = df_receita_candidatos['DS_ESPECIE_RECEITA'].replace('#NULO', 'OUTROS')


Agora vamos verificar se não temos mais nenhum valor faltante

In [None]:
nulos = df_receita_candidatos[df_receita_candidatos.isin(['#NULO']).any(axis=1)].index

df_receita_candidatos.iloc[nulos]

Agora vamos tratar o campo `VR_RECEITA` que será nosso campo principal para realização de metricas, então vamos converter o mesmo para numerico.

In [None]:
df_receita_candidatos['VR_RECEITA'] = pd.to_numeric(df_receita_candidatos['VR_RECEITA'].str.replace(',', '.'), errors='coerce')
print(df_receita_candidatos['VR_RECEITA'])


Agora vamos fazer o mesmo processo de verificação de valores faltantantes para o dataset de consulta candidatos

In [None]:
nulos = df_consulta_cand[df_consulta_cand.isin(['#NULO']).any(axis=1)].index

df_consulta_cand.iloc[nulos]

Para o dataset de consulta candidatos não encontramos nenhum valor nulo como podemos ver acima.

Agora vamos verificar se existem valores nulos no dataframe de votação por seção

In [None]:
nulos = df_votacao_secao[df_votacao_secao.isin(['#NULO']).any(axis=1)].index

df_votacao_secao.iloc[nulos]

Para o dataset de consulta candidatos não encontramos nenhum valor nulo como podemos ver acima.

# Criação do dataset final

Agora para montar o power bi e fazer a analise dos dados vamos montar um dataset que terá o numero do candidato, o nome do candidato, o total de receita, o total de votos e se ele foi eleito ou não

In [None]:
qt_votos_candidatos = df_votacao_secao.groupby('NR_VOTAVEL')['QT_VOTOS'].sum().reset_index()
total_receita_candidatos = df_receita_candidatos.groupby('NR_CANDIDATO')['VR_RECEITA'].sum().reset_index()

df_receita_candidatos.head(n=5)

df_consulta_cand['QT_VOTOS'] = None
df_consulta_cand['TOTAL_RECEITA'] = None
for index, row in df_consulta_cand.iterrows():
    if not qt_votos_candidatos[qt_votos_candidatos['NR_VOTAVEL'] == row['NR_CANDIDATO']]['QT_VOTOS'].empty:
        df_consulta_cand.at[index, 'QT_VOTOS'] = qt_votos_candidatos[qt_votos_candidatos['NR_VOTAVEL'] == row['NR_CANDIDATO']]['QT_VOTOS'].iloc[0]
    else:
        df_consulta_cand.at[index, 'QT_VOTOS'] = 0;
    
    if not total_receita_candidatos[total_receita_candidatos['NR_CANDIDATO'] == row['NR_CANDIDATO']]['VR_RECEITA'].empty:
        df_consulta_cand.at[index, 'TOTAL_RECEITA'] = total_receita_candidatos[total_receita_candidatos['NR_CANDIDATO'] == row['NR_CANDIDATO']]['VR_RECEITA'].iloc[0]
    else:
        df_consulta_cand.at[index, 'TOTAL_RECEITA'] = 0;

    
df_consulta_cand.head(n=5)

Agora vamos gravar o novo dataset em um arquivo csv para utilizar no notebook de analise a utilizar no power bi.

In [None]:
df_consulta_cand['TOTAL_RECEITA'] = df_consulta_cand['TOTAL_RECEITA'].apply(lambda x: f"{x:,.2f}".replace(",", "X").replace(".", ",").replace("X", "."))

df_consulta_cand.to_csv('dataset-canditatos-receita-e-votos.csv', index=False, encoding='utf-8', sep=';')