<h1>Análise Patrimonial das eleições </h1>



<h2>Proposta: Analisar a evolução patrimonial dos candidatos recorrentes na eleição de 2022 que se candidataram para as eleições de 2018 ou 2020</h2>


<h3>Pergunta Principal: Qual a evolução patrimonial dos candidatos recorrentes da eleição de 2022?</h3>

Aluno: **Juan Lima** [Linkedin](https://www.linkedin.com/in/juanrdlima/) [Email](mailto:juan.rdlima@gmail.com)

Esse projeto usará bases disponibilizadas pelo TSE (Tribunal Superior Eleitoral) sob licença de uso livre, disponibilizadas no site:<br>
[Portal de Dados Abertos](https://dadosabertos.tse.jus.br/)

Serão usados os arquivos relativos aos candidatos e aos respectivos bens declarados em cada eleição<br>

Arquivos Baixados no dia: 22/03/2025


**Link Individual de cada Arquivo utilizado:**
1. 2022 - Presidenciais [Candidatos](https://dadosabertos.tse.jus.br/dataset/candidatos-2022/resource/435145fd-bc9d-446a-ac9d-273f585a0bb9) [Bens](https://dadosabertos.tse.jus.br/dataset/candidatos-2022/resource/fac824ef-8519-4c75-b634-378e6fcc717f)

2. 2020 - Municipais [Candidatos](https://dadosabertos.tse.jus.br/dataset/candidatos-2020-subtemas/resource/8187b1aa-5026-4908-a15a-0bf777ee6701) [Bens](https://dadosabertos.tse.jus.br/dataset/candidatos-2020-subtemas/resource/4b5e016e-feed-4ff6-bf86-78217927709a)

3. 2018 - Presidenciais [Candidatos](https://dadosabertos.tse.jus.br/dataset/candidatos-2018/resource/d9cb832e-fa52-4b62-8ee3-8d68d5620116) [Bens](https://dadosabertos.tse.jus.br/dataset/candidatos-2018/resource/84475557-764f-4457-9277-92b58fbb5f80)



Para armazenamento e processamento foi utilizado a ferramenta DataBricks Community.

In [0]:
#Importação das Bibliotecas necessárias

#Muitas Bibliotecas já vem incorporadas no Databricks, vou listar as utilizadas que não precisaram ser importadas como comentário

#import dbutils

<h2>Importação dos Arquivos</h2>

Os arquivos disponibilizados nos links, estão no formato zip, para reduzir tempo de processamento realizei o download em minha máquina fiz o unzip e subi via upload no databricks, na pasta '/FileStore/tables/eleicoes', os zips contém 27 arquivos .csv separados em estados brasileiros e um com o compilado total, para essa análise usei os arquivos compilados.<br>

Nos zips também há um arquivo pdf com uma descrição resumo de cada coluna presente nas bases, disponível no repositório GIT



In [0]:
#Validando arquivos nas pastas
display(dbutils.fs.ls('/FileStore/tables/eleicoes'))

path,name,size,modificationTime
dbfs:/FileStore/tables/eleicoes/bem_candidato_2018_BRASIL.csv,bem_candidato_2018_BRASIL.csv,23257575,1743892826000
dbfs:/FileStore/tables/eleicoes/bem_candidato_2020_BRASIL.csv,bem_candidato_2020_BRASIL.csv,266192439,1743892854000
dbfs:/FileStore/tables/eleicoes/bem_candidato_2022_BRASIL.csv,bem_candidato_2022_BRASIL.csv,20810528,1743892863000
dbfs:/FileStore/tables/eleicoes/consulta_cand_2018_BRASIL.csv,consulta_cand_2018_BRASIL.csv,15929977,1743892867000
dbfs:/FileStore/tables/eleicoes/consulta_cand_2020_BRASIL.csv,consulta_cand_2020_BRASIL.csv,294252540,1743892889000
dbfs:/FileStore/tables/eleicoes/consulta_cand_2022_BRASIL.csv,consulta_cand_2022_BRASIL.csv,15746625,1743892895000


# Data Engineering

Irei separar o processo em três layers, cada um com seu respectivo schema.<br>
Irei mante-los no catálogo "padrão", pois o community não permite a criação de catalogos.

## Bronze Layer:
Dados Brutos convertidos em tabelas

In [0]:
%sql
--Criação Catalog
CREATE CATALOG IF NOT EXISTS  mvp1
    COMMENT 'Catalog for the mvp 1 (analise patrimonia de candidatos)' 

[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-3002522921466276>:7[0m
[1;32m      5[0m     display(df)
[1;32m      6[0m     [38;5;28;01mreturn[39;00m df
[0;32m----> 7[0m   _sqldf [38;5;241m=[39m [43m____databricks_percent_sql[49m[43m([49m[43m)[49m
[1;32m      8[0m [38;5;28;01mfinally[39;00m:
[1;32m      9[0m   [38;5;28;01mdel[39;00m ____databricks_percent_sql

File [0;32m<command-3002522921466276>:4[0m, in [0;36m____databricks_percent_sql[0;34m()[0m
[1;32m      2[0m [38;5;28;01mdef[39;00m [38;5;21m____databricks_percent_sql[39m():
[1;32m      3[0m   [38;5;28;01mimport[39;00m [38;5;21;01mbase64[39;00m
[0;32m----> 4[0m   df [38;5;241m=[39m [43mspark[49m[38;5;241;43m.[39;49m[43msql[49m[43m([49m[43mbase64[49m[38;5;241;43m.[39;49m[43mstandard_b64decode[49m[43m([49m[38;5;124;43m"[39;

In [0]:
%sql
--Criação Bronze Layer
CREATE SCHEMA IF NOT EXISTS  eleicao_bronze
    COMMENT 'Bronze Schema with raw tables' 

In [0]:
#Primeiro df
file_location = 'dbfs:/FileStore/tables/eleicoes/consulta_cand_2022_BRASIL.csv'
file_type = "csv"

# CSV options
infer_schema = "false"
first_row_is_header = "true"
delimiter = ";"
encoding = "ISO-8859-1" #Encoding que funcionou melhor

df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .option("encoding",encoding) \
  .load(file_location)

df.limit(10).display()

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,DS_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,NR_FEDERACAO,NM_FEDERACAO,SG_FEDERACAO,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,SG_UF_NASCIMENTO,DT_NASCIMENTO,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,544,Eleição Geral Federal 2022,02/10/2022,FEDERAL,BR,BR,BRASIL,1,PRESIDENTE,280001618036,22,JAIR MESSIAS BOLSONARO,JAIR BOLSONARO,#NULO,45317828791,NÃO DIVULGÁVEL,12,APTO,COLIGAÇÃO,22,PL,PARTIDO LIBERAL,-1,#NULO,#NULO,#NULO,280001682069,Pelo bem do Brasil,PP / REPUBLICANOS / PL,SP,21/03/1955,15564190337,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,272,PRESIDENTE DA REPÚBLICA,6,2º TURNO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,544,Eleição Geral Federal 2022,02/10/2022,FEDERAL,BR,BR,BRASIL,1,PRESIDENTE,280001644128,44,SORAYA VIEIRA THRONICKE,SORAYA THRONICKE,#NULO,60838965172,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,44,UNIÃO,UNIÃO BRASIL,-1,#NULO,#NULO,#NULO,280001683105,PARTIDO ISOLADO,UNIÃO,MS,01/06/1973,13250921929,4,FEMININO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,276,SENADOR,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,544,Eleição Geral Federal 2022,02/10/2022,FEDERAL,BR,BR,BRASIL,2,VICE-PRESIDENTE,280001677436,27,JOAO BARBOSA BRAVO,PROFESSOR BRAVO,#NULO,3532046768,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,27,DC,DEMOCRACIA CRISTÃ,-1,#NULO,#NULO,#NULO,280001684145,PARTIDO ISOLADO,DC,RJ,27/06/1947,45076570302,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,121,ECONOMISTA,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,544,Eleição Geral Federal 2022,02/10/2022,FEDERAL,BR,BR,BRASIL,2,VICE-PRESIDENTE,280001600166,21,ANTONIO ALVES DA SILVA JUNIOR,ANTONIO ALVES,#NULO,4551706493,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,21,PCB,PARTIDO COMUNISTA BRASILEIRO,-1,#NULO,#NULO,#NULO,280001681036,PARTIDO ISOLADO,PCB,PE,07/10/1978,56283400876,2,MASCULINO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),2,PRETA,171,JORNALISTA E REDATOR,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,AP,AP,AMAPÁ,3,GOVERNADOR,30001639521,28,GESIEL DE SOUZA OLIVEIRA,GESIEL DE OLIVEIRA,#NULO,61341509249,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO,#NULO,#NULO,30001682792,PARTIDO ISOLADO,PRTB,AP,03/02/1978,2462812585,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,999,OUTROS,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,AP,AP,AMAPÁ,3,GOVERNADOR,30001620571,15,GILVAM PINHEIRO BORGES,GILVAM BORGES,#NULO,11907894268,NÃO DIVULGÁVEL,12,APTO,COLIGAÇÃO,15,MDB,MOVIMENTO DEMOCRÁTICO BRASILEIRO,-1,#NULO,#NULO,#NULO,30001682227,EFICIÊNCIA E TRABALHO,PROS / PODE / MDB,DF,01/08/1958,346522577,2,MASCULINO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),3,PARDA,133,SOCIÓLOGO,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,AP,AP,AMAPÁ,3,GOVERNADOR,30001643108,55,JAIME DOMINGUES NUNES,JAIME NUNES,#NULO,14673835204,NÃO DIVULGÁVEL,12,APTO,COLIGAÇÃO,55,PSD,PARTIDO SOCIAL DEMOCRÁTICO,-1,#NULO,#NULO,#NULO,30001683045,PRA MUDAR DE VERDADE,PTB / PSC / PROS / PSD / AGIR,AP,29/07/1959,285072526,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,257,EMPRESÁRIO,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,BA,BA,BAHIA,3,GOVERNADOR,50001604884,22,JOÃO INÁCIO RIBEIRO ROMA NETO,JOÃO ROMA,#NULO,81968442472,NÃO DIVULGÁVEL,12,APTO,COLIGAÇÃO,22,PL,PARTIDO LIBERAL,-1,#NULO,#NULO,#NULO,50001681261,BAHIA DE MÃOS DADAS COM O BRASIL,PMB / PATRIOTA / PL / PROS / AGIR,PE,17/11/1972,37641250850,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,234,PRODUTOR AGROPECUÁRIO,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,PI,PI,PIAUÍ,3,GOVERNADOR,180001713732,33,RAVENNA DE CASTRO LIMA AZEVEDO,RAVENNA CASTRO,#NULO,854325395,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,33,PMN,PARTIDO DA MOBILIZAÇÃO NACIONAL,-1,#NULO,#NULO,#NULO,180001685107,PARTIDO ISOLADO,PMN,PI,15/05/1986,29874391546,4,FEMININO,8,SUPERIOR COMPLETO,9,DIVORCIADO(A),3,PARDA,131,ADVOGADO,4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,AC,AC,ACRE,7,DEPUTADO ESTADUAL,10001643441,11155,RAIMUNDO SALES DA SILVA,BIGODE,#NULO,5135834249,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,11,PP,PROGRESSISTAS,-1,#NULO,#NULO,#NULO,10001683065,PARTIDO ISOLADO,PP,AC,10/04/1955,837222496,2,MASCULINO,4,ENSINO FUNDAMENTAL COMPLETO,9,DIVORCIADO(A),3,PARDA,604,PESCADOR,5,SUPLENTE


Código acima, usado para validar o encoding que conseguiu capturar melhor os dados, segundo algumas pesquisas e testes o "ISO-8859-1" ficou sendo a melhor<br> opção mesmo o arquivo de referência sugerir que o encoding do arquivo é "Latin1", como reparado infelizmente por causa do encoding todas as colunas vieram em formato de texto, que será tratado na Silver Layer a seguir.

In [0]:
#Criação da tabela permanente bronze de candidatos para teste

df.createOrReplaceTempView('candidatos')

permanent_table_name = "eleicao_bronze.candidatos"

schema = 'eleicao_bronze'

df.write.format("parquet").saveAsTable(permanent_table_name,mode='append')


In [0]:
%sql
SELECT 
  *
FROM 
  eleicao_bronze.candidatos
LIMIT 10

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,DS_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,NR_FEDERACAO,NM_FEDERACAO,SG_FEDERACAO,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,SG_UF_NASCIMENTO,DT_NASCIMENTO,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,SP,SP,SÃO PAULO,7,DEPUTADO ESTADUAL,250001597754,30100,EMILIO CURY JUNIOR,EMILIO CURY,#NULO,18116335871,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,30,NOVO,PARTIDO NOVO,-1,#NULO,#NULO,#NULO,250001680946,PARTIDO ISOLADO,NOVO,SP,20/02/1973,180312170116,2,MASCULINO,8,SUPERIOR COMPLETO,9,DIVORCIADO(A),1,BRANCA,125,ADMINISTRADOR,5,SUPLENTE
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,SP,SP,SÃO PAULO,7,DEPUTADO ESTADUAL,250001597753,30333,EDSON TEIXEIRA,EDSON JAPÃO,#NULO,28750611860,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,30,NOVO,PARTIDO NOVO,-1,#NULO,#NULO,#NULO,250001680946,PARTIDO ISOLADO,NOVO,PR,01/07/1980,226994850167,2,MASCULINO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),1,BRANCA,125,ADMINISTRADOR,5,SUPLENTE
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,RS,RS,RIO GRANDE DO SUL,7,DEPUTADO ESTADUAL,210001620190,45610,NAASOM LUCIANO DA ROCHA,NAASOM LUCIANO,#NULO,434866067,NÃO DIVULGÁVEL,12,APTO,FEDERAÇÃO,45,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,1,Federação PSDB Cidadania,PSDB/CIDADANIA,PSDB/CIDADANIA,210001682211,FEDERAÇÃO,Federação PSDB Cidadania(PSDB/CIDADANIA),RS,24/12/1985,87268210434,2,MASCULINO,8,SUPERIOR COMPLETO,9,DIVORCIADO(A),3,PARDA,131,ADVOGADO,5,SUPLENTE
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,RS,RS,RIO GRANDE DO SUL,7,DEPUTADO ESTADUAL,210001649812,14678,MOACIR DA ROSA ALVES,DR MOACIR,#NULO,28035720015,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,14,PTB,PARTIDO TRABALHISTA BRASILEIRO,-1,#NULO,#NULO,#NULO,210001683289,PARTIDO ISOLADO,PTB,RS,27/07/1954,30247250906,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),1,BRANCA,115,ODONTÓLOGO,5,SUPLENTE
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,RS,RS,RIO GRANDE DO SUL,7,DEPUTADO ESTADUAL,210001596156,19020,ITACIR PEGORARO,PEGORARO,#NULO,43795005000,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,19,PODE,PODEMOS,-1,#NULO,#NULO,#NULO,210001680883,PARTIDO ISOLADO,PODE,RS,22/02/1966,65234100434,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),1,BRANCA,125,ADMINISTRADOR,5,SUPLENTE
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,BA,BA,BAHIA,7,DEPUTADO ESTADUAL,50001614687,15000,MARIA DE LOURDES TAVARES,LURDINHA,#NULO,66455731620,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,15,MDB,MOVIMENTO DEMOCRÁTICO BRASILEIRO,-1,#NULO,#NULO,#NULO,50001681743,PARTIDO ISOLADO,MDB,BA,21/05/1966,21022970566,4,FEMININO,8,SUPERIOR COMPLETO,9,DIVORCIADO(A),1,BRANCA,298,SERVIDOR PÚBLICO MUNICIPAL,-1,#NULO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,BA,BA,BAHIA,7,DEPUTADO ESTADUAL,50001605981,40004,ANTONIO JORGE DE BRITO,ANTONIO JORGE DE BRITO,#NULO,39869725520,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,40,PSB,PARTIDO SOCIALISTA BRASILEIRO,-1,#NULO,#NULO,#NULO,50001681308,PARTIDO ISOLADO,PSB,BA,07/08/1966,37599480582,2,MASCULINO,8,SUPERIOR COMPLETO,3,CASADO(A),2,PRETA,233,POLICIAL MILITAR,-1,#NULO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,MG,MG,MINAS GERAIS,6,DEPUTADO FEDERAL,130001607270,1334,DANDARA TONANTZIN SILVA CASTRO,DANDARA,#NULO,11264753608,NÃO DIVULGÁVEL,12,APTO,FEDERAÇÃO,13,PT,PARTIDO DOS TRABALHADORES,2,Federação Brasil da Esperança - FE BRASIL,PT/PC do B/PV,PT/PC do B/PV,130001681345,FEDERAÇÃO,Federação Brasil da Esperança - FE BRASIL(PT/PC do B/PV),MG,23/01/1994,193601590213,4,FEMININO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),2,PRETA,278,VEREADOR,2,ELEITO POR QP
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,MG,MG,MINAS GERAIS,6,DEPUTADO FEDERAL,130001645105,3627,MARLY DE LOURDES MENDES OLIVEIRA,LOURDES MARLY,#NULO,14071991615,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,36,AGIR,AGIR,-1,#NULO,#NULO,#NULO,130001683143,PARTIDO ISOLADO,AGIR,MG,29/05/1939,52529670230,4,FEMININO,4,ENSINO FUNDAMENTAL COMPLETO,1,SOLTEIRO(A),2,PRETA,923,APOSENTADO (EXCETO SERVIDOR PÚBLICO),4,NÃO ELEITO
22/03/2025,03:36:11,2022,2,ELEIÇÃO ORDINÁRIA,1,546,Eleições Gerais Estaduais 2022,02/10/2022,ESTADUAL,MG,MG,MINAS GERAIS,6,DEPUTADO FEDERAL,130001619740,1035,ANTONIO GERALDO DE JESUS,TONI DA FARMACIA,#NULO,30375533672,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,10,REPUBLICANOS,REPUBLICANOS,-1,#NULO,#NULO,#NULO,130001682190,PARTIDO ISOLADO,REPUBLICANOS,MG,08/09/1962,53267780281,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),2,PRETA,169,COMERCIANTE,5,SUPLENTE


Próximos passo seria criar um loop para "appendar" os demais anos na mesma tabela, que irá facilitar o tratamento nas próximas camadas.<br>

Para facilitar esse processo criarei pastas para cada grupo de dados<br>

Para organização serão criadas duas tabelas dentro do Schema:
- Tabela de Candidatos: contendo as informações dos candidatos
- Tabela Bens: contendo os bens declarados pelos candidatos


In [0]:
#Criando pastas
nome_pastas = ['candidatos','bens']


for nomes in nome_pastas:
  dbutils.fs.mkdirs("dbfs:/FileStore/tables/eleicoes/"+nomes)


In [0]:
#Movendo arquivos para suas pastas
anos = ["2018","2020","2022"]

for ano in anos:
    dbutils.fs.mv(f"dbfs:/FileStore/tables/eleicoes/bem_candidato_{ano}_BRASIL.csv",f"dbfs:/FileStore/tables/eleicoes/bens/bem_candidato_{ano}_BRASIL.csv" )
    dbutils.fs.mv(f"dbfs:/FileStore/tables/eleicoes/consulta_cand_{ano}_BRASIL.csv",f"dbfs:/FileStore/tables/eleicoes/candidatos/consulta_cand_{ano}_BRASIL.csv" )


In [0]:
%sql
--Truncar tabela criada para executar looping
TRUNCATE TABLE  eleicao_bronze.candidatos

### Tabela bronze Candidatos:

In [0]:
#Tabela bronze candidatos particionada por ano

folder = "dbfs:/FileStore/tables/eleicoes/candidatos"

df = (
    spark.read
    .option("recursiveFileLookup", "true")
    .format("binaryFile")
    .load(folder)
)

tabelas = []

tabelas.append(df.select('path').rdd.flatMap(lambda x: x).collect())

# display(tabelas)

for files in tabelas:
    
    file_type = "csv"

    # CSV options
    infer_schema = "false"
    first_row_is_header = "true"
    delimiter = ";"
    encoding = "ISO-8859-1" #Encoding que funcionou

    df = spark.read.format(file_type) \
      .option("inferSchema", infer_schema) \
      .option("header", first_row_is_header) \
      .option("sep", delimiter) \
      .option("encoding",encoding) \
      .load(files)

    df.createOrReplaceTempView('candidatos')

    permanent_table_name = "eleicao_bronze.candidatos"

    schema = 'eleicao_bronze'

    df.write.format("parquet").saveAsTable(permanent_table_name,mode='append')


In [0]:
%sql
--Verificar tabela criada
SELECT 
  *
FROM 
  eleicao_bronze.candidatos
LIMIT 10

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,DS_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,NR_FEDERACAO,NM_FEDERACAO,SG_FEDERACAO,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,SG_UF_NASCIMENTO,DT_NASCIMENTO,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001265966,27323,JOÃO BATISTA DOS SANTOS,JOÃO ZELADOR,#NULO#,13534893883,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,27,DC,DEMOCRACIA CRISTÃ,-1,#NULO#,#NULO#,#NULO#,250000136838,PARTIDO ISOLADO,DC,SP,05/03/1970,292412220132,2,MASCULINO,5,ENSINO MÉDIO INCOMPLETO,3,CASADO(A),3,PARDA,303,GERENTE,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001268518,28010,SILVIO ROBERTO VOCE,SILVIO VOCE,#NULO#,90421213868,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,250000125795,PARTIDO ISOLADO,PRTB,SP,15/04/1953,97094760159,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,1,SOLTEIRO(A),1,BRANCA,182,COMISSÁRIO DE BORDO,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250000925963,20901,ANDRESSA MACIEL DO NASCIMENTO,DEDE,#NULO#,37174723802,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,20,PSC,PARTIDO SOCIAL CRISTÃO,-1,#NULO#,#NULO#,#NULO#,250000106600,PARTIDO ISOLADO,PSC,SP,20/11/1988,344907730124,4,FEMININO,7,SUPERIOR INCOMPLETO,3,CASADO(A),3,PARDA,999,OUTROS,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,PR,74888,TUNAS DO PARANÁ,13,VEREADOR,160001090215,28000,EDEMAR RIBEIRO BORGES,NICO DA MARACANÃ,#NULO#,62730614915,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,160000132022,PARTIDO ISOLADO,PRTB,PR,05/01/1965,4079340655,2,MASCULINO,3,ENSINO FUNDAMENTAL INCOMPLETO,1,SOLTEIRO(A),3,PARDA,541,MECÂNICO DE MANUTENÇÃO,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001100745,35020,ROSE LEILA RODASLI CHUERE,ROSE LEILA,#NULO#,53450779834,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,35,PMB,PARTIDO DA MULHER BRASILEIRA,-1,#NULO#,#NULO#,#NULO#,250000133375,PARTIDO ISOLADO,PMB,SP,11/01/1954,156241700167,4,FEMININO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),1,BRANCA,923,APOSENTADO (EXCETO SERVIDOR PÚBLICO),4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,70211,SANTA BRANCA,13,VEREADOR,250000984468,45000,JOSÉ AMILTON CORREA,BIKUIRA,#NULO#,26595781840,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,45,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,-1,#NULO#,#NULO#,#NULO#,250000115157,PARTIDO ISOLADO,PSDB,PR,17/08/1972,180429580124,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),1,BRANCA,707,TRABALHADOR METALÚRGICO E SIDERÚRGICO,5,SUPLENTE
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,PR,75493,FAXINAL,13,VEREADOR,160000869858,17200,JOSÉ PINTO DE OLIVEIRA,ZÉ DE OLIVEIRA DO GÁS,#NULO#,10132848953,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,17,PSL,PARTIDO SOCIAL LIBERAL,-1,#NULO#,#NULO#,#NULO#,160000095987,PARTIDO ISOLADO,PSL,MG,25/06/1951,34885470612,2,MASCULINO,2,LÊ E ESCREVE,3,CASADO(A),1,BRANCA,169,COMERCIANTE,5,SUPLENTE
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,MG,48534,MONTALVÂNIA,13,VEREADOR,130000888282,14333,EVERALDO MACEDO DOS SANTOS,EVERALDO DE ZÉ RODOVIÁRIA,#NULO#,6747192630,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,14,PTB,PARTIDO TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,130000099696,PARTIDO ISOLADO,PTB,MG,14/08/1984,146298280248,2,MASCULINO,4,ENSINO FUNDAMENTAL COMPLETO,3,CASADO(A),2,PRETA,999,OUTROS,5,SUPLENTE
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001123247,40600,ADILSON ADRIANO SALES DE SOUZA CARVALHO AMADEU,DR ADILSON CARVALHO,#NULO#,28254810842,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,40,PSB,PARTIDO SOCIALISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,250000136167,PARTIDO ISOLADO,PSB,SP,02/10/1974,251049250167,2,MASCULINO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),1,BRANCA,131,ADVOGADO,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,PR,75515,FÊNIX,13,VEREADOR,160000939823,22333,JOAQUIM RODRIGUES NOVO,JOAQUIM RODRIGUES,#NULO#,59857307949,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,22,PL,PARTIDO LIBERAL,-1,#NULO#,#NULO#,#NULO#,160000108483,PARTIDO ISOLADO,PL,PR,12/09/1967,25950160698,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),1,BRANCA,601,AGRICULTOR,2,ELEITO POR QP


In [0]:
%sql
--Verificar se todos os arquivos foram inseridos
SELECT 
  DISTINCT ANO_ELEICAO
FROM 
  eleicao_bronze.candidatos

ANO_ELEICAO
2020
2018
2022


### Tabela bronze Bens:

In [0]:
#Tabela dos Bens Candidatos

folder = "dbfs:/FileStore/tables/eleicoes/bens"

df = (
    spark.read
    .option("recursiveFileLookup", "true")
    .format("binaryFile")
    .load(folder)
)

tabelas = []

tabelas.append(df.select('path').rdd.flatMap(lambda x: x).collect())

# display(tabelas)

for files in tabelas:
    
    file_type = "csv"

    # CSV options
    infer_schema = "false"
    first_row_is_header = "true"
    delimiter = ";"
    encoding = "ISO-8859-1" #Encoding que funcionou

    df = spark.read.format(file_type) \
      .option("inferSchema", infer_schema) \
      .option("header", first_row_is_header) \
      .option("sep", delimiter) \
      .option("encoding",encoding) \
      .load(files)

    df.createOrReplaceTempView('bens_declarados')

    permanent_table_name = "eleicao_bronze.bens_declarados"

    schema = 'eleicao_bronze'

    df.write.format("parquet").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql
--Verificar tabela criada
SELECT 
  *
FROM 
  eleicao_bronze.bens_declarados
LIMIT 10

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,SG_UF,SG_UE,NM_UE,SQ_CANDIDATO,NR_ORDEM_BEM_CANDIDATO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,DS_BEM_CANDIDATO,VR_BEM_CANDIDATO,DT_ULT_ATUAL_BEM_CANDIDATO,HH_ULT_ATUAL_BEM_CANDIDATO
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,22411,UMBUZEIRO,150001212623,1,13,Terreno,"TERRENO LOCALIZADO NO LOTEAMENTO DR. JOSÉ NIVALDO, SURUBIM-PE",7680000,15/11/2020,22:05:27
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,20990,NATUBA,150001213783,1,13,Terreno,"PROPRIEDADE RURAL 60 HECTARE, NO SITIO COVÕES, NATUBA-PB",4000000,15/11/2020,21:51:07
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,20990,NATUBA,150001213783,2,13,Terreno,"UM TERRENO E PRÉDIO NA AVENIDA DR FRANCISCO MONTENEGRO, 48, NO 1. PISO A MEDIDA 4M X 7M DE LARGURA, COM A CRIPTA PANTHEON DR. FRANCISCO MONTENEGRO E NO 2. PISO, MEDIDAS DE 7X7M",6000000,15/11/2020,21:51:07
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001215952,2,19,Outros bens imóveis,"Apartamento em Construção de 60m² localizado na rua Bancário Antonio Rosa da Silva, S/N, Bancários - João Pessoa/PB",28500000,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001216673,1,13,Terreno,"1/3 do lote de terreno sob No. 07, quadra Y, Loteamnento Jardim Prolongado Jardim Atlantico - Cabedelo-PB",2333333,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001216692,1,19,Outros bens imóveis,"Sítio de aproximadamente 0,6 hectare, localizado no sitio Jardim, no município de Serraria, estado da Paraiba",4000000,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001216692,2,19,Outros bens imóveis,"Sítio de aproximadamente 0,6 hectare, localizado no sitio Jardim, no município de Serraria, estado da Paraiba",4000000,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,21512,QUEIMADAS,150001216696,4,13,Terreno,"Trinta lotes de terrenos, localizados no Loteamento Novo Horizonte, Queimadas/PB.",135000000,15/11/2020,21:47:46
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,21512,QUEIMADAS,150001216696,5,26,Linha telefônica,Telefonia fixa e móvel,0,15/11/2020,21:47:46
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,21512,QUEIMADAS,150001216730,1,19,Outros bens imóveis,"Propriedade rural com casa edificada, localizadas no Sítio Bodopitá, Queimadas/PB.",3000000,15/11/2020,21:47:46


In [0]:
%sql
--Verificar se todos os arquivos foram inseridos
SELECT 
  DISTINCT ANO_ELEICAO
FROM 
  eleicao_bronze.bens_declarados
LIMIT 10

ANO_ELEICAO
09:38:20
2020
23:07:52
18/11/2020
22:14:31
22:52:49
17/11/2020
""
26/04/2024
14:11:23


Nesta parte acima pode-se notar que o arquivo de bens de 2022 possui linhas corrompidas, isso será ajustado na próxima layer:

------------------------------------------------------------------------------------------------------------

## Silver Layer:
Tratamento das tabelas raw da bronze Layer

Apesar do problema encontrado anteriormente, as bases são bem estruturadas, nessa camada serão realizados mais alguns tratamentos para deixar tabelas prontas para uso.<br>
Tratamentos a serem feitos:
1. Filtrar colunas necessárias para a análise
2. Tratar dados faltantes
3. Tratar linhas corrompidas (problema encontrado)
4. converter formato das colunas



In [0]:
%sql
--Criação do schema de Silver Layer
CREATE SCHEMA IF NOT EXISTS  eleicao_silver
    COMMENT 'Silver Schema with treated tables' 

### Tabela de Candidatos:

In [0]:
%sql
--Sample
SELECT 
  *
FROM 
  eleicao_bronze.candidatos
LIMIT 10

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,DS_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,NR_FEDERACAO,NM_FEDERACAO,SG_FEDERACAO,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,SG_UF_NASCIMENTO,DT_NASCIMENTO,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001265966,27323,JOÃO BATISTA DOS SANTOS,JOÃO ZELADOR,#NULO#,13534893883,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,27,DC,DEMOCRACIA CRISTÃ,-1,#NULO#,#NULO#,#NULO#,250000136838,PARTIDO ISOLADO,DC,SP,05/03/1970,292412220132,2,MASCULINO,5,ENSINO MÉDIO INCOMPLETO,3,CASADO(A),3,PARDA,303,GERENTE,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001268518,28010,SILVIO ROBERTO VOCE,SILVIO VOCE,#NULO#,90421213868,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,250000125795,PARTIDO ISOLADO,PRTB,SP,15/04/1953,97094760159,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,1,SOLTEIRO(A),1,BRANCA,182,COMISSÁRIO DE BORDO,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250000925963,20901,ANDRESSA MACIEL DO NASCIMENTO,DEDE,#NULO#,37174723802,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,20,PSC,PARTIDO SOCIAL CRISTÃO,-1,#NULO#,#NULO#,#NULO#,250000106600,PARTIDO ISOLADO,PSC,SP,20/11/1988,344907730124,4,FEMININO,7,SUPERIOR INCOMPLETO,3,CASADO(A),3,PARDA,999,OUTROS,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,PR,74888,TUNAS DO PARANÁ,13,VEREADOR,160001090215,28000,EDEMAR RIBEIRO BORGES,NICO DA MARACANÃ,#NULO#,62730614915,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,160000132022,PARTIDO ISOLADO,PRTB,PR,05/01/1965,4079340655,2,MASCULINO,3,ENSINO FUNDAMENTAL INCOMPLETO,1,SOLTEIRO(A),3,PARDA,541,MECÂNICO DE MANUTENÇÃO,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001100745,35020,ROSE LEILA RODASLI CHUERE,ROSE LEILA,#NULO#,53450779834,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,35,PMB,PARTIDO DA MULHER BRASILEIRA,-1,#NULO#,#NULO#,#NULO#,250000133375,PARTIDO ISOLADO,PMB,SP,11/01/1954,156241700167,4,FEMININO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),1,BRANCA,923,APOSENTADO (EXCETO SERVIDOR PÚBLICO),4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,70211,SANTA BRANCA,13,VEREADOR,250000984468,45000,JOSÉ AMILTON CORREA,BIKUIRA,#NULO#,26595781840,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,45,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,-1,#NULO#,#NULO#,#NULO#,250000115157,PARTIDO ISOLADO,PSDB,PR,17/08/1972,180429580124,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),1,BRANCA,707,TRABALHADOR METALÚRGICO E SIDERÚRGICO,5,SUPLENTE
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,PR,75493,FAXINAL,13,VEREADOR,160000869858,17200,JOSÉ PINTO DE OLIVEIRA,ZÉ DE OLIVEIRA DO GÁS,#NULO#,10132848953,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,17,PSL,PARTIDO SOCIAL LIBERAL,-1,#NULO#,#NULO#,#NULO#,160000095987,PARTIDO ISOLADO,PSL,MG,25/06/1951,34885470612,2,MASCULINO,2,LÊ E ESCREVE,3,CASADO(A),1,BRANCA,169,COMERCIANTE,5,SUPLENTE
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,MG,48534,MONTALVÂNIA,13,VEREADOR,130000888282,14333,EVERALDO MACEDO DOS SANTOS,EVERALDO DE ZÉ RODOVIÁRIA,#NULO#,6747192630,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,14,PTB,PARTIDO TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,130000099696,PARTIDO ISOLADO,PTB,MG,14/08/1984,146298280248,2,MASCULINO,4,ENSINO FUNDAMENTAL COMPLETO,3,CASADO(A),2,PRETA,999,OUTROS,5,SUPLENTE
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,71072,SÃO PAULO,13,VEREADOR,250001123247,40600,ADILSON ADRIANO SALES DE SOUZA CARVALHO AMADEU,DR ADILSON CARVALHO,#NULO#,28254810842,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,40,PSB,PARTIDO SOCIALISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,250000136167,PARTIDO ISOLADO,PSB,SP,02/10/1974,251049250167,2,MASCULINO,8,SUPERIOR COMPLETO,1,SOLTEIRO(A),1,BRANCA,131,ADVOGADO,4,NÃO ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,PR,75515,FÊNIX,13,VEREADOR,160000939823,22333,JOAQUIM RODRIGUES NOVO,JOAQUIM RODRIGUES,#NULO#,59857307949,NÃO DIVULGÁVEL,12,APTO,PARTIDO ISOLADO,22,PL,PARTIDO LIBERAL,-1,#NULO#,#NULO#,#NULO#,160000108483,PARTIDO ISOLADO,PL,PR,12/09/1967,25950160698,2,MASCULINO,6,ENSINO MÉDIO COMPLETO,3,CASADO(A),1,BRANCA,601,AGRICULTOR,2,ELEITO POR QP


Para começar os tratamentos precisamos adentrar nos dados:
- A coluna "SQ_CANDIDATO" é única por candidato por ano de eleição e por turno, esse será o campo em conjunto com o "ANO_ELEICAO" para montar a chave primária, já que a tabela de bens não possui nome dos candidatos, essa coluna deve ter o formato final de _BIGINT_. Como chave primária qualquer linha que tenha "SQ_CANDIDATO" ou "ANO_ELEICAO" nulo, será desconsiderada.
- Para o join com anos diferentes e avaliar a evolução de patrimônio será usado a coluna "NR_CPF_CANDIDATO, também possível pela coluna "NR_TITULO_ELEITORAL_CANDIDATO"
- Apesar de serem importantes as colunas de códigos (CD) e siglas (SG) não são úteis para a análise, manterei apenas as descritivas
- Como a tabela tem a partição de ano e apenas alguns candidatos concorrem o segundo turno, temos um problema conhecido: pegar a linha de maior turno de cada candidato, resolvido em alguns passos abaixo.  

Segue algumas validações nos campos da tabela Candidatos:

In [0]:
%sql
---Validação de Nulos no campo SQ_CANDIDATO
SELECT 
  COUNT(*) AS VALORES_NULOS
FROM 
  eleicao_bronze.candidatos
WHERE 
  SQ_CANDIDATO IS NULL


VALORES_NULOS
0


In [0]:
%sql
--Validando unicidade do SQ_CANDIDATO
SELECT
   SQ_CANDIDATO 
  ,ANO_ELEICAO
  ,COUNT(*) AS QTDS
FROM 
  eleicao_bronze.candidatos
GROUP BY 1,2
HAVING COUNT(*) > 1
LIMIT 10

SQ_CANDIDATO,ANO_ELEICAO,QTDS
130000634013,2020,2
170000718293,2020,2
130001168801,2020,2
250000733763,2020,2
190001254499,2020,2
250000746936,2020,2
190001104235,2020,2
250000674981,2020,2
80001001603,2020,2
80001132231,2020,2


In [0]:
%sql
--Validação de um candidato
SELECT 
*
FROM 
  eleicao_bronze.candidatos
WHERE 
  SQ_CANDIDATO = 130000634013

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,DS_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,NR_FEDERACAO,NM_FEDERACAO,SG_FEDERACAO,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,SG_UF_NASCIMENTO,DT_NASCIMENTO,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,2,427,Eleições Municipais 2020,29/11/2020,MUNICIPAL,MG,47333,JUIZ DE FORA,12,VICE-PREFEITO,130000634013,13,JOÃO KENNEDY RIBEIRO,KENNEDY RIBEIRO,#NULO#,75300923672,NÃO DIVULGÁVEL,12,APTO,COLIGAÇÃO,43,PV,PARTIDO VERDE,-1,#NULO#,#NULO#,#NULO#,130000051817,JUIZ DE FORA VALE A PENA,PT / PV,MG,23/02/1971,93093630221,2,MASCULINO,3,ENSINO FUNDAMENTAL INCOMPLETO,3,CASADO(A),1,BRANCA,278,VEREADOR,1,ELEITO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,MG,47333,JUIZ DE FORA,12,VICE-PREFEITO,130000634013,13,JOÃO KENNEDY RIBEIRO,KENNEDY RIBEIRO,#NULO#,75300923672,NÃO DIVULGÁVEL,12,APTO,COLIGAÇÃO,43,PV,PARTIDO VERDE,-1,#NULO#,#NULO#,#NULO#,130000051817,JUIZ DE FORA VALE A PENA,PT / PV,MG,23/02/1971,93093630221,2,MASCULINO,3,ENSINO FUNDAMENTAL INCOMPLETO,3,CASADO(A),1,BRANCA,278,VEREADOR,6,2º TURNO


Repare que o candidato de código '130000634013' no ano de 2020 participou do segundo turno da eleição, assim possuindo duas entradas de dados para o respectivo ano.

In [0]:
%sql
---Validação de Nulos no campo NR_CPF_CANDIDATO
SELECT 
  COUNT(*) AS VALORES_NULOS
FROM 
  eleicao_bronze.candidatos
WHERE 
  NR_CPF_CANDIDATO IS NULL

VALORES_NULOS
0


In [0]:
#Validando tamanho das entradas do campo SQ_CANDIDATO
spark.sql("SELECT DISTINCT LEN(NR_CPF_CANDIDATO) FROM eleicao_bronze.candidatos").show()

+---------------------+
|len(NR_CPF_CANDIDATO)|
+---------------------+
|                   11|
|                    2|
+---------------------+



Há dados com dois tamanhos distintos no campo "NR_CPF_CANDIDATO"

In [0]:
#Sample dos casos com 2 digitos
df_teste = sqlContext.sql("SELECT * FROM eleicao_bronze.candidatos WHERE LEN(NR_CPF_CANDIDATO) = 2 LIMIT 10")
display(df_teste)

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,NR_TURNO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,TP_ABRANGENCIA,SG_UF,SG_UE,NM_UE,CD_CARGO,DS_CARGO,SQ_CANDIDATO,NR_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,NM_SOCIAL_CANDIDATO,NR_CPF_CANDIDATO,DS_EMAIL,CD_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA,TP_AGREMIACAO,NR_PARTIDO,SG_PARTIDO,NM_PARTIDO,NR_FEDERACAO,NM_FEDERACAO,SG_FEDERACAO,DS_COMPOSICAO_FEDERACAO,SQ_COLIGACAO,NM_COLIGACAO,DS_COMPOSICAO_COLIGACAO,SG_UF_NASCIMENTO,DT_NASCIMENTO,NR_TITULO_ELEITORAL_CANDIDATO,CD_GENERO,DS_GENERO,CD_GRAU_INSTRUCAO,DS_GRAU_INSTRUCAO,CD_ESTADO_CIVIL,DS_ESTADO_CIVIL,CD_COR_RACA,DS_COR_RACA,CD_OCUPACAO,DS_OCUPACAO,CD_SIT_TOT_TURNO,DS_SIT_TOT_TURNO
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,69213,PRAIA GRANDE,13,VEREADOR,250001227466,28111,HUMBERTO FREDERICO OLIVEIRA,HUMBERTO DO APP,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,250000151552,PARTIDO ISOLADO,PRTB,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,GO,93777,GOIÁS,13,VEREADOR,90000802937,13000,TIAGO RODRIGUES GALVÃO,TIAGO GALVÃO,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,13,PT,PARTIDO DOS TRABALHADORES,-1,#NULO#,#NULO#,#NULO#,90000079246,PARTIDO ISOLADO,PT,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,MG,47910,MANTENA,13,VEREADOR,130000766300,20333,ALEXANDRA ALVES LIMA FONSECA,ALEXANDRA FONSECA,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,20,PSC,PARTIDO SOCIAL CRISTÃO,-1,#NULO#,#NULO#,#NULO#,130000073901,PARTIDO ISOLADO,PSC,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,AC,1074,CRUZEIRO DO SUL,13,VEREADOR,10001154410,11112,ELIELSON PEREIRA LIMA,ELIELSON ALMEIDA,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,11,PP,PROGRESSISTAS,-1,#NULO#,#NULO#,#NULO#,10000140252,PARTIDO ISOLADO,PP,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,RJ,58912,SANTA MARIA MADALENA,13,VEREADOR,190001261331,10510,JOSELMA POUBEL PIZZO,PROFESSORA JOSELMA,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,10,REPUBLICANOS,REPUBLICANOS,-1,#NULO#,#NULO#,#NULO#,190000163490,PARTIDO ISOLADO,REPUBLICANOS,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,AC,1392,RIO BRANCO,13,VEREADOR,10000966738,17145,LEONEIDE OLIVEIRA DOS SANTOS,LEO DO WALDEMAR MARCIEL,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,17,PSL,PARTIDO SOCIAL LIBERAL,-1,#NULO#,#NULO#,#NULO#,10000112373,PARTIDO ISOLADO,PSL,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,MT,90719,DOM AQUINO,11,PREFEITO,110001039007,22,VALDECIO LUIZ DA COSTA,ZÃO,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,COLIGAÇÃO,22,PL,PARTIDO LIBERAL,-1,#NULO#,#NULO#,#NULO#,110000125370,QUEM AMA CUIDA,PSC / MDB / PL,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,SP,61697,AREIAS,12,VICE-PREFEITO,250000897524,45,ANA PAULA BARBOSA ALVES,PAULA DO ZÉ ANTÔNIO,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,COLIGAÇÃO,45,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,-1,#NULO#,#NULO#,#NULO#,250000101721,COMPROMISSO E RESPEITO COM O POVO DE AREIAS,PSDB / PL / SOLIDARIEDADE,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,GO,94870,NERÓPOLIS,12,VICE-PREFEITO,90000988639,10,LUIZ ALBERTO FRANCO ARAUJO,DR LUIZ,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,COLIGAÇÃO,10,REPUBLICANOS,REPUBLICANOS,-1,#NULO#,#NULO#,#NULO#,90000115784,COMPETÊNCIA PARA CONSTRUIR O FUTURO,PP / CIDADANIA / PSD / REPUBLICANOS,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#
22/01/2025,15:04:00,2020,2,ELEIÇÃO ORDINÁRIA,1,426,Eleições Municipais 2020,15/11/2020,MUNICIPAL,RJ,58912,SANTA MARIA MADALENA,13,VEREADOR,190001261348,28038,BRUNO SILVA MORENO,BRUNO MORENO,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,3,INAPTO,PARTIDO ISOLADO,28,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,-1,#NULO#,#NULO#,#NULO#,190000163495,PARTIDO ISOLADO,PRTB,Não divulgável,,-4,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-4,NÃO DIVULGÁVEL,-1,#NULO#


Alguns casos de candidatos as colunas "NR_CPF_CANDIDATO" e "NR_TITULO_ELEITORAL_CANDIDATO" estão com o valor "-4", segundo documentação fornecida refere-se a candidatos com status de "Não divulgável", podendo ocorrer também no campo de "DT_NASCIMENTO", para esses casos o join será feito via nome do candidato e "SG_UF_NASCIMENTO" perdendo um pouco da confiabilidade, já que podem haver alterações de nome entre os períodos eleitorais

#### Pegar apenas a linha do turno 2 de candidatos

Esse é um problema conhecido, infelizmente não muito otimizavel de se lidar, como solução vou criar uma tabela intermediária no silver layer schema, com o join da tabela com ela mesma filtrando a ocorrência de maior valor do turno de cada candidato.<br>

OBS: nessa etapa também foram realizadas as conversões de datatype das colunas.

Segue código:


In [0]:
#df Candidatos Silver
df = sqlContext.sql("""
    WITH
        columns_altered AS (
            SELECT
                 CAST(SQ_CANDIDATO AS BIGINT) AS SQ_CANDIDATO
                ,NM_CANDIDATO
                ,NM_URNA_CANDIDATO
                ,CAST(ANO_ELEICAO AS BIGINT) AS ANO_ELEICAO
                ,TP_ABRANGENCIA
                ,to_date(DT_ELEICAO, 'dd/M/yyyy') AS DT_ELEICAO
                ,CAST(NR_CPF_CANDIDATO AS BIGINT) AS NR_CPF_CANDIDATO
                ,CAST(NR_TITULO_ELEITORAL_CANDIDATO AS BIGINT) AS NR_TITULO_ELEITORAL_CANDIDATO
                ,DS_CARGO
                ,DS_SITUACAO_CANDIDATURA
                ,SG_PARTIDO
                ,NM_PARTIDO
                ,SG_UF_NASCIMENTO
                ,to_date(DT_NASCIMENTO, 'dd/M/yyyy') AS DT_NASCIMENTO
                ,DS_GENERO
                ,DS_COR_RACA
                ,DS_GRAU_INSTRUCAO
                ,DS_ESTADO_CIVIL
                ,DS_OCUPACAO
                ,SG_UF
                ,NM_UE
                ,CAST(NR_TURNO AS BIGINT) AS NR_TURNO
                ,DS_SIT_TOT_TURNO
            FROM eleicao_bronze.candidatos
        )
    SELECT
         l_tb.SQ_CANDIDATO
        ,l_tb.NM_CANDIDATO
        ,l_tb.NM_URNA_CANDIDATO
        ,l_tb.ANO_ELEICAO
        ,l_tb.TP_ABRANGENCIA
        ,l_tb.DT_ELEICAO
        ,l_tb.NR_CPF_CANDIDATO
        ,l_tb.NR_TITULO_ELEITORAL_CANDIDATO
        ,l_tb.DS_CARGO
        ,l_tb.DS_SITUACAO_CANDIDATURA
        ,l_tb.SG_PARTIDO
        ,l_tb.NM_PARTIDO
        ,l_tb.SG_UF_NASCIMENTO
        ,l_tb.DT_NASCIMENTO
        ,l_tb.DS_GENERO
        ,l_tb.DS_COR_RACA
        ,l_tb.DS_GRAU_INSTRUCAO
        ,l_tb.DS_ESTADO_CIVIL
        ,l_tb.DS_OCUPACAO
        ,l_tb.SG_UF
        ,l_tb.NM_UE
        ,l_tb.NR_TURNO
        ,l_tb.DS_SIT_TOT_TURNO
    FROM 
        columns_altered AS l_tb
    LEFT JOIN
        columns_altered AS r_tb
        ON 
            l_tb.SQ_CANDIDATO = r_tb.SQ_CANDIDATO
            AND l_tb.ANO_ELEICAO = r_tb.ANO_ELEICAO
            AND l_tb.NR_TURNO < r_tb.NR_TURNO --FAZER COM QUE AS LINHAS DE CANDIDATOS QUE POSSUEM SEGUNDO TURNO TER CORRESPONDENCIA NA BASE DA DIREITA
    WHERE 
        r_tb.NR_TURNO IS NULL --FILTRAR AS LINHAS SEM CORRESPONDÊNCIA
    """ )
df.limit(10).display()

SQ_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,ANO_ELEICAO,TP_ABRANGENCIA,DT_ELEICAO,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_SITUACAO_CANDIDATURA,SG_PARTIDO,NM_PARTIDO,SG_UF_NASCIMENTO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,NR_TURNO,DS_SIT_TOT_TURNO
250001265966,JOÃO BATISTA DOS SANTOS,JOÃO ZELADOR,2020,MUNICIPAL,2020-11-15,13534893883,292412220132,VEREADOR,INAPTO,DC,DEMOCRACIA CRISTÃ,SP,1970-03-05,MASCULINO,PARDA,ENSINO MÉDIO INCOMPLETO,CASADO(A),GERENTE,SP,SÃO PAULO,1,NÃO ELEITO
250001268518,SILVIO ROBERTO VOCE,SILVIO VOCE,2020,MUNICIPAL,2020-11-15,90421213868,97094760159,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,SP,1953-04-15,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),COMISSÁRIO DE BORDO,SP,SÃO PAULO,1,NÃO ELEITO
250000925963,ANDRESSA MACIEL DO NASCIMENTO,DEDE,2020,MUNICIPAL,2020-11-15,37174723802,344907730124,VEREADOR,INAPTO,PSC,PARTIDO SOCIAL CRISTÃO,SP,1988-11-20,FEMININO,PARDA,SUPERIOR INCOMPLETO,CASADO(A),OUTROS,SP,SÃO PAULO,1,NÃO ELEITO
160001090215,EDEMAR RIBEIRO BORGES,NICO DA MARACANÃ,2020,MUNICIPAL,2020-11-15,62730614915,4079340655,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,PR,1965-01-05,MASCULINO,PARDA,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),MECÂNICO DE MANUTENÇÃO,PR,TUNAS DO PARANÁ,1,NÃO ELEITO
250001100745,ROSE LEILA RODASLI CHUERE,ROSE LEILA,2020,MUNICIPAL,2020-11-15,53450779834,156241700167,VEREADOR,INAPTO,PMB,PARTIDO DA MULHER BRASILEIRA,SP,1954-01-11,FEMININO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),APOSENTADO (EXCETO SERVIDOR PÚBLICO),SP,SÃO PAULO,1,NÃO ELEITO
250000984468,JOSÉ AMILTON CORREA,BIKUIRA,2020,MUNICIPAL,2020-11-15,26595781840,180429580124,VEREADOR,APTO,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,PR,1972-08-17,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),TRABALHADOR METALÚRGICO E SIDERÚRGICO,SP,SANTA BRANCA,1,SUPLENTE
160000869858,JOSÉ PINTO DE OLIVEIRA,ZÉ DE OLIVEIRA DO GÁS,2020,MUNICIPAL,2020-11-15,10132848953,34885470612,VEREADOR,APTO,PSL,PARTIDO SOCIAL LIBERAL,MG,1951-06-25,MASCULINO,BRANCA,LÊ E ESCREVE,CASADO(A),COMERCIANTE,PR,FAXINAL,1,SUPLENTE
130000888282,EVERALDO MACEDO DOS SANTOS,EVERALDO DE ZÉ RODOVIÁRIA,2020,MUNICIPAL,2020-11-15,6747192630,146298280248,VEREADOR,APTO,PTB,PARTIDO TRABALHISTA BRASILEIRO,MG,1984-08-14,MASCULINO,PRETA,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),OUTROS,MG,MONTALVÂNIA,1,SUPLENTE
250001123247,ADILSON ADRIANO SALES DE SOUZA CARVALHO AMADEU,DR ADILSON CARVALHO,2020,MUNICIPAL,2020-11-15,28254810842,251049250167,VEREADOR,INAPTO,PSB,PARTIDO SOCIALISTA BRASILEIRO,SP,1974-10-02,MASCULINO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),ADVOGADO,SP,SÃO PAULO,1,NÃO ELEITO
160000939823,JOAQUIM RODRIGUES NOVO,JOAQUIM RODRIGUES,2020,MUNICIPAL,2020-11-15,59857307949,25950160698,VEREADOR,APTO,PL,PARTIDO LIBERAL,PR,1967-09-12,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),AGRICULTOR,PR,FÊNIX,1,ELEITO POR QP


Transformado em df, será agora salvar como permanente no schema Silver a tabela total de candidatos

In [0]:
#Primeira tabela silver (candidatos) 
df.createOrReplaceTempView('candidatos')

permanent_table_name = "eleicao_silver.candidatos"

schema = 'eleicao_silver'

df.write.format("parquet").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql
--Validando base
SELECT
   *
FROM 
  eleicao_silver.candidatos
LIMIT 10

SQ_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,ANO_ELEICAO,TP_ABRANGENCIA,DT_ELEICAO,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_SITUACAO_CANDIDATURA,SG_PARTIDO,NM_PARTIDO,SG_UF_NASCIMENTO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,NR_TURNO,DS_SIT_TOT_TURNO
250001265966,JOÃO BATISTA DOS SANTOS,JOÃO ZELADOR,2020,MUNICIPAL,2020-11-15,13534893883,292412220132,VEREADOR,INAPTO,DC,DEMOCRACIA CRISTÃ,SP,1970-03-05,MASCULINO,PARDA,ENSINO MÉDIO INCOMPLETO,CASADO(A),GERENTE,SP,SÃO PAULO,1,NÃO ELEITO
250001268518,SILVIO ROBERTO VOCE,SILVIO VOCE,2020,MUNICIPAL,2020-11-15,90421213868,97094760159,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,SP,1953-04-15,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),COMISSÁRIO DE BORDO,SP,SÃO PAULO,1,NÃO ELEITO
250000925963,ANDRESSA MACIEL DO NASCIMENTO,DEDE,2020,MUNICIPAL,2020-11-15,37174723802,344907730124,VEREADOR,INAPTO,PSC,PARTIDO SOCIAL CRISTÃO,SP,1988-11-20,FEMININO,PARDA,SUPERIOR INCOMPLETO,CASADO(A),OUTROS,SP,SÃO PAULO,1,NÃO ELEITO
160001090215,EDEMAR RIBEIRO BORGES,NICO DA MARACANÃ,2020,MUNICIPAL,2020-11-15,62730614915,4079340655,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,PR,1965-01-05,MASCULINO,PARDA,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),MECÂNICO DE MANUTENÇÃO,PR,TUNAS DO PARANÁ,1,NÃO ELEITO
250001100745,ROSE LEILA RODASLI CHUERE,ROSE LEILA,2020,MUNICIPAL,2020-11-15,53450779834,156241700167,VEREADOR,INAPTO,PMB,PARTIDO DA MULHER BRASILEIRA,SP,1954-01-11,FEMININO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),APOSENTADO (EXCETO SERVIDOR PÚBLICO),SP,SÃO PAULO,1,NÃO ELEITO
250000984468,JOSÉ AMILTON CORREA,BIKUIRA,2020,MUNICIPAL,2020-11-15,26595781840,180429580124,VEREADOR,APTO,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,PR,1972-08-17,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),TRABALHADOR METALÚRGICO E SIDERÚRGICO,SP,SANTA BRANCA,1,SUPLENTE
160000869858,JOSÉ PINTO DE OLIVEIRA,ZÉ DE OLIVEIRA DO GÁS,2020,MUNICIPAL,2020-11-15,10132848953,34885470612,VEREADOR,APTO,PSL,PARTIDO SOCIAL LIBERAL,MG,1951-06-25,MASCULINO,BRANCA,LÊ E ESCREVE,CASADO(A),COMERCIANTE,PR,FAXINAL,1,SUPLENTE
130000888282,EVERALDO MACEDO DOS SANTOS,EVERALDO DE ZÉ RODOVIÁRIA,2020,MUNICIPAL,2020-11-15,6747192630,146298280248,VEREADOR,APTO,PTB,PARTIDO TRABALHISTA BRASILEIRO,MG,1984-08-14,MASCULINO,PRETA,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),OUTROS,MG,MONTALVÂNIA,1,SUPLENTE
250001123247,ADILSON ADRIANO SALES DE SOUZA CARVALHO AMADEU,DR ADILSON CARVALHO,2020,MUNICIPAL,2020-11-15,28254810842,251049250167,VEREADOR,INAPTO,PSB,PARTIDO SOCIALISTA BRASILEIRO,SP,1974-10-02,MASCULINO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),ADVOGADO,SP,SÃO PAULO,1,NÃO ELEITO
160000939823,JOAQUIM RODRIGUES NOVO,JOAQUIM RODRIGUES,2020,MUNICIPAL,2020-11-15,59857307949,25950160698,VEREADOR,APTO,PL,PARTIDO LIBERAL,PR,1967-09-12,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),AGRICULTOR,PR,FÊNIX,1,ELEITO POR QP


In [0]:
%sql
--Validando qtd de segundos turnos
SELECT
   ANO_ELEICAO
  ,NR_TURNO
  ,COUNT(*) AS validacao
FROM 
  eleicao_silver.candidatos
GROUP BY 1,2

ANO_ELEICAO,NR_TURNO,validacao
2020,1,558340
2020,2,232
2022,1,29210
2018,1,29167
2018,2,60
2022,2,52


In [0]:
%sql
--Validando unicidade do "SQ_CANDIDATO"
SELECT
   SQ_CANDIDATO 
  ,ANO_ELEICAO
  ,COUNT(*) AS QTDS
FROM 
  eleicao_silver.candidatos
GROUP BY 1,2
HAVING COUNT(*) > 1
LIMIT 10

SQ_CANDIDATO,ANO_ELEICAO,QTDS


In [0]:
#Validando campo "SQ_CANDIDATO" 
spark.sql("SELECT DISTINCT LEN(SQ_CANDIDATO) FROM eleicao_silver.candidatos").show()

+-----------------+
|len(SQ_CANDIDATO)|
+-----------------+
|               12|
|               11|
+-----------------+



In [0]:
#QTD de ocorrencias com diferentes tamanhos no campo "SQ_CANDIDATO"
spark.sql("SELECT ANO_ELEICAO, LEN(SQ_CANDIDATO), COUNT(*) FROM eleicao_silver.candidatos GROUP BY 1,2").show()

+-----------+-----------------+--------+
|ANO_ELEICAO|len(SQ_CANDIDATO)|count(1)|
+-----------+-----------------+--------+
|       2020|               11|  119116|
|       2020|               12|  439456|
|       2022|               11|    7912|
|       2018|               12|   21254|
|       2018|               11|    7973|
|       2022|               12|   21350|
+-----------+-----------------+--------+



O campo "SQ_CANDIDATO" que será usado para join das tabelas Bens e candidatos de mesmo ano eleitoral, possui dados de tamanhos diferentes, mas aparenta ser consistente, portanto será mantido e feito validações posteriormente.


Tabela candidatos silver concluída

### Tabela Bens:

Os .csv salvos dos arquivos de bens apresentaram alguns problemas, como visto anteriormente, adentrando um pouco mais nos dados temos:
- Essa tabela possui uma linha para cada bem do candidato, como essa granularidade não é importante para análise irei agrupar por candidato, agregando todos os diferentes tipos de bens em uma única coluna e somando os valores de cada bem em outra coluna.
- Retirando as linhas com o campo "SQ_CANDIDATO" nulo, os "problemas" de linhas corrompidas são sanados, portanto damos continuidade com os mesmos tratamentos realizados na tabela de candidatos.



In [0]:
%sql
--Teste tabela bens sem os "SQ_CANDIDATO" nulos
SELECT 
  *
FROM 
  eleicao_bronze.bens_declarados
WHERE 
  SQ_CANDIDATO IS NOT NULL -- Retirando linhas que não podemos fazer relação
LIMIT 10

DT_GERACAO,HH_GERACAO,ANO_ELEICAO,CD_TIPO_ELEICAO,NM_TIPO_ELEICAO,CD_ELEICAO,DS_ELEICAO,DT_ELEICAO,SG_UF,SG_UE,NM_UE,SQ_CANDIDATO,NR_ORDEM_BEM_CANDIDATO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,DS_BEM_CANDIDATO,VR_BEM_CANDIDATO,DT_ULT_ATUAL_BEM_CANDIDATO,HH_ULT_ATUAL_BEM_CANDIDATO
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,22411,UMBUZEIRO,150001212623,1,13,Terreno,"TERRENO LOCALIZADO NO LOTEAMENTO DR. JOSÉ NIVALDO, SURUBIM-PE",7680000,15/11/2020,22:05:27
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,20990,NATUBA,150001213783,1,13,Terreno,"PROPRIEDADE RURAL 60 HECTARE, NO SITIO COVÕES, NATUBA-PB",4000000,15/11/2020,21:51:07
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,20990,NATUBA,150001213783,2,13,Terreno,"UM TERRENO E PRÉDIO NA AVENIDA DR FRANCISCO MONTENEGRO, 48, NO 1. PISO A MEDIDA 4M X 7M DE LARGURA, COM A CRIPTA PANTHEON DR. FRANCISCO MONTENEGRO E NO 2. PISO, MEDIDAS DE 7X7M",6000000,15/11/2020,21:51:07
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001215952,2,19,Outros bens imóveis,"Apartamento em Construção de 60m² localizado na rua Bancário Antonio Rosa da Silva, S/N, Bancários - João Pessoa/PB",28500000,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001216673,1,13,Terreno,"1/3 do lote de terreno sob No. 07, quadra Y, Loteamnento Jardim Prolongado Jardim Atlantico - Cabedelo-PB",2333333,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001216692,1,19,Outros bens imóveis,"Sítio de aproximadamente 0,6 hectare, localizado no sitio Jardim, no município de Serraria, estado da Paraiba",4000000,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,19658,CABEDELO,150001216692,2,19,Outros bens imóveis,"Sítio de aproximadamente 0,6 hectare, localizado no sitio Jardim, no município de Serraria, estado da Paraiba",4000000,15/11/2020,21:51:09
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,21512,QUEIMADAS,150001216696,4,13,Terreno,"Trinta lotes de terrenos, localizados no Loteamento Novo Horizonte, Queimadas/PB.",135000000,15/11/2020,21:47:46
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,21512,QUEIMADAS,150001216696,5,26,Linha telefônica,Telefonia fixa e móvel,0,15/11/2020,21:47:46
22/01/2025,15:03:56,2020,2,Eleição Ordinária,426,Eleições Municipais 2020,15/11/2020,PB,21512,QUEIMADAS,150001216730,1,19,Outros bens imóveis,"Propriedade rural com casa edificada, localizadas no Sítio Bodopitá, Queimadas/PB.",3000000,15/11/2020,21:47:46


In [0]:
%sql
--Validando campo "ANO_ELEICAO"
SELECT 
  DISTINCT ANO_ELEICAO
FROM 
  eleicao_bronze.bens_declarados
WHERE 
  SQ_CANDIDATO IS NOT NULL 


ANO_ELEICAO
2020
2018
2022


In [0]:
#Validando quntidade de registros de candiatos por ano por quantidade de caracteres no campo
spark.sql("SELECT ANO_ELEICAO, LEN(SQ_CANDIDATO), COUNT(*) FROM eleicao_bronze.bens_declarados WHERE SQ_CANDIDATO IS NOT NULL GROUP BY 1,2").show()

+-----------+-----------------+--------+
|ANO_ELEICAO|len(SQ_CANDIDATO)|count(1)|
+-----------+-----------------+--------+
|       2020|               12|  837364|
|       2020|               11|  177933|
|       2022|               11|   92561|
|       2018|               12|   71481|
|       2018|               11|   22046|
+-----------+-----------------+--------+



In [0]:
%sql
--Validando campo "VR_BEM_CANDIDATO"
SELECT 
  COUNT(*) VALIDACAO_QTD
FROM 
  eleicao_bronze.bens_declarados
WHERE 
  SQ_CANDIDATO IS NOT NULL 
  AND VR_BEM_CANDIDATO IS NULL

VALIDACAO_QTD
16039


In [0]:
%sql
--Validando campo "VR_BEM_CANDIDATO"
SELECT 
  COUNT(*) VALIDACAO_QTD
FROM 
  eleicao_bronze.bens_declarados
WHERE 
  SQ_CANDIDATO IS NOT NULL 
  AND VR_BEM_CANDIDATO < 0 

VALIDACAO_QTD
0


Como observado, o campo "VR_BEM_CANDIDATO" pode conter valores nulos, segundo a documentação valores sem autorização de serem divulgados deveriam conter valor "-4", como os nulos fogem a excessão irei converte-los para valor zero ("0"), mantendo assim a entrada do dado mas não afetando seu valor.

Agora converter os tipos de colunas da tabela bens e agrupar para criação da tabela Silver.

In [0]:
#df bens candidatos 
df = sqlContext.sql("""
    WITH
        columns_altered AS (
            SELECT
                 CAST(SQ_CANDIDATO AS BIGINT) AS SQ_CANDIDATO
                ,CAST(ANO_ELEICAO AS BIGINT) AS ANO_ELEICAO
                ,CAST(CD_TIPO_BEM_CANDIDATO AS BIGINT) AS CD_TIPO_BEM_CANDIDATO
                ,DS_TIPO_BEM_CANDIDATO
                ,SUM(CAST(TRANSLATE(VR_BEM_CANDIDATO,',','.') AS DOUBLE)) AS VR_BEM_CANDIDATO --TRANSLATE PARA TROCAR VIRGULA(,) POR PONTO(.) E DOUBLE COMO FORMATO SENDO O MELHOR DATATYPE PARA NUMEROS RACIONAIS
            FROM 
                eleicao_bronze.bens_declarados
            WHERE 
                SQ_CANDIDATO IS NOT NULL
            GROUP BY 
                1,2,3,4
        )
    SELECT
         SQ_CANDIDATO
        ,ANO_ELEICAO
        ,CD_TIPO_BEM_CANDIDATO
        ,DS_TIPO_BEM_CANDIDATO
        ,COALESCE(VR_BEM_CANDIDATO, 0) AS VR_BEM_CANDIDATO
    FROM 
        columns_altered
    """ )
df.limit(10).display()

SQ_CANDIDATO,ANO_ELEICAO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,VR_BEM_CANDIDATO
160001144090,2020,13,Terreno,0.0
130000795365,2020,19,Outros bens imóveis,50000.0
50001061515,2020,19,Outros bens imóveis,9000.0
160001204549,2020,13,Terreno,350000.0
130000827854,2020,13,Terreno,50000.0
130000843073,2020,19,Outros bens imóveis,50000.0
60000984399,2020,13,Terreno,25000.0
60001243623,2020,13,Terreno,28000.0
160000782330,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",13791.05
190000636318,2020,13,Terreno,98000.0


Iremos ter dois tipos de tabelas de bens, uma aberta por tipo de bens e outra sumarizada por "SQ_CANDIDATO"

In [0]:
#Primeira tabela de bens silver por candidato e tipo de bem
df.createOrReplaceTempView('bens_candidatos_tipo')

permanent_table_name = "eleicao_silver.bens_candidatos_tipo"

schema = 'eleicao_silver'

df.write.format("parquet").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql
SELECT 
  *
FROM 
  eleicao_silver.bens_candidatos_tipo
LIMIT 10

SQ_CANDIDATO,ANO_ELEICAO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,VR_BEM_CANDIDATO
210000773759,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",2765.67
210000773942,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",4886.77
160000924651,2020,13,Terreno,30000.0
130000778579,2020,13,Terreno,30000.0
160001145428,2020,26,Linha telefônica,3909.46
130000963313,2020,32,Quotas ou quinhões de capital,4000.0
160000877803,2020,13,Terreno,25000.0
130000826790,2020,32,Quotas ou quinhões de capital,500000.0
60000984156,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",11590.14
170000650492,2020,13,Terreno,12000.0


A segunda tabela será sumarizada por "SQ_CANDIDATO"

In [0]:
#df bens candidatos agrupada
df = sqlContext.sql("""
    WITH
        columns_altered AS (
            SELECT
                 CAST(SQ_CANDIDATO AS BIGINT) AS SQ_CANDIDATO
                ,CAST(ANO_ELEICAO AS BIGINT) AS ANO_ELEICAO
                ,SUM(CAST(TRANSLATE(VR_BEM_CANDIDATO,',','.') AS DOUBLE)) AS VR_BEM_CANDIDATO --TRANSLATE PARA TROCAR VIRGULA(,) POR PONTO(.) E DOUBLE COMO FORMATO SENDO O MELHOR DATATYPE PARA NUMEROS RACIONAIS
            FROM 
                eleicao_bronze.bens_declarados
            WHERE 
                SQ_CANDIDATO IS NOT NULL
            GROUP BY 
                1,2
        )
    SELECT
         SQ_CANDIDATO
        ,ANO_ELEICAO
        ,SUM(VR_BEM_CANDIDATO) AS VR_BEM_CANDIDATO --ajustando nulos para zero
    FROM 
        columns_altered
    GROUP BY 
        1,2
    """ )
df.limit(10).display()

SQ_CANDIDATO,ANO_ELEICAO,VR_BEM_CANDIDATO
150001216730,2020,30000.0
210000760924,2020,26000.0
130001008127,2020,711683.6699999999
150001250320,2020,31500.0
160000632449,2020,49071.59
210000789347,2020,36270.880000000005
160000929897,2020,71543.31999999999
160000930181,2020,408267.42
160000655933,2020,339000.0
60000877208,2020,309840.0


In [0]:
#tabela de bens por candidato silver 
df.createOrReplaceTempView('bens_candidatos')

permanent_table_name = "eleicao_silver.bens_candidatos"

schema = 'eleicao_silver'

df.write.format("parquet").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql
SELECT 
  *
FROM 
  eleicao_silver.bens_candidatos
LIMIT 10

SQ_CANDIDATO,ANO_ELEICAO,VR_BEM_CANDIDATO
130000929888,2020,61000.0
130000838583,2020,108000.0
160000925401,2020,3000.0
130000981347,2020,81200.0
160001208242,2020,4330.0
130001002987,2020,113000.0
130000829574,2020,3513773.52
130000738680,2020,437000.0
130000886691,2020,34955.0
160001005183,2020,154987.13


In [0]:
%sql
--Validando unicidade do SQ_CANDIDATO
SELECT
   SQ_CANDIDATO 
  ,ANO_ELEICAO
  ,COUNT(*) AS QTDS
FROM 
  eleicao_silver.bens_candidatos
GROUP BY 1,2
HAVING COUNT(*) > 1
LIMIT 100

SQ_CANDIDATO,ANO_ELEICAO,QTDS


Tabelas de bens de candidatos Silver Layer concluídas

------------------------

## Gold Layer:

Tabelas tratadas para serem usadas

O intuito desta etapa é deixar as tabelas o mais simples possível para a extração final de informações.

In [0]:
%sql
--Criação do schema de Silver Layer
CREATE SCHEMA IF NOT EXISTS  eleicao_gold
    COMMENT 'Gold Schema with ready to use tables ' 

### TABELAS FINAIS

Para as tabelas que em teoria seriam disponibilizadas para a análise iremos disponibilizar as tabelas particionadas por anos, com a informação de completa, as descritivas de cada candidato e a informação de seus bens abertos ou não por tipo.

São as tabelas:
1. Tabela de Candidatos (unicidade do "SQ_CANDIDATO") por ano com a descrição de cada candidato e seu patrimônio consolidado
2. Tabela de Patrimônio, abertas por tipo de bem declarado e ano de eleição.
3. Tabela relacional de código de tipo de bem e descritivo 
4. Tabela voltada para a análise com os candidatos da eleição de 2022 que também participaram da eleição de 2018 ou de 2020, com os respectivos patrimonios e informações descritivas.

#### **Tabela "De Para" relacional de tipo de bem declarado**:

In [0]:
#df "de para" relacional tipo bem
df = sqlContext.sql("""
            SELECT
                 DISTINCT
                 CAST(CD_TIPO_BEM_CANDIDATO AS BIGINT) AS CD_TIPO_BEM_CANDIDATO
                ,DS_TIPO_BEM_CANDIDATO
            FROM 
                eleicao_silver.bens_candidatos_tipo
            ORDER BY 
                1
    """ )
display(df)

CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO
1,Prédio residencial
2,Prédio comercial
3,Galpão
11,Apartamento
12,Casa
13,Terreno
14,Terra nua
15,Sala ou conjunto
16,Construção
17,Benfeitorias


In [0]:
%sql
CREATE TABLE eleicao_gold.tipo_bem ( 
     CD_TIPO_BEM_CANDIDATO BIGINT PRIMARY KEY COMMENT 'Unique identifier for each heritage asset kind of the candidates'
    ,DS_TIPO_BEM_CANDIDATO VARCHAR(50) COMMENT 'Description of the type of each heritage asset' 
);

[0;31m---------------------------------------------------------------------------[0m
[0;31mAnalysisException[0m                         Traceback (most recent call last)
File [0;32m<command-2412889709161111>:7[0m
[1;32m      5[0m     display(df)
[1;32m      6[0m     [38;5;28;01mreturn[39;00m df
[0;32m----> 7[0m   _sqldf [38;5;241m=[39m [43m____databricks_percent_sql[49m[43m([49m[43m)[49m
[1;32m      8[0m [38;5;28;01mfinally[39;00m:
[1;32m      9[0m   [38;5;28;01mdel[39;00m ____databricks_percent_sql

File [0;32m<command-2412889709161111>:4[0m, in [0;36m____databricks_percent_sql[0;34m()[0m
[1;32m      2[0m [38;5;28;01mdef[39;00m [38;5;21m____databricks_percent_sql[39m():
[1;32m      3[0m   [38;5;28;01mimport[39;00m [38;5;21;01mbase64[39;00m
[0;32m----> 4[0m   df [38;5;241m=[39m [43mspark[49m[38;5;241;43m.[39;49m[43msql[49m[43m([49m[43mbase64[49m[38;5;241;43m.[39;49m[43mstandard_b64decode[49m[43m([49m[38;5;124;43m"[39;

Como o Community não suporta table constraints como mostrado acima, será aplicada apenas as limitações de cada coluna

In [0]:
%sql
CREATE OR REPLACE TABLE eleicao_gold.tipo_bem ( 
     CD_TIPO_BEM_CANDIDATO BIGINT NOT NULL COMMENT 'Unique identifier for each heritage asset kind of the candidates' 
    ,DS_TIPO_BEM_CANDIDATO VARCHAR(200) COMMENT 'Description of the type of each heritage asset' 
);

In [0]:
#Tabela relacional tipo de bem (Gold) 
df.createOrReplaceTempView('tipo_bem')

permanent_table_name = "eleicao_gold.tipo_bem"

schema = 'eleicao_gold'

df.write.format("delta").option("mergeSchema", "true").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql

SELECT 
*
FROM 
  eleicao_gold.tipo_bem

CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO
1,Prédio residencial
2,Prédio comercial
3,Galpão
11,Apartamento
12,Casa
13,Terreno
14,Terra nua
15,Sala ou conjunto
16,Construção
17,Benfeitorias


####**Tabela "Candidatos" descritiva particionada por ano**:

In [0]:
#df para tabela relacional relacional candidato
df = sqlContext.sql("""
    SELECT
         l_tb.SQ_CANDIDATO
        ,l_tb.NM_CANDIDATO
        ,l_tb.NM_URNA_CANDIDATO
        ,l_tb.ANO_ELEICAO
        ,l_tb.TP_ABRANGENCIA
        ,l_tb.DT_ELEICAO
        ,l_tb.NR_CPF_CANDIDATO
        ,l_tb.NR_TITULO_ELEITORAL_CANDIDATO
        ,l_tb.DS_CARGO
        ,l_tb.DS_SITUACAO_CANDIDATURA
        ,l_tb.SG_PARTIDO
        ,l_tb.NM_PARTIDO
        ,l_tb.SG_UF_NASCIMENTO
        ,l_tb.DT_NASCIMENTO
        ,l_tb.DS_GENERO
        ,l_tb.DS_COR_RACA
        ,l_tb.DS_GRAU_INSTRUCAO
        ,l_tb.DS_ESTADO_CIVIL
        ,l_tb.DS_OCUPACAO
        ,l_tb.SG_UF
        ,l_tb.NM_UE
        ,l_tb.NR_TURNO
        ,l_tb.DS_SIT_TOT_TURNO
        ,COALESCE(VR_BEM_CANDIDATO,0) AS VR_BEM_CANDIDATO
    FROM 
        eleicao_silver.candidatos AS l_tb
    LEFT JOIN 
        eleicao_silver.bens_candidatos AS r_tb
        ON 
            l_tb.SQ_CANDIDATO = r_tb.SQ_CANDIDATO
            AND l_tb.ANO_ELEICAO = r_tb.ANO_ELEICAO
    """ )
df.limit(10).display()

SQ_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,ANO_ELEICAO,TP_ABRANGENCIA,DT_ELEICAO,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_SITUACAO_CANDIDATURA,SG_PARTIDO,NM_PARTIDO,SG_UF_NASCIMENTO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,NR_TURNO,DS_SIT_TOT_TURNO,VR_BEM_CANDIDATO
250001265966,JOÃO BATISTA DOS SANTOS,JOÃO ZELADOR,2020,MUNICIPAL,2020-11-15,13534893883,292412220132,VEREADOR,INAPTO,DC,DEMOCRACIA CRISTÃ,SP,1970-03-05,MASCULINO,PARDA,ENSINO MÉDIO INCOMPLETO,CASADO(A),GERENTE,SP,SÃO PAULO,1,NÃO ELEITO,0.0
250001268518,SILVIO ROBERTO VOCE,SILVIO VOCE,2020,MUNICIPAL,2020-11-15,90421213868,97094760159,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,SP,1953-04-15,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),COMISSÁRIO DE BORDO,SP,SÃO PAULO,1,NÃO ELEITO,850000.0
250000925963,ANDRESSA MACIEL DO NASCIMENTO,DEDE,2020,MUNICIPAL,2020-11-15,37174723802,344907730124,VEREADOR,INAPTO,PSC,PARTIDO SOCIAL CRISTÃO,SP,1988-11-20,FEMININO,PARDA,SUPERIOR INCOMPLETO,CASADO(A),OUTROS,SP,SÃO PAULO,1,NÃO ELEITO,0.0
160001090215,EDEMAR RIBEIRO BORGES,NICO DA MARACANÃ,2020,MUNICIPAL,2020-11-15,62730614915,4079340655,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,PR,1965-01-05,MASCULINO,PARDA,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),MECÂNICO DE MANUTENÇÃO,PR,TUNAS DO PARANÁ,1,NÃO ELEITO,80000.0
250001100745,ROSE LEILA RODASLI CHUERE,ROSE LEILA,2020,MUNICIPAL,2020-11-15,53450779834,156241700167,VEREADOR,INAPTO,PMB,PARTIDO DA MULHER BRASILEIRA,SP,1954-01-11,FEMININO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),APOSENTADO (EXCETO SERVIDOR PÚBLICO),SP,SÃO PAULO,1,NÃO ELEITO,4000000.0
250000984468,JOSÉ AMILTON CORREA,BIKUIRA,2020,MUNICIPAL,2020-11-15,26595781840,180429580124,VEREADOR,APTO,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,PR,1972-08-17,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),TRABALHADOR METALÚRGICO E SIDERÚRGICO,SP,SANTA BRANCA,1,SUPLENTE,33000.0
160000869858,JOSÉ PINTO DE OLIVEIRA,ZÉ DE OLIVEIRA DO GÁS,2020,MUNICIPAL,2020-11-15,10132848953,34885470612,VEREADOR,APTO,PSL,PARTIDO SOCIAL LIBERAL,MG,1951-06-25,MASCULINO,BRANCA,LÊ E ESCREVE,CASADO(A),COMERCIANTE,PR,FAXINAL,1,SUPLENTE,253535.9
130000888282,EVERALDO MACEDO DOS SANTOS,EVERALDO DE ZÉ RODOVIÁRIA,2020,MUNICIPAL,2020-11-15,6747192630,146298280248,VEREADOR,APTO,PTB,PARTIDO TRABALHISTA BRASILEIRO,MG,1984-08-14,MASCULINO,PRETA,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),OUTROS,MG,MONTALVÂNIA,1,SUPLENTE,228000.0
250001123247,ADILSON ADRIANO SALES DE SOUZA CARVALHO AMADEU,DR ADILSON CARVALHO,2020,MUNICIPAL,2020-11-15,28254810842,251049250167,VEREADOR,INAPTO,PSB,PARTIDO SOCIALISTA BRASILEIRO,SP,1974-10-02,MASCULINO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),ADVOGADO,SP,SÃO PAULO,1,NÃO ELEITO,0.0
160000939823,JOAQUIM RODRIGUES NOVO,JOAQUIM RODRIGUES,2020,MUNICIPAL,2020-11-15,59857307949,25950160698,VEREADOR,APTO,PL,PARTIDO LIBERAL,PR,1967-09-12,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),AGRICULTOR,PR,FÊNIX,1,ELEITO POR QP,322633.93


In [0]:
%sql

CREATE OR REPLACE TABLE eleicao_gold.candidatos ( 
     SQ_CANDIDATO BIGINT NOT NULL COMMENT 'Unique identifier for each candidate per year'
    ,NM_CANDIDATO VARCHAR(200) COMMENT 'Name of the candidate'
    ,NM_URNA_CANDIDATO  VARCHAR(200) COMMENT 'Name of the candidate that apperars in ballot box'
    ,ANO_ELEICAO BIGINT NOT NULL COMMENT 'Year of the election'
    ,TP_ABRANGENCIA VARCHAR(100) COMMENT 'Type of election (Municipal or Presidencial)'
    ,DT_ELEICAO DATE COMMENT 'Date of the election, for some can be either the first or the second round'
    ,NR_CPF_CANDIDATO BIGINT COMMENT 'Identity of the candidate'
    ,NR_TITULO_ELEITORAL_CANDIDATO BIGINT COMMENT 'Electoral Identity of the candidate'
    ,DS_CARGO VARCHAR(100) COMMENT 'Position of dispute'
    ,DS_SITUACAO_CANDIDATURA VARCHAR(100) COMMENT 'Situation of the candidature (APTO, CADASTRADO, INAPTO)'
    ,SG_PARTIDO VARCHAR(50) COMMENT 'Abreviation of the name of the political party'
    ,NM_PARTIDO VARCHAR(100) COMMENT 'Name of the political party'
    ,SG_UF_NASCIMENTO VARCHAR(50) COMMENT 'Abreviation of the name of the state of bitht of the candidate'
    ,DT_NASCIMENTO DATE COMMENT 'Date of birth of the candidate'
    ,DS_GENERO VARCHAR(100) COMMENT 'Gender of the candidate (MASCULINO, FEMININO, NÃO DIVULGÁVEL)'
    ,DS_COR_RACA VARCHAR(100) COMMENT 'Etinity Race of the candidate (AMARELA, BRANCA, INDÍGENA, NÃO DIVULGÁVEL, PARDA, PRETA)'
    ,DS_GRAU_INSTRUCAO VARCHAR(100) COMMENT 'Education Degree of the candidate (ENSINO FUNDAMENTAL COMPLETO, ENSINO FUNDAMENTAL INCOMPLETO, ENSINO MÉDIO COMPLETO, ENSINO MÉDIO INCOMPLETO, LÊ E ESCREVE, NÃO DIVULGÁVEL, SUPERIOR  
        COMPLETO, SUPERIOR INCOMPLETO)'
    ,DS_ESTADO_CIVIL  VARCHAR(100) COMMENT 'Marital Status of the candidate (CASADO(A), DIVORCIADO(A), NÃO DIVULGÁVEL, SEPARADO(A) JUDICIALMENTE, SOLTEIRO(A), VIÚVO(A))'
    ,DS_OCUPACAO VARCHAR(200) COMMENT 'Occupation of the candidate'
    ,SG_UF VARCHAR(200) COMMENT 'State of dispute'
    ,NM_UE VARCHAR(200) COMMENT 'District of dispute'
    ,NR_TURNO BIGINT COMMENT 'Last round of dispute'
    ,DS_SIT_TOT_TURNO  VARCHAR(200) COMMENT 'Status of the electoral dispute'
    ,VR_BEM_CANDIDATO DOUBLE COMMENT 'Total amount owned of the candidate'
);

In [0]:
#Tabela relacional candidatos (Gold) 
df.createOrReplaceTempView('candidatos')

permanent_table_name = "eleicao_gold.candidatos"

schema = 'eleicao_gold'

df.write.format("delta").option("mergeSchema", "true").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql

SELECT 
*
FROM 
  eleicao_gold.candidatos
LIMIT 10

SQ_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,ANO_ELEICAO,TP_ABRANGENCIA,DT_ELEICAO,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_SITUACAO_CANDIDATURA,SG_PARTIDO,NM_PARTIDO,SG_UF_NASCIMENTO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,NR_TURNO,DS_SIT_TOT_TURNO,VR_BEM_CANDIDATO
250001265966,JOÃO BATISTA DOS SANTOS,JOÃO ZELADOR,2020,MUNICIPAL,2020-11-15,13534893883,292412220132,VEREADOR,INAPTO,DC,DEMOCRACIA CRISTÃ,SP,1970-03-05,MASCULINO,PARDA,ENSINO MÉDIO INCOMPLETO,CASADO(A),GERENTE,SP,SÃO PAULO,1,NÃO ELEITO,0.0
250001268518,SILVIO ROBERTO VOCE,SILVIO VOCE,2020,MUNICIPAL,2020-11-15,90421213868,97094760159,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,SP,1953-04-15,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),COMISSÁRIO DE BORDO,SP,SÃO PAULO,1,NÃO ELEITO,850000.0
250000925963,ANDRESSA MACIEL DO NASCIMENTO,DEDE,2020,MUNICIPAL,2020-11-15,37174723802,344907730124,VEREADOR,INAPTO,PSC,PARTIDO SOCIAL CRISTÃO,SP,1988-11-20,FEMININO,PARDA,SUPERIOR INCOMPLETO,CASADO(A),OUTROS,SP,SÃO PAULO,1,NÃO ELEITO,0.0
160001090215,EDEMAR RIBEIRO BORGES,NICO DA MARACANÃ,2020,MUNICIPAL,2020-11-15,62730614915,4079340655,VEREADOR,APTO,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,PR,1965-01-05,MASCULINO,PARDA,ENSINO FUNDAMENTAL INCOMPLETO,SOLTEIRO(A),MECÂNICO DE MANUTENÇÃO,PR,TUNAS DO PARANÁ,1,NÃO ELEITO,80000.0
250001100745,ROSE LEILA RODASLI CHUERE,ROSE LEILA,2020,MUNICIPAL,2020-11-15,53450779834,156241700167,VEREADOR,INAPTO,PMB,PARTIDO DA MULHER BRASILEIRA,SP,1954-01-11,FEMININO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),APOSENTADO (EXCETO SERVIDOR PÚBLICO),SP,SÃO PAULO,1,NÃO ELEITO,4000000.0
250000984468,JOSÉ AMILTON CORREA,BIKUIRA,2020,MUNICIPAL,2020-11-15,26595781840,180429580124,VEREADOR,APTO,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,PR,1972-08-17,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),TRABALHADOR METALÚRGICO E SIDERÚRGICO,SP,SANTA BRANCA,1,SUPLENTE,33000.0
160000869858,JOSÉ PINTO DE OLIVEIRA,ZÉ DE OLIVEIRA DO GÁS,2020,MUNICIPAL,2020-11-15,10132848953,34885470612,VEREADOR,APTO,PSL,PARTIDO SOCIAL LIBERAL,MG,1951-06-25,MASCULINO,BRANCA,LÊ E ESCREVE,CASADO(A),COMERCIANTE,PR,FAXINAL,1,SUPLENTE,253535.9
130000888282,EVERALDO MACEDO DOS SANTOS,EVERALDO DE ZÉ RODOVIÁRIA,2020,MUNICIPAL,2020-11-15,6747192630,146298280248,VEREADOR,APTO,PTB,PARTIDO TRABALHISTA BRASILEIRO,MG,1984-08-14,MASCULINO,PRETA,ENSINO FUNDAMENTAL COMPLETO,CASADO(A),OUTROS,MG,MONTALVÂNIA,1,SUPLENTE,228000.0
250001123247,ADILSON ADRIANO SALES DE SOUZA CARVALHO AMADEU,DR ADILSON CARVALHO,2020,MUNICIPAL,2020-11-15,28254810842,251049250167,VEREADOR,INAPTO,PSB,PARTIDO SOCIALISTA BRASILEIRO,SP,1974-10-02,MASCULINO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),ADVOGADO,SP,SÃO PAULO,1,NÃO ELEITO,0.0
160000939823,JOAQUIM RODRIGUES NOVO,JOAQUIM RODRIGUES,2020,MUNICIPAL,2020-11-15,59857307949,25950160698,VEREADOR,APTO,PL,PARTIDO LIBERAL,PR,1967-09-12,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,CASADO(A),AGRICULTOR,PR,FÊNIX,1,ELEITO POR QP,322633.93


In [0]:
%sql
SELECT
  COUNT(*) AS VALIDATION
FROM 
  eleicao_silver.candidatos

VALIDATION
617061


In [0]:
%sql
SELECT
  COUNT(*) AS VALIDATION
FROM 
  eleicao_gold.candidatos

VALIDATION
617061


Como validação as quantidades de linhas das tabelas silver e gold, devem ser as mesmas.

#### **Tabela "Bens" descritiva particionada por ano e tipo de bem**:

Nessa tabela foram encontrados 50 ocorrências com "SQ_CANDIDATO" nulos, serão desconsideradas nas tabelas gold 

In [0]:
%sql
SELECT
      COUNT(*) AS VALIDACAO  
FROM 
    eleicao_silver.bens_candidatos_tipo
WHERE 
   SQ_CANDIDATO IS NULL

VALIDACAO
50


In [0]:
#df bens candidatos 
df = sqlContext.sql("""
    SELECT
         SQ_CANDIDATO
        ,ANO_ELEICAO
        ,CD_TIPO_BEM_CANDIDATO
        ,DS_TIPO_BEM_CANDIDATO
        ,VR_BEM_CANDIDATO
    FROM 
        eleicao_silver.bens_candidatos_tipo
    WHERE 
        SQ_CANDIDATO IS NOT NULL
    """ )
df.limit(10).display()

SQ_CANDIDATO,ANO_ELEICAO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,VR_BEM_CANDIDATO
210000773759,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",2765.67
210000773942,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",4886.77
160000924651,2020,13,Terreno,30000.0
130000778579,2020,13,Terreno,30000.0
160001145428,2020,26,Linha telefônica,3909.46
130000963313,2020,32,Quotas ou quinhões de capital,4000.0
160000877803,2020,13,Terreno,25000.0
130000826790,2020,32,Quotas ou quinhões de capital,500000.0
60000984156,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",11590.14
170000650492,2020,13,Terreno,12000.0


In [0]:
%sql

CREATE OR REPLACE TABLE eleicao_gold.bens_candidatos_tipo ( 
     SQ_CANDIDATO BIGINT NOT NULL COMMENT 'Unique identifier for each candidate per year'
    ,ANO_ELEICAO BIGINT NOT NULL COMMENT 'Year of the election'
    ,CD_TIPO_BEM_CANDIDATO BIGINT COMMENT 'Types of heritage assets declared by the candidate'
    ,DS_TIPO_BEM_CANDIDATO VARCHAR(200) COMMENT 'description of types of heritage assets declared by the candidate'
    ,VR_BEM_CANDIDATO DOUBLE COMMENT 'Total amount owned of the candidate per type of asset'
);

In [0]:
#Tabela relacional bens por tipo (Gold) 
df.createOrReplaceTempView('bens_candidatos_tipo')

permanent_table_name = "eleicao_gold.bens_candidatos_tipo"

schema = 'eleicao_gold'

df.write.format("delta").option("mergeSchema", "true").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql
SELECT 
    *
FROM 
  eleicao_gold.bens_candidatos_tipo
LIMIT 10

SQ_CANDIDATO,ANO_ELEICAO,CD_TIPO_BEM_CANDIDATO,DS_TIPO_BEM_CANDIDATO,VR_BEM_CANDIDATO
160001144090,2020,13,Terreno,0.0
130000795365,2020,19,Outros bens imóveis,50000.0
50001061515,2020,19,Outros bens imóveis,9000.0
160001204549,2020,13,Terreno,350000.0
130000827854,2020,13,Terreno,50000.0
130000843073,2020,19,Outros bens imóveis,50000.0
60000984399,2020,13,Terreno,25000.0
60001243623,2020,13,Terreno,28000.0
160000782330,2020,45,"Aplicação de renda fixa (CDB, RDB e outros)",13791.05
190000636318,2020,13,Terreno,98000.0


In [0]:
%sql
--validação 
SELECT 
    *
FROM 
    eleicao_gold.candidatos
WHERE 
    NR_CPF_CANDIDATO = 1859237711 --exemplo aleatório


SQ_CANDIDATO,NM_CANDIDATO,NM_URNA_CANDIDATO,ANO_ELEICAO,TP_ABRANGENCIA,DT_ELEICAO,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_SITUACAO_CANDIDATURA,SG_PARTIDO,NM_PARTIDO,SG_UF_NASCIMENTO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,NR_TURNO,DS_SIT_TOT_TURNO,VR_BEM_CANDIDATO
150000676096,RUY MANUEL CARNEIRO BARBOSA DE AÇA BELCHIOR,RUY CARNEIRO,2020,MUNICIPAL,2020-11-15,1859237711,19327891279,PREFEITO,APTO,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,RJ,1970-08-17,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),DEPUTADO,PB,JOÃO PESSOA,1,NÃO ELEITO,649968.67
150000612366,RUY MANUEL CARNEIRO BARBOSA DE AÇA BELCHIOR,RUY CARNEIRO,2018,ESTADUAL,2018-10-07,1859237711,19327891279,DEPUTADO FEDERAL,APTO,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,RJ,1970-08-17,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),OUTROS,PB,PARAÍBA,1,ELEITO POR MÉDIA,586284.8200000001
150001612089,RUY MANUEL CARNEIRO BARBOSA DE AÇA BELCHIOR,RUY CARNEIRO,2022,ESTADUAL,2022-10-02,1859237711,19327891279,DEPUTADO FEDERAL,APTO,PSC,PARTIDO SOCIAL CRISTÃO,RJ,1970-08-17,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),DEPUTADO,PB,PARAÍBA,1,ELEITO POR MÉDIA,0.0


#### **Tabela para análise**

Nesta tabela será disponibilizado os valores de evolução patrimonial para a análise a ser realizada.<br> 
A Estrutura dela será:


In [0]:
%sql
CREATE OR REPLACE TABLE eleicao_gold.patrimonio ( 
     NM_CANDIDATO VARCHAR(200) COMMENT 'Name of the candidate in 2022'
    ,NM_URNA_CANDIDATO  VARCHAR(200) COMMENT 'Name of the candidate that apperars in ballot box in 2022'
    ,TP_ABRANGENCIA VARCHAR(100) COMMENT 'Type of election (Municipal or Presidencial) in 2022'
    ,NR_CPF_CANDIDATO BIGINT COMMENT 'Identity of the candidate'
    ,NR_TITULO_ELEITORAL_CANDIDATO BIGINT COMMENT 'Electoral Identity of the candidate'
    ,DS_CARGO VARCHAR(100) COMMENT 'Position of dispute in 2022'
    ,DS_CARGO_2020 VARCHAR(100) COMMENT 'Position of dispute in 2020'
    ,DS_CARGO_2018 VARCHAR(100) COMMENT 'Position of dispute in 2018'
    ,DS_SITUACAO_CANDIDATURA VARCHAR(100) COMMENT 'Situation of the candidature (APTO, CADASTRADO, INAPTO) in 2022'
    ,DS_SITUACAO_CANDIDATURA_2020 VARCHAR(100) COMMENT 'Situation of the candidature (APTO, CADASTRADO, INAPTO) in 2020'
    ,DS_SITUACAO_CANDIDATURA_2018 VARCHAR(100) COMMENT 'Situation of the candidature (APTO, CADASTRADO, INAPTO) in 2018'
    ,DT_ELEICAO DATE COMMENT 'Date of the election, for some can be either the first or the second round'
    ,SG_PARTIDO VARCHAR(50) COMMENT 'Abreviation of the name of the political party in 2022'
    ,NM_PARTIDO VARCHAR(100) COMMENT 'Name of the political party in 2022'
    ,DT_NASCIMENTO DATE COMMENT 'Date of birth of the candidate'
    ,DS_GENERO VARCHAR(100) COMMENT 'Gender of the candidate (MASCULINO, FEMININO, NÃO DIVULGÁVEL) declared in 2022'
    ,DS_COR_RACA VARCHAR(100) COMMENT 'Etinity Race of the candidate (AMARELA, BRANCA, INDÍGENA, NÃO DIVULGÁVEL, PARDA, PRETA) declared in 2022'
    ,DS_GRAU_INSTRUCAO VARCHAR(100) COMMENT 'Education Degree of the candidate (ENSINO FUNDAMENTAL COMPLETO, ENSINO FUNDAMENTAL INCOMPLETO, ENSINO MÉDIO COMPLETO, ENSINO MÉDIO INCOMPLETO, LÊ E ESCREVE, NÃO DIVULGÁVEL, SUPERIOR  
        COMPLETO, SUPERIOR INCOMPLETO) declared in 2022'
    ,DS_ESTADO_CIVIL  VARCHAR(100) COMMENT 'Marital Status of the candidate (CASADO(A), DIVORCIADO(A), NÃO DIVULGÁVEL, SEPARADO(A) JUDICIALMENTE, SOLTEIRO(A), VIÚVO(A)) declared in 2022'
    ,DS_OCUPACAO VARCHAR(200) COMMENT 'Occupation of the candidate declared in 2022'
    ,SG_UF VARCHAR(200) COMMENT 'State of dispute in 2022'
    ,NM_UE VARCHAR(200) COMMENT 'District of dispute in 2022'
    ,DS_SIT_TOT_TURNO  VARCHAR(200) COMMENT 'Status of the electoral dispute in 2022'
    ,DS_SIT_TOT_TURNO_2020  VARCHAR(200) COMMENT 'Status of the electoral dispute in 2020'
    ,DS_SIT_TOT_TURNO_2018  VARCHAR(200) COMMENT 'Status of the electoral dispute in 2018'
    ,VR_BEM_CANDIDATO DOUBLE COMMENT 'Total amount owned of the candidate in 2022'
    ,VR_BEM_CANDIDATO_2020 DOUBLE COMMENT 'Total amount owned of the candidate in 2020'
    ,VR_BEM_CANDIDATO_2018 DOUBLE COMMENT 'Total amount owned of the candidate in 2018'
);

In [0]:
#df para tabela relacional de patrimonio de candidato gold
df = sqlContext.sql("""
  WITH 
    candidatos_2022 AS (
      SELECT
           l_tb.NM_CANDIDATO
          ,l_tb.NM_URNA_CANDIDATO
          ,l_tb.TP_ABRANGENCIA
          ,l_tb.NR_CPF_CANDIDATO
          ,l_tb.NR_TITULO_ELEITORAL_CANDIDATO
          ,l_tb.SG_UF_NASCIMENTO
          ,l_tb.DT_NASCIMENTO
          ,l_tb.DS_CARGO
          ,l_tb.DS_SITUACAO_CANDIDATURA
          ,l_tb.DT_ELEICAO
          ,l_tb.SG_PARTIDO
          ,l_tb.NM_PARTIDO
          ,l_tb.DS_GENERO
          ,l_tb.DS_COR_RACA
          ,l_tb.DS_GRAU_INSTRUCAO
          ,l_tb.DS_ESTADO_CIVIL
          ,l_tb.DS_OCUPACAO
          ,l_tb.SG_UF
          ,l_tb.NM_UE
          ,l_tb.DS_SIT_TOT_TURNO
          ,VR_BEM_CANDIDATO
      FROM 
          eleicao_silver.candidatos AS l_tb
      LEFT JOIN 
          eleicao_silver.bens_candidatos AS r_tb
          ON 
            l_tb.SQ_CANDIDATO = r_tb.SQ_CANDIDATO
            AND l_tb.ANO_ELEICAO = r_tb.ANO_ELEICAO
      WHERE 
        l_tb.ANO_ELEICAO = 2022
    )

    ,candidatos_2020 AS (
      SELECT
           NM_CANDIDATO
          ,l_tb.NR_CPF_CANDIDATO
          ,l_tb.NR_TITULO_ELEITORAL_CANDIDATO
          ,l_tb.SG_UF_NASCIMENTO
          ,l_tb.DT_NASCIMENTO
          ,l_tb.DS_CARGO AS DS_CARGO_2020
          ,l_tb.DS_SITUACAO_CANDIDATURA AS DS_SITUACAO_CANDIDATURA_2020
          ,l_tb.DS_SIT_TOT_TURNO AS DS_SIT_TOT_TURNO_2020
          ,VR_BEM_CANDIDATO AS VR_BEM_CANDIDATO_2020
      FROM 
          eleicao_silver.candidatos AS l_tb
      LEFT JOIN 
          eleicao_silver.bens_candidatos AS r_tb
          ON 
            l_tb.SQ_CANDIDATO = r_tb.SQ_CANDIDATO
            AND l_tb.ANO_ELEICAO = r_tb.ANO_ELEICAO
      WHERE 
        l_tb.ANO_ELEICAO = 2020
    )

    ,candidatos_2018 AS (
        SELECT
           NM_CANDIDATO
          ,l_tb.NR_CPF_CANDIDATO
          ,l_tb.NR_TITULO_ELEITORAL_CANDIDATO
          ,l_tb.SG_UF_NASCIMENTO
          ,l_tb.DT_NASCIMENTO
          ,l_tb.DS_CARGO AS DS_CARGO_2018
          ,l_tb.DS_SITUACAO_CANDIDATURA AS DS_SITUACAO_CANDIDATURA_2018
          ,l_tb.DS_SIT_TOT_TURNO AS DS_SIT_TOT_TURNO_2018
          ,VR_BEM_CANDIDATO AS VR_BEM_CANDIDATO_2018
      FROM 
          eleicao_silver.candidatos AS l_tb
      LEFT JOIN 
          eleicao_silver.bens_candidatos AS r_tb
          ON 
            l_tb.SQ_CANDIDATO = r_tb.SQ_CANDIDATO
            AND l_tb.ANO_ELEICAO = r_tb.ANO_ELEICAO
      WHERE 
        l_tb.ANO_ELEICAO = 2018
    )
    SELECT
         C_2022.NM_CANDIDATO
        ,NM_URNA_CANDIDATO
        ,TP_ABRANGENCIA
        ,C_2022.NR_CPF_CANDIDATO
        ,C_2022.NR_TITULO_ELEITORAL_CANDIDATO
        ,DS_CARGO
        ,DS_CARGO_2020
        ,DS_CARGO_2018
        ,DS_SITUACAO_CANDIDATURA
        ,DS_SITUACAO_CANDIDATURA_2020
        ,DS_SITUACAO_CANDIDATURA_2018
        ,DT_ELEICAO
        ,SG_PARTIDO
        ,NM_PARTIDO
        ,C_2022.DT_NASCIMENTO
        ,DS_GENERO
        ,DS_COR_RACA
        ,DS_GRAU_INSTRUCAO
        ,DS_ESTADO_CIVIL
        ,DS_OCUPACAO
        ,SG_UF
        ,NM_UE
        ,DS_SIT_TOT_TURNO
        ,DS_SIT_TOT_TURNO_2020
        ,DS_SIT_TOT_TURNO_2018
        ,VR_BEM_CANDIDATO
        ,VR_BEM_CANDIDATO_2020
        ,VR_BEM_CANDIDATO_2018
    FROM 
        candidatos_2022 AS C_2022
    LEFT JOIN 
        candidatos_2020 AS C_2020
        ON C_2022.NR_CPF_CANDIDATO = C_2020.NR_CPF_CANDIDATO --join via cpf
        OR (C_2022.NM_CANDIDATO = C_2020.NM_CANDIDATO AND C_2022.SG_UF_NASCIMENTO = C_2020.SG_UF_NASCIMENTO AND C_2022.DT_NASCIMENTO = C_2020.DT_NASCIMENTO) --ou via nome com estado e data de nascimento
    LEFT JOIN 
        candidatos_2018 AS C_2018
        ON C_2022.NR_CPF_CANDIDATO = C_2018.NR_CPF_CANDIDATO--join via cpf
        OR (C_2022.NM_CANDIDATO = C_2018.NM_CANDIDATO AND C_2022.SG_UF_NASCIMENTO = C_2018.SG_UF_NASCIMENTO AND C_2022.DT_NASCIMENTO = C_2018.DT_NASCIMENTO) --ou via nome com estado e data de nascimento
            
    """ )
df.limit(10).display()

NM_CANDIDATO,NM_URNA_CANDIDATO,TP_ABRANGENCIA,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_CARGO_2020,DS_CARGO_2018,DS_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA_2020,DS_SITUACAO_CANDIDATURA_2018,DT_ELEICAO,SG_PARTIDO,NM_PARTIDO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,DS_SIT_TOT_TURNO,DS_SIT_TOT_TURNO_2020,DS_SIT_TOT_TURNO_2018,VR_BEM_CANDIDATO,VR_BEM_CANDIDATO_2020,VR_BEM_CANDIDATO_2018
RAVENNA DE CASTRO LIMA AZEVEDO,RAVENNA CASTRO,ESTADUAL,854325395,29874391546,GOVERNADOR,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,PMN,PARTIDO DA MOBILIZAÇÃO NACIONAL,1986-05-15,FEMININO,PARDA,SUPERIOR COMPLETO,DIVORCIADO(A),ADVOGADO,PI,PIAUÍ,NÃO ELEITO,NÃO ELEITO,SUPLENTE,,90019.07,15000.0
SORAYA VIEIRA THRONICKE,SORAYA THRONICKE,FEDERAL,60838965172,13250921929,PRESIDENTE,,SENADOR,APTO,,APTO,2022-10-02,UNIÃO,UNIÃO BRASIL,1973-06-01,FEMININO,BRANCA,SUPERIOR COMPLETO,CASADO(A),SENADOR,BR,BRASIL,NÃO ELEITO,,ELEITO,,,10000.0
JAIME DOMINGUES NUNES,JAIME NUNES,ESTADUAL,14673835204,285072526,GOVERNADOR,,VICE-GOVERNADOR,APTO,,APTO,2022-10-02,PSD,PARTIDO SOCIAL DEMOCRÁTICO,1959-07-29,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),EMPRESÁRIO,AP,AMAPÁ,NÃO ELEITO,,ELEITO,35774294.92,,21885903.15000001
JOÃO INÁCIO RIBEIRO ROMA NETO,JOÃO ROMA,ESTADUAL,81968442472,37641250850,GOVERNADOR,,DEPUTADO FEDERAL,APTO,,APTO,2022-10-02,PL,PARTIDO LIBERAL,1972-11-17,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),PRODUTOR AGROPECUÁRIO,BA,BAHIA,NÃO ELEITO,,ELEITO POR QP,5561182.609999999,,4494372.77
GILVAM PINHEIRO BORGES,GILVAM BORGES,ESTADUAL,11907894268,346522577,GOVERNADOR,,SENADOR,APTO,,APTO,2022-10-02,MDB,MOVIMENTO DEMOCRÁTICO BRASILEIRO,1958-08-01,MASCULINO,PARDA,SUPERIOR COMPLETO,SOLTEIRO(A),SOCIÓLOGO,AP,AMAPÁ,NÃO ELEITO,,NÃO ELEITO,,,408400.0
JOAO BARBOSA BRAVO,PROFESSOR BRAVO,FEDERAL,3532046768,45076570302,VICE-PRESIDENTE,,,APTO,,,2022-10-02,DC,DEMOCRACIA CRISTÃ,1947-06-27,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),ECONOMISTA,BR,BRASIL,NÃO ELEITO,,,,,
FERNANDO GALVAO MOURA,FERNANDO GALVÃO,ESTADUAL,10890650861,194255440116,DEPUTADO ESTADUAL,,,APTO,,,2022-10-02,UNIÃO,UNIÃO BRASIL,1972-12-11,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),ADVOGADO,SP,SÃO PAULO,SUPLENTE,,,,,
GESIEL DE SOUZA OLIVEIRA,GESIEL DE OLIVEIRA,ESTADUAL,61341509249,2462812585,GOVERNADOR,,,APTO,,,2022-10-02,PRTB,PARTIDO RENOVADOR TRABALHISTA BRASILEIRO,1978-02-03,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),OUTROS,AP,AMAPÁ,NÃO ELEITO,,,160000.0,,
ANTONIO ALVES DA SILVA JUNIOR,ANTONIO ALVES,FEDERAL,4551706493,56283400876,VICE-PRESIDENTE,,,APTO,,,2022-10-02,PCB,PARTIDO COMUNISTA BRASILEIRO,1978-10-07,MASCULINO,PRETA,SUPERIOR COMPLETO,SOLTEIRO(A),JORNALISTA E REDATOR,BR,BRASIL,NÃO ELEITO,,,,,
RAIMUNDO SALES DA SILVA,BIGODE,ESTADUAL,5135834249,837222496,DEPUTADO ESTADUAL,,,APTO,,,2022-10-02,PP,PROGRESSISTAS,1955-04-10,MASCULINO,PARDA,ENSINO FUNDAMENTAL COMPLETO,DIVORCIADO(A),PESCADOR,AC,ACRE,SUPLENTE,,,,,


In [0]:
#Tabela relacional bens por tipo (Gold) 
df.createOrReplaceTempView('patrimonio')

permanent_table_name = "eleicao_gold.patrimonio"

schema = 'eleicao_gold'

df.write.format("delta").option("mergeSchema", "true").saveAsTable(permanent_table_name,mode='append')

In [0]:
%sql
SELECT
*
FROM 
  eleicao_gold.patrimonio
LIMIT 10

NM_CANDIDATO,NM_URNA_CANDIDATO,TP_ABRANGENCIA,NR_CPF_CANDIDATO,NR_TITULO_ELEITORAL_CANDIDATO,DS_CARGO,DS_CARGO_2020,DS_CARGO_2018,DS_SITUACAO_CANDIDATURA,DS_SITUACAO_CANDIDATURA_2020,DS_SITUACAO_CANDIDATURA_2018,DT_ELEICAO,SG_PARTIDO,NM_PARTIDO,DT_NASCIMENTO,DS_GENERO,DS_COR_RACA,DS_GRAU_INSTRUCAO,DS_ESTADO_CIVIL,DS_OCUPACAO,SG_UF,NM_UE,DS_SIT_TOT_TURNO,DS_SIT_TOT_TURNO_2020,DS_SIT_TOT_TURNO_2018,VR_BEM_CANDIDATO,VR_BEM_CANDIDATO_2020,VR_BEM_CANDIDATO_2018
JAIRO SANTANA DA SILVA,JAIRO DE GLÓRIA,ESTADUAL,80208053549,12328342100,DEPUTADO ESTADUAL,PREFEITO,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,PP,PROGRESSISTAS,1979-06-22,MASCULINO,PARDA,SUPERIOR COMPLETO,DIVORCIADO(A),CONTADOR,SE,SERGIPE,SUPLENTE,NÃO ELEITO,SUPLENTE,,,
GELSON FERRAZ DE MEDEIROS,GELSON FERRAZ,ESTADUAL,32983506720,48856060710,1º SUPLENTE,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,AVANTE,AVANTE,1953-01-18,MASCULINO,PARDA,ENSINO MÉDIO COMPLETO,CASADO(A),LOCUTOR E COMENTARISTA DE RÁDIO E TELEVISÃO E RADIALISTA,CE,CEARÁ,NÃO ELEITO,SUPLENTE,SUPLENTE,501117.38,116560.32,11539.82
JAMIR CALILI RIBEIRO,JAMIR CALILI RIBEIRO,ESTADUAL,1304762696,134168860213,DEPUTADO ESTADUAL,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,PP,PROGRESSISTAS,1982-10-21,MASCULINO,BRANCA,SUPERIOR COMPLETO,CASADO(A),PROFESSOR DE ENSINO SUPERIOR,MG,MINAS GERAIS,SUPLENTE,ELEITO POR QP,SUPLENTE,,1415000.0,1789060.0
MANOEL FRANCISCO LIMA DE SOUZA,MANOEL IZO,ESTADUAL,47815337287,2387752410,DEPUTADO ESTADUAL,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,DC,DEMOCRACIA CRISTÃ,1971-10-28,MASCULINO,PRETA,ENSINO MÉDIO INCOMPLETO,CASADO(A),OUTROS,AC,ACRE,NÃO ELEITO,NÃO ELEITO,NÃO ELEITO,,,23000.0
JOSÉ ÔNIX GOMES DA SILVA,JOSÉ ÔNIX RÁDIO RIO BONITO,ESTADUAL,3220945775,97887740396,DEPUTADO FEDERAL,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,PSDB,PARTIDO DA SOCIAL DEMOCRACIA BRASILEIRA,1977-09-18,MASCULINO,PRETA,ENSINO MÉDIO COMPLETO,DIVORCIADO(A),VIGILANTE,RJ,RIO DE JANEIRO,NÃO ELEITO,SUPLENTE,SUPLENTE,,,
CESAR ANTONIO VALDUGA,VALDUGA,ESTADUAL,42570778915,16092430906,DEPUTADO ESTADUAL,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,PC do B,PARTIDO COMUNISTA DO BRASIL,1961-05-20,MASCULINO,BRANCA,ENSINO MÉDIO COMPLETO,SOLTEIRO(A),BANCÁRIO E ECONOMIÁRIO,SC,SANTA CATARINA,SUPLENTE,ELEITO POR QP,SUPLENTE,,2957746.77,526788.1900000001
MARIANA ROSSETO SANTOS,PROFESSORA MARIANA,ESTADUAL,10360020801,193058900116,DEPUTADO ESTADUAL,VEREADOR,DEPUTADO FEDERAL,APTO,APTO,APTO,2022-10-02,PT,PARTIDO DOS TRABALHADORES,1973-07-13,FEMININO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),PROFESSOR DE ENSINO MÉDIO,SP,SÃO PAULO,SUPLENTE,NÃO ELEITO,SUPLENTE,,78413.98000000001,62000.0
LUIZ EDUARDO CARNEIRO DA SILVA DE SOUZA LIMA,LUIZ LIMA,ESTADUAL,7616393730,100242820302,DEPUTADO FEDERAL,PREFEITO,DEPUTADO FEDERAL,APTO,APTO,APTO,2022-10-02,PL,PARTIDO LIBERAL,1977-12-10,MASCULINO,BRANCA,SUPERIOR COMPLETO,SOLTEIRO(A),DEPUTADO,RJ,RIO DE JANEIRO,ELEITO POR QP,NÃO ELEITO,ELEITO POR QP,,1537681.74,1749011.3500000003
CRISTINA ALVES DE GODOY,CRIS GODOY,ESTADUAL,13563540845,188441480141,DEPUTADO ESTADUAL,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,PTB,PARTIDO TRABALHISTA BRASILEIRO,1971-01-31,FEMININO,BRANCA,SUPERIOR COMPLETO,DIVORCIADO(A),PSICÓLOGO,SP,SÃO PAULO,NÃO ELEITO,NÃO ELEITO,SUPLENTE,,51074.26,117036.30000000002
DELBIO CAMARGO TERUEL,DELBIO TERUEL,ESTADUAL,6830290880,110834780108,DEPUTADO FEDERAL,VEREADOR,DEPUTADO ESTADUAL,APTO,APTO,APTO,2022-10-02,UNIÃO,UNIÃO BRASIL,1966-06-29,MASCULINO,BRANCA,SUPERIOR COMPLETO,DIVORCIADO(A),VEREADOR,SP,SÃO PAULO,SUPLENTE,ELEITO POR MÉDIA,SUPLENTE,,922084.11,960770.98


Como visto, para garantir o máximo possível a assertividade do join, foram utilizados os campos de "SG_UF_NASCIMENTO" e "DT_NASCIMENTO".

------------------------------------------

## Análise:
A seguir apenas respostas rápidas para perguntas feitas:


OBS: Essa análise usa dados do TSE sobre os bens _declarados_ dos candidatos, sem contar que apenas teremos a evolução de candidatos recorrentes, isto é, pessoas que se candidataram em duas eleições. Isso pode diminuir enormemente nossa base e a confiabilidade, entretando ressalto que esse estudo é meramente para fins de projeto MVP para conclusão do módulo sobre **Engenharia de Dados** e para satisfação da curiosidade do autor,ressalto que o intuito aqui não é qualquer vínculo de cunho político ou partidário, apenas a satisfação de um aprofundamento sob dados aplamente divulgados pelos orgãos competentes, ademais segue metodologia da análise:

### Metodologia
Avaliar evolução patrimonial _declarada_ é algo bem complexo, vários fatores externos podem estar ligadas a diminuição ou aumento que não sejam o servidorismo, como "muleta" técnica usarei informações como quantidade de candidatos em cada particionamento, a média de patrimônio declarada e a quantidade de declarações realizadas em cada ano por tipo.
- As comparações serão feitas entre doi anos, lembrando que olharemos apenas candidatos recorrentes, exemplo: qual a evolução de patrimonio entre candidatos recorrentes entre os anos de 2020 e 2022...
  

### Pergunta Principal:
#### Qual a evolução patrimonial dos candidatos recorrentes da eleição de 2022?

### Perguntas de Desdobramento:
1. Qual média patrimonial dos candidatos (por cargo concorrido)?
2. Candidatos eleitos tem variação diferente de patrimônio?
3. A variação é diferente por partido?
4. A variação é diferente entre gênero?
5. A variação é diferente por idade?

In [0]:
%sql
SELECT
   COUNT(DISTINCT IF(ANO_ELEICAO = 2022,SQ_CANDIDATO,NULL)) AS QTD_CANDIDATOS_DECLARACOES_2022
  ,SUM(IF(ANO_ELEICAO = 2022,VR_BEM_CANDIDATO,NULL)) AS VR_TOTAL_DECLARADO_2022
  ,COUNT(DISTINCT IF(ANO_ELEICAO = 2020,SQ_CANDIDATO,NULL)) AS QTD_CANDIDATOS_DECLARACOES_2020
  ,SUM(IF(ANO_ELEICAO = 2020,VR_BEM_CANDIDATO,NULL)) AS VR_TOTAL_DECLARADO_2020
  ,COUNT(DISTINCT IF(ANO_ELEICAO = 2018,SQ_CANDIDATO,NULL)) AS QTD_CANDIDATOS_DECLARACOES_2018
  ,SUM(IF(ANO_ELEICAO = 2018,VR_BEM_CANDIDATO,NULL)) AS VR_TOTAL_DECLARADO_2018
FROM 
  eleicao_silver.bens_candidatos

QTD_CANDIDATOS_DECLARACOES_2022,VR_TOTAL_DECLARADO_2022,QTD_CANDIDATOS_DECLARACOES_2020,VR_TOTAL_DECLARADO_2020,QTD_CANDIDATOS_DECLARACOES_2018,VR_TOTAL_DECLARADO_2018
4655,22996626425.03998,340935,115080952206.4301,17646,24229242318.55999


Repare que há bem menos candidatos com declarações no ano de 2022, mais que 4x menos comparado a 2018 que foram eleições do mesmo ambito, segundo a documentação fornecida podem ter havido em 2022 mais pedidos de sigilo/não divulgação ou simplesmente menos declarações.

In [0]:
%sql
SELECT
   AVG(IF(ANO_ELEICAO = 2022,VR_BEM_CANDIDATO,NULL)) AS MEDIA_DECLARACOES_2022
  ,AVG(IF(ANO_ELEICAO = 2020,VR_BEM_CANDIDATO,NULL)) AS MEDIA_DECLARACOES_2020
  ,AVG(IF(ANO_ELEICAO = 2018,VR_BEM_CANDIDATO,NULL)) AS MEDIA_DECLARACOES_2018
FROM 
  eleicao_silver.bens_candidatos

MEDIA_DECLARACOES_2022,MEDIA_DECLARACOES_2020,MEDIA_DECLARACOES_2018
4979780.516465998,339173.6827403348,1373072.7824186778


A média patrimonial declarada por candidato teve uma variação alta, tanto de 2018 para 2022, quanto entre 2020 e 2022 (essa última eleições de ambitos diferentes).

Para a variação usarei a fórmula simples de diferença: (Valor atual/Valo anterior) - 1

In [0]:
%sql
--Primeira comparação entre 2018 e 2022
SELECT
   COUNT(DISTINCT NR_CPF_CANDIDATO)
  ,AVG(VR_BEM_CANDIDATO) AS MEDIA_BENS_2022
  ,AVG(VR_BEM_CANDIDATO_2018) AS MEDIA_BENS_2018
  ,SUM(VR_BEM_CANDIDATO) AS VR_BEM_CANDIDATO_2022
  ,SUM(VR_BEM_CANDIDATO_2018) AS VR_BEM_CANDIDATO_2018
  ,SUM(VR_BEM_CANDIDATO) / SUM(VR_BEM_CANDIDATO_2018) AS VARIACAO_22_18
  ,SUM(VR_BEM_CANDIDATO) / SUM(VR_BEM_CANDIDATO_2018) - 1  AS PERC_VARIACAO_22_18
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2018 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2018 IS NOT NULL

count(DISTINCT NR_CPF_CANDIDATO),MEDIA_BENS_2022,MEDIA_BENS_2018,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2018,VARIACAO_22_18,PERC_VARIACAO_22_18
1164,1705204.461806615,1315350.7866327388,2010436060.4699996,1550798577.439999,1.2963876094010562,0.2963876094010562


Nessa análise geral houveram 1164 candidatos recorrentes em 2022 que concorreram em 2018 que tiveram algum valor declarado. Estes com variação total positiva de aproximadamente 30%, seguindo a média declarada com aumento, seguindo a analise feita com todos os candidatos.

In [0]:
%sql
--Primeira comparação entre 2020 e 2022
SELECT
   COUNT(DISTINCT NR_CPF_CANDIDATO)
  ,AVG(VR_BEM_CANDIDATO) AS MEDIA_BENS_2022
  ,AVG(VR_BEM_CANDIDATO_2020) AS MEDIA_BENS_2020
  ,SUM(VR_BEM_CANDIDATO) AS VR_BEM_CANDIDATO_2022
  ,SUM(VR_BEM_CANDIDATO_2020) AS VR_BEM_CANDIDATO_2020
  ,SUM(VR_BEM_CANDIDATO) / SUM(VR_BEM_CANDIDATO_2020) AS VARIACAO_22_20
  ,SUM(VR_BEM_CANDIDATO) / SUM(VR_BEM_CANDIDATO_2020) - 1  AS PERC_VARIACAO_22_20
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2020 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2020 IS NOT NULL

count(DISTINCT NR_CPF_CANDIDATO),MEDIA_BENS_2022,MEDIA_BENS_2020,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2020,VARIACAO_22_20,PERC_VARIACAO_22_20
1306,659124.301655431,2845633.373722847,879930942.7100005,3798920553.920001,0.2316265713432791,-0.7683734286567209


Nessa análise geral houveram 1306 candidatos recorrentes em 2022 que concorreram em 2020(quase dobro mais que os que também concorreram em 2018). Estes com variação total negativa de aproximadamente 80%, seguido pela queda da média declarada.

Vamos começar algumas quebras, usando os anos de 2018 e 2022

In [0]:
%sql
--Comparação entre 2022 e 2018 por cargos concorridos em 2022
SELECT
   DS_CARGO
  ,COUNT(DISTINCT NR_CPF_CANDIDATO)
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS MEDIA_BENS_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VR_BEM_CANDIDATO_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VARIACAO_22_18
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) - 1) * 100 AS PERC_VARIACAO_22_18 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2018 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2018 IS NOT NULL
GROUP BY 
  1

DS_CARGO,count(DISTINCT NR_CPF_CANDIDATO),MEDIA_BENS_2022,MEDIA_BENS_2018,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2018,VARIACAO_22_18,PERC_VARIACAO_22_18
VICE-GOVERNADOR,16,6197461.87625,4996333.610625,99159390.02,79941337.77,1.2404019345447088,24.04019345447088
SENADOR,28,2818303.7078571427,2431601.1635714285,78912503.82,68084832.58,1.1590320608819509,15.903206088195088
1º SUPLENTE,7,1480463.6414285714,1192347.007142857,10363245.49,8346429.049999999,1.2416382416861258,24.163824168612575
DEPUTADO FEDERAL,420,2181570.4350000005,1388541.5006839628,924985864.4400004,588741596.2900002,1.571123681881608,57.11236818816079
GOVERNADOR,32,8626464.3059375,7359143.2365625,276046857.79,235492583.57,1.1722104093691992,17.22104093691992
2º SUPLENTE,10,807433.7827272727,728020.1681818181,8881771.61,8008221.85,1.1090816134170909,10.90816134170909
DEPUTADO ESTADUAL,532,872504.1648148148,839906.2292592594,471152249.0,453549363.8000001,1.038811398725194,3.881139872519413
DEPUTADO DISTRITAL,121,1164745.2752066113,897803.409338843,140934178.29999995,108634212.53,1.2973277480248695,29.73277480248695


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Como percebido, aumento distribuido por cargos disputados de 4% a 57%

In [0]:
%sql
--Comparação entre 2022 e 2020 por cargos concorridos em 2022
SELECT
   DS_CARGO
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS MEDIA_BENS_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VR_BEM_CANDIDATO_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VARIACAO_22_20
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) - 1) * 100 AS PERC_VARIACAO_22_20 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2020 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2020 IS NOT NULL
GROUP BY 
  1

DS_CARGO,QTD_CANDIDATOS,MEDIA_BENS_2022,MEDIA_BENS_2020,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2020,VARIACAO_22_20,PERC_VARIACAO_22_20
VICE-GOVERNADOR,4,334560.62,232475.0,1338242.48,1160570.17,1.1530905365248187,15.309053652481875
SENADOR,9,5948533.615555555,4271307.445555556,53536802.53999999,44289938.46,1.208780242229309,20.878024222930904
1º SUPLENTE,6,974158.2166666668,1923.3033333333333,5844949.3,3853125.2,1.5169372902806273,51.69372902806273
DEPUTADO FEDERAL,493,693388.5050395259,185845.40444664023,350854583.55000013,303016923.3299999,1.157871249217004,15.787124921700402
GOVERNADOR,14,635884.72,351635.6492857143,8902386.08,9510695.329999998,0.9360394556977152,-6.396054430228482
2º SUPLENTE,7,2960868.1900000004,69864.28571428571,20726077.33,14105843.23,1.469325654060881,46.9325654060881
DEPUTADO ESTADUAL,773,556179.6999872773,245027.71882951653,437157244.19,3422578458.2000017,0.1277274573918487,-87.22725426081513
DEPUTADO DISTRITAL,3,523552.4133333333,0.0,1570657.24,405000.0,3.878166024691358,287.81660246913583


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Aqui percebemos uma variação maior na abertura por cargos, onde a maior concentração de candidatos recorrentes (Deputado Estadual) teve a maior queda (87%) e a menor concentração (Deputado Distrital) teve o maior aumento (~290%)

OBS: Apenas para conhecimento, Deputado Distrital é um cargo exclusivo da Capital do país Brasília, suas atribuições são semelhantes as dos Deputados Estaduais.

Agora a abertura por situação final na eleição anterior, avaliando candidatos eleitos _versus_ não eleitos e demais situações finais.

In [0]:
%sql
--Comparação entre 2022 e 2018 por situação final da eleição
SELECT
   DS_SIT_TOT_TURNO_2018
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS MEDIA_BENS_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VR_BEM_CANDIDATO_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VARIACAO_22_18
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) - 1) * 100 AS PERC_VARIACAO_22_18 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2018 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2018 IS NOT NULL
GROUP BY 
  1

DS_SIT_TOT_TURNO_2018,count(DISTINCT NR_CPF_CANDIDATO),MEDIA_BENS_2022,MEDIA_BENS_2018,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2018,VARIACAO_22_18,PERC_VARIACAO_22_18
ELEITO POR MÉDIA,79,1844636.718227848,999552.8543037974,145726300.74,78964675.49,1.8454619085777744,84.54619085777746
ELEITO,24,12142829.8025,10784285.346666666,291427915.26,258822848.32,1.1259744537688117,12.597445376881168
NÃO ELEITO,216,2644269.46908676,1564963.860045662,579095013.7300004,342727085.35,1.6896680725966449,68.96680725966449
SUPLENTE,550,869418.7829107145,836513.3651249998,486874518.4300001,468447484.4699999,1.039336392169655,3.933639216965501
#NULO#,20,967462.903,1536898.9819999998,19349258.06,30737979.64,0.6294902360733037,-37.05097639266963
ELEITO POR QP,276,1761599.4738267146,1339705.791227437,487963054.25,371098504.17000014,1.314915174183683,31.49151741836831


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Eleitos por média com maior variação (85%) e status "NULO" significa que a informação não estava disponível no banco de dados(segundo documentação), explicada abaixo.  

In [0]:
%sql
SELECT 
  DISTINCT 
   DS_SIT_TOT_TURNO_2018
  ,DS_SITUACAO_CANDIDATURA_2018
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2018 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2018 IS NOT NULL


DS_SIT_TOT_TURNO_2018,DS_SITUACAO_CANDIDATURA_2018
ELEITO POR QP,APTO
NÃO ELEITO,INAPTO
#NULO#,INAPTO
SUPLENTE,APTO
NÃO ELEITO,APTO
ELEITO POR MÉDIA,APTO
ELEITO,APTO
SUPLENTE,INAPTO


Como mostrado os status "#NULO#" são candidatos inaptos a concorrerem no ano em questão.

In [0]:
%sql
--Comparação entre 2022 e 2020 por situação final da eleição 
SELECT
   DS_SIT_TOT_TURNO_2020
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS MEDIA_BENS_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VR_BEM_CANDIDATO_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VARIACAO_22_20
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) - 1) * 100 AS PERC_VARIACAO_22_20 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2020 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2020 IS NOT NULL
GROUP BY 
  1

DS_SIT_TOT_TURNO_2020,QTD_CANDIDATOS,MEDIA_BENS_2022,MEDIA_BENS_2020,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2020,VARIACAO_22_20,PERC_VARIACAO_22_20
ELEITO POR MÉDIA,80,656714.6503614456,546310.511686747,54507315.97999999,45343772.47,1.2020904527972989,20.209045279729885
ELEITO,35,722837.0114285715,634693.3268571428,25299295.4,22214266.44,1.1388760222324947,13.887602223249472
NÃO ELEITO,548,833994.9938530463,1100543.5379390682,465369206.5699999,614103294.1700001,0.757802817519447,-24.2197182480553
SUPLENTE,458,466354.0559061834,6442170.782324093,218720052.22000003,3021378096.91,0.0723908247179284,-92.76091752820716
#NULO#,20,466335.63500000007,584789.8085,9326712.7,11695796.170000002,0.7974414537013943,-20.25585462986057
ELEITO POR QP,169,627696.2343529413,495207.810352941,106708359.84000002,84185327.75999998,1.2675410630247814,26.754106302478142


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Eleitos por QP (Cosciente Partidário) tiveram a maior variação (27%) enquanto a menor foi dos eleitos a suplente (-93%) de variação patrimonial.

OBS: Para conhecimento, "ELEITO POR QP" (Cosciente Partidário) são as vagas destinadas a candidatos eleitos por eleitores que optaram por votar na sigla do partido, mais informações no [LINK](https://www.tse.jus.br/comunicacao/noticias/2024/Marco/quocientes-eleitoral-e-partidario-entenda-como-um-candidato-a-vereador-e-eleito)

In [0]:
%sql
--Comparação entre 2022 e 2018 por genero declarado em 2022
SELECT
   DS_GENERO
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS MEDIA_BENS_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VR_BEM_CANDIDATO_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VARIACAO_22_18
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) - 1) * 100 AS PERC_VARIACAO_22_18 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2018 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2018 IS NOT NULL
GROUP BY 
  1

DS_GENERO,QTD_CANDIDATOS,MEDIA_BENS_2022,MEDIA_BENS_2018,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2018,VARIACAO_22_18,PERC_VARIACAO_22_18
MASCULINO,946,1880733.6863350773,1431820.280157067,1796100670.4499989,1367388367.549999,1.3135263638874886,31.352636388748856
FEMININO,218,956854.4197321428,818795.5798660715,214335390.02,183410209.89,1.1686120971594074,16.86120971594074


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Maior variação do Genero Masculino (31%) _versus_ (17%) Genero

In [0]:
%sql
--Comparação entre 2022 e 2020 por genero declarado em 2022
SELECT
   DS_GENERO
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS MEDIA_BENS_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VR_BEM_CANDIDATO_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VARIACAO_22_20
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) - 1) * 100 AS PERC_VARIACAO_22_20 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2020 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2020 IS NOT NULL
GROUP BY 
  1

DS_GENERO,QTD_CANDIDATOS,MEDIA_BENS_2022,MEDIA_BENS_2020,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2020,VARIACAO_22_20,PERC_VARIACAO_22_20
MASCULINO,948,757022.5324355008,3600217.0662229103,733554833.9300002,3488610337.17,0.2102713582294399,-78.97286417705601
FEMININO,358,399934.7234426227,847842.1222677598,146376108.7799999,310310216.75000006,0.4717089572913647,-52.829104270863525


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Queda de Patrimonio nos dois Generos entre as eleições de 2020 e 2022

Por fim, mas não menos importante, distinção por idade:<br>
Nesta avaliação farei intervalos de idade (0-18, 19-30, 31-40, 41-50, 51-60, 60-70, >70)

In [0]:
%sql
--Comparação entre 2022 e 2018 por idade em 2022
SELECT
   CASE 
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 18 THEN '1. 18'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 30 THEN '2. 19-30'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 40 THEN '3. 31-40'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 50 THEN '4. 41-50'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 50 THEN '5. 51-60'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 70 THEN '6. 61-70'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) > 70 THEN '7. 70+'
    END AS IDADE_CANDIDATO
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS MEDIA_BENS_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VR_BEM_CANDIDATO_2018
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) AS VARIACAO_22_18
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2018,0)) - 1) * 100 AS PERC_VARIACAO_22_18 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2018 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2020 IS NOT NULL
GROUP BY 
  1

IDADE_CANDIDATO,QTD_CANDIDATOS,MEDIA_BENS_2022,MEDIA_BENS_2018,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2018,VARIACAO_22_18,PERC_VARIACAO_22_18
3. 31-40,50,377168.2186,242977.4446,18858410.93,12148872.23,1.5522766700461053,55.22766700461053
7. 70+,11,1087631.6209090909,920901.8745454546,11963947.83,10129920.62,1.1810505016573367,18.105050165733672
6. 61-70,218,1017593.6402232144,1099709.5249107142,227940975.4100001,246334933.58,0.9253294776234964,-7.467052237650362
4. 41-50,139,469951.4426760564,440010.65838028176,66733104.86,62481513.49000001,1.0680455887273033,6.804558872730326
2. 19-30,6,455104.88666666666,54912.94166666667,2730629.32,329477.65,8.287752811154261,728.7752811154261


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Grande aumento entre 2018 e 2022 nos candidatos entre 19-30 anos (278%) e queda entre candidatos de 61-70 anos (-7%).

In [0]:
%sql
--Comparação entre 2022 e 2020 por idade em 2022
SELECT
   CASE 
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 18 THEN '1. 18'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 30 THEN '2. 19-30'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 40 THEN '3. 31-40'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 50 THEN '4. 41-50'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 50 THEN '5. 51-60'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) <= 70 THEN '6. 61-70'
    WHEN DATEDIFF ( YEAR, DT_NASCIMENTO, DT_ELEICAO) > 70 THEN '7. 70+'
    END AS IDADE_CANDIDATO
  ,COUNT(DISTINCT NR_CPF_CANDIDATO) AS QTD_CANDIDATOS
  ,AVG(COALESCE(VR_BEM_CANDIDATO,0)) AS MEDIA_BENS_2022
  ,AVG(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS MEDIA_BENS_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) AS VR_BEM_CANDIDATO_2022
  ,SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VR_BEM_CANDIDATO_2020
  ,SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) AS VARIACAO_22_20
  ,(SUM(COALESCE(VR_BEM_CANDIDATO,0)) / SUM(COALESCE(VR_BEM_CANDIDATO_2020,0)) - 1) * 100 AS PERC_VARIACAO_22_20 -- mostrando em pontos percentuais
FROM 
  eleicao_gold.patrimonio
WHERE 
  DS_CARGO IS NOT NULL AND DS_CARGO_2020 IS NOT NULL AND VR_BEM_CANDIDATO IS NOT NULL AND VR_BEM_CANDIDATO_2020 IS NOT NULL
GROUP BY 
  1

IDADE_CANDIDATO,QTD_CANDIDATOS,MEDIA_BENS_2022,MEDIA_BENS_2020,VR_BEM_CANDIDATO_2022,VR_BEM_CANDIDATO_2020,VARIACAO_22_20,PERC_VARIACAO_22_20
3. 31-40,224,407705.8391304349,334592.3681739129,93772343.0,76956244.67999998,1.2185150586534577,21.851505865345764
7. 70+,26,1038637.4230769232,1088240.2365384614,27004573.0,28294246.15,0.9544192432919794,-4.558075670802064
6. 61-70,570,861605.8624872231,5647186.402282796,505762641.28,3314898418.1400013,0.1525725912179791,-84.7427408782021
4. 41-50,448,538001.1398458149,821328.1728634362,244252517.48999995,372882990.48,0.6550379709612973,-34.49620290387026
2. 19-30,38,240496.52473684208,154964.5913157895,9138867.94,5888654.470000001,1.5519450133402035,55.19450133402035


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Variação entre 2020 e 2022 nos candidatos entre 19-30 anos (55%) e queda entre candidatos de 61-70 anos (-85%)


### Conclusão:

Concluindo a análise com as respostas apresentadas acima, a ideia inicial do projeto era avaliar mais anos, provavelmente com diferentes metodologias e abordagens, por tempo optei em analisar apenas esse 3 anos tendo base o ano de 2022.<br>
Em 2024 uma normativa tornou não público os CPF's dos candidatos, o que faria a união das tabelas entre anos muito mais complicadas, tendo _join_ apenas pelo nome dos candidatos.<br>
A base é bem vasta permitindo outros diversos desdobramentos não explorados aqui, como cargo anterior dos candidatos, abrir maiores intervalos de idade dadas as concentrações por intervalo definido, ou até mesmo combinar as aberturas como por exemplo idade por situação de eleição, etc.<br>
Como o foco do projeto era o tratamento e a manipulação dos dados, me dediquei mais a esses pontos. 