In [1]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

# Cria a Spark Session
spark = SparkSession.builder \
    .appName("Nome da Aplicação") \
    .master("spark://spark:7077") \
    .getOrCreate() 

In [2]:
# Lê o arquivo CSV
df = spark.read.csv("hdfs://namenode:9000/result-ele2022.csv", sep=";", encoding="ISO-8859-1", header=True, inferSchema=True)

# Mostra o número de linhas no arquivo
df.count()

878328

In [3]:
# Descreve o conjunto de dados do dataset
df.describe()

DataFrame[summary: string, DT_GERACAO: string, ANO_ELEICAO: string, CD_TIPO_ELEICAO: string, NM_TIPO_ELEICAO: string, CD_PLEITO: string, DT_PLEITO: string, NR_TURNO: string, CD_ELEICAO: string, DS_ELEICAO: string, SG_UF: string, CD_MUNICIPIO: string, NM_MUNICIPIO: string, NR_ZONA: string, NR_SECAO: string, NR_LOCAL_VOTACAO: string, CD_CARGO_PERGUNTA: string, DS_CARGO_PERGUNTA: string, NR_PARTIDO: string, SG_PARTIDO: string, NM_PARTIDO: string, DT_BU_RECEBIDO: string, QT_APTOS: string, QT_COMPARECIMENTO: string, QT_ABSTENCOES: string, CD_TIPO_URNA: string, DS_TIPO_URNA: string, CD_TIPO_VOTAVEL: string, DS_TIPO_VOTAVEL: string, NR_VOTAVEL: string, NM_VOTAVEL: string, QT_VOTOS: string, NR_URNA_EFETIVADA: string, CD_CARGA_1_URNA_EFETIVADA: string, CD_CARGA_2_URNA_EFETIVADA: string, CD_FLASHCARD_URNA_EFETIVADA: string, DT_CARGA_URNA_EFETIVADA: string, DS_CARGO_PERGUNTA_SECAO: string, DS_AGREGADAS: string, DT_ABERTURA: string, DT_ENCERRAMENTO: string, QT_ELEITORES_BIOMETRIA_NH: string, DT_EM

In [4]:
# Lista os dados
df.show(3)

+----------+-------------------+-----------+---------------+-----------------+---------+----------+--------+----------+--------------------+-----+------------+------------+-------+--------+----------------+-----------------+-----------------+----------+----------+--------------------+-------------------+--------+-----------------+-------------+------------+------------+---------------+---------------+----------+------------+--------+-----------------+-------------------------+-------------------------+---------------------------+-----------------------+-----------------------+------------+-------------------+-------------------+-------------------------+-------------------+------------------+------------------+
|DT_GERACAO|         HH_GERACAO|ANO_ELEICAO|CD_TIPO_ELEICAO|  NM_TIPO_ELEICAO|CD_PLEITO| DT_PLEITO|NR_TURNO|CD_ELEICAO|          DS_ELEICAO|SG_UF|CD_MUNICIPIO|NM_MUNICIPIO|NR_ZONA|NR_SECAO|NR_LOCAL_VOTACAO|CD_CARGO_PERGUNTA|DS_CARGO_PERGUNTA|NR_PARTIDO|SG_PARTIDO|          NM_PA

In [5]:
# Lista a estrutura dos dados
df.printSchema()

root
 |-- DT_GERACAO: string (nullable = true)
 |-- HH_GERACAO: timestamp (nullable = true)
 |-- ANO_ELEICAO: integer (nullable = true)
 |-- CD_TIPO_ELEICAO: integer (nullable = true)
 |-- NM_TIPO_ELEICAO: string (nullable = true)
 |-- CD_PLEITO: integer (nullable = true)
 |-- DT_PLEITO: string (nullable = true)
 |-- NR_TURNO: integer (nullable = true)
 |-- CD_ELEICAO: integer (nullable = true)
 |-- DS_ELEICAO: string (nullable = true)
 |-- SG_UF: string (nullable = true)
 |-- CD_MUNICIPIO: integer (nullable = true)
 |-- NM_MUNICIPIO: string (nullable = true)
 |-- NR_ZONA: integer (nullable = true)
 |-- NR_SECAO: integer (nullable = true)
 |-- NR_LOCAL_VOTACAO: integer (nullable = true)
 |-- CD_CARGO_PERGUNTA: integer (nullable = true)
 |-- DS_CARGO_PERGUNTA: string (nullable = true)
 |-- NR_PARTIDO: integer (nullable = true)
 |-- SG_PARTIDO: string (nullable = true)
 |-- NM_PARTIDO: string (nullable = true)
 |-- DT_BU_RECEBIDO: string (nullable = true)
 |-- QT_APTOS: integer (nullable

In [6]:
# Verifica as colunas vazias

from pyspark.sql.functions import col, sum

vazias = df.select([sum(col(c).isNull().cast("int")).alias(c) for c in df.columns])

# Exibe o resultado
vazias.show(vertical=True)

-RECORD 0--------------------------
 DT_GERACAO                  | 0   
 HH_GERACAO                  | 0   
 ANO_ELEICAO                 | 0   
 CD_TIPO_ELEICAO             | 0   
 NM_TIPO_ELEICAO             | 0   
 CD_PLEITO                   | 0   
 DT_PLEITO                   | 0   
 NR_TURNO                    | 0   
 CD_ELEICAO                  | 0   
 DS_ELEICAO                  | 0   
 SG_UF                       | 0   
 CD_MUNICIPIO                | 0   
 NM_MUNICIPIO                | 0   
 NR_ZONA                     | 0   
 NR_SECAO                    | 0   
 NR_LOCAL_VOTACAO            | 0   
 CD_CARGO_PERGUNTA           | 0   
 DS_CARGO_PERGUNTA           | 0   
 NR_PARTIDO                  | 0   
 SG_PARTIDO                  | 0   
 NM_PARTIDO                  | 0   
 DT_BU_RECEBIDO              | 0   
 QT_APTOS                    | 0   
 QT_COMPARECIMENTO           | 0   
 QT_ABSTENCOES               | 0   
 CD_TIPO_URNA                | 0   
 DS_TIPO_URNA               

In [10]:
# Verifica quais os turnos estão no dataframe
df.select("NR_TURNO").distinct().show()

+--------+
|NR_TURNO|
+--------+
|       1|
+--------+



In [11]:
# Verifica quais unidades da federação estão no dataframe
df.select("SG_UF").distinct().show()

+-----+
|SG_UF|
+-----+
|   RN|
+-----+



### Calcular taxa de comparecimento por Município
#### Deduplicar as entradas das seções eleitorais

In [22]:
df_secao = (
    df
    .select("NR_ZONA","NM_MUNICIPIO","NR_SECAO","QT_APTOS","QT_COMPARECIMENTO")
    .distinct()
    .orderBy("NR_ZONA","NM_MUNICIPIO","NR_SECAO")
)

#### Aptos e comparecimento por município

In [26]:
df_aptos_comp = (
    df_secao
    .groupBy("NM_MUNICIPIO")
    .agg(F.sum("QT_APTOS").alias("APTOS"), F.sum("QT_COMPARECIMENTO").alias("COMPARECIMENTO"))
    .orderBy("NM_MUNICIPIO")
)

#### Taxa de Comparecimento por Município

In [36]:
df_taxa_municipio = (
    df_aptos_comp
    .withColumn("TAXA_COMPARECIMENTO", F.format_number( 100 * F.col("COMPARECIMENTO") / F.col("APTOS"),2))
    .orderBy("TAXA_COMPARECIMENTO")                
)    

In [38]:
df_taxa_municipio.show(5)

+----------------+-----+--------------+-------------------+
|    NM_MUNICIPIO|APTOS|COMPARECIMENTO|TAXA_COMPARECIMENTO|
+----------------+-----+--------------+-------------------+
|   PEDRO AVELINO| 6605|          4891|              74.05|
|       VENHA-VER| 3855|          2929|              75.98|
|            BODÓ| 3590|          2767|              77.08|
|CORONEL EZEQUIEL| 5062|          3912|              77.28|
|         TANGARÁ|12370|          9583|              77.47|
+----------------+-----+--------------+-------------------+
only showing top 5 rows

