* Criado por: Gabriel Quintella
* Data Criação: 24.01.2023
* Data Última Modificação: 26.01.2023
* Repositório: https://github.com/dbaassists/Projeto-KB-Spark/blob/main/Projeto%20KB%20Spark.ipynb

DESCRIÇÃO DO PROJETO

Criar uma base de conhecimento (KB) com comandos pyspark.

*  Dia 1 - 24.01.2023 - Lançamento do Projeto;
*  Dia 2 - 26.01.2023 - Aprimoramento do Projeto com melhoria nos exemplos criados;



 Sumário

* 01 - Instalação da Biblioteca PySpark
* 02 - Definição de Bibliotecas
* 03 - Importando Arquivo CSV
* 04 - Transformando o DataFrame Spark em Tabela Temporária
* 05 - Consultando a Estrutura do DataFrame Spark
* 06 - Lendo a Tabela e Transformando em outro DataFrame Spark
* 07 - Convertendo o DataType de uma Coluna de um DataFrame Spark
* 08 - Convertendo o DataType e Criando uma nova Coluna de um DataFrame Spark
* 09 - Renomeando uma Coluna em DataFrame Spark
* 10 - Renomeando Várias Colunas em DataFrame Spark
* 11 - Ordenando um DataFrame Spark


# 01 - Instalação da Biblioteca PySpark

In [1]:
#pip install pyspark

# 02 - Definição de Bibliotecas

In [2]:
import sys
import requests
import pandas as pd
import json
import pyspark.sql.functions as F #import explode_outer, col
from pyspark.sql.types import *
import os
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark import SparkConf
from pyspark import SparkContext
import urllib
from sqlalchemy import __version__ as sa_version, create_engine, text


# 03 - Importando Arquivo CSV

In [3]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

arquivo = '../ProjetoSparkKB/Dados/Candidato/consulta_cand_2022_BRASIL.csv'

df = spark.read.csv(arquivo, sep=';',header=True)

df.select('DT_GERACAO').show()

df.show(truncate=False)

+----------+
|DT_GERACAO|
+----------+
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
|21/01/2023|
+----------+
only showing top 20 rows

+----------+----------+-----------+---------------+-----------------+--------+----------+------------------------------+----------+--------------+-----+-----+-----------------+--------+-----------------+------------+------------+-------------------------------------------+-----------------------------+-------------------+----------------+--------------+-----------------------+-----------------------+------------------------+------------------------+---------------+----------+-------------+----------------------------------------+------------+------------------------+--------------+-----------------------+------------+---------------+---------------------

In [4]:
arquivo = '../ProjetoSparkKB/Dados/Candidato/consulta_cand_2022_BRASIL.csv'

dfExemplo2 = spark.read.format("csv").load(arquivo)
    
dfExemplo2.printSchema()

root
 |-- _c0: string (nullable = true)



In [5]:
arquivo = '../ProjetoSparkKB/Dados/Candidato/consulta_cand_2022_BRASIL.csv'

dfExemplo3 = spark.read.option("inferSchema",False) \
                .option("delimiter",";") \
                .option("header",True) \
                .csv(arquivo)

dfExemplo3.printSchema()

root
 |-- DT_GERACAO: string (nullable = true)
 |-- HH_GERACAO: string (nullable = true)
 |-- ANO_ELEICAO: string (nullable = true)
 |-- CD_TIPO_ELEICAO: string (nullable = true)
 |-- NM_TIPO_ELEICAO: string (nullable = true)
 |-- NR_TURNO: string (nullable = true)
 |-- CD_ELEICAO: string (nullable = true)
 |-- DS_ELEICAO: string (nullable = true)
 |-- DT_ELEICAO: string (nullable = true)
 |-- TP_ABRANGENCIA: string (nullable = true)
 |-- SG_UF: string (nullable = true)
 |-- SG_UE: string (nullable = true)
 |-- NM_UE: string (nullable = true)
 |-- CD_CARGO: string (nullable = true)
 |-- DS_CARGO: string (nullable = true)
 |-- SQ_CANDIDATO: string (nullable = true)
 |-- NR_CANDIDATO: string (nullable = true)
 |-- NM_CANDIDATO: string (nullable = true)
 |-- NM_URNA_CANDIDATO: string (nullable = true)
 |-- NM_SOCIAL_CANDIDATO: string (nullable = true)
 |-- NR_CPF_CANDIDATO: string (nullable = true)
 |-- NM_EMAIL: string (nullable = true)
 |-- CD_SITUACAO_CANDIDATURA: string (nullable = tr

In [6]:
arquivo = '../ProjetoSparkKB/Dados/Candidato/consulta_cand_2022_BRASIL.csv'

dfExemplo04 = spark.read.options(header='True', inferSchema='True', delimiter=';') \
  .csv(arquivo)

dfExemplo04.printSchema()

root
 |-- DT_GERACAO: string (nullable = true)
 |-- HH_GERACAO: timestamp (nullable = true)
 |-- ANO_ELEICAO: integer (nullable = true)
 |-- CD_TIPO_ELEICAO: integer (nullable = true)
 |-- NM_TIPO_ELEICAO: string (nullable = true)
 |-- NR_TURNO: integer (nullable = true)
 |-- CD_ELEICAO: integer (nullable = true)
 |-- DS_ELEICAO: string (nullable = true)
 |-- DT_ELEICAO: string (nullable = true)
 |-- TP_ABRANGENCIA: string (nullable = true)
 |-- SG_UF: string (nullable = true)
 |-- SG_UE: string (nullable = true)
 |-- NM_UE: string (nullable = true)
 |-- CD_CARGO: integer (nullable = true)
 |-- DS_CARGO: string (nullable = true)
 |-- SQ_CANDIDATO: long (nullable = true)
 |-- NR_CANDIDATO: integer (nullable = true)
 |-- NM_CANDIDATO: string (nullable = true)
 |-- NM_URNA_CANDIDATO: string (nullable = true)
 |-- NM_SOCIAL_CANDIDATO: string (nullable = true)
 |-- NR_CPF_CANDIDATO: long (nullable = true)
 |-- NM_EMAIL: string (nullable = true)
 |-- CD_SITUACAO_CANDIDATURA: integer (nullabl

In [7]:
arquivo = '../ProjetoSparkKB/Dados/IndicadorSegurancaPublica/indicador_homocidio.csv'

df3 = spark.read.options(header='True', inferSchema='True', delimiter=';').csv(arquivo)

df3.show()

+-------------------+----------------+-----+-------------------+
|              CodUf|        TpoCrime|  Qtd|               Data|
+-------------------+----------------+-----+-------------------+
|            Roraima|Homic�dio doloso| 1389|2023-01-28 00:00:00|
|              Amap�|Homic�dio doloso| 1948|2023-01-29 00:00:00|
|               Acre|Homic�dio doloso| 2007|2023-01-30 00:00:00|
|          Tocantins|Homic�dio doloso| 2787|2023-01-31 00:00:00|
|           Rond�nia|Homic�dio doloso| 3482|2023-02-01 00:00:00|
|   Distrito Federal|Homic�dio doloso| 3518|2023-02-02 00:00:00|
| Mato Grosso do Sul|Homic�dio doloso| 3905|2023-02-03 00:00:00|
|              Piau�|Homic�dio doloso| 4714|2023-02-04 00:00:00|
|     Santa Catarina|Homic�dio doloso| 5832|2023-02-05 00:00:00|
|        Mato Grosso|Homic�dio doloso| 6920|2023-02-06 00:00:00|
|            Sergipe|Homic�dio doloso| 6970|2023-02-07 00:00:00|
|           Amazonas|Homic�dio doloso| 8590|2023-02-08 00:00:00|
|     Esp�rito Santo|Homi

** Documentação: https://sqlrelease.com/spark-read-file-with-special-characters-using-pyspark

** Documentação: https://sparkbyexamples.com/pyspark/pyspark-sql-types-datatype-with-examples/

** Documentação: https://spark.apache.org/docs/latest/sql-ref-datatypes.html

** Documentação: https://sparkbyexamples.com/pyspark/pyspark-date_format-convert-date-to-string-format/

In [8]:
arquivo = '../ProjetoSparkKB/Dados/IndicadorSegurancaPublica/indicador_homocidio.csv'


schema = StructType() \
      .add("CodUf",StringType(),True) \
      .add("TipoCrime",StringType(),True) \
      .add("Quantidade",IntegerType(),True) \
      .add("Data",DateType(),True) \


df_with_schema = spark.read.options(header='True', inferSchema='False', delimiter=';', encoding="windows-1252") \
      .schema(schema) \
      .csv(arquivo)

df_with_schema.printSchema()

df_with_schema.show()

root
 |-- CodUf: string (nullable = true)
 |-- TipoCrime: string (nullable = true)
 |-- Quantidade: integer (nullable = true)
 |-- Data: date (nullable = true)

+-------------------+----------------+----------+----------+
|              CodUf|       TipoCrime|Quantidade|      Data|
+-------------------+----------------+----------+----------+
|            Roraima|Homicídio doloso|      1389|2023-01-28|
|              Amapá|Homicídio doloso|      1948|2023-01-29|
|               Acre|Homicídio doloso|      2007|2023-01-30|
|          Tocantins|Homicídio doloso|      2787|2023-01-31|
|           Rondônia|Homicídio doloso|      3482|2023-02-01|
|   Distrito Federal|Homicídio doloso|      3518|2023-02-02|
| Mato Grosso do Sul|Homicídio doloso|      3905|2023-02-03|
|              Piauí|Homicídio doloso|      4714|2023-02-04|
|     Santa Catarina|Homicídio doloso|      5832|2023-02-05|
|        Mato Grosso|Homicídio doloso|      6920|2023-02-06|
|            Sergipe|Homicídio doloso|      69

# 04 - Transformando o DataFrame Spark em Tabela Temporária

In [9]:
df.createOrReplaceTempView('teste')

# 05 - Consultando a Estrutura do DataFrame Spark

In [10]:
df.printSchema()

root
 |-- DT_GERACAO: string (nullable = true)
 |-- HH_GERACAO: string (nullable = true)
 |-- ANO_ELEICAO: string (nullable = true)
 |-- CD_TIPO_ELEICAO: string (nullable = true)
 |-- NM_TIPO_ELEICAO: string (nullable = true)
 |-- NR_TURNO: string (nullable = true)
 |-- CD_ELEICAO: string (nullable = true)
 |-- DS_ELEICAO: string (nullable = true)
 |-- DT_ELEICAO: string (nullable = true)
 |-- TP_ABRANGENCIA: string (nullable = true)
 |-- SG_UF: string (nullable = true)
 |-- SG_UE: string (nullable = true)
 |-- NM_UE: string (nullable = true)
 |-- CD_CARGO: string (nullable = true)
 |-- DS_CARGO: string (nullable = true)
 |-- SQ_CANDIDATO: string (nullable = true)
 |-- NR_CANDIDATO: string (nullable = true)
 |-- NM_CANDIDATO: string (nullable = true)
 |-- NM_URNA_CANDIDATO: string (nullable = true)
 |-- NM_SOCIAL_CANDIDATO: string (nullable = true)
 |-- NR_CPF_CANDIDATO: string (nullable = true)
 |-- NM_EMAIL: string (nullable = true)
 |-- CD_SITUACAO_CANDIDATURA: string (nullable = tr

# 06 - Lendo a Tabela e Transformando em outro DataFrame Spark

In [11]:
df2 = spark.sql("""
SELECT DT_GERACAO 
FROM TESTE
""")

# 07 - Convertendo o DataType de uma Coluna de um DataFrame Spark

In [12]:
df2.withColumn("DT_GERACAO", df2["DT_GERACAO"].cast("timestamp")).printSchema()

root
 |-- DT_GERACAO: timestamp (nullable = true)



# 08 - Convertendo o DataType e Criando uma nova Coluna de um DataFrame Spark

In [13]:
df2.withColumn("DTGERACAO", df2["DT_GERACAO"].cast("timestamp")).printSchema()

root
 |-- DT_GERACAO: string (nullable = true)
 |-- DTGERACAO: timestamp (nullable = true)



# 09 - Renomeando uma Coluna em DataFrame Spark

In [14]:
df2.withColumnRenamed("DT_GERACAO","DT_GERACAO2").printSchema()

root
 |-- DT_GERACAO2: string (nullable = true)



# 10 - Renomeando Várias Colunas em DataFrame Spark

In [15]:
df3 = spark.sql("""
SELECT DT_GERACAO , HH_GERACAO
FROM TESTE
""")

In [16]:
df3 = df3.withColumnRenamed("DT_GERACAO","DtGeracao") \
    .withColumnRenamed("HH_GERACAO","HrGeracao")
df3.printSchema()

root
 |-- DtGeracao: string (nullable = true)
 |-- HrGeracao: string (nullable = true)



# 11 - Ordenando um DataFrame Spark

In [17]:
df4 = spark.sql("""
SELECT SG_UF , NM_URNA_CANDIDATO
FROM TESTE
""")

In [18]:
df4.show()

+-----+--------------------+
|SG_UF|   NM_URNA_CANDIDATO|
+-----+--------------------+
|   CE|    TONY IN�CIO SHOW|
|   RJ|ENFERMEIRA SONIA ...|
|   RS|       TANGER JARDIM|
|   SP|  VAVA DO TRANSPORTE|
|   AM|           LEDA MAIA|
|   AL|        �TALO BASTOS|
|   MG|     CARCILEI SOARES|
|   RJ|PAI MARCELO DE OX...|
|   PR|            DR MAGNO|
|   ES|       VANETE CARIRI|
|   PR|       RONNIE CASTRO|
|   PA|      ELIEL FAUSTINO|
|   RJ|        MARCOS UCH�A|
|   ES|IDELFONSO DA VITORIA|
|   AP|PAULO CUNHA COLET...|
|   SE|GILENO PAO FILHO ...|
|   AM|      DR GEORGE LINS|
|   AP|      ALDILENE SOUZA|
|   BA|MISSIONARIA SIMON...|
|   RJ|KARLA DE LUCAS DO...|
+-----+--------------------+
only showing top 20 rows



In [19]:
df4.sort("SG_UF").show(truncate=False)


+-----+---------------------+
|SG_UF|NM_URNA_CANDIDATO    |
+-----+---------------------+
|AC   |PENINHA MAGALHAES    |
|AC   |ANGELINO DO PANDEIRO |
|AC   |TEREZINHA ARAUJO     |
|AC   |HENRY NOGUEIRA       |
|AC   |JOYCE DOS BURACOS    |
|AC   |ADAL�CIO J�NIOR      |
|AC   |TAMPINHA BITTAR      |
|AC   |GIS ARAUJO           |
|AC   |BEBE BOLSONARO       |
|AC   |PROFESSOR CLEMILTON  |
|AC   |LEONCIO CASTRO       |
|AC   |LUANA ARA�JO         |
|AC   |JAQUELINE MEDEIROS   |
|AC   |SGT CARLOS TANACA    |
|AC   |PEDRO LONGO          |
|AC   |CARLINHOS UYENO      |
|AC   |ROGGER WINS          |
|AC   |MARCUS CAVALCANTE    |
|AC   |PROFESSOR ROG�RIO    |
|AC   |PASTORA CLEI�A FRAN�A|
+-----+---------------------+
only showing top 20 rows



# 11.1 - Ordenando um DataFrame Spark por Várias Colunas

In [20]:
df4.sort("SG_UF","NM_URNA_CANDIDATO").show(truncate=False)


+-----+---------------------+
|SG_UF|NM_URNA_CANDIDATO    |
+-----+---------------------+
|AC   |ADAILTON CRUZ        |
|AC   |ADALBERTO ALMEIDA    |
|AC   |ADAL�CIO J�NIOR      |
|AC   |ADEKSON LIMA         |
|AC   |ADENILSON DUAM       |
|AC   |ADERL�NDIO FRAN�A    |
|AC   |ADEVILSON QUEIROZ    |
|AC   |ADONAY               |
|AC   |ADRIANA ANDRADE      |
|AC   |ADRIANA MAIA         |
|AC   |ADRIANA MELO         |
|AC   |AFONSO CONTADOR      |
|AC   |AFONSO FERNANDES     |
|AC   |ALAN RICK            |
|AC   |ALDA RADINE          |
|AC   |ALDENORA SALES       |
|AC   |ALEXANDRE FERNANDES  |
|AC   |ALEXANDRINA VASQUES  |
|AC   |ALMINERES DO ELDORADO|
|AC   |AMANDA SOUZA         |
+-----+---------------------+
only showing top 20 rows



In [21]:

df4.sort(col("SG_UF"),col("NM_URNA_CANDIDATO")).show(truncate=False)

+-----+---------------------+
|SG_UF|NM_URNA_CANDIDATO    |
+-----+---------------------+
|AC   |ADAILTON CRUZ        |
|AC   |ADALBERTO ALMEIDA    |
|AC   |ADAL�CIO J�NIOR      |
|AC   |ADEKSON LIMA         |
|AC   |ADENILSON DUAM       |
|AC   |ADERL�NDIO FRAN�A    |
|AC   |ADEVILSON QUEIROZ    |
|AC   |ADONAY               |
|AC   |ADRIANA ANDRADE      |
|AC   |ADRIANA MAIA         |
|AC   |ADRIANA MELO         |
|AC   |AFONSO CONTADOR      |
|AC   |AFONSO FERNANDES     |
|AC   |ALAN RICK            |
|AC   |ALDA RADINE          |
|AC   |ALDENORA SALES       |
|AC   |ALEXANDRE FERNANDES  |
|AC   |ALEXANDRINA VASQUES  |
|AC   |ALMINERES DO ELDORADO|
|AC   |AMANDA SOUZA         |
+-----+---------------------+
only showing top 20 rows



# 12 - Agrupando um DataFrame Spark

In [22]:
df4.groupBy("SG_UF").count().show(truncate=False).

SyntaxError: invalid syntax (1439449831.py, line 1)

In [None]:
df5 = spark.sql("""
SELECT SG_UF , NM_URNA_CANDIDATO, SQ_CANDIDATO
FROM TESTE
""")

# 13 - Funções de Agrupamento (Count(), Sum(), Min(), Max() e Mean())

In [None]:
df5.groupBy("SG_UF") \
    .agg(count("SQ_CANDIDATO").alias("count_SQ_CANDIDATO"), \
         sum("SQ_CANDIDATO").alias("sum_SQ_CANDIDATO"), \
         avg("SQ_CANDIDATO").alias("avg_SQ_CANDIDATO"), \
         min("SQ_CANDIDATO").alias("min_SQ_CANDIDATO"), \
         max("SQ_CANDIDATO").alias("max_SQ_CANDIDATO") \
     ) \
    .show(truncate=False)