# Formação Spark com Pyspark: o Curso Completo

## Seção 4: Spark SQL

Curso da Udemy.

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as Func
from pyspark.sql.types import *
import os
import sys
import shutil

os.environ['PYSPARK_PYTHON'] = sys.executable

## Spark SQL

**Tabela**

* Persistente
* Objeto tabular que reside em um banco de dados
* Pode ser gerenciado e consultado utilizando SQL
* Totalmente interoperável com DataFrame
* Ex: Você pode transformar um DataFrame que importamos (parquet, json, orc, csv) em uma tabela
* Gerenciadas: Spark gerencia dados e metadados
    * Armazenadas no warehouse do spark
    * Se excluirmos, tudo é apagado (dados e metadados)
* Não Gerenciadas (External): Spark apenas gerencia metadados
    * Informamos onde a tabela está (arquivo, por exemplo, orc)
    * Se excluirmos, Spark só exclui os metadados, dados permanecem onde estavam

**Views**

* Mesmo conceito de banco de dados relacionais
* São um "alias" para uma tabela (por exemplo, vendas_rs pode mostrar vendas do estado já com filtro aplicado)
* Não contém dados
* Globais: visíveis em todas as sessões
* Sessão: visíveis apenas na própria sessão

## Bancos de Dados e Tabelas

In [2]:
warehouse_location = os.path.abspath('spark-warehouse')

# instanciando SparkSession
spark = SparkSession.builder \
    .appName("Curso Pyspark") \
    .getOrCreate()

In [3]:
# comando SQL para mostrar todos databases
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
+---------+



In [4]:
# criar database
spark.sql("create database desp")
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [5]:
# utilizar database desp para futuros comandos
spark.sql("use desp")

DataFrame[]

In [6]:
spark.sql("show tables").show()

+---------+---------+-----------+
|namespace|tableName|isTemporary|
+---------+---------+-----------+
+---------+---------+-----------+



In [7]:
# especificando schema e lendo csv
arqschema = "id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"
despachantes = spark.read.csv("../data/despachantes.csv", header = False, schema = arqschema)
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [8]:
# salvar dataframe no database
dirpath = "spark-warehouse"
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)
    
despachantes.write.mode('overwrite').saveAsTable('Despachantes')

In [9]:
# verificar se tabela foi carregada
spark.sql('SELECT * FROM despachantes').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [10]:
# salvar tabela em parquet
dirpath = "../data/desparquet"
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)
    
despachantes.write.format('parquet').save(dirpath)

In [11]:
# salvar tabela em parquet
dirpath = os.path.abspath('../data/desparquet_ng')
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)
    
despachantes.write.mode('overwrite').option('path', dirpath).saveAsTable("Despachantes_ng")

In [12]:
spark.sql("select * from despachantes_ng").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [13]:
# tabela gerenciada
spark.sql("show create table Despachantes").show(truncate = False)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                 |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `desp`.`Despachantes` (\n  `id` INT,\n  `nome` STRING,\n  `status` STRING,\n  `cidade` STRING,\n  `vendas` INT,\n  `data` STRING)\nUSING parquet\n|
+---------------------------------------------------------------------------------------------------------------------------------------------------------------+



In [14]:
# tabela externa
spark.sql("show create table Despachantes_ng").show(truncate = False)

+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                                                                                  |
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `desp`.`Despachantes_ng` (\n  `id` INT,\n  `nome` STRING,\n  `status` STRING,\n  `cidade` STRING,\n  `vendas` INT,\n  `data` STRING)\nUSING parquet\nLOCATION 'file:/D:/GitHub/Pyspark-Course/data/desparquet_ng'\n|
+-------------------------------------------------------------------------------------------

In [15]:
# listando tabelas
spark.catalog.listTables()

[Table(name='despachantes', database='desp', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='despachantes_ng', database='desp', description=None, tableType='EXTERNAL', isTemporary=False)]

## Views

In [16]:
# criar view 1
despachantes.createOrReplaceTempView('Despachantes_view1')
spark.sql('select * from Despachantes_view1').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [17]:
# criar view global 2
despachantes.createOrReplaceGlobalTempView('Despachantes_view2')
spark.sql('select * from global_temp.Despachantes_view2').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [20]:
# criar view a partir de comando SQL
spark.sql('CREATE OR REPLACE TEMP VIEW DESP_VIEW AS select * from despachantes')
spark.sql('select * from DESP_VIEW').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [21]:
# criar view global a partir de comando SQL
spark.sql('CREATE OR REPLACE GLOBAL TEMP VIEW DESP_VIEW2 AS select * from despachantes')
spark.sql('select * from global_temp.DESP_VIEW2').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



## Joins

In [23]:
# lendo tabela de reclamacoes
recschema = 'idrec INT, datarec STRING, iddesp INT'
reclamacoes = spark.read.csv('../data/reclamacoes.csv', header = False, schema = recschema)
reclamacoes.show()

+-----+----------+------+
|idrec|   datarec|iddesp|
+-----+----------+------+
|    1|2020-09-12|     2|
|    2|2020-09-11|     2|
|    3|2020-10-05|     4|
|    4|2020-10-02|     5|
|    5|2020-12-06|     5|
|    6|2020-01-09|     5|
|    7|2020-01-05|     9|
+-----+----------+------+



In [24]:
# criar tabela no database
reclamacoes.write.saveAsTable('reclamacoes')

In [28]:
spark.sql('select rec.*, desp.nome from despachantes as desp left join reclamacoes as rec on desp.id = rec.iddesp').show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
| null|      null|  null|   Carminda Pestana|
|    2|2020-09-11|     2|    Deolinda Vilela|
|    1|2020-09-12|     2|    Deolinda Vilela|
| null|      null|  null|   Emídio Dornelles|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    6|2020-01-09|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    4|2020-10-02|     5|     Graça Ornellas|
| null|      null|  null|   Matilde Rebouças|
| null|      null|  null|    Noêmia   Orriça|
| null|      null|  null|      Roque Vásquez|
|    7|2020-01-05|     9|      Uriel Queiroz|
| null|      null|  null|   Viviana Sequeira|
+-----+----------+------+-------------------+



In [31]:
# join com a API do pyspark
despachantes.join(reclamacoes, despachantes.id == reclamacoes.iddesp, how = 'left') \
            .select('idrec', 'datarec', 'iddesp', 'nome').show()

+-----+----------+------+-------------------+
|idrec|   datarec|iddesp|               nome|
+-----+----------+------+-------------------+
| null|      null|  null|   Carminda Pestana|
|    2|2020-09-11|     2|    Deolinda Vilela|
|    1|2020-09-12|     2|    Deolinda Vilela|
| null|      null|  null|   Emídio Dornelles|
|    3|2020-10-05|     4|Felisbela Dornelles|
|    6|2020-01-09|     5|     Graça Ornellas|
|    5|2020-12-06|     5|     Graça Ornellas|
|    4|2020-10-02|     5|     Graça Ornellas|
| null|      null|  null|   Matilde Rebouças|
| null|      null|  null|    Noêmia   Orriça|
| null|      null|  null|      Roque Vásquez|
|    7|2020-01-05|     9|      Uriel Queiroz|
| null|      null|  null|   Viviana Sequeira|
+-----+----------+------+-------------------+



## Faça você mesmo - Dados de Varejo

In [32]:
# ler tabelas de varejo
clientes = spark.read.parquet('../data/Atividades/Clientes.parquet')
itens_vendas = spark.read.parquet('../data/Atividades/ItensVendas.parquet')
produtos = spark.read.parquet('../data/Atividades/Produtos.parquet')
vendas = spark.read.parquet('../data/Atividades/Vendas.parquet')
vendedores = spark.read.parquet('../data/Atividades/Vendedores.parquet')

### 1. Crie um banco de dados no DW do Spark chamado VendasVarejo, e persista todas as tabelas neste banco de dados

In [33]:
# criar database
spark.sql('CREATE DATABASE VendasVarejo')

DataFrame[]

In [None]:
dirpath = "spark-warehouse"
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)

In [34]:
# utilizar database
spark.sql('USE VendasVarejo')

DataFrame[]

In [35]:
# inserir os dados carregados no database
clientes.write.saveAsTable('clientes')
itens_vendas.write.saveAsTable('itens_vendas')
produtos.write.saveAsTable('produtos')
vendas.write.saveAsTable('vendas')
vendedores.write.saveAsTable('vendedores')

In [37]:
# checar tabelas
spark.sql('SHOW TABLES').show()

+------------+------------------+-----------+
|   namespace|         tableName|isTemporary|
+------------+------------------+-----------+
|vendasvarejo|          clientes|      false|
|vendasvarejo|      itens_vendas|      false|
|vendasvarejo|          produtos|      false|
|vendasvarejo|            vendas|      false|
|vendasvarejo|        vendedores|      false|
|            |         desp_view|       true|
|            |despachantes_view1|       true|
+------------+------------------+-----------+



In [56]:
# checar dados em uma tabela
spark.sql('SELECT * FROM itens_vendas').show()

+---------+--------+----------+-------------+----------+--------+----------------+
|ProdutoID|VendasID|Quantidade|ValorUnitario|ValorTotal|Desconto|TotalComDesconto|
+---------+--------+----------+-------------+----------+--------+----------------+
|        2|     400|         2|       9201.0|   18402.0| 6256,68|        12145.32|
|        2|     385|         2|       9201.0|   18402.0| 5704,62|        12697.38|
|        4|     395|         2|       6892.2|   13784.4| 5100,23|         8684.17|
|        4|     367|         2|       6509.3|   13018.6| 4816,88|         8201.72|
|        2|     380|         2|      7038.77|  14077.54| 4364,04|          9713.5|
|        2|     346|         2|       8280.9|   16561.8| 4140,45|        12421.35|
|        2|     339|         2|       8280.9|   16561.8| 3312,36|        13249.44|
|        2|     397|         1|       9201.0|    9201.0| 3312,36|         5888.64|
|        1|     346|         2|       7966.8|   15933.6| 3186,72|        12746.88|
|   

### 2. Crie uma consulta que mostre de cada item vendido: Nome do Cliente, Data da Venda, Produto, Vendedor e Valor Total do item

In [61]:
query = """
SELECT
    c.Cliente
    , v.Data
    , p.Produto
    , vd.Vendedor
    , iv.ValorTotal
FROM itens_vendas AS iv
INNER JOIN vendas AS v
    ON iv.VendasID = v.VendasID
INNER JOIN produtos AS p
    ON iv.ProdutoID = p.ProdutoID
INNER JOIN clientes AS c
    ON v.ClienteID = c.ClienteID
INNER JOIN vendedores AS vd
    ON v.VendedorID = vd.VendedorID
"""
spark.sql(query).show()

+-----------------+--------+--------------------+----------------+----------+
|          Cliente|    Data|             Produto|        Vendedor|ValorTotal|
+-----------------+--------+--------------------+----------------+----------+
|   Cosme Zambujal|1/1/2019|Bicicleta Altools...|    Armando Lago|   7820.85|
|   Cosme Zambujal|1/1/2019|Bermuda Predactor...|    Armando Lago|     97.75|
|   Cosme Zambujal|1/1/2019|Camiseta Predacto...|    Armando Lago|     135.0|
|Gertrudes Hidalgo|1/1/2020|Luva De Ciclismo ...|   Iberê Lacerda|     150.4|
| Antão Corte-Real|2/1/2020|Capacete Gometws ...|Jéssica Castelão|     155.0|
| Antão Corte-Real|2/1/2020|Bicicleta Gometws...|Jéssica Castelão|    5932.0|
| Antão Corte-Real|2/1/2019|Bicicleta Altools...|  Hélio Liberato|   7820.85|
| Antão Corte-Real|2/1/2019|Bermuda Predactor...|  Hélio Liberato|     97.75|
| Antão Corte-Real|2/1/2019|Bicicleta Gometws...|  Hélio Liberato|    5910.0|
| Antão Corte-Real|3/1/2018|Bicicleta Gometws...|  Hélio Liberat