# Formação Spark com Pyspark: o Curso Completo

## Seção 4: Spark SQL

Curso da Udemy.

In [1]:
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
from pyspark.sql import functions as Func
from pyspark.sql.types import *
import os
import sys
import shutil

os.environ['PYSPARK_PYTHON'] = sys.executable

## Spark SQL

**Tabela**

* Persistente
* Objeto tabular que reside em um banco de dados
* Pode ser gerenciado e consultado utilizando SQL
* Totalmente interoperável com DataFrame
* Ex: Você pode transformar um DataFrame que importamos (parquet, json, orc, csv) em uma tabela
* Gerenciadas: Spark gerencia dados e metadados
    * Armazenadas no warehouse do spark
    * Se excluirmos, tudo é apagado (dados e metadados)
* Não Gerenciadas (External): Spark apenas gerencia metadados
    * Informamos onde a tabela está (arquivo, por exemplo, orc)
    * Se excluirmos, Spark só exclui os metadados, dados permanecem onde estavam

**Views**

* Mesmo conceito de banco de dados relacionais
* São um "alias" para uma tabela (por exemplo, vendas_rs pode mostrar vendas do estado já com filtro aplicado)
* Não contém dados
* Globais: visíveis em todas as sessões
* Sessão: visíveis apenas na própria sessão

## Bancos de Dados e Tabelas

In [2]:
warehouse_location = os.path.abspath('spark-warehouse')

# instanciando SparkSession
spark = SparkSession.builder \
    .appName("Curso Pyspark") \
    .getOrCreate()

In [17]:
# comando SQL para mostrar todos databases
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [4]:
# criar database
spark.sql("create database desp")
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [5]:
# utilizar database desp para futuros comandos
spark.sql("use desp")

DataFrame[]

In [18]:
spark.sql("show tables").show()

+---------+---------------+-----------+
|namespace|      tableName|isTemporary|
+---------+---------------+-----------+
|     desp|   despachantes|      false|
|     desp|despachantes_ng|      false|
+---------+---------------+-----------+



In [6]:
# especificando schema e lendo csv
arqschema = "id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"
despachantes = spark.read.csv("../data/despachantes.csv", header = False, schema = arqschema)
despachantes.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [7]:
# salvar dataframe no database
dirpath = "spark-warehouse"
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)
    
despachantes.write.mode('overwrite').saveAsTable('Despachantes')

In [8]:
# verificar se tabela foi carregada
spark.sql('SELECT * FROM despachantes').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [9]:
# salvar tabela em parquet
dirpath = "../data/desparquet"
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)
    
despachantes.write.format('parquet').save(dirpath)

In [40]:
# salvar tabela em parquet
dirpath = os.path.abspath('../data/desparquet_ng')
if os.path.exists(dirpath) and os.path.isdir(dirpath):
    shutil.rmtree(dirpath)
    
despachantes.write.mode('overwrite').option('path', dirpath).saveAsTable("Despachantes_ng")

In [41]:
spark.sql("select * from despachantes_ng").show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [42]:
# tabela gerenciada
spark.sql("show create table Despachantes").show(truncate = False)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                 |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `desp`.`Despachantes` (\n  `id` INT,\n  `nome` STRING,\n  `status` STRING,\n  `cidade` STRING,\n  `vendas` INT,\n  `data` STRING)\nUSING parquet\n|
+---------------------------------------------------------------------------------------------------------------------------------------------------------------+



In [43]:
# tabela externa
spark.sql("show create table Despachantes_ng").show(truncate = False)

+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                                                                                  |
+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `desp`.`Despachantes_ng` (\n  `id` INT,\n  `nome` STRING,\n  `status` STRING,\n  `cidade` STRING,\n  `vendas` INT,\n  `data` STRING)\nUSING parquet\nLOCATION 'file:/D:/GitHub/Pyspark-Course/data/desparquet_ng'\n|
+-------------------------------------------------------------------------------------------

In [44]:
# listando tabelas
spark.catalog.listTables()

[Table(name='despachantes', database='desp', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='despachantes_ng', database='desp', description=None, tableType='EXTERNAL', isTemporary=False)]

## Views