<a href="https://colab.research.google.com/github/cruz-marco/pyspark_course/blob/main/pyspark_SparkSQL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
#@title
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://dlcdn.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz
!tar xf spark-3.2.3-bin-hadoop3.2.tgz

import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64" 
os.environ["SPARK_HOME"] = '/content/spark-3.2.3-bin-hadoop3.2'

!pip install -q findspark

import findspark
findspark.init()
findspark.find()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc = spark.sparkContext

# Spark SQL

- O Spark permite també utilizar tabelas dentro de banco de dados um ambiente que se assemelha ao de um banco de dados relacional comum (Postgres, MySQL)

- As tabelas são exatamente iguais em estrutura e funcionalidades aos bancos de dado SQL. Diferindo dos DataFrames, as tabelas são objetos que persistem depois que a sessão do Spark é finalizada.

- Tabelas e DataFrames são totalmente interoperáveis no ambiente Spark, logo, podemos fazer o cast de um tipo de estrutura para outro sem muito problema.

- Apesar de sermos completamente livres para fazer consultas e gerenciamento de bancos de dados e tabelas pelo spark, o retorno no framework do PySpark é sempre em um objeto DataFrame, o que não significa que a tabela seja mutável, mas que a saída daquela consulta usa o tipo de dado DataFrame.

## 1. Tipos de Tabelas:
> **Gerenciadas (Managed)**: Spark gerendia os dados e os metadados deta tabela. Se apagarmos esta tabela, ela desaparece por completo (dados e metadados desaparecem). Ficam armazenadas no Warehouse do Spark.

> **Não Gerenciadas (External)**: É uma tabelo onde apenas os metadados são gerenciados pelo Spark e os dados em si estão localizados um um ludar diferente do Spark Warehouse.

## 2. Views:
As views são apelidos que podemos dar a uma tabela que é criada a partir de uma consulta. Usando joins ou criando novas colunas com os dados, por exemplo. O uso de views facilita o trabalho quando precisamos executar uma consulta mais complexa e que necessita de um aninhamento de selects, por exemplo.
### Podem ser de dois tipos:
> **Globais**: Visíveis em todas as sessões.

> **Sessão**: Visíveis apenas na sessão atual, sendo destruídas quando a mesma é encerrada.




### Criando o dataframe despachantes para ser usado nos exemplos a seguir.

In [None]:
from pyspark.sql.types import *

arqschema = "id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"

despachantes = spark.read.csv("/content/drive/MyDrive/Datasets/pyspark_course/despachantes.csv", 
                              header=False, schema=arqschema)

### Mostrando e criando os bancos de dados.

In [None]:
spark.sql('show databases').show()

+---------+
|namespace|
+---------+
|  default|
+---------+



In [None]:
spark.sql('create database desp').show() # Criando o banco de dados DESP

++
||
++
++



In [None]:
spark.sql('show databases').show()

+---------+
|namespace|
+---------+
|  default|
|     desp|
+---------+



In [None]:
spark.sql('use desp') # Selecionando o banco de dados DESP para ser usado.

DataFrame[]

- Com o banco de dados criado e selecionado, podemos escrever o DataFrame *despachantes* completo como uma tabela dentro do banco de dados DESP com apenas umalinha de código.

In [None]:
despachantes.write.saveAsTable("Despachantes") 

### Mostrando a recém criada **TABELA** Despachantes usando um select clássico SQL.

In [None]:
spark.sql('select * from Despachantes').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



### Mostrando as tabelas contidas no banco de dados Desp

In [None]:
spark.sql('show tables').show()

+---------+------------+-----------+
|namespace|   tableName|isTemporary|
+---------+------------+-----------+
|     desp|despachantes|      false|
+---------+------------+-----------+



### Inserindo o método "*.mode()*" podemos modificar o modo de escrita da tabela. Por exemplo, usando OVERWRITE para sobrescrever ou APPEND para adicionar mais linhas mantendo as que já estão persistidas na tabela..

In [None]:
despachantes.write.mode('overwrite').saveAsTable("Despachantes")

In [None]:
despachantes_tb = spark.sql('select * from Despachantes')
despachantes_tb.show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



## Tipos de Tabelas

- Salvando um DataFrame como arquivo parquet

In [None]:
despachantes_tb.write.format("parquet").save("/content/pyspark_course/dfpqt01")

- Salvando o DataFrame como tabela na pasta descrita no método option() como não gerenciado ou EXTERNAL

In [None]:
#spark.sql.legacy.allowNonEmptyLocationInCTAS = True
despachantes_tb.write.option('path', '/content/pyspark_course/dfpqt02').saveAsTable('Despachantes_ng')

In [None]:
spark.sql('select * from Despachantes_ng').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



> Despachantes é uma tabela gerenciada pois foi estruturada e populada devidamente dentro do banco de dados do Spark, logo, ele gerencia todo o conteúdo de dados e metadados da tabela.

In [None]:
spark.sql('show create table Despachantes').show(truncate=False)

+---------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                 |
+---------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `desp`.`Despachantes` (\n  `id` INT,\n  `nome` STRING,\n  `status` STRING,\n  `cidade` STRING,\n  `vendas` INT,\n  `data` STRING)\nUSING parquet\n|
+---------------------------------------------------------------------------------------------------------------------------------------------------------------+



> Já no caso de Despachantes_ng foi assossiada ao banco de dados DESP, entretanto foi salva num arquivo parquet fora da pasta de gerenciamento automático warehouse do spark (pasta "spark-warehouse"), logo, o spark tem controle apenas sobre os metadados da tabela e não sobre seus dados em si. Caso a tabela seja apagada, os dados persistirão no arquito parquet salvo em disco.

In [None]:
spark.sql('show create table Despachantes_ng').show(truncate=False)

+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                                                                     |
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE `desp`.`Despachantes_ng` (\n  `id` INT,\n  `nome` STRING,\n  `status` STRING,\n  `cidade` STRING,\n  `vendas` INT,\n  `data` STRING)\nUSING parquet\nLOCATION 'file:/content/pyspark_course/dfpqt02'\n|
+-----------------------------------------------------------------------------------------------------------------------------------------------

> Comando que explicita as tabelas e seus respectivos tipos.

In [None]:
spark.catalog.listTables()

[Table(name='despachantes', database='desp', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='despachantes_ng', database='desp', description=None, tableType='EXTERNAL', isTemporary=False)]

### Criando Views temporárias e Globais

- As Views podem ser criadas a partir da API dos DataFrames ou usando os comandos SQL diretamente como um parâmetro do método *spark.sql()*

> Criando uma View temporária

In [18]:
despachantes.createOrReplaceTempView('Despachantes_V1') 

spark.sql('select * from Despachantes_v1').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



> Criando uma View Global

In [27]:
despachantes.createOrReplaceGlobalTempView('desp_v2')

spark.sql('select * from global_temp.desp_v2').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



> Criando uma View temporária usando diretamente o comando SQL

In [32]:
spark.sql('CREATE OR REPLACE TEMP VIEW DESP_VIEW AS select * from despachantes')

spark.sql('select * from desp_view').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



>  Criando uma View global usando diretamente o comando SQL

In [31]:
spark.sql('CREATE OR REPLACE GLOBAL TEMP VIEW DESP_VIEW2 AS select * from despachantes')

spark.sql('select * from global_temp.desp_view2').show()

+---+-------------------+------+-------------+------+----------+
| id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



### Criando tabelas usando joins com SQL e API DataFrame

> Criando um DataFrame de reclamações.

In [33]:
recschema = 'idrec INT, data TIMESTAMP, iddesp INT'
reclamacoes = spark.read.load(('/content/drive/MyDrive/Datasets/pyspark_course/r'
              'eclamacoes.csv'), format='csv', schema=recschema)

In [34]:
reclamacoes.show()

+-----+-------------------+------+
|idrec|               data|iddesp|
+-----+-------------------+------+
|    1|2020-09-12 00:00:00|     2|
|    2|2020-09-11 00:00:00|     2|
|    3|2020-10-05 00:00:00|     4|
|    4|2020-10-02 00:00:00|     5|
|    5|2020-12-06 00:00:00|     5|
|    6|2020-01-09 00:00:00|     5|
|    7|2020-01-05 00:00:00|     9|
+-----+-------------------+------+



> Salvando este DataFrame como uma tabela no banco de dados DESP

In [35]:
reclamacoes.write.saveAsTable('reclamacoes')

In [36]:
spark.sql('show tables').show()

+---------+---------------+-----------+
|namespace|      tableName|isTemporary|
+---------+---------------+-----------+
|     desp|   despachantes|      false|
|     desp|despachantes_ng|      false|
|     desp|    reclamacoes|      false|
|         |      desp_view|       true|
|         |despachantes_v1|       true|
+---------+---------------+-----------+



> Criando um Left Join em SQL

In [44]:
spark.sql(('select despachantes.nome, reclamacoes.data, reclamacoes.idrec from'
' despachantes left join reclamacoes on despachantes.id = reclamacoes.iddesp'
' order by reclamacoes.idrec desc'))\
.show()

+-------------------+-------------------+-----+
|               nome|               data|idrec|
+-------------------+-------------------+-----+
|      Uriel Queiroz|2020-01-05 00:00:00|    7|
|     Graça Ornellas|2020-01-09 00:00:00|    6|
|     Graça Ornellas|2020-12-06 00:00:00|    5|
|     Graça Ornellas|2020-10-02 00:00:00|    4|
|Felisbela Dornelles|2020-10-05 00:00:00|    3|
|    Deolinda Vilela|2020-09-11 00:00:00|    2|
|    Deolinda Vilela|2020-09-12 00:00:00|    1|
|   Carminda Pestana|               null| null|
|   Emídio Dornelles|               null| null|
|      Roque Vásquez|               null| null|
|   Matilde Rebouças|               null| null|
|   Viviana Sequeira|               null| null|
|    Noêmia   Orriça|               null| null|
+-------------------+-------------------+-----+



> Criando um Inner Join no SQL e analizando qual despachante tem mais reclamações, usando o Group By.

In [47]:
spark.sql(('select despachantes.nome,  count(reclamacoes.idrec) as n_recs from'
' despachantes inner join reclamacoes on despachantes.id = reclamacoes.iddesp'
' group by despachantes.nome order by n_recs desc'))\
.show()

+-------------------+------+
|               nome|n_recs|
+-------------------+------+
|     Graça Ornellas|     3|
|    Deolinda Vilela|     2|
|Felisbela Dornelles|     1|
|      Uriel Queiroz|     1|
+-------------------+------+



#### Fazendo o mesmo processo usando a API DataFrame

Importando o módulo functions.

In [50]:
from pyspark.sql import functions as f

> Fazendo um Inner Join com o DataFrame despachantes

In [49]:
reclamacoes.join(despachantes, reclamacoes.iddesp == despachantes.id, 'inner')\
.select('idrec', reclamacoes.data, despachantes.nome)\
.show()

+-----+-------------------+-------------------+
|idrec|               data|               nome|
+-----+-------------------+-------------------+
|    2|2020-09-11 00:00:00|    Deolinda Vilela|
|    1|2020-09-12 00:00:00|    Deolinda Vilela|
|    3|2020-10-05 00:00:00|Felisbela Dornelles|
|    6|2020-01-09 00:00:00|     Graça Ornellas|
|    5|2020-12-06 00:00:00|     Graça Ornellas|
|    4|2020-10-02 00:00:00|     Graça Ornellas|
|    7|2020-01-05 00:00:00|      Uriel Queiroz|
+-----+-------------------+-------------------+



> Agrupando por nome para descobrir qual despachante tem mais reclamações

In [54]:
reclamacoes.join(despachantes, reclamacoes.iddesp == despachantes.id, 'inner')\
.select('idrec', reclamacoes.data, despachantes.nome)\
.groupBy('nome').agg(f.count('idrec').alias('N rec'))\
.orderBy(f.col('N rec').desc())\
.show()

+-------------------+-----+
|               nome|N rec|
+-------------------+-----+
|     Graça Ornellas|    3|
|    Deolinda Vilela|    2|
|Felisbela Dornelles|    1|
|      Uriel Queiroz|    1|
+-------------------+-----+

