In [30]:
# Carregando libs e iniciando Session
from pyspark.sql import SparkSession, functions as func
from pyspark.sql.types import *

spark = SparkSession.builder.getOrCreate()

In [3]:
# Mostrando Bases de dados
spark.sql("show databases").show()

+---------+
|namespace|
+---------+
|  default|
+---------+



In [4]:
# Criando Bases de dados
spark.sql("create database vend")

DataFrame[]

In [5]:
# Ativando Bases de dados
spark.sql("use vend")

DataFrame[]

In [6]:
# Importando dados (Dataframe) com definicao de schema
schema = " Id INT, nome STRING, status STRING, cidade STRING, vendas INT, data STRING"
vend = spark.read.csv('../arquivos/despachantes.csv', header=False,schema=schema)

In [7]:
# Salvando Dataframe como tabela
vend.write.saveAsTable('Vendedores')

                                                                                

In [8]:
# Mostrando Tabelas da Base de dados
spark.sql("show tables").show()

+---------+----------+-----------+
|namespace| tableName|isTemporary|
+---------+----------+-----------+
|     vend|vendedores|      false|
+---------+----------+-----------+



In [9]:
# Select da tabela (Nao 'e mais o Dataframe carregado, mas a tabela criada)
spark.sql("select * from vendedores").show()

+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [10]:
# Salvando Dataframe como tabela (sobrescrito)
vend.write.mode('overwrite').saveAsTable('Vendedores')

Ainda que a sessao termine e o dataframe seja carregado, a tabela persistira.

In [11]:
# Salvando Dataframe como tabela (NAO GERENCIADA)
vend.write.mode('overwrite').option('path', '../SparkSQL/spark-warehouse/vend.db/ext').saveAsTable('Vendedores_ng')

In [12]:
# Metadados da tabela gerenciada
spark.sql("show create table vendedores").show(truncate=False)

+---------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                               |
+---------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE vend.vendedores (\n  Id INT,\n  nome STRING,\n  status STRING,\n  cidade STRING,\n  vendas INT,\n  data STRING)\nUSING parquet\n|
+---------------------------------------------------------------------------------------------------------------------------------------------+



In [13]:
# Metadados da tabela externa
spark.sql("show create table vendedores_ng").show(truncate=False)

+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|createtab_stmt                                                                                                                                                                                                                                                               |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|CREATE TABLE vend.vendedores_ng (\n  Id INT,\n  nome STRING,\n  status STRING,\n  cidade STRING,\n  vendas INT,\n  data STRING)\nUSING parquet\nLOCATION 'file:/home/vboxuser/Desktop/G

In [15]:
# Listando tabelas
spark.catalog.listTables()

[Table(name='vendedores', database='vend', description=None, tableType='MANAGED', isTemporary=False),
 Table(name='vendedores_ng', database='vend', description=None, tableType='EXTERNAL', isTemporary=False)]

In [16]:
# Criando View Temporaria
vend.createOrReplaceTempView('vend_view1')

In [17]:
# Select da view
spark.sql("select * from vend_view1").show()

+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [18]:
# Criando View Temporaria
vend.createOrReplaceGlobalTempView('vend_view2')

In [19]:
# Select da view (Adicao do global_temp)
spark.sql("select * from global_temp.vend_view2").show()

+---+-------------------+------+-------------+------+----------+
| Id|               nome|status|       cidade|vendas|      data|
+---+-------------------+------+-------------+------+----------+
|  1|   Carminda Pestana| Ativo|  Santa Maria|    23|2020-08-11|
|  2|    Deolinda Vilela| Ativo|Novo Hamburgo|    34|2020-03-05|
|  3|   Emídio Dornelles| Ativo| Porto Alegre|    34|2020-02-05|
|  4|Felisbela Dornelles| Ativo| Porto Alegre|    36|2020-02-05|
|  5|     Graça Ornellas| Ativo| Porto Alegre|    12|2020-02-05|
|  6|   Matilde Rebouças| Ativo| Porto Alegre|    22|2019-01-05|
|  7|    Noêmia   Orriça| Ativo|  Santa Maria|    45|2019-10-05|
|  8|      Roque Vásquez| Ativo| Porto Alegre|    65|2020-03-05|
|  9|      Uriel Queiroz| Ativo| Porto Alegre|    54|2018-05-05|
| 10|   Viviana Sequeira| Ativo| Porto Alegre|     0|2020-09-05|
+---+-------------------+------+-------------+------+----------+



In [26]:
# Criacao de views com SQL
spark.sql('create or replace temp view vend_view3 as select sum(vendas), cidade from vendedores group by cidade')

DataFrame[]

In [28]:
# Select da view 
spark.sql("select * from vend_view3").show()

+-----------+-------------+
|sum(vendas)|       cidade|
+-----------+-------------+
|         68|  Santa Maria|
|         34|Novo Hamburgo|
|        223| Porto Alegre|
+-----------+-------------+

