# Spark SQL

https://spark.apache.org/docs/latest/sql-programming-guide.html

https://spark.apache.org/docs/latest/api/python/index.html

In [1]:
#import findspark
#findspark.init()
from IPython.display import Image

import pyspark
from pyspark.sql import SparkSession

#importando as classes que possuem as funcoes do Spark que vamos utilizar nessa aula
from pyspark.sql.functions import *

spark = SparkSession.builder.getOrCreate()

In [2]:
df = spark.read.parquet("titanic.parquet")

In [3]:
df.show(3)

+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| null|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| null|       S|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
only showing top 3 rows



In [4]:
df.registerTempTable("TBtitanic")

In [6]:
spark.sql("Select Name from TBtitanic").show(5,False)

+---------------------------------------------------+
|Name                                               |
+---------------------------------------------------+
|Braund, Mr. Owen Harris                            |
|Cumings, Mrs. John Bradley (Florence Briggs Thayer)|
|Heikkinen, Miss. Laina                             |
|Futrelle, Mrs. Jacques Heath (Lily May Peel)       |
|Allen, Mr. William Henry                           |
+---------------------------------------------------+
only showing top 5 rows



In [7]:
spark.sql("Select * from TBtitanic").show(5)

+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|PassengerId|Survived|Pclass|                Name|   Sex| Age|SibSp|Parch|          Ticket|   Fare|Cabin|Embarked|
+-----------+--------+------+--------------------+------+----+-----+-----+----------------+-------+-----+--------+
|          1|       0|     3|Braund, Mr. Owen ...|  male|22.0|    1|    0|       A/5 21171|   7.25| null|       S|
|          2|       1|     1|Cumings, Mrs. Joh...|female|38.0|    1|    0|        PC 17599|71.2833|  C85|       C|
|          3|       1|     3|Heikkinen, Miss. ...|female|26.0|    0|    0|STON/O2. 3101282|  7.925| null|       S|
|          4|       1|     1|Futrelle, Mrs. Ja...|female|35.0|    1|    0|          113803|   53.1| C123|       S|
|          5|       0|     3|Allen, Mr. Willia...|  male|35.0|    0|    0|          373450|   8.05| null|       S|
+-----------+--------+------+--------------------+------+----+-----+-----+------

## Manipulando um Dataframe com Spark SQL

In [8]:
# .selectExpr()
# df.selectExpr("Name as NovaColunaName", "Name").show(2, truncate=False)
spark.sql("Select Name as NovaColunaName, Name from TBtitanic limit 5").show(truncate=False)

+---------------------------------------------------+---------------------------------------------------+
|NovaColunaName                                     |Name                                               |
+---------------------------------------------------+---------------------------------------------------+
|Braund, Mr. Owen Harris                            |Braund, Mr. Owen Harris                            |
|Cumings, Mrs. John Bradley (Florence Briggs Thayer)|Cumings, Mrs. John Bradley (Florence Briggs Thayer)|
|Heikkinen, Miss. Laina                             |Heikkinen, Miss. Laina                             |
|Futrelle, Mrs. Jacques Heath (Lily May Peel)       |Futrelle, Mrs. Jacques Heath (Lily May Peel)       |
|Allen, Mr. William Henry                           |Allen, Mr. William Henry                           |
+---------------------------------------------------+---------------------------------------------------+



## Exercicio:

Em Spark SQL:

1. Carregar o parquet tabelaEstado.parquet e criar nova coluna com a CAPITAL em maiusculo
2. Carregar o parquet titanic.parquet e contar quantas pessoas sobreviveram

In [9]:
df = spark.read.parquet("tabelaEstado.parquet")

In [10]:
df.registerTempTable("TBestado")

In [11]:
spark.sql("Select * from TBestado").show(5)

+--------+-----+------------+
|  ESTADO|SIGLA|     CAPITAL|
+--------+-----+------------+
|    Acre|   AC|"Rio Branco"|
| Alagoas|   AL|      Maceio|
|   Amapa|   AP|      Macapa|
|Amazonas|   AM|      Manaus|
|   Bahia|   BA|    Salvador|
+--------+-----+------------+
only showing top 5 rows



In [16]:
spark.sql("Select UPPER(CAPITAL) as CAPITAL_MAIUSCULA from TBestado").show(10)

+-----------------+
|CAPITAL_MAIUSCULA|
+-----------------+
|     "RIO BRANCO"|
|           MACEIO|
|           MACAPA|
|           MANAUS|
|         SALVADOR|
|        FORTALEZA|
|         BRASILIA|
|          VITORIA|
|          GOIANIA|
|       "SAO LUIS"|
+-----------------+
only showing top 10 rows



Exercicio 2

In [19]:
df = spark.read.parquet("titanic.parquet")

In [20]:
df.registerTempTable("TBtitanic")

In [25]:
spark.sql("Select count(*) as Sobreviventes from TBtitanic where Survived = 1").show()

+-------------+
|Sobreviventes|
+-------------+
|          342|
+-------------+



---------------------------------------------------------------------------------------

In [27]:
# .lit()
# df.select(col("Name"),lit("Criando um literal")).show(2,False)
spark.sql("Select Name, 'Criando um literal' as Nemesis from TBtitanic limit 5").show(truncate=False)

+---------------------------------------------------+------------------+
|Name                                               |Nemesis           |
+---------------------------------------------------+------------------+
|Braund, Mr. Owen Harris                            |Criando um literal|
|Cumings, Mrs. John Bradley (Florence Briggs Thayer)|Criando um literal|
|Heikkinen, Miss. Laina                             |Criando um literal|
|Futrelle, Mrs. Jacques Heath (Lily May Peel)       |Criando um literal|
|Allen, Mr. William Henry                           |Criando um literal|
+---------------------------------------------------+------------------+



In [28]:
spark.sql("Select Age from TBtitanic limit 20").show(truncate=False)

+----+
|Age |
+----+
|22.0|
|38.0|
|26.0|
|35.0|
|35.0|
|null|
|54.0|
|2.0 |
|27.0|
|14.0|
|4.0 |
|58.0|
|20.0|
|39.0|
|14.0|
|55.0|
|2.0 |
|null|
|31.0|
|null|
+----+



In [None]:
# .withColumn()
# df.withColumn("NovaColuna", expr("CASE WHEN (age > 20) THEN 'Maior' ELSE 'Menor' END"))\
#  .select(col("NovaColuna"),col("Age")).show(10,False)
spark.sql("Select CASE WHEN (age > 20) THEN 'Maior' ELSE 'Menor' END as NovaColuna, Cast(Age as Int) "\
          "from TBtitanic limit 10")\
            .filter(col("Age") != 0).orderBy(col("Age"))\
            .show(truncate=False)

## Exercicio:

Em Spark SQL:

1. 
        Carregar o parquet titanic.parquet, filtrar as pessoas que são maiores de 18 anos,
        Criar nova coluna com o seguinte texto "Pessoas maiores de idade",
        Trazer somente 50 linhas

In [29]:
df = spark.read.parquet("titanic.parquet")

In [None]:
df.registerTempTable("TBtitanic")

In [43]:
spark.sql("Select Age, 'Pessoas maiores de 18 anos' as texto from TBtitanic where Age > 18 limit 50").show(truncate=False)

+----+--------------------------+
|Age |texto                     |
+----+--------------------------+
|22.0|Pessoas maiores de 18 anos|
|38.0|Pessoas maiores de 18 anos|
|26.0|Pessoas maiores de 18 anos|
|35.0|Pessoas maiores de 18 anos|
|35.0|Pessoas maiores de 18 anos|
|54.0|Pessoas maiores de 18 anos|
|27.0|Pessoas maiores de 18 anos|
|58.0|Pessoas maiores de 18 anos|
|20.0|Pessoas maiores de 18 anos|
|39.0|Pessoas maiores de 18 anos|
|55.0|Pessoas maiores de 18 anos|
|31.0|Pessoas maiores de 18 anos|
|35.0|Pessoas maiores de 18 anos|
|34.0|Pessoas maiores de 18 anos|
|28.0|Pessoas maiores de 18 anos|
|38.0|Pessoas maiores de 18 anos|
|19.0|Pessoas maiores de 18 anos|
|40.0|Pessoas maiores de 18 anos|
|66.0|Pessoas maiores de 18 anos|
|28.0|Pessoas maiores de 18 anos|
+----+--------------------------+
only showing top 20 rows



------

O Spark SQL pode ser construído com ou sem o Apache Hive, o mecanismo SQL do Hadoop. O suporte ao Spark SQL com Hive nos permite acessar tabelas Hive e a linguagem de consulta Hive (HiveQL). É importante observar que incluir as bibliotecas Hive não requer uma instalação. Em geral, é melhor criar o Spark SQL com suporte ao Hive para acessar esses recursos. 

Se você baixar o Spark em formato binário, ele já deverá ser compilado com o suporte do Hive.

In [None]:
# Exemplo uso para buscar dados do HIVE na versão 1.6:
#hc = HiveContext(sc)

#hc.table("database.tabela")
#    .select(col("AAA").alias("NOME_COLUNA"))

#2.x
#spark.table("database.tabela").select(col("AAA").alias("NOME_COLUNA"))