## Spark SQL e Arquivos JSON

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql import Row

In [2]:
spSession = SparkSession.builder.master("local").appName("DSA-SparkSQL").config("spark.some.config.option", "some-value").getOrCreate()
sqlContext = SQLContext(sc)

In [3]:
# Importando o arquivo JSON
funcDF = spSession.read.json("data/funcionarios.json")

In [4]:
funcDF.show()

+------+-----+----------------+-------+----+
|deptid|idade|            nome|salario|sexo|
+------+-----+----------------+-------+----+
|  1000|   42|   Josias Rebelo|   7000|   m|
|  2000|   50|Mauricio Gonheim|   9500|   m|
|  1000|   36| Bruno Velasquez|   6700|   m|
|  1000|   41|  Ananda Tavares|   9300|   f|
|  2000|   34|     Carlos Maia|   5500|   m|
+------+-----+----------------+-------+----+



In [5]:
funcDF.printSchema()

root
 |-- deptid: string (nullable = true)
 |-- idade: string (nullable = true)
 |-- nome: string (nullable = true)
 |-- salario: string (nullable = true)
 |-- sexo: string (nullable = true)



In [6]:
type(funcDF)

pyspark.sql.dataframe.DataFrame

In [7]:
# Operações com DataFrame Spark SQL - select()
funcDF.select("nome").show()

+----------------+
|            nome|
+----------------+
|   Josias Rebelo|
|Mauricio Gonheim|
| Bruno Velasquez|
|  Ananda Tavares|
|     Carlos Maia|
+----------------+



In [8]:
# Operações com DataFrame Spark SQL - filter()
funcDF.filter(funcDF["idade"] == 50).show()

+------+-----+----------------+-------+----+
|deptid|idade|            nome|salario|sexo|
+------+-----+----------------+-------+----+
|  2000|   50|Mauricio Gonheim|   9500|   m|
+------+-----+----------------+-------+----+



In [9]:
# Operações com DataFrame Spark SQL - groupBy()
funcDF.groupBy("sexo").count().show()

+----+-----+
|sexo|count|
+----+-----+
|   m|    4|
|   f|    1|
+----+-----+



In [10]:
# Operações com DataFrame Spark SQL - groupBy()
funcDF.groupBy("deptid").agg({"salario": "avg", "idade": "max"}).show()

+------+----------+-----------------+
|deptid|max(idade)|     avg(salario)|
+------+----------+-----------------+
|  2000|        50|           7500.0|
|  1000|        42|7666.666666666667|
+------+----------+-----------------+



In [11]:
# Registrando o dataframe como uma temp table
funcDF.registerTempTable("funcTB")

In [12]:
# Executando queries SQL ANSI
spSession.sql("select deptid, max(idade), avg(salario)from funcTB group by deptid").show()

+------+----------+----------------------------+
|deptid|max(idade)|avg(CAST(salario AS DOUBLE))|
+------+----------+----------------------------+
|  2000|        50|                      7500.0|
|  1000|        42|           7666.666666666667|
+------+----------+----------------------------+

