![RDD key pair](media/15.spark_sql.jpg)

# 08 - Spark SQL

-   Interfaz para trabajar con datos estructurados y semiestructurados


-   Capacidades principales
    -   Lee datos de una gran variedad de fuentes: RDDs, ficheros JSON, Hive, HDFS, Parquet…
    -   Permite consultas SQL, tanto desde programas Spark como externas usando conectores estándar (JDBC/ODBC)
    -   Integra SQL y código Spark normal **(en Python/Java/Scala)**


-   Contexto SQLContext: punto de entrada (equivalente al SparkContext)

In [1]:
!pip install pyspark

[33mYou are using pip version 9.0.1, however version 18.0 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


In [11]:
# Create apache spark context
from pyspark import SparkContext
sc = SparkContext(master="local", appName="Mi app")

In [10]:
# Stop apache spark context
sc.stop()

# Elemento básico: DataFrames

-   Colección distribuida de datos organizada en columnas con nombre
    - Conceptualmente equivalente a una tabla en una BD o a un dataframe en R o Python Pandas
    - Al igual que los RDDs son inmutables y lazy
    - Desarrollados dentro de Spark SQL
        - Permite acceder a los datos mediante consultas SQL
        - Sustitutos de los RDDs en general


-   `DataSet`: nuevo tipo de datos añadido en Spark 1.6
    -   Intenta proporcionar los beneficios de los RDDs con las optimizaciones que proporciona el motor de ejecución [Tungsten](https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html "Project Tungsten: Bringing Apache Spark Closer to Bare Metal") de Spark SQL.
    -   Sólo disponible en Scala y Java
    -   En [Java](http://spark.apache.org/docs/latest/api/java/index.html "Interface Row") y [Scala](http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Row "trait Row extends Serializable"), un DataFrame es un DataSet de objetos de tipo Row

## Mejora de rendimiento

- Spark SQL con DataFrames y DataSets se aprovecha del uso de datos con estructura para optimizar el rendimiento utilizando el optimizador de consultas [Catalyst](https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html "Deep Dive into Spark SQL’s Catalyst Optimizer")  y el motor de ejecución [Tungsten](https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html "Project Tungsten: Bringing Apache Spark Closer to Bare Metal").

![Mejora de rendimiento](media/14.performance.png)

Fuente: [Recent performance improvements in Apache Spark: SQL, Python, DataFrames, and More](https://databricks.com/blog/2015/04/24/recent-performance-improvements-in-apache-spark-sql-python-dataframes-and-more.html "Recent performance improvements in Apache Spark: SQL, Python, DataFrames, and More")

## Creación de DataFrames
Varias formas:

- A partir de un RDD de listas/tuplas
- A partir de un RDD de objetos Row
- A partir de ficheros JSON
- A partir de otros almacenamientos (Parquet, Hive,...)

In [13]:
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)

# A partir de ficheros json
dfJson = sqlContext.read.json("data/gente.json")

dfJson.show()

+----+-------+
|edad| nombre|
+----+-------+
|  17|  Celia|
|  53|   Juan|
|  39|Manuela|
|  17|    Ana|
+----+-------+



In [17]:
# A partir de ficheros json
dfJson = sqlContext.read.json("data/countries.json")

dfJson.show()

+----+--------------+----------+
|code|          name|phone_code|
+----+--------------+----------+
|  AF|   Afghanistan|       +93|
|  AL|       Albania|      +355|
|  DZ|       Algeria|      +213|
|  AS|American Samoa|        +1|
|  AD|       Andorra|      +376|
|  AO|        Angola|      +244|
|  AI|      Anguilla|        +1|
|  AG|       Antigua|        +1|
|  AR|     Argentina|       +54|
|  AM|       Armenia|      +374|
|  AW|         Aruba|      +297|
|  AU|     Australia|       +61|
|  AI|       Austria|       +43|
|  AZ|    Azerbaijan|      +994|
|  BH|       Bahrain|      +973|
|  BD|    Bangladesh|      +880|
|  BB|      Barbados|        +1|
|  BY|       Belarus|      +375|
|  BE|       Belgium|       +32|
|  BZ|        Belize|      +501|
+----+--------------+----------+
only showing top 20 rows

