# Introduccion a Spark SQL

![title](images\spark-sql.png)

Es la interfaz de Spark para trabajar con datos estructurados y semiestructurados


- Datos estructurados son todos aquellos datos que presentan un esquema, es decir, existe un conjunto de campos para cada registro.
- Spark SQL proporciona un conjunto de datos abstractos que simplifica el trabajo con conjuntos de datos estructurados. El conjunto de datos es similar a las tablas de una base de datos relacional.
- Cada vez mas el flujo de trabajo de Spark se mueve hacia Spark SQL
- El principal objetivo es trabajar con datos estructurados.
- Un conjunto de datos tiene un esquema predeterminado, y esto permite que Spark almacene informacion de una manera mas eficiente y pueda ejecutar consultas SQL sobre estos datos utilizando comandos SQL


### Conceptos importantes de Spark SQL

#### 1. Dataframes
#### 2. Conjuntos de datos (Datasets)

### Dataframes

- Spark SQL introduce una abstraccion de datos tabulares llamada **Dataframe** a partir de la version 1.3.
- Un Dataframe es una abstraccion de datos o un lenguaje especifico de dominio para trabajar con datos estructurados o semiestructurados
- Los Dataframes almacenan datos de una manera mas eficiente comparados con RDDs nativos, aprovechando su esquema
- Utiliza las capacidades inmutables, en memoria, resilentes, distribuidas y paralelas de un RDD y aplica una estructura llamada esquema a los datos, permitiendo asi que Spark administre esta estrucutra y solo pase datos entre nodos de una manera mucho mas eficiente en lugar de la serializacion de objetos en Java
- A diferencia de un RDD, la informacion es organizada en columnas, con nombres especificos similar a una tabla en una Base de datos Relacional


![title](images\dataframe.png)

### Conjuntos de Datos (Datasets)

El API de los conjuntos de datos, presente desde la version 1.6 de Spark proporciona:
- El familiar estilo de programacion orientado a objetos
- El Compile-Time y Type Safety de la API del RDD
- El beneficio de usar los sistemas para trabajar con datos estructurados

Un Conjunto de datos generalmente es un conjunto de datos estructurados, no necesesariamente una fila pero podria ser de tipo particular


![title](images\dataset-dataframe-rdd.png)


In [6]:
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.option", "some-value").getOrCreate()
import spark.implicits._
val df = spark.read.csv("input/USA_cars_datasets.csv")
df.show()

+----+-----+---------+-------+----+-------------+--------+------+-------------------+---------+--------------+-------+-------------+
| _c0|  _c1|      _c2|    _c3| _c4|          _c5|     _c6|   _c7|                _c8|      _c9|          _c10|   _c11|         _c12|
+----+-----+---------+-------+----+-------------+--------+------+-------------------+---------+--------------+-------+-------------+
|null|price|    brand|  model|year| title_status| mileage| color|                vin|      lot|         state|country|    condition|
|   0| 6300|   toyota|cruiser|2008|clean vehicle|274117.0| black|  jtezu11f88k007763|159348797|    new jersey|    usa| 10 days left|
|   1| 2899|     ford|     se|2011|clean vehicle|190552.0|silver|  2fmdk3gc4bbb02217|166951262|     tennessee|    usa|  6 days left|
|   2| 5350|    dodge|    mpv|2018|clean vehicle| 39590.0|silver|  3c4pdcgg5jt346413|167655728|       georgia|    usa|  2 days left|
|   3|25000|     ford|   door|2014|clean vehicle| 64146.0|  blue|  1f

import org.apache.spark.sql.SparkSession
spark: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@3a5cea33
import spark.implicits._
df: org.apache.spark.sql.DataFrame = [_c0: string, _c1: string ... 11 more fields]
