In [131]:
import findspark
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, IntegerType, StringType, DoubleType
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, DateType

from pyspark.sql.functions import col

findspark.init()
spark = SparkSession.builder.master("local[*]").getOrCreate()

In [132]:
sc = spark.sparkContext

## Spark SQL

* En Spark 1.6 se introdujo una nueva abstracción de programación llamada API estructurada. Esta es la forma preferida para realizar el procesamiento de datos en la mayoría de los casos de uso.

* En esta nueva forma de hacer el procesamiento de datos, los datos deben organizarse en un formato estructurado y la lógica de cálculo de datos debe seguir una determinada estructura. Con estas dos piezas de información, Spark puede realizar optimizaciones para acelerar las aplicaciones de procesamiento de datos.

* El componente SparkSQL está construido sobre el viejo y confiable componente SparkCore. Esta arquitectura en capas significa que cualquier mejora en el componente Spark Core estará disponible automáticamente para el componente para SQL.

* El concepto DF se inspiró en el concepto de pandasDF de python. La principal diferencia es que un DF en Spark puede manejar un gran volumen de datos que se distribuyen en muchas máquinas.

* Un concepto fundamental que diferencia a los datos estructurados de los no estructurados es un **esquema** que define la estructura de los datos en forma de nombres de columna y tipos de datos asociados. El concepto de **esquema** es una parte integral de las APIs estructuradas de Spark.

* Los datos estructurados a menudo se capturan en un formato determinado. Algunos de estos formatos están basados en textos y algunos de ellos están basados en binario.

    * Los formatos comunes para datos de texto son CSV, XML y JSON 
    * Los formatos comunes para datos binarios son agro, parquet y ORC.
<br>.
* El módulo SparkSQL y facilita la lectura y escritura de datos desde y hacia cualquiera de estos formatos. Un beneficio inesperado que surge de esta versatilidad es que Spark se puede utilizar como una herramienta de conversión de formato de datos.

### Crear un DF a partir de un RDD

Hay muchas formas de crear un DF, pero **siempre hay que proporcionar un esquema**, ya sea implícita o explícitamente.

In [133]:
rdd = sc.parallelize([item for item in range(10)]).map(lambda x: (x, x ** 2))

rdd.collect()

[(0, 0),
 (1, 1),
 (2, 4),
 (3, 9),
 (4, 16),
 (5, 25),
 (6, 36),
 (7, 49),
 (8, 64),
 (9, 81)]

In [134]:
# Para crear un DF a parti de un RDD no tenemos más que pasarle a la función .toDF los nombres de las columnas como lista
df = rdd.toDF(['numero', 'cuadrado'])

# Podemos ver el esquema de los datos, que nos informa del tipo de datos y de si acepta nulos o no
df.printSchema()

# Podemos ver el DF
df.show()

root
 |-- numero: long (nullable = true)
 |-- cuadrado: long (nullable = true)

+------+--------+
|numero|cuadrado|
+------+--------+
|     0|       0|
|     1|       1|
|     2|       4|
|     3|       9|
|     4|      16|
|     5|      25|
|     6|      36|
|     7|      49|
|     8|      64|
|     9|      81|
+------+--------+



##### También podemos crear un DF a partir de un RDD definiendo nosotros el esquema

In [135]:
rdd1 = sc.parallelize([(1, 'Jose', 35.5), (2, 'Teresa', 54.3), (3, 'Katia', 12.7)])

In [136]:
# Método 1: creamos el esquema a partir de las classes de pyspark.sql.types

esquema1 = StructType(
    [
     StructField('id', IntegerType(), True),
     StructField('nombre', StringType(), True),
     StructField('saldo', DoubleType(), True)
    ]
)

In [137]:
# Método 2: creamos el esquema a partir de un string

esquema2 = "`id` INT, `nombre` STRING, `saldo` DOUBLE"

In [138]:
# Finalmente, para crear un DF aplicando nuestro esquema, usamos la función .createDtaFrame, pasándole el RDD y el esquema

df1 = spark.createDataFrame(rdd1, schema=esquema1)

df1.printSchema()

df1.show()

root
 |-- id: integer (nullable = true)
 |-- nombre: string (nullable = true)
 |-- saldo: double (nullable = true)

+---+------+-----+
| id|nombre|saldo|
+---+------+-----+
|  1|  Jose| 35.5|
|  2|Teresa| 54.3|
|  3| Katia| 12.7|
+---+------+-----+



In [139]:
df1 = spark.createDataFrame(rdd1, schema=esquema2)

df1.printSchema()

df1.show()

root
 |-- id: integer (nullable = true)
 |-- nombre: string (nullable = true)
 |-- saldo: double (nullable = true)

+---+------+-----+
| id|nombre|saldo|
+---+------+-----+
|  1|  Jose| 35.5|
|  2|Teresa| 54.3|
|  3| Katia| 12.7|
+---+------+-----+



### Crear un DF a partir de fuentes de datos

Las dos clases principales en SparkSQL para leer y escribir datos son DataFrameReader y DataFrameWriter respectivamente.

#### DataFrameReader

* Una instancia de la clase DataFrameReader está disponible como read en la sesión de Spark y la podemos invocar a través de **spark.read**

* El patrón común para interactuar con DataFrameReader es **spark.read.format(...).option('key', 'value').schema(...).load()**

    * **.format(...)** no es opcional. Puede ser una de las fuente de datos integradas o un formato de dato personalizado

        * **Formato integrado:** se puede usar un nombre corto como por ejemplo json, parquet, jdbc, orc, csv, text...
        * **Formato personalizado:** debe proporcionar un nombre completo
<br>.

    * **.option('key', 'value')** es opcional porque DataFrameReader tiene un conjunto de opciones predeterminadas para cada formato de fuente de datos. Podemos anular estos valores predeterminados proporcionando un valor a la función option('key', 'value')

    * **.schema(...)** puede ser opcional porque algunas fuentes de datos tienen el esquema incrustado dentro de los archivos de datos, podemos pensar en .parquet u .orc En estos casos el esquema se infiere automáticamente, para otros casos es posible que deba proporcionar un esquema.

* Para leer los datos hay dos alternativas aplicables a todos los formatos:

    * **spark.read.<extension>("<path>")** por ejemplo, spark.read.json("/path/to/file.json")
    * **spark.read.format("<extension>").load("<path>")** por ejemplo spark.read.format("json").load("/path/to/file.json")



In [140]:
# Crear un DF a partir de un archivo de texto
dftxt = spark.read.text('./data/data_DF/dataTXT.txt')

dftxt.show(truncate=False)

+-----------------------------------------------------------------------+
|value                                                                  |
+-----------------------------------------------------------------------+
|Estamos en el curso de pyspark                                         |
|En este capítulo estamos estudiando el API SQL de Saprk                |
|En esta sección estamos creado dataframes a partir de fuentes de datos,|
|y en este ejemplo creamos un dataframe a partir de un texto plano      |
+-----------------------------------------------------------------------+



In [141]:
# Crear un DataFrame mediante la lectura de un archivo csv

dfcsv = spark.read.csv('./data/data_DF/dataCSV.csv')

# Aquí mete el nombre de las columnas en la primera fila y da nombres nuevos predeterminados
dfcsv.show(n=5)

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+--------------------+--------------------+
|        _c0|          _c1|                 _c2|                 _c3|        _c4|                 _c5|                 _c6|    _c7|   _c8|     _c9|         _c10|                _c11|             _c12|            _c13|                _c14|                _c15|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+--------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|vid

In [142]:
# Para que tome la primera fila como nombre de columnas:
dfcsv1 = spark.read.option('header', 'true').csv('./data/data_DF/dataCSV.csv')

dfcsv1.show(n=5)

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|video_error_or_removed|         description|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|2kyS6SvSYSE|     17.14.11|WE WANT TO TALK A...|        CaseyNeistat|         22|2017-11-13T17:13:...|     SHANtell martin| 748374| 57527|    2966|        15954|https://i.ytimg.c...|            False|           Fal

In [143]:
# Leer un archivo de texto con un delimitador diferente

dftxt1 = spark.read.option('header', 'true').option('delimiter', '|').csv('./data/data_DF/dataTab.txt')

dftxt1.show()


+----+----+----------+-----+
|pais|edad|     fecha|color|
+----+----+----------+-----+
|  MX|  23|2021-02-21| rojo|
|  CA|  56|2021-06-10| azul|
|  US|  32|2020-06-02|verde|
+----+----+----------+-----+



In [144]:
# Crear un DataFrame a partir de un json proporcionando un schema
json_schema =  StructType(
    [
     StructField('color', StringType(), True),
     StructField('edad', IntegerType(), True),
     StructField('fecha', DateType(), True),
     StructField('pais', StringType(), True)
    ]
)

dfjson = spark.read.schema(json_schema).json('./data/data_DF/dataJSON.json')

dfjson.show()

dfjson.printSchema()

+-----+----+----------+----+
|color|edad|     fecha|pais|
+-----+----+----------+----+
| rojo|null|2021-02-21|  MX|
| azul|null|2021-06-10|  CA|
|verde|null|2020-06-02|  US|
+-----+----+----------+----+

root
 |-- color: string (nullable = true)
 |-- edad: integer (nullable = true)
 |-- fecha: date (nullable = true)
 |-- pais: string (nullable = true)



In [145]:
# Crear un DataFrame a partir de un archivo parquet
dfparquet = spark.read.parquet('./data/data_DF/dataPARQUET.parquet')

dfparquet.show(n=5)

+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|   video_id|trending_date|               title|       channel_title|category_id|        publish_time|                tags|  views| likes|dislikes|comment_count|      thumbnail_link|comments_disabled|ratings_disabled|video_error_or_removed|         description|
+-----------+-------------+--------------------+--------------------+-----------+--------------------+--------------------+-------+------+--------+-------------+--------------------+-----------------+----------------+----------------------+--------------------+
|2kyS6SvSYSE|     17.14.11|WE WANT TO TALK A...|        CaseyNeistat|         22|2017-11-13T17:13:...|     SHANtell martin| 748374| 57527|    2966|        15954|https://i.ytimg.c...|            False|           Fal

In [146]:
# Otra alternativa para leer desde una fuente de datos parquet en este caso
dfparquet1 = spark.read.format('parquet').load('./data/data_DF/dataPARQUET.parquet')

dfparquet1.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: string (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: string (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: string (nullable = true)
 |-- likes: string (nullable = true)
 |-- dislikes: string (nullable = true)
 |-- comment_count: string (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: string (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- description: string (nullable = true)



### Trabajo con columnas

* A diferencia de las operaciones con RDD, las operaciones estructuradas están diseñadas para ser más relacionales, lo que significa que estas operaciones reflejan el tipo de expresiones que pueden hacer con SQL como filtrado, transformación, unión, entre otras.

* Al igual que las operaciones con RDD, las operaciones estructuradas se dividen en dos categorías: transformaciones y acciones. La semántica de las transformaciones y acciones estructuradas es idéntica a la de los RDD: las transformaciones estructuradas son **lazy evaluation** y las acciones estructuradas son **eager evaluation**.

* Recordmeos que los DF son inmutables y sus operaciones de transformación siempre devuelven un nuevo DF.

In [147]:
dfparquet2 = spark.read.parquet('./data/dataPARQUET.parquet')

dfparquet2.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: string (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: string (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: string (nullable = true)
 |-- likes: string (nullable = true)
 |-- dislikes: string (nullable = true)
 |-- comment_count: string (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: string (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- description: string (nullable = true)



In [148]:
# Primera alternativa para referirnos a las columnas

dfparquet2.select('title').show(5)

+--------------------+
|               title|
+--------------------+
|WE WANT TO TALK A...|
|The Trump Preside...|
|Racist Superman |...|
|Nickelback Lyrics...|
|I Dare You: GOING...|
+--------------------+
only showing top 5 rows



In [149]:
# Segunda alternativapara referirnos a las columnas

dfparquet2.select(col('title')).show(5)

+--------------------+
|               title|
+--------------------+
|WE WANT TO TALK A...|
|The Trump Preside...|
|Racist Superman |...|
|Nickelback Lyrics...|
|I Dare You: GOING...|
+--------------------+
only showing top 5 rows



### Transformaciones: funciones select y selectExpr

* **select:** esta transformación se usa comúnmente para realizar la proyección, es decir, seleccionar todas o un subconjunto de columnas de un DF. Durante la selección cada columna se puede transformar mediante una expresión de columna.

In [150]:
# Cargamos el parquet, muy similar al anterior, pero con alguna modificación en el tipo de datos de cada columna
dfparquet3 = spark.read.parquet('./data/datos.parquet')

dfparquet3.printSchema()

root
 |-- video_id: string (nullable = true)
 |-- trending_date: string (nullable = true)
 |-- title: string (nullable = true)
 |-- channel_title: string (nullable = true)
 |-- category_id: string (nullable = true)
 |-- publish_time: timestamp (nullable = true)
 |-- tags: string (nullable = true)
 |-- views: integer (nullable = true)
 |-- likes: integer (nullable = true)
 |-- dislikes: integer (nullable = true)
 |-- comment_count: integer (nullable = true)
 |-- thumbnail_link: string (nullable = true)
 |-- comments_disabled: string (nullable = true)
 |-- ratings_disabled: string (nullable = true)
 |-- video_error_or_removed: string (nullable = true)
 |-- description: string (nullable = true)



In [151]:
dfparquet3.select(col('video_id')).show(5)

+-----------+
|   video_id|
+-----------+
|2kyS6SvSYSE|
|1ZAPwfrtAFY|
|5qpjK5DgCt4|
|puqaWrEC7tY|
|d380meD0W0M|
+-----------+
only showing top 5 rows



In [152]:
dfparquet3.select('video_id', 'trending_date').show(5)
# El problema de esta nomenclatura es que no podemos pasarle funciones, como se puede comprobar en la siguiente celda

+-----------+-------------+
|   video_id|trending_date|
+-----------+-------------+
|2kyS6SvSYSE|     17.14.11|
|1ZAPwfrtAFY|     17.14.11|
|5qpjK5DgCt4|     17.14.11|
|puqaWrEC7tY|     17.14.11|
|d380meD0W0M|     17.14.11|
+-----------+-------------+
only showing top 5 rows



In [155]:
# Esta expresión nos dará error

dfparquet3.select(
    'likes',
    'dislikes',
    ('likes' - 'dislikes')
).show(5)

TypeError: unsupported operand type(s) for -: 'str' and 'str'

In [157]:
# La forma correcta es usando la función col

dfparquet3.select(
    col('likes'),
    col('dislikes'),
    (col('likes') - col('dislikes')).alias('aceptacion')
).show(5)

+------+--------+----------+
| likes|dislikes|aceptacion|
+------+--------+----------+
| 57527|    2966|     54561|
| 97185|    6146|     91039|
|146033|    5339|    140694|
| 10172|     666|      9506|
|132235|    1989|    130246|
+------+--------+----------+
only showing top 5 rows



* **selectExpr:** nos permite aplicar una expresión a la selección de columnas

In [158]:
# Le pedimos los mismo que en la celda anterior
dfparquet3.selectExpr('likes', 'dislikes', '(likes - dislikes) as aceptacion').show(5)

+------+--------+----------+
| likes|dislikes|aceptacion|
+------+--------+----------+
| 57527|    2966|     54561|
| 97185|    6146|     91039|
|146033|    5339|    140694|
| 10172|     666|      9506|
|132235|    1989|    130246|
+------+--------+----------+
only showing top 5 rows



In [159]:
# Contamos el número de valores diferentes dentro de la columna video_id
dfparquet3.selectExpr("count(distinct(video_id)) as videos").show()

+------+
|videos|
+------+
|  6837|
+------+



>\
>Como conclusión, deberíamos tener en cuenta que las expresiones SQL son construcciones poderosas y flexibles que permiten expresar la lógica de transformación de columnas de una manera natural, tal como lo podríamos estar pensando nosotros mismos. Podemos expresar expresiones SQL en un formato de cadena y spark las analizará en un árbol lógico que se evalúa en un orden correcto. Además hay que tener en cuenta que la combinación de expresiones SQL y funciones integradas facilita la realización de ciertos análisis de datos que de otro modo requerirían varios pasos.
>
><br>