[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Introducción.

## *Big Data*.

Son las técnicas y herramientas utilizadas para procesar datos que por su cantidad o por su falta de estructura no pueden ser procesados por una sola computadora para satisfacer las 4 "V".

* Volumen
* Velocidad
* Variedad
* Veracidad

## El ecosistema de *Apache Hadoop*.

<img src="img/02/ecosistema-hadoop.png">

## *Data Lakehouse*. 

Es un repositorio de almacenamiento centralizado que contienen grandes cantidades de datos provenientes de múltipes fuentes en formato *crudo* y generalmente, no estructurado.  

<img src="img/02/datalakehouse.png">

## *Apache Spark*.

[*Apache Spark*](https://spark.apache.org/) es una aplicación de cómputo en memoria capaz de realizar operaciones de procesamiento de datos sobre un clúster. 

Fue desarrollada originariamente en la Universidad de California y fue donado más tarde a la *Apache Software Foundation* que se encarga de su mantenimiento desde entonces. *Apache Spark* proporciona una interfaz para la programación de clusters completos con paralelismo de datos implícito y tolerancia a fallos.

*Apache Spark* se puede considerar un sistema de computación en clúster de propósito general y orientado a la velocidad. Proporciona *API*s en *Java*, *Scala*, *Python* y *R*. 

*Apache Spark* proporciona un motor optimizado que soporta la ejecución de grafos en general. Además cuenta con una extensa biblioteca de herramientas de alto nivel entre las que se incluyen 
* *Spark SQL* para el procesamiento de datos estructurados basada en *SQL*.
* *MLlib* para implementar machine learning.
* *GraphX* para el procesamiento de grafos.
* *Spark Streaming* para la gestión de flujos de datos.

*Apache Spark*, al ser una aplicación de cómputo en memoria, es independiente de los medios y las fuentes de almacenamiento de donde provienen y a dónde van los datos que procesa, dejando la gestión de datos a herramientas como el *Spark Scheduler*, *Apache Yarn*, *Apache Mesos* e incluso a *Kubernetes*.

### El *Spark Scheduler*.

El *Spark Scheduler* es el componente encargado de transformar las *tasks* de *Apache Spark* en unidades de cómputo que serán distribuidas en un cluster.

La opción más simple de desplegar *Apache Spark* es sobre el *Spark Scheduler*, pero en entornos productivos se recomienda usar otro sistema de gestión de clústers como *Apache Hadoop* o *Apache Mesos*.

https://spark.apache.org/docs/latest/job-scheduling.html

### Plataforma *Apache Spark*.

<img src="img/02/plataforma-spark.png">

**Nota:** Tanto la *VM* como el contenedor proporcionado por *Pythonista* utiliza una implementación de *Spark* y *Hadoop*/*YARN*. 

### Arquitecura de *Apache Spark*.

*Apache Spark* es un sistema escrito en *Scala* que se ejecuta desde la Máquina Virtual de Java (*JVM*) y que es capaz de distribuir cargas de trabajo de cómputo distribuidas en un clúster.

El componente encargado de orquestar la ejecución de las cargas de trabajo es el ***Spark Driver***, el cual se comunica con el ***Gestor del Clúster***.

Un clúster es un conjunto nodos de cómputo (máquinas físicas o virtruales) en las que se distribuyen las cargas de trabajo, A cada nodo de cómputo se le conoce como ***Worker***.

Cada nodo *worker* cuenta con una **Caché** y un programa ***Executor*** encargado de llevar a cabo **tareas** o ***tasks***, las cuales corresponden a fragmentos de la carga de cómputo distribuido en el clúster.

Una vez que el *Spark Driver* logra una conexión con el clúster, éste inicializa a la ***SparkSession***, el componente encargado de la operación y la gestión de los datos de una **Aplicación Spark**.

<img src="img/02/arquitectura-spark.png">

### *SparkContext*.

Uno de los componentes de *SparkSession* es el ***SparkContext***, el cual corresponde a la conexión al clúster que se realiza mediante el *Spark Driver*.



## El *shell* de *Spark*.

La manera más simple de iniciar una *SparkSerssion* es mediante la ejecución del *shell* de *Spark* o de *pySpark*. El comando ```spark-shell``` levantará un *shell* con un intérprete de *Scala*, mientras que el comando ```pyspark``` levantará un *shell* con un intérprete de Python. Dicho *shell* llevará a cabo las acciones necesarias para levantar una *SparkSession*.

![image.png](img/02/shell.png)

## Observabilidad de *Spark*.

*Apache Spark* permite acceder a un sistema de observabilidad del cluster y de las operaciones que se realizan dentro de una *SparkSession*. Dicho sistema consiste en el despliegue de una aplicación web que muestra un tablero de comando (*dashboard*) con diveras métricas e información del clúster de *Spark*.
Al iniciar la SparkSesssion, el tablero de comando será accesible desde un navegador web apuntando al puerto ```4040``` del servidor.

![dashboard](img/02/dashboard.png)

## *PySpark*.

*PySpark* es una *API* de *Apache Spark* implementada sobre *Python*. Dicha implementación consiste en:

* Un *shell* basado en el intérprete de *Python*.
* Un [paquete](https://pypi.org/project/pyspark/) que contiene todo lo necesario para el desarrollo de aplicaciones escritas en *Python*.

La guía de usuario oficial de *PySpark* puede ser consultada en:

* https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/index.html

La referencia de la *API* de *Pyspark*  puede ser consultada en:

* https://spark.apache.org/docs/latest/api/python/reference/api/

### *Notebook* de prueba.

* El siguiente enlace apunta a un servicio en línea de [*Binder*](https://mybinder.org/) que publica una *notebook* de demostración de  *PySpark*.

https://mybinder.org/v2/gh/apache/spark/fbbcf9434a?filepath=python%2Fdocs%2Fsource%2Fgetting_started%2Fquickstart_df.ipynb

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>