# U5_Actividad con PySpark

TECNM Campus La Laguna

Big Data

**Alumno: 18131209 - ADAME SANDOVAL JOSE MISAEL**

# ¿Qué es Spark?

Apache Spark es una tecnología de cómputo de clústeres excepcional, diseñada para cálculos rápidos. Depende de Hadoop MapReduce y extiende el modelo de MapReduce para utilizarlo de manera efectiva para más tipos de cálculos, que incorporan preguntas intuitivas y manejo de flujos. El elemento fundamental de Spark es su agrupamiento en memoria que expande el ritmo de preparación de una aplicación. Spark puede procesar cantidades de datos en el orden de terabytes incluso petabytes.

Spark utiliza Hadoop de dos maneras diferentes: una es para almacenamiento y la segunda para el manejo de procesos. Solo porque Spark tiene su propia administración de clústeres, utiliza Hadoop para el objetivo de almacenamiento.

Spark está diseñado para cubrir una amplia variedad de cargas restantes, por ejemplo, aplicaciones de clústeres, cálculos iterativos, preguntas intuitivas y transmisión. Además de soportar todas estas tareas restantes en un marco particular, disminuye el peso de la administración de mantener aparatos aislados.

## ¿Qué es PySpark?

PySpark es una interfaz para Apache Spark en Python. No sólo permite escribir aplicaciones Spark utilizando las APIs de Python, sino que también proporciona el shell PySpark para analizar interactivamente sus datos en un entorno distribuido. PySpark soporta la mayoría de las características de Spark como Spark SQL, DataFrame, Streaming, MLlib (Machine Learning) y Spark Core.

## ¿Para qué es Spark?

Apache Spark es un sistema de computación en clúster muy veloz. Proporciona el conjunto de API de alto nivel, a saber, Java, Scala, Python y R para el desarrollo de aplicaciones. Apache Spark es una herramienta para ejecutar rápidamente aplicaciones Spark.

## Características

* Está integrado con Apache Hadoop.
* Trabaja en memoria, con lo que se consigue mucha mayor velocidad de procesamiento .
* También permite trabajar en disco. De esta manera si por ejemplo tenemos un fichero muy grande o una cantidad de información que no cabe en memoria, la herramienta permite almacenar parte en disco, lo que hace perder velocidad. Esto hace que tengamos que intentar encontrar el equilibrio entre lo que se almacena en memoria y lo que se almacena en disco, para tener una buena velocidad y para que el coste no sea demasiado elevado, ya que la memoria siempre es bastante más cara que el disco.
* Nos proporciona API para Java, Scala, Python y R.
* Permite el procesamiento en tiempo real, con un módulo llamado Spark Streaming, que combinado con Spark SQL nos va a permitir el procesamiento en tiempo real de los datos. Conforme vayamos inyectando los datos podemos ir transformándolos y volcándolos a un resultado final.
* Resilient Distributed Dataset (RDD): Usa la evaluación perezosa, lo que significa es que todas las transformaciones que vamos realizando sobre los RDD, no se resuelven, si no que se van almacenando en un grafo acíclico dirigido (DAG) , y cuando ejecutamos una acción, es decir, cuando la herramienta no tenga más opción que ejecutar todas las transformaciones, será cuando se ejecuten.

 # SparkSession
 
SparkSession introducido en la versión 2.0, es un punto de entrada a la funcionalidad subyacente de PySpark con el fin de crear programáticamente PySpark RDD, DataFrame. Su objeto spark está disponible por defecto en pyspark-shell y puede ser creado programáticamente usando SparkSession.

### Funcionalidad y características

SparkSession es una clase combinada para todos los diferentes contextos que teníamos antes de la versión 2.0 (SQLContext y HiveContext, etc.). Desde la versión 2.0, SparkSession puede utilizarse en sustitución de SQLContext, HiveContext y otros contextos definidos antes de la versión 2.0.

Como se mencionó al principio SparkSession es un punto de entrada a PySpark y la creación de una instancia de SparkSession sería la primera declaración que escribirías para programar con RDD, DataFrame y Dataset. La SparkSession se creará utilizando los patrones del constructor SparkSession.builder.

Aunque SparkContext solía ser un punto de entrada antes de la versión 2.0, no se ha sustituido completamente por SparkSession, muchas características de SparkContext siguen estando disponibles y se utilizan en Spark 2.0 y posteriores. También debes saber que SparkSession crea internamente SparkConfig y SparkContext con la configuración proporcionada con SparkSession.

Puedes crear tantos objetos SparkSession como quieras utilizando SparkSession.builder o SparkSession.newSession.

### Ejemplo

In [1]:
import pyspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[1]") \
                    .appName('Pruebita') \
                    .getOrCreate()

**master()** - Si se está ejecutando en el clúster es necesario utilizar el nombre de su maestro como un argumento a master(). por lo general, sería ya sea yarn o mesos depende de la configuración de su clúster.

Utilice **local[x]** cuando se ejecuta en modo Standalone. x debe ser un valor entero y debe ser mayor que 0; esto representa cuántas particiones debe crear cuando se utiliza RDD, DataFrame, y Dataset. Idealmente, el valor de x debería ser el número de núcleos de la CPU que tiene.

**appName()** - Se utiliza para establecer el nombre de su aplicación.

**getOrCreate()** - Devuelve un objeto SparkSession si ya existe, crea uno nuevo si no existe.

Nota: El objeto SparkSession "spark" está disponible por defecto en el shell de PySpark.

In [2]:
type(spark)

pyspark.sql.session.SparkSession

In [3]:
#version - Devuelve la versión de Spark en la que se está ejecutando tu aplicación, probablemente la versión de Spark con la 
#que está configurado tu cluster

spark.version 

'3.1.1'

In [7]:
#getActiveSession() - devuelve una sesión activa de Spark.

spark.getActiveSession()

In [9]:
#sql - Devuelve un DataFrame después de ejecutar el SQL mencionado.

spark.sql

<bound method SparkSession.sql of <pyspark.sql.session.SparkSession object at 0x000001659403BF10>>

In [11]:
#stop() - Detener el SparkContext actual.

spark.stop()

# SparkContext

Punto de entrada principal para la funcionalidad de Spark. Un SparkContext representa la conexión a un clúster de Spark, y puede utilizarse para crear RDDs, acumuladores y variables de difusión en ese clúster.

### Funcionalidad y características

SparkContext utiliza Py4J para lanzar una JVM y crea un JavaSparkContext. Por defecto, PySpark tiene SparkContext disponible como 'sc', por lo que crear un nuevo SparkContext no funcionará.

Los siguientes son los parámetros de un SparkContext.

* Master - Es la URL del cluster al que se conecta.
* appName - Nombre de su trabajo.
* sparkHome - Directorio de instalación de Spark.
* pyFiles - Los archivos .zip o .py a enviar al cluster y añadir al PYTHONPATH.
* Environment - Variables de entorno de los nodos de trabajo.
* batchSize - El número de objetos Python representados como un único objeto Java. Establezca 1 para deshabilitar el batching, 0 para elegir automáticamente el tamaño del batch basado en el tamaño de los objetos, o -1 para utilizar un tamaño de batch ilimitado.
* Serializador - Serializador RDD.
* Conf - Un objeto de L{SparkConf} para establecer todas las propiedades de Spark.
* Gateway - Utilizar una puerta de enlace y JVM existente, de lo contrario inicializar una nueva JVM.
* JSC - La instancia de JavaSparkContext.
* profiler_cls - Una clase de Profiler personalizada utilizada para hacer el profiling (el valor por defecto es pyspark.profiler.BasicProfiler).

Entre los parámetros anteriores, master y appname son los más utilizados. 

### Ejemplo

In [12]:
import pyspark

In [13]:
sc = pyspark.SparkContext(appName="Tarea_Prueba") # sc objeto que apunta a SC al cluster local

In [14]:
type(sc)

pyspark.context.SparkContext

In [15]:
#applicationId - Devuelve un ID único de una aplicación Spark

sc.applicationId

'local-1623868247089'

In [17]:
#master - Devuelve el master que se estableció al crear SparkContext

sc.master

'local[1]'

In [16]:
#appName - Devuelve el nombre de la aplicación que se dio al crear SparkContext

sc.appName

'Tarea_Prueba'

In [21]:
#broadcast - difusión de la variable de sólo lectura a todo el clúster. Puedes difundir una variable a un clúster de 
#Spark sólo una vez.

sc.broadcast

<bound method SparkContext.broadcast of <SparkContext master=local[1] appName=Tarea_Prueba>>

In [19]:
#getOrCreate - Crea o devuelve un SparkContext

sc.getOrCreate

<bound method SparkContext.getOrCreate of <class 'pyspark.context.SparkContext'>>

In [22]:
#sc.stop()