# Pyspark

### Agenda 
 
1. Introduccion
2. Arquitectura
3. Tipos de Clusters
4. Modulos de Spark
5. Spark RDD
6. Spark DataFrame
7. Spark SQL
8. Spark Streaming
9. Spark GrpahFrame


## Introduccion

PySpark es una biblioteca de Spark escrita en Python para ejecutar aplicaciones de Python usando las capacidades de Apache Spark, con PySpark podemos ejecutar aplicaciones en paralelo en el clúster distribuido (múltiples nodos).
En otras palabras, PySpark es una API de Python para Apache Spark. Apache Spark es un motor de procesamiento analítico para potentes aplicaciones de aprendizaje automático y procesamiento de datos distribuidos a gran escala.

##### ¿Quién utiliza Pyspark?
PySpark se usa muy bien en la comunidad de ciencia de datos y aprendizaje automático, ya que hay muchas bibliotecas de ciencia de datos ampliamente utilizadas escritas en Python, incluidas NumPy, TensorFlow. También se utiliza debido a su procesamiento eficiente de grandes conjuntos de datos. PySpark ha sido utilizado por muchas organizaciones como Walmart, Trivago, Sanofi, Runtastic y muchas más.

##### caracterísicas importantes de Spark
![](https://sparkbyexamples.com/wp-content/uploads/2020/08/pyspark-features-1.png)
# 
- Cálculo en memoria
- Procesamiento distribuido usando paralelizar
- Se puede usar con muchos administradores de clústeres (Spark, Yarn, Mesos, etc.)
- Tolerante a fallos
- Inmutable
- Evaluación perezosa
- Caché y persistencia
- Optimización incorporada al usar DataFrames
- Soporta ANSI SQL

##### Ventajas
#
- Spark es un motor de procesamiento distribuido, en memoria y de uso general que le permite procesar datos de manera eficiente y distribuida.
- Obtendrá grandes beneficios al usar Spark para canalizaciones de ingesta de datos.
- Con Spark podemos procesar datos de Hadoop HDFS, AWS S3 y muchos sistemas de archivos.
- PySpark también se usa para procesar datos en tiempo real usando Streaming y Kafka.
- Con spark streaming, también puede transmitir archivos desde el sistema de archivos y también desde el socket.

## Arquitectura
# 
Apache Spark funciona en una arquitectura master-slave donde el master se llama "driver" y los esclavos se llaman "Workers". Cuando ejecuta una aplicación Spark, Spark Driver crea un contexto que es un punto de entrada a su aplicación, y todas las operaciones (transformaciones y acciones) se ejecutan en los workers y los recursos son administrados por el Administrador de clústeres.

![](https://sparkbyexamples.com/wp-content/uploads/2020/02/spark-cluster-overview.png)

## Tipos de clusters
#
- Standalone –  un administrador de clúster simple incluido con Spark que facilita la configuración de un clúster.
- Apache Mesos – Mesos es un administrador de clústeres que también puede ejecutar aplicaciones Hadoop MapReduce y PySpark.
- Hadoop YARN –  el administrador de recursos en Hadoop 2. Esto se usa principalmente como administrador de clústeres.
- Kubernetes – un sistema de código abierto para automatizar la implementación, el escalado y la gestión de aplicaciones en contenedores.

## Módulos de Spark

![](https://tse1.mm.bing.net/th?id=OIP.IH66oypTYnWQjFkFHoBMCgHaD2&pid=Api&P=0)

## Spark RDD

RDD es una estructura de datos fundamental de Spark que es una colección de objetos distribuidos inmutables y tolerantes a fallas, lo que significa que una vez que crea un RDD no puede cambiarlo. Cada conjunto de datos en RDD se divide en particiones lógicas, que se pueden calcular en diferentes nodos del clúster.

In [None]:
pip install pyspark

Collecting pyspark
  Downloading pyspark-4.0.1.tar.gz (434.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m434.2/434.2 MB[0m [31m943.3 kB/s[0m eta [36m0:00:00[0m00:01[0m00:12[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting py4j==0.10.9.9
  Downloading py4j-0.10.9.9-py2.py3-none-any.whl (203 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m203.0/203.0 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: pyspark
  Building wheel for pyspark (setup.py) ... [?25ldone
[?25h  Created wheel for pyspark: filename=pyspark-4.0.1-py2.py3-none-any.whl size=434813814 sha256=bdfee9bb817734a4db12211a930a9cb749c55d7cf86dfe2e52c2b0888dea99b7
  Stored in directory: /root/.cache/pip/wheels/10/e6/6b/c50eb601fa827dd56a5272db5d5db360e559e527a80a665b1d
Successfully built pyspark
Installing collected packages: py4j, pyspark


In [None]:
# Import SparkSession
from pyspark.sql import SparkSession

# Create SparkSession 
spark = SparkSession.builder \
      .master("local[1]") \
      .appName("RDD") \
      .getOrCreate() 

In [None]:
# Creacion de un RDD utilizando parallelize
dataList = [("Java", 20000), ("Python", 100000), ("Scala", 3000)]
rdd = spark.sparkContext.parallelize(dataList)
rdd.collect() #accion

In [None]:
# Creación de un RDD utilizando un archivo
rdd2 = spark.sparkContext.textFile("/path/test.txt")
rdd2.collect() #accion



##### Operaciones RDD
En PySpark RDD, puede realizar dos tipos de operaciones.

Transformaciones RDD:  las transformaciones son operaciones perezosas. Cuando ejecuta una transformación (por ejemplo, una actualización), en lugar de actualizar un RDD actual, estas operaciones devuelven otro RDD.

Acciones de RDD  : operaciones que activan el cálculo y devuelven valores de RDD al controlador.

##### Transformaciones RDD
Las transformaciones en Spark RDD  devuelven otro RDD y las transformaciones son perezosas, lo que significa que no se ejecutan hasta que llamas a una acción en RDD. Algunas transformaciones en los RDD son flatMap(), map(), reduceByKey(), filter(), sortByKey() y devuelven un nuevo RDD en lugar de actualizar el actual.

##### Acciones de RDD
La operación Acción de RDD devuelve los valores de un RDD a un nodo de controlador. En otras palabras, cualquier función RDD que no devuelva RDD[T] se considera una acción. 

Algunas acciones en RDD son count(), collect(), first(), max()y reduce() y más.

## Spark DataFrame

DataFrame es una colección distribuida de datos organizados en columnas con nombre. Es conceptualmente equivalente a una tabla en una base de datos relacional o un marco de datos en R/Python, pero con optimizaciones más ricas bajo el capó. Los marcos de datos se pueden construir a partir de una amplia gama de fuentes, como archivos de datos estructurados, tablas en Hive, bases de datos externas o RDD existentes.

In [None]:
# Creación de un dataframe utilizando createDataFrame
data = [('James','','Smith','1991-04-01','M',3000),
  ('Michael','Rose','','2000-05-19','M',4000),
  ('Robert','','Williams','1978-09-05','M',4000),
  ('Maria','Anne','Jones','1967-12-01','F',4000),
  ('Jen','Mary','Brown','1980-02-17','F',-1)
]

columns = ["firstname","middlename","lastname","dob","gender","salary"]

df = spark.createDataFrame(data=data, schema = columns)

In [None]:
#display(df) 
df.printSchema()

In [None]:
# Creación de un dataframe utilizando una fuente externa
df = spark.read.csv("/tmp/resources/zipcodes.csv") # spark.read.json/ .parquet ( spark.read.format().load())
df.printSchema()

## Spark SQL

Spark SQL en Apache Spark es uno de los módulos para el procesamiento de la información que ofrece Apache Spark y que trabaja con datos estructurados.
Una vez que haya creado un DataFrame, puede interactuar con los datos utilizando la sintaxis SQL.

In [None]:
df.createOrReplaceTempView("PERSON_DATA")
df.cache()
df.count()
df2 = spark.sql("SELECT * from PERSON_DATA")
df2.printSchema()
df2.show()

## Spark Streaming
Spark Streaming es un sistema de procesamiento de transmisión escalable, de alto rendimiento y tolerante a fallas que admite cargas de trabajo tanto por lotes como de transmisión. Se utiliza para procesar datos en tiempo real de fuentes como la carpeta del sistema de archivos, el socket TCP, S3 , Kafka , Flume , Twitter y Amazon Kinesis , por nombrar algunos. Los datos procesados se pueden enviar a bases de datos, Kafka, dashboard, etc.

![](https://spark.apache.org/docs/latest/img/streaming-arch.png)

In [None]:
df = spark.readStream
      .format("socket")
      .option("host","localhost")
      .option("port","9090")
      .load()
        
query = df.writeStream
      .format("console")
      .outputMode("updated")
      .start()
      .awaitTermination()

In [None]:
df = spark.readStream
        .format("kafka")
        .option("kafka.bootstrap.servers", "192.168.1.100:9092")
        .option("subscribe", "json_topic")
        .option("startingOffsets", "earliest") // From starting
        .load()
        
df.selectExpr("CAST(id AS STRING) AS key", "to_json(struct(*)) AS value")
   .writeStream
   .format("kafka")
   .outputMode("append")
   .option("kafka.bootstrap.servers", "192.168.1.100:9092")
   .option("topic", "josn_data_topic")
   .start()
   .awaitTermination()

## Spark GrpahFrame

GraphFrames es un paquete para Apache Spark que proporciona gráficos basados ​​en DataFrame. Proporciona API de alto nivel en Scala, Java y Python. Su objetivo es proporcionar tanto la funcionalidad de GraphX como la funcionalidad extendida aprovechando Spark DataFrames. Esta funcionalidad ampliada incluye búsqueda de motivos, serialización basada en DataFrame y consultas gráficas altamente expresivas.