# Clase - Computación Distribuida

## Pyspark Streaming Hands-on 
#### Marcelo Medel Vergara - Diplomado Data Engineer USACH


### Input Sources

Structured Streaming nos permite recibir datos desde distintas fuentes de datos:

- Apache Kafka 0.10 - https://kafka.apache.org/ 
- Archivos en un sistema de archivos distribuidos 
    - HDFS - https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html 
    - Amazon - S3 https://aws.amazon.com/es/s3/ 
- Socket local para propósitos de testing - https://docs.python.org/3/library/socket.html 

### Sinks 

Un sink determina dónde y cómo se almacenan los resultados del procesamiento de streaming

- **File Sink**: útil para escribir los resultados del procesamiento en archivos (CSV, Parquet, JSON).

- **Console Sink**: Los resultados del procesamiento se imprimen en la consola de salida de PySpark.

- **Kafka Sink**: Se puede enviar los resultados del procesamiento a Kafka.

- **JDBC Sink**: Puede escribir los datos en una tabla de una base de datos compatible con JDBC.



In [1]:
import findspark
findspark.find()

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("streaming").getOrCreate()

spark.active()

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/08/26 21:56:20 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


### Output modes

- **Complete mode**:
    - Envía todo el resultado calculado al destino.
    - Útil para datos de estado que cambian con el tiempo.
    - Útil cuando el destino no admite actualizaciones a nivel de fila.
- **Update mode**:
    - Envía solo las filas que difieren de la última escritura al destino.
    - Destino debe admitir actualizaciones a nivel de fila.
    - Si la consulta no contiene agregaciones, es equivalente al modo de *append*
- **Append mode**:
    - Nuevas filas se envían al destino especificado
    - Garantiza que cada fila se envíe una vez y solo una vez
    - Destino debe ser tolerante a fallos

### Triggers

Los triggers en Spark Structured Streaming controlan cuándo se envía la data al destino. Por defecto, el streaming comienza a procesar datos tan pronto como el trigger anterior termina. Los triggers son útiles para evitar sobrecargar el destino con demasiadas actualizaciones o para controlar el tamaño de los archivos de salida. Existen dos tipos de triggers:

- **Processing Time Trigger**: Se especifica una duración (ej: “10 segundos”) y Spark esperará múltiplos de esa duración para enviar los datos. Si el procesamiento no termina antes del siguiente *trigger*, Spark esperará al siguiente punto en lugar de disparar inmediatamente.
- **Once Trigger**: Permite ejecutar un trabajo de streaming solo una vez. Es útil tanto en desarrollo (para probar aplicaciones con un solo conjunto de datos) como en producción (para ejecutar trabajos manualmente a una baja frecuencia, ahorrando recursos).


## Streaming from socket

Usar este código para simular envío de mensajes a través de un socket --> https://github.com/MarceloMedel/SPARK-DE-USACH/blob/main/streaming_file.ipynb


In [27]:
import findspark
findspark.find()

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("streaming-socket").getOrCreate()

spark.active()