# Spark Structured Streaming

Es un módulo de Apache Spark diseñado para procesar flujos de datos en tiempo real de manera escalable, tolerante a fallos y con un enfoque de alta abstracción. Trata los datos en tiempo real como si fueran una tabla continua en constante crecimiento. Puedes usar operaciones familiares como consultas SQL o transformaciones tipo DataFrame para procesar estos flujos, igual que con datos estáticos.

## Caracteristicas

### API simple y familiar:

- Usa las mismas API que Spark SQL y DataFrames, lo que simplifica mucho la curva de aprendizaje.
- Ejemplo: Puedes filtrar, agrupar o transformar datos en tiempo real como si fueran tablas.
### Tolerancia a fallos:

- Garantiza que los datos se procesen exactamente una vez, incluso si ocurre un fallo en el sistema.
### Procesamiento incremental:

- Solo procesa los datos nuevos que han llegado desde la última operación, optimizando el rendimiento.
### Soporte para fuentes y sinks populares:

- Fuentes (entrada): Kafka, sockets, directorios de archivos, Kinesis, etc.
- Sinks (salida): Consola, archivos, Kafka, bases de datos, etc.

## Funcionamiento:

1. **Fuentes de datos en streaming:**  
Los datos fluyen desde una fuente (como Kafka o un socket) hacia Spark en forma de eventos o registros.

2. **Procesamiento continuo:**  
Los datos se procesan en micro-batches (por defecto) o mediante un procesamiento completamente continuo (modo experimental).

3. **Escritura en un destino:**  
Después de procesar los datos, los resultados se envían a un destino (como una base de datos o un sistema de archivos).

## Estructura general

In [None]:
# Importación de libreria

from pyspark.sql import SparkSession
from pyspark.sql.functions import * 

# crear contexto
spark = SparkSession.builder \
    .appName("MiAplicacionStreaming") \
    .getOrCreate()

# Definir la fuente de datos
df = spark.readStream \
    .format("socket") \
    .option("host", "localhost") \
    .option("port", 9999) \
    .load()

# Mostrar los datos leídos en esta etapa podemos guardar los datos ( en general desidimos que hacer con ellos )
df.select("value").writeStream \
    .format("console") \
    .start() \
    .awaitTermination()