# Incremental Processing with Structured Streaming

##Streaming Data Concepts

<div style="background-color: lightblue; padding: 10px; border-radius: 5px;">

**¿Qué son los datos en flujo?**

Datos ilimitados generados continuamente

**Fuentes de datos típicas**

1. Fuentes de datos de cambios en la base de datos
2. Flujos de clics
3. Registros de máquinas y aplicaciones
4. Eventos de aplicación
5. Datos móviles y de IoT

***La gran mayoría de los datos del mundo son datos en streaming.***

</div>


**Notas:**

Los datos en flujo o streaming data son un tipo de datos generados de forma continua y sin límite, típicamente en pequeñas cantidades, que son procesados en tiempo real o casi en tiempo real. Estos datos provienen de diversas fuentes y suelen reflejar eventos que ocurren en sistemas, aplicaciones o dispositivos. Los datos en flujo son fundamentales en muchos escenarios donde la información debe ser procesada o monitoreada de manera inmediata.

**Características clave de los datos en flujo:**

- Generación continua: Los datos no se producen en bloques predefinidos, sino que son generados y transmitidos de forma constante.
- Bajo volumen por evento: Cada evento individual generalmente contiene pocos datos, pero el flujo continuo de eventos puede resultar en un gran volumen con el tiempo.
- Procesamiento en tiempo real: Los datos deben ser procesados de inmediato, sin esperar a que se almacenen en una base de datos tradicional.

**Fuentes típicas de datos en flujo:**

- **DB change data feeds:** Cambios en bases de datos que se envían en tiempo real, por ejemplo, modificaciones de registros.
- **Clickstreams:** Datos generados por los clics de los usuarios en sitios web o aplicaciones, permitiendo el análisis de navegación en tiempo real.
- **Logs de máquinas y aplicaciones:** Información continua generada por sistemas informáticos, aplicaciones o dispositivos de hardware que registran eventos de sistema.
- **Eventos de aplicaciones:** Eventos generados por aplicaciones que requieren ser monitoreados o respondidos rápidamente, como alertas de sistemas.
- **Datos de dispositivos móviles e IoT:** Sensores, dispositivos conectados y aplicaciones móviles que generan datos constantemente, que pueden abarcar desde lecturas de sensores hasta actualizaciones de posición GPS.

**Importancia:**

Los datos en flujo representan una gran parte del volumen de datos generado en el mundo moderno, ya que muchas aplicaciones actuales dependen de la capacidad de procesar información en tiempo real, como en sistemas financieros, control de dispositivos IoT, monitoreo de aplicaciones web y análisis de comportamiento de usuarios en línea.

Estos datos requieren tecnologías y plataformas especializadas para su procesamiento, como **Apache Kafka, Amazon Kinesis, Azure Event Hubs**, y otras herramientas diseñadas para soportar la ingesta y procesamiento de eventos a gran escala.

<div style="display: flex; background-color: lightblue; padding: 10px; border-radius: 5px;">

**¿Qué es el procesamiento de flujos?**

  <div style="flex: 50%; padding: 10px;">

  El tratamiento tradicional de datos por lotes es puntual y limitado.

  </div>

  <div style="flex: 50%; padding: 10px;">

  El procesamiento en flujo es continuo e ilimitado

  </div>

</div>


<div style="background-color: lightblue; padding: 10px; border-radius: 5px;">

**Procesamiento de Stream**

¿Por qué se está popularizando el procesamiento de flujos?

- **Velocidad y volumen de los datos:** El aumento de la velocidad y el volumen de los datos requiere un procesamiento continuo e incremental - no se pueden procesar todos los datos en un lote programado

- **Análisis en tiempo real:** Las empresas exigen acceso a datos nuevos para obtener información práctica y tomar mejores decisiones empresariales con mayor rapidez.

- **Aplicaciones operativas:** Las aplicaciones críticas necesitan datos en tiempo real para una respuesta eficaz e instantánea.

***La gran mayoría de los datos del mundo son datos en flujo.***

</div>

Casos prácticos de procesamiento de flujos

El procesamiento de flujos es un componente clave de las aplicaciones de big data en todas las industrias

1. Notificaciones
2. Informes en tiempo real
3. ETL incremental
4. Actualización de datos para servir en tiempo real
5. Toma de decisiones en tiempo real
6. ML en línea

**Notas:**

Los casos prácticos de procesamiento de flujos son esenciales para aplicaciones de big data, ya que permiten el manejo de grandes volúmenes de datos que se generan en tiempo real. Aquí tienes una explicación más detallada de cada caso:

1. **Notificaciones:**

  - **Ejemplo:** Plataformas como las redes sociales o aplicaciones de mensajería envían notificaciones cuando los usuarios realizan ciertas acciones (nuevos mensajes, comentarios, etc.).

  - **Requisito de flujo:** Detectar eventos en tiempo real para desencadenar notificaciones instantáneas.

2. **Informes en tiempo real:**

  - **Ejemplo:** Dashboards que muestran métricas clave de rendimiento en tiempo real (como Google Analytics o herramientas de monitoreo de sistemas).

  - **Requisito de flujo:** Procesar y mostrar datos a medida que son generados, sin demoras, para proporcionar visibilidad continua.

3. **ETL incremental:**

  - **Ejemplo:** Actualización continua de datos en un almacén de datos, donde solo se procesan y cargan los datos nuevos o modificados, optimizando recursos y tiempo.

  - **Requisito de flujo:** Transformar y cargar datos de manera eficiente a medida que se reciben, en lugar de realizar cargas completas.

4. **Actualización de datos para servir en tiempo real:**

  - **Ejemplo:** Servicios como motores de recomendación (Netflix, Amazon) que actualizan los datos de usuarios y recomendaciones con cada nueva interacción.
  - **Requisito de flujo:** Los modelos de datos o bases de datos deben ser actualizados con las interacciones en tiempo real para mejorar la experiencia del usuario.

5. **Toma de decisiones en tiempo real:**

  - **Ejemplo:** Algoritmos de detección de fraude en sistemas financieros que deben analizar transacciones y detectar comportamientos anómalos en cuestión de milisegundos.
  - **Requisito de flujo:** Procesamiento inmediato de datos para actuar ante situaciones críticas, como bloquear transacciones sospechosas.

6. **ML en línea:**

  - **Ejemplo:** Aplicaciones de aprendizaje automático que se actualizan de forma continua con nuevos datos, mejorando sus predicciones de manera incremental (publicidad personalizada, precios dinámicos, etc.).
  - **Requisito de flujo:** Procesar y alimentar los modelos con datos nuevos sin necesidad de volver a entrenar el modelo desde cero.


Cada uno de estos casos utiliza herramientas de procesamiento de flujos como **Apache Kafka, Apache Flink, Spark Streaming o Databricks Structured Streaming**, que permiten manejar el flujo continuo de datos y tomar decisiones basadas en los eventos que ocurren.

<div style="display: flex; background-color: lightblue; padding: 10px; border-radius: 5px;">

**Conjunto de datos delimitado frente a conjunto de datos no delimitado**

  <div style="flex: 50%; padding: 10px;">

  **Datos limitados**

  - Tiene una estructura finita e invariable en el momento del procesamiento
  - El orden es estático
  - **Analogía:** Vehículos en un aparcamiento.

  </div>

  <div style="flex: 50%; padding: 10px;">

  **Datos no limitados**

  - Tiene una estructura infinita y continuamente cambiante en el momento del procesamiento.
  - El orden no siempre es secuencial.
  - **Analogía:** Vehículos en una autopista

  </div>

</div>

**Notas**

En el contexto del procesamiento de datos, los términos "bounded" y "unbounded" se refieren a los tipos de conjuntos de datos con los que se trabaja, y estos conceptos son clave en la elección de enfoques y herramientas de procesamiento de datos. A continuación, te explico ambos:

###**Bounded Dataset (Conjunto de Datos Acotado):**

**Definición:** Un conjunto de datos es considerado "bounded" si tiene un tamaño finito y limitado. Es decir, todos los datos ya están disponibles desde el principio, o al menos se sabe cuándo se completa la llegada de los datos.

**Ejemplo:**
- Una tabla de una base de datos relacional donde todos los registros ya están presentes.
- Un archivo CSV que contiene un número finito de registros.
- Un lote de transacciones históricas de ventas en un archivo.

**Uso:** Este tipo de conjunto de datos se maneja en procesamiento por lotes (batch processing), ya que no se espera que los datos cambien después de que se inicie el procesamiento.

**Herramientas comunes:** Apache Hadoop, Apache Spark (batch mode), SQL tradicional.

###**Unbounded Dataset (Conjunto de Datos No Acotado):**

**Definición:** Un conjunto de datos es considerado "unbounded" si se trata de un flujo continuo de datos sin un final conocido. Los datos se generan de manera continua y teóricamente infinita, lo que requiere procesamiento en tiempo real o cercano al tiempo real.

**Ejemplo:**
- Datos generados por sensores IoT en tiempo real.
- Transacciones financieras o clics en sitios web que se registran de manera constante.
- Flujos de logs de servidores web o sistemas de monitoreo de red.

**Uso:** Este tipo de conjunto de datos se maneja mediante procesamiento de flujos (stream processing), donde los datos se procesan a medida que llegan, en lugar de esperar a que se complete un lote.

**Herramientas comunes:** Apache Kafka, Apache Flink, Spark Streaming, Databricks Structured Streaming.

###**Diferencias clave:**

| **Característica**  | **Bounded Dataset**  | **Unbounded Dataset**  |
|---------------------|----------------------|------------------------|
| **Tamaño**          | Finito               | Infinito (flujo continuo) |
| **Procesamiento**    | Procesamiento por lotes (batch) | Procesamiento de flujo (streaming) |
| **Finalización**     | Conocido, procesamiento tiene un fin | Desconocido, datos siguen llegando |
| **Latencia**         | Típicamente alta (el procesamiento ocurre al completar el lote) | Baja, el procesamiento es inmediato |
| **Casos de uso**     | Informes históricos, procesamiento de grandes archivos o bases de datos | Monitorización en tiempo real, toma de decisiones instantánea |


###**Ejemplos de aplicación:**

**Bounded Dataset:** Cuando realizas análisis sobre todos los datos históricos de una empresa, ya que puedes cargar todo el conjunto de datos a la vez y ejecutar consultas o transformaciones.

**Unbounded Dataset:** Cuando se realiza el monitoreo de eventos de una red de servidores, donde las alertas deben dispararse en tiempo real ante fallos o actividades anómalas.