# ApacheSpark - Introducción a Streaming

<p><strong>Objetivo: </strong> El objetivo de este cuaderno es utilizar la API de Dataframe para crear un ejemplo de uso de streaming estructurado:</p>

##Datos de ejemplos

Para este ejercicio se van a utilizar algunos datos de muestra que se encuentran como archivos en /databricks-datasets/structure-stream/events/ y se van a utilizar para construir esta aplicación. Vamos a visualizar el contenido de este directorio:

In [0]:
%fs ls /databricks-datasets/structured-streaming/events

path,name,size
dbfs:/databricks-datasets/structured-streaming/events/file-0.json,file-0.json,72530
dbfs:/databricks-datasets/structured-streaming/events/file-1.json,file-1.json,72961
dbfs:/databricks-datasets/structured-streaming/events/file-10.json,file-10.json,73025
dbfs:/databricks-datasets/structured-streaming/events/file-11.json,file-11.json,72999
dbfs:/databricks-datasets/structured-streaming/events/file-12.json,file-12.json,72987
dbfs:/databricks-datasets/structured-streaming/events/file-13.json,file-13.json,73006
dbfs:/databricks-datasets/structured-streaming/events/file-14.json,file-14.json,73003
dbfs:/databricks-datasets/structured-streaming/events/file-15.json,file-15.json,73007
dbfs:/databricks-datasets/structured-streaming/events/file-16.json,file-16.json,72978
dbfs:/databricks-datasets/structured-streaming/events/file-17.json,file-17.json,73008


Hay alrededor de 50 archivos JSON en el directorio. Veamos qué contiene cada archivo JSON.

In [0]:
%fs head /databricks-datasets/structured-streaming/events/file-0.json

Cada línea del archivo contiene un registro JSON con dos campos: tiempo y acción. Intentemos analizar estos archivos de forma interactiva.

##Configurar el stream

Dado que los datos de muestra son solo un conjunto estático de archivos, se puede emular un flujo de ellos leyendo un archivo a la vez, en el orden cronológico en el que fueron creados:

In [0]:
from pyspark.sql.types import *
from pyspark.sql.functions import *

inputPath = "/databricks-datasets/structured-streaming/events/"

# Definimos el esquema para acelerar el procesamiento. Son dos campos, uno de Tiempo y otro String
jsonSchema = StructType([ StructField("time", TimestampType(), True), StructField("action", StringType(), True) ])

# Configuramos la entrada
streamingInputDF = (
  spark
    .readStream
    .schema(jsonSchema)               # Asigna el esquema a los datos JSON que se van a cargar
    .option("maxFilesPerTrigger", 1)  # Va a procesar un fichero a la vez
    .json(inputPath)
)

# Calcula el número de acciones de "Open" y "Close" con ventanas de una hora
streamingCountsDF = (
  streamingInputDF
    .groupBy(
      streamingInputDF.action,
      window(streamingInputDF.time, "1 hour"))
    .count()
)

# Validar si streamingCountsDF es un Streaming Dataframe?
streamingCountsDF.isStreaming

Out[1]: True

Como puede ver, streamingCountsDF es un Dataframe de streaming (streamingCountsDF.isStreaming era TRUE). Se puede comenzar a transmitir el cálculo definiendo el sumidero e iniciarlo. Se quiere consultar los recuentos de forma interactiva, por lo que va a configurar el conjunto completo de recuentos de 1 hora para que esté en una tabla en memoria.

##Inicializar el flujo de streaming

Para comenzar un cálculo de streaming, se debe definir un sumidero(destino) e iniciarlo. En nuestro caso, para consultar los recuentos de forma interactiva, se configura el conjunto completo de recuentos de 1 hora para que esté en una tabla en memoria. <b>Query</b> es un identificador para la consulta de streaming denominada <b>counts</b> que se ejecuta en segundo plano. Esta consulta recoge archivos continuamente (los archivos JSON) y actualiza los recuentos en una tabla de salida en memoria.

In [0]:
query = (
  streamingCountsDF
    .writeStream
    .format("memory")        # memory = store in-memory table (for testing only)
    .queryName("counts")     # counts = name of the in-memory table
    .outputMode("complete")  # complete = all the counts should be in the table
    .start()
)

Cuando expande <b>counts</b>, se obtiene un tablero de la cantidad de registros procesados, estadísticas de lotes y el estado de la agregación:
<p><b>Input Rate and Processing Rate:</b> La tasa de entrada muestra la cantidad de datos que fluyen hacia el flujo de datos estructurado desde un sistema como Kafka, Twitter o datos de origen. La tasa de procesamiento es la rapidez con la que pudimos analizar estos datos.</p>

<p><b>Batch Duration:</b> Streaming estructurado logra ambas opciones, baja latencia y alto rendimiento. Verá que oscila a medida que Structured Streaming procesa un número variable de eventos a lo largo del tiempo. La duración de nuestro lote oscila constantemente alrededor de tres segundos porque usamos el clúster de un solo núcleo en Community Edition. El clúster más grande tendrá tasas de procesamiento mucho más rápidas y una duración de lote más corta.</p>

<p><b>Aggregation State:</b> La ventana de tiempo de evento es de 1 hora, por lo que los valores agregados se mantienen para cada 1 hora. El modo de salida utilizado es "completo" que no elimina el estado de agregación anterior porque este modo conserva todos los datos en la tabla de resultados.</p>

##Consultar el streaming de forma interactiva

Se puede consultar periódicamente la agregación de recuentos y ver cómo van aumentando a medida que el streaming lee más archivos. Los resultados de la consulta cambian cada vez que se ejecuta para reflejar el recuento de acciones según el flujo de datos de entrada. Se utiliza lenguaje SQL:

Ejecute esta consulta, espere 6 segundos y ejecute la misma consulta que se encuentra en la próxima línea, para ver los resultados:

In [0]:
%sql select action, date_format(window.end, "MMM-dd HH:mm") as time, count from counts order by time, action

action,time,count
Close,Jul-26 03:00,11
Open,Jul-26 03:00,179
Close,Jul-26 04:00,344
Open,Jul-26 04:00,1001
Close,Jul-26 05:00,815
Open,Jul-26 05:00,999
Close,Jul-26 06:00,323
Open,Jul-26 06:00,328


Como los gráficos no se ven cuando se exporta el archivo, les pongo una imagen del ejemplo anterior. Que pueden obtener configurando el botón de gráficos.

<img src="https://www.dropbox.com/s/8ouizo7rjbpp6yd/Image5.PNG?dl=1" width="600" align="center" />

Esta es la misma consulta pero se debe ejecutar unos segundos despues para evidenciar la diferencia del procesamiento en streaming, más datos van llegando a la consulta:

In [0]:
%sql select action, date_format(window.end, "MMM-dd HH:mm") as time, count from counts order by time, action

action,time,count
Close,Jul-26 03:00,11
Open,Jul-26 03:00,179
Close,Jul-26 04:00,344
Open,Jul-26 04:00,1001
Close,Jul-26 05:00,815
Open,Jul-26 05:00,999
Close,Jul-26 06:00,1003
Open,Jul-26 06:00,1000
Close,Jul-26 07:00,328
Open,Jul-26 07:00,320


<img src="https://www.dropbox.com/s/sk9xp2abk50b0uq/Image6.PNG?dl=1" width="600" align="center" />

Tambien se puede visualizar el número total de "Open" y "Clouse".

In [0]:
%sql select action, sum(count) as total_count from counts group by action order by action

action,total_count
Close,3498
Open,4502


Repito la consulta para que la ejecuten unos segundo despues y vean la difencia:

In [0]:
%sql select action, sum(count) as total_count from counts group by action order by action

action,total_count
Close,7511
Open,8489


## Detener el streaming

Finalmente se pueden parar la consulta con el siguiente código:

In [0]:
query.stop()