In [2]:
import findspark
findspark.init()

from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("SparkInJupyter").getOrCreate()

23/09/23 11:54:08 WARN Utils: Your hostname, MacBook-Air-de-Ivan.local resolves to a loopback address: 127.0.0.1; using 192.168.0.2 instead (on interface en0)
23/09/23 11:54:08 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/23 11:54:09 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


# Spark Streaming

Spark Streaming es una extensión del núcleo de Spark API que permite el procesamiento de flujos de datos en tiempo real. Utiliza el modelo de programación de alto nivel de Spark para procesar datos, lo que facilita la creación de aplicaciones de procesamiento de datos en tiempo real. A través de este notebook, entenderemos los conceptos básicos de streaming, crearemos aplicaciones de streaming y aprenderemos a procesar datos en tiempo real con Spark.
    

## Conceptos Básicos de Streaming

Antes de sumergirnos en la creación de aplicaciones de streaming, es esencial comprender algunos conceptos clave:

- **DStream**: Es la abstracción básica en Spark Streaming. Representa un flujo continuo de datos y puede ser creado a partir de fuentes de streaming como Kafka, Flume, y más.
- **Transformaciones**: Son operaciones en DStreams que producen un nuevo DStream.
- **Acciones**: Estas operaciones generan un resultado a partir de un DStream y envían el resultado a un sistema externo.


## Creación de Aplicaciones de Streaming

Para crear una aplicación de streaming en Spark, necesitamos inicializar una `StreamingContext`. Esta es la entrada principal para cualquier funcionalidad de streaming. Una vez que la StreamingContext está configurada, podemos crear DStreams a partir de fuentes y definir transformaciones y acciones en ellos.


In [3]:
from pyspark.streaming import StreamingContext

# Creamos un StreamingContext con dos hilos de ejecución y un intervalo de batch de 1 segundo.
ssc = StreamingContext(spark.sparkContext, 1)




En el código anterior, hemos creado una instancia de `StreamingContext` con un intervalo de batch de 1 segundo. Esto significa que cada segundo, los datos entrantes se dividirán en batches para su procesamiento. El `spark.sparkContext` es el contexto actual de Spark, y el `1` indica el intervalo de batch en segundos.


DStream is deprecated as of Spark 3.4.0. Migrate to Structured Streaming.Lo que nos está diciendo es que el concepto de DStream (la abstracción principal en Spark Streaming) ha sido marcado como obsoleto (deprecated) a partir de la versión 3.4.0 de Spark.

Esto no significa que DStream haya sido eliminado inmediatamente, sino que en futuras versiones podría ser eliminado, o que no se le añadirán nuevas características o correcciones. La recomendación es que los usuarios migren a "Structured Streaming", que es la nueva y mejorada forma de manejar streaming en Spark.

¿Por qué este cambio?

"Structured Streaming" es una API de streaming construida sobre el proyecto Spark SQL, lo que significa que puedes usar operaciones de DataFrames y Datasets con datos en tiempo real. Es más poderoso, flexible y fácil de usar que el modelo basado en DStream. Además, ofrece garantías de procesamiento exactamente una vez y puede manejar flujos de datos de manera más eficiente.

Por lo tanto, si estás desarrollando nuevas aplicaciones de streaming o manteniendo aplicaciones existentes, es una buena idea considerar la transición a Structured Streaming para estar al día con las mejores prácticas y las características más recientes de Spark.

# Spark Streaming con Structured Streaming

Structured Streaming es una API de streaming escalable y tolerante a fallos construida sobre el proyecto Spark SQL. Esta API permite expresar operaciones de streaming usando el mismo modelo computacional que con operaciones batch sobre DataFrames estáticos. La ventaja es que Spark se encarga de ejecutar el streaming y garantizar que los datos sean procesados exactamente una vez, independientemente de los fallos que puedan ocurrir.



## Conceptos básicos de streaming

En Spark Streaming, los datos son procesados en micro-lotes. Cada micro-lote es un conjunto de datos que llega en un intervalo de tiempo específico. Estos micro-lotes son luego procesados por Spark para generar el resultado final.

Con Structured Streaming, la idea es similar, pero en lugar de trabajar con micro-lotes explícitamente, trabajamos con una abstracción llamada `DataStream`, que representa una secuencia infinita de datos.


In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("StructuredStreamingExample") \
    .getOrCreate()


23/09/23 13:22:14 WARN Utils: Your hostname, MacBook-Air-de-Ivan.local resolves to a loopback address: 127.0.0.1; using 192.168.0.2 instead (on interface en0)
23/09/23 13:22:14 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/23 13:22:15 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


## Creación de una fuente de streaming simple

Para empezar con Structured Streaming, primero necesitamos una fuente de datos en tiempo real. En este ejemplo, usaremos una fuente de datos en memoria para simular datos en tiempo real.


## Spark Streaming con Socket

Spark Streaming ofrece la capacidad de leer datos desde diferentes fuentes, una de las cuales es un socket TCP. Esto es útil para pruebas y demostraciones. En esta sección, configuraremos Spark Streaming para leer datos desde un socket TCP.


In [2]:
from pyspark.streaming import StreamingContext

# Definir el contexto de streaming con un intervalo de batch de 1 segundo
ssc = StreamingContext(spark.sparkContext, 1)

# Leer datos desde un socket TCP (por ejemplo, localhost en el puerto 9999)
stream = ssc.socketTextStream("localhost", 9999)




Hemos definido un `StreamingContext` con un intervalo de batch de 1 segundo. Esto significa que cada segundo, Spark Streaming recogerá datos enviados al socket y procesará esos datos como un micro-batch.

A continuación, necesitarás configurar una herramienta (como `nc`) para enviar datos al puerto 9999. Una vez que comiences a enviar datos, Spark Streaming comenzará a recibirlos y procesarlos en micro-batches.


Luego de configurar Spark Streaming en tu notebook, el siguiente paso es enviar datos al socket. Para hacerlo, puedes abrir un terminal y usar el siguiente comando (si tienes nc instalado): 
 echo "Hello Spark Streaming" | nc localhost 9999


## Procesamiento en Tiempo Real

Una vez que hemos establecido un flujo de datos utilizando Spark Streaming, podemos realizar operaciones en los datos a medida que llegan. Esta es una de las características más poderosas de Spark Streaming.


In [3]:
from pyspark.streaming import StreamingContext

# Definir el intervalo de batch: 1 segundo
ssc = StreamingContext(spark.sparkContext, 1)

# Crear un DStream que se conectará al localhost en el puerto 9999
lines = ssc.socketTextStream("localhost", 9999)


## Operaciones en el Stream

Al igual que con los RDDs y DataFrames, podemos realizar diversas operaciones en el stream. Por ejemplo, supongamos que queremos contar la cantidad de palabras en el flujo.


In [4]:
# Definir la función para contar palabras
def count_words(rdd):
    if rdd.isEmpty():
        return {}
    return rdd.flatMap(lambda line: line.split(" ")).countByValue()


# Usar la función en el stream
word_counts = lines.transform(count_words)

# Imprimir los resultados
word_counts.pprint()


Para ver la salida de pprint(), sigue estos pasos:

Asegúrate de que tu StreamingContext esté configurado para escuchar en el puerto correcto y que esté ejecutándose con ssc.start().
En una terminal, inicia nc para enviar datos al puerto que Spark Streaming está escuchando.
Envía algunas líneas de texto a través de nc.
Deberías ver la salida de pprint() en la consola o notebook donde estás ejecutando Spark Streaming después de cada intervalo de micro-batch.

In [5]:
# Iniciar el StreamingContext
ssc.start()

23/09/23 13:24:25 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.start(Re

23/09/23 13:25:49 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:27:13 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:28:37 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:30:00 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:31:24 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:32:48 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:34:12 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:35:36 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:37:00 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:38:24 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:39:47 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

23/09/23 13:41:11 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

## Iniciar el Streaming

Una vez definidas las operaciones en el stream, es necesario iniciar el StreamingContext. Una vez iniciado, Spark Streaming comenzará a procesar datos en tiempo real.


In [9]:
# Iniciar el StreamingContext
ssc.start()

# Esperar a que el streaming termine (en este caso, lo detendremos manualmente)
ssc.awaitTerminationOrTimeout(60)  # Esperar 60 segundos

# Detener el StreamingContext
ssc.stop(stopSparkContext=False)


23/09/23 13:44:15 WARN StreamingContext: StreamingContext has already been started
23/09/23 13:44:27 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSuperv

Exception in thread "receiver-supervisor-future-45" java.lang.Error: java.lang.InterruptedException: sleep interrupted
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1155)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.InterruptedException: sleep interrupted
	at java.lang.Thread.sleep(Native Method)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun$restartReceiver$1(ReceiverSupervisor.scala:196)
	at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23)
	at scala.concurrent.Future$.$anonfun$apply$1(Future.scala:659)
	at scala.util.Success.$anonfun$map$1(Try.scala:255)
	at scala.util.Success.map(Try.scala:213)
	at scala.concurrent.Future.$anonfun$map$1(Future.scala:292)
	at scala.concurrent.impl.Promise.liftedTree1$1(Promise.scala:33)
	at scala.concurrent.impl.Promise.$anonfun$transform$1(Promise.scala:33)
	at scala.concurre

**Nota:** Para ver los resultados en tiempo real, debes enviar datos al puerto 9999 usando `nc`. Puedes hacerlo abriendo un terminal y escribiendo `nc -lk 9999`. Luego, simplemente escribe mensajes y presiona Enter para enviarlos al stream.


## Caching y Persistencia en Streaming

Al igual que con los RDDs y DataFrames, Spark Streaming también ofrece capacidades para persistir DStreams en memoria o en disco. Esto puede ser útil para DStreams que serán computados múltiples veces. Utilizar caching y persistencia puede mejorar significativamente el rendimiento al reducir la recomputación de datos.


In [11]:
from pyspark.storagelevel import StorageLevel

# Persistir el DStream en memoria
lines.persist(StorageLevel.MEMORY_ONLY)



<pyspark.streaming.dstream.DStream at 0x114193b80>

En el código anterior, estamos persistiendo el DStream `lines` en memoria. La persistencia en memoria (MEMORY_ONLY) almacenará el DStream en la RAM sin serializar, lo que permite un acceso rápido. Si la memoria no es suficiente para almacenar todos los datos, algunos de ellos no serán cachéados y deberán ser recomputados a demanda. Si deseas que los datos sean serializados y luego almacenados, puedes usar `StorageLevel.MEMORY_ONLY_SER`.

Es importante recordar liberar la memoria después de que ya no necesites el DStream en cache. Puedes hacerlo usando el método `unpersist()` en el DStream.


In [None]:
# Liberar la memoria después de que no necesitemos más el DStream en cache
lines.unpersist()


Cachear y persistir DStreams es una técnica poderosa, especialmente cuando trabajas con operaciones que requieren acceder múltiples veces a los datos. Sin embargo, es crucial administrar correctamente la memoria y los recursos, y des-cachear los datos cuando ya no sean necesarios para asegurar un funcionamiento óptimo del sistema.


## Checkpointing

El checkpointing en Spark Streaming es una técnica para garantizar la tolerancia a fallos del sistema. Al almacenar el estado del sistema en un sistema de archivos distribuido, podemos recuperar y restaurar cualquier operación en caso de fallo, asegurando que no se pierda ningún dato.


In [None]:
# ssc.checkpoint("/path/to/checkpoint/directory")


## Integración con fuentes de datos externas

Spark Streaming ofrece integraciones con una variedad de fuentes de datos, como Kafka, Flume, Kinesis, entre otros.



In [None]:
#from pyspark.streaming.kafka import KafkaUtils

#kafkaStream = KafkaUtils.createStream(ssc, 'localhost:2181', 'spark-streaming', {'topic-name':1})


En el código anterior, estamos creando un stream desde un topic de Kafka. El stream leerá datos del topic 'topic-name'.


## Salida a sistemas externos

Spark Streaming permite escribir resultados en varios sistemas externos, como bases de datos, sistemas de archivos, entre otros.


In [8]:
# lines.saveAsTextFiles("/path/to/save/output")

23/09/23 13:43:59 WARN ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Operation timed out (Connection timed out)
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:350)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:607)
	at java.net.Socket.connect(Socket.java:556)
	at java.net.Socket.<init>(Socket.java:452)
	at java.net.Socket.<init>(Socket.java:229)
	at org.apache.spark.streaming.dstream.SocketReceiver.onStart(SocketInputDStream.scala:61)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.startReceiver(ReceiverSupervisor.scala:149)
	at org.apache.spark.streaming.receiver.ReceiverSupervisor.$anonfun

La función `saveAsTextFiles` guarda el DStream como archivos de texto. En este caso, los datos serán guardados en el directorio especificado.
