# Caso práctico con  Spark Streaming

En este notebook se utilizarán los datos de Kaggle de fraud detection. Queremos contar el número de transacciones que le llegan a un destinatario (nameDest) en streaming

#### Importación de datos

In [20]:
import findspark
findspark.init()

In [21]:
#%load_ext nb_black
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
import pyspark.sql.types as T

spark = SparkSession.builder.getOrCreate()

In [22]:
df = spark.read.csv("data/fraud_detection3.csv", 
                    header=True, 
                    inferSchema=True)

In [23]:
df.columns

['step',
 'type',
 'amount',
 'nameOrig',
 'oldbalanceOrg',
 'newbalanceOrig',
 'nameDest',
 'oldbalanceDest',
 'newbalanceDest',
 'isFraud',
 'isFlaggedFraud']

In [24]:
df = df.drop("isFraud", "isFlaggedFraud")

In [25]:
df.show(2)

+----+-------+-------+-----------+-------------+--------------+-----------+--------------+--------------+
|step|   type| amount|   nameOrig|oldbalanceOrg|newbalanceOrig|   nameDest|oldbalanceDest|newbalanceDest|
+----+-------+-------+-----------+-------------+--------------+-----------+--------------+--------------+
| 283|  DEBIT|9355.81|C1798695545|          0.0|           0.0|C1925869204|     297797.03|     307152.84|
|  47|PAYMENT|6248.72| C877314987|      29926.0|      23677.28| M415159356|           0.0|           0.0|
+----+-------+-------+-----------+-------------+--------------+-----------+--------------+--------------+
only showing top 2 rows



#### Obtención secuencial de los datos

Step mapea una unidad de tiempo, en este caso, 1 step es 1 hora de tiempo. En un caso real tendriamos un proceso que se ejecuta cada hora y obtendria todas las transacciones cada hora.

In [26]:
df.groupBy("step").count().show(10)

+----+-----+
|step|count|
+----+-----+
| 471|  137|
| 496|   40|
| 540|  269|
| 516|    1|
| 251| 1747|
| 137| 1609|
| 451|  239|
| 580|    3|
|  65|    2|
| 458|   30|
+----+-----+
only showing top 10 rows



Por lo tanto, podemos guardar el resultado de ese trabajo filtrando en cada step y guardándolo en un archivo separado.

In [27]:
%%time
steps = df.select("step").distinct().collect()

for step in steps[:]:
    _df = df.where(f"step = {step[0]}")
    #by adding coalesce(1) we save the dataframe to one file
    _df.coalesce(1).write.mode("append").option("header", "true").csv("data/fraud")

Wall time: 5min 53s


In [28]:
!cd data/fraud 

In [29]:
part = spark.read.csv(
    "data/fraud/part-00000-0d539039-d7c3-4827-98dd-6deff5a50b13-c000.csv",
    header=True,
    inferSchema=True,
)

In [30]:
part.groupBy("step").count().show()

+----+-----+
|step|count|
+----+-----+
| 562|    1|
+----+-----+



#### Procesamiento en Streaming

Creemos una versión de transmisión de esta entrada, leeremos cada archivo uno por uno como si fuera un proceso en streaming.

In [31]:
dataSchema = part.schema

In [32]:
dataSchema

StructType(List(StructField(step,IntegerType,true),StructField(type,StringType,true),StructField(amount,DoubleType,true),StructField(nameOrig,StringType,true),StructField(oldbalanceOrg,DoubleType,true),StructField(newbalanceOrig,DoubleType,true),StructField(nameDest,StringType,true),StructField(oldbalanceDest,DoubleType,true),StructField(newbalanceDest,DoubleType,true)))

**maxFilesPerTrigger**  permite controlar la rapidez con la que Spark leerá todos los archivos de la carpeta.
En este ejemplo, estamos limitando el flujo de la transmisión a un archivo por disparador.

In [33]:
streaming = (
    spark.readStream.schema(dataSchema)
    .option("maxFilesPerTrigger", 1)
    .csv("data/fraud/")
)

Establezcamos una transformación.La columna nameDest es el ID del destinatario de la transacción.

In [15]:
dest_count = streaming.groupBy("nameDest").count().orderBy(F.desc("count"))

Ahora que tenemos nuestra transformación, necesitamos especificar un output de salida para los resultados. Para este ejemplo, vamos a escribir los resultados en memoria.

También necesitamos definir cómo Spark generará esos datos. En este ejemplo, usaremos el modo de salida completo (reescribiendo todos los datos junto con sus recuentos después de cada disparo) con **.outputMode("complete")**.

En este ejemplo, no incluiremos **activityQuery.awaitTermination()** porque es necesario solo para evitar que el proceso del controlador finalice cuando la transmisión está activa. Entonces, para poder ejecutar esto localmente en un portátil, no lo incluiremos.

In [34]:
%%time

activityQuery = (
    dest_count.writeStream.queryName("dest_counts")
    .format("memory")
    .outputMode("complete")
    .start()
)

# include this in production
# activityQuery.awaitTermination()

import time

for x in range(100):
    _df = spark.sql(
        "SELECT * FROM dest_counts WHERE nameDest != 'nameDest' AND count >= 2"
    )
    if _df.count() > 0:
        _df.show(10)
    time.sleep(0.5)

+----------+-----+
|  nameDest|count|
+----------+-----+
|C266174339|    2|
+----------+-----+

+----------+-----+
|  nameDest|count|
+----------+-----+
|C266174339|    2|
+----------+-----+

+----------+-----+
|  nameDest|count|
+----------+-----+
|C266174339|    2|
+----------+-----+

+----------+-----+
|  nameDest|count|
+----------+-----+
|C266174339|    2|
+----------+-----+

+----------+-----+
|  nameDest|count|
+----------+-----+
|C266174339|    2|
+----------+-----+

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C403846118|    2|
| C473371333|    2|
| C340036864|    2|
|   C1179981|    2|
|C1941941620|    2|
|C1953696604|    2|
| C807257712|    2|
| C266174339|    2|
|C2017204404|    2|
+-----------+-----+

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C403846118|    2|
| C473371333|    2|
| C340036864|    2|
|   C1179981|    2|
|C1941941620|    2|
|C1953696604|    2|
| C807257712|    2|
| C266174339|    2|
|C2017204404|    2|
+-----------+-----+

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C403846118|    2|
| C473371333|    2|
| C962427695|    2|
|C1501179624|    2|
|C2045072485|    2|
| C413534374|    2|
| C340036864|    2|
| C492910692|    2|
|C1332740799|    2|
|   C1179981|    2|
+-----------+-----+
only showing top 10 rows

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C403846118|    2|
| C473371333|    2|
| C962427695|    2|
|C1501179624|    2|
|C2045072485|    2|
| C413534374|    2|
| C340036864|    2|
| C492910692|    2|
|C1332740799|    2|
|   C1179981|    2|
+-----------+-----+
only showing top 10 rows

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C403846118|    2|
| C473371333|    2|
| C962427695|    2|
|C1501179624|    2|
|C2045072485|    2|
| C413534374|    2|
| C340036864|    2|
| C492910692|    2|
|C1332740799|    2|
|   C1179981|    2|
+-----------+-----+
only showing top 10 rows

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C403846118|    2|
| 

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C554880478|    2|
| C762626725|    2|
|C1158112060|    2|
|C1937763710|    2|
| C321636010|    2|
| C403846118|    2|
| C884358961|    2|
| C473371333|    2|
| C418059707|    2|
|C1647436417|    2|
+-----------+-----+
only showing top 10 rows

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C554880478|    2|
| C762626725|    2|
|C1158112060|    2|
|C1937763710|    2|
| C321636010|    2|
| C403846118|    2|
| C884358961|    2|
| C473371333|    2|
| C418059707|    2|
|C1647436417|    2|
+-----------+-----+
only showing top 10 rows

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C554880478|    2|
| C762626725|    2|
|C1158112060|    2|
|C1937763710|    2|
| C321636010|    2|
| C403846118|    2|
| C884358961|    2|
| C473371333|    2|
| C418059707|    2|
|C1647436417|    2|
+-----------+-----+
only showing top 10 rows

+-----------+-----+
|   nameDest|count|
+-----------+-----+
| C554880478|    2|
| 

Comprueba si la transmisión está activa

In [35]:
spark.streams.active[0].isActive

True

In [36]:
activityQuery.status

{'message': 'Getting offsets from FileStreamSource[file:/C:/LuisAlex/CURSO_BigData/Practica_Uso_Jupyter/streaming/data/fraud]',
 'isDataAvailable': True,
 'isTriggerActive': True}

Si queremos desactivar la transmisión, ejecutaremos activityQuery.stop () para restablecer la consulta con fines de prueba.

In [19]:
activityQuery.stop()