# PEC2 – Infr. Big Data – Ejercicio 2 - Spark Streaming

## Tratamiento de datos en streaming
Aquí podéis incluir las sentencias de importación de paquetes e inicialización que necesitéis

In [7]:
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pathToUri import toUri

In [8]:
def update_func(new_val, last_sum):
    return sum(new_val) + (last_sum or 0)

def transforma_a_segundos(dias=None, horas=None):
    if dias != None:
        return dias * 24 * 60 * 60
    if horas != None:
        return  horas * 60 * 60
    else: 
        pass

### Saber en tiempo real cuantas veces pasa un vehículo por cada punto del sistema desde el día que se pone en marcha el mecanismo.  
Incluir las celdas con las respuestas a continuación

In [12]:
sc = SparkContext('local[*]', appName="ejercicio2")
ssc = StreamingContext(sc, 5)

In [13]:
# To maintain status info we need to use checkpoints.
checkpointDir = toUri('/tmp/spark') 
ssc.checkpoint(checkpointDir)  # create dir for checkpoint archives

lines = ssc.socketTextStream("localhost", 9876)
counts = lines.map(lambda line: (line, 1))\
              .updateStateByKey(update_func)

counts.pprint()

In [14]:
ssc.start()

-------------------------------------------
Time: 2021-05-06 11:51:05
-------------------------------------------

-------------------------------------------
Time: 2021-05-06 11:51:10
-------------------------------------------
('1234AAA A7-KM-15', 1)
('1234EEE A7-KM-30', 1)

-------------------------------------------
Time: 2021-05-06 11:51:15
-------------------------------------------
('1234AAA A7-KM-15', 1)
('1234EEE A7-KM-30', 2)
('1234AAA A7-KM-50', 1)
('1234AAA A7-KM-01', 1)
('1234UUU A7-KM-30', 1)



In [15]:
ssc.stop()
sc.stop()

-------------------------------------------
Time: 2021-05-06 11:51:20
-------------------------------------------
('1234AAA A7-KM-15', 2)
('1234EEE A7-KM-30', 2)
('1234AAA A7-KM-50', 1)
('1234UUU A7-KM-50', 1)
('1234EEE A7-KM-15', 1)
('1234AAA A7-KM-01', 1)
('1234UUU A7-KM-30', 1)
('1234EEE A7-KM-01', 1)



Esta app captura matricula y punto en un mismo string; así puedes saber cuando cada matricula pasa por cada punto del sistema y cuantas veces pasa por el mismo punto.

### Saber en tiempo real cuántas veces pasa un vehículo por un determinado punto, pero solo teniendo en cuenta los últimos 7 días de información.
Incluir las celdas con las respuestas a continuación

In [16]:
sc = SparkContext('local[*]', appName="ejercicio2")
ssc = StreamingContext(sc, 10)

In [17]:
segs = transforma_a_segundos(dias=7)

In [18]:
ssc.checkpoint(checkpointDir)
lines = ssc.socketTextStream("localhost", 9876)
counts = lines.map(lambda line:(line, 1))\
              .window(segs, 10)\
              .updateStateByKey(update_func)
counts.pprint()

In [19]:
ssc.start()

-------------------------------------------
Time: 2021-05-06 11:51:40
-------------------------------------------
('1234UUU A7-KM-15', 1)
('1234EEE A7-KM-01', 1)

-------------------------------------------
Time: 2021-05-06 11:51:50
-------------------------------------------
('1234UUU A7-KM-01', 2)
('1234EEE A7-KM-30', 1)
('1234UUU A7-KM-15', 3)
('1234EEE A7-KM-01', 2)
('1234UUU A7-KM-30', 1)
('1234AAA A7-KM-01', 2)



In [20]:
ssc.stop()
sc.stop()

Crea un nuevo DStream que se computa basándose en la ventana que le hemos dado (7 días).

### Elige una de las matrículas que se genera y realiza una vigilancia de este vehículo, queremos saber cuantas veces a sido detectado en cada punto de control durante la última hora.  
Incluir las celdas con las respuestas a continuación

In [21]:
sc = SparkContext('local[*]',appName="ejercicio2")
ssc = StreamingContext(sc, 5)

In [22]:
segs = transforma_a_segundos(horas=1)

In [23]:
checkpointDir = toUri('/tmp/spark') 
ssc.checkpoint(checkpointDir)
lines = ssc.socketTextStream("localhost", 9876)
counts = lines.map(lambda line:(line, 1))\
              .filter(lambda line: line[0].startswith('1234AAA'))\
              .window(segs, 10)\
              .updateStateByKey(update_func)
counts.pprint()

In [24]:
ssc.start()

-------------------------------------------
Time: 2021-05-06 11:52:10
-------------------------------------------

-------------------------------------------
Time: 2021-05-06 11:52:20
-------------------------------------------

-------------------------------------------
Time: 2021-05-06 11:52:30
-------------------------------------------
('1234AAA A7-KM-50', 1)
('1234AAA A7-KM-15', 1)
('1234AAA A7-KM-01', 1)



In [25]:
ssc.stop()
sc.stop()

Esta app filtra solo las matriculas '1234AAA' accediendo al primer termino de la tupla ('matricula + km', numero). Con la ventana cogemos solo los datos de la última hora.