# MAPA

### Conexión

Volvemos a generar una conexió y un stream.

In [0]:
# Extraemos los datos del flujo de datos.
vuelos = spark \
    .readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "127.0.0.1:9092") \
    .option("subscribe", "proyecto") \
    .load()

vuelos.printSchema()

vuelos_string = vuelos.selectExpr("CAST(value AS STRING)", "timestamp")

root
 |-- key: binary (nullable = true)
 |-- value: binary (nullable = true)
 |-- topic: string (nullable = true)
 |-- partition: integer (nullable = true)
 |-- offset: long (nullable = true)
 |-- timestamp: timestamp (nullable = true)
 |-- timestampType: integer (nullable = true)



In [0]:
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.ml.feature import Normalizer, StandardScaler
import random

# Definimos la estructura.

schema_string = "flight STRING,lat DOUBLE,lon DOUBLE, status STRING, from STRING"


Datos recientes

In [0]:
# Obtenemos los datos mediante una consulta

df2 = vuelos_string \
         .select(from_csv(col("value"), schema_string) \
         .alias("flight"), "timestamp")


df3 = df2.select("flight.*", "timestamp")#.filter(col('status').contains('L'))

df3.createOrReplaceTempView("flights");

find_text = spark.sql("SELECT * FROM flights")

reciente_stream = find_text \
            .writeStream \
            .trigger(processingTime='5 seconds') \
            .outputMode("append") \
            .option("truncate", "false") \
            .format("memory") \
            .queryName("recientes") \
            .start()

    
reciente_stream.awaitTermination(1)

Out[3]: False

In [0]:
# Visualizamos los datos.
reciente = spark.sql("SELECT * FROM recientes")
reciente.show(10)

+-------+-------+---------+------+----+--------------------+
| flight|    lat|      lon|status|from|           timestamp|
+-------+-------+---------+------+----+--------------------+
|AMX004D|40.4734| -75.7408|     A| CDG|2022-05-19 15:04:...|
| ANA180|44.1834|-137.7237|     A| NRT|2022-05-19 15:04:...|
|CLX6684|52.4367| -71.0162|     A| LUX|2022-05-19 15:04:...|
|   AMX2|49.5583| -62.9752|     A| MAD|2022-05-19 15:04:...|
| AFR178|57.1537| -54.8061|     A| CDG|2022-05-19 15:04:...|
|IBE6403|39.7254| -30.7396|     A| MAD|2022-05-19 15:04:...|
| DLH498|61.0893| -24.0759|     A| FRA|2022-05-19 15:04:...|
| AMX049| 4.1426| -83.6855|     A| LIM|2022-05-19 15:04:...|
| DAL577|20.5803| -97.7804|     A| ATL|2022-05-19 15:04:...|
|UAL1063|37.1525| -85.7573|     A| EWR|2022-05-19 15:04:...|
+-------+-------+---------+------+----+--------------------+
only showing top 10 rows



Instalamos Folium para visualizar un mapa.

In [0]:
!pip install folium

Collecting folium
  Downloading folium-0.12.1.post1-py2.py3-none-any.whl (95 kB)
[?25l[K     |███▌                            | 10 kB 17.9 MB/s eta 0:00:01[K     |███████                         | 20 kB 5.8 MB/s eta 0:00:01[K     |██████████▍                     | 30 kB 3.8 MB/s eta 0:00:01[K     |█████████████▉                  | 40 kB 4.0 MB/s eta 0:00:01[K     |█████████████████▎              | 51 kB 3.9 MB/s eta 0:00:01[K     |████████████████████▊           | 61 kB 4.6 MB/s eta 0:00:01[K     |████████████████████████▏       | 71 kB 4.6 MB/s eta 0:00:01[K     |███████████████████████████▋    | 81 kB 4.6 MB/s eta 0:00:01[K     |███████████████████████████████ | 92 kB 5.1 MB/s eta 0:00:01[K     |████████████████████████████████| 95 kB 2.6 MB/s 
[?25hCollecting branca>=0.3.0
  Downloading branca-0.5.0-py3-none-any.whl (24 kB)
Installing collected packages: branca, folium
Successfully installed branca-0.5.0 folium-0.12.1.post1
You should consider upgrading 

In [0]:
# Construcción del Mapa:

import folium
import time

# Inicializamos el MAPA
my_map = folium.Map(
    location = [19.436111, -99.071944],
    start_zoom = 7,
    max_zoom = 7
)

folium.TileLayer('cartodbdark_matter').add_to(my_map)

folium.CircleMarker(
        location = [19.436111, -99.071944],
        radius=10, color = 'red'
    ).add_to(my_map)

Out[6]: <folium.vector_layers.CircleMarker at 0x7fa34c8d4bb0>

Dado que no fue posible la generación de un mapa dinamíco vamos a gráficar cada punto a partir de un vuelo, sobre el mapa centrado en el aeropuerto interacional de la Ciudad de México.

In [0]:
import webbrowser

# Consulta:
status = spark.sql("SELECT * FROM recientes")
# Graficación:
for vuelo in status.rdd.collect():
     folium.CircleMarker(
                location = [vuelo['lat'], vuelo['lon']],
                radius=1
                          ).add_to(my_map)
# Visualización
my_map