# Contar cúantos trayectos se han realizado en bus a cada uno de los destinos. Spark SQL

En este ejemplo, no se va a tener en cuenta los campos vacios, lo cual se debería de tratar pero para simplificar vamos simplemente a saber la cantidad de trayectos a dicho destino "sin importar su origen".

In [1]:
# Asumimos que la sesión de Spark ya está inicializada y lista para ser utilizada.
# Comenzamos el proceso importando los datos desde un archivo CSV:
bus_tripsDF = spark.read\
 .option("header", "true")\
 .csv("/Enric/bus_trips.csv")

# Es crucial en Spark SQL vincular el DataFrame a una vista temporal 
# para poder realizar consultas SQL directamente sobre los datos:
bus_tripsDF.createOrReplaceTempView('bus_trips')

# Realizamos una consulta SQL para identificar el número de trayecto
# que llegan a cada uno de los destinos de los buses.
# Seleccionamos el destino y contabilizamos las ocurrencias, ordenando
# los resultados de mayor a menor frecuencia:
bus_trips_destination_count = spark.sql('SELECT destination, COUNT(destination) AS dest_count FROM bus_trips GROUP BY destination ORDER BY dest_count DESC')

# Para manipulaciones o consultas futuras, es conveniente tener 
# esta consulta como una vista temporal en Spark SQL:
bus_trips_destination_count.createOrReplaceTempView('bus_trips_destination_count')


# verificamos los destinos más frecuentados en nuestro conjunto de datos de trayectos en bus:
bus_trips_destination_count.show(5) # Exhibimos las primeras 5 filas de los resultados.


+--------------+----------+
|   destination|dest_count|
+--------------+----------+
|     SAO PAULO|     17102|
|RIO DE JANEIRO|     14299|
|BELO HORIZONTE|      4626|
|        RECIFE|      2874|
| FLORIANOPOLIS|      2857|
+--------------+----------+
only showing top 5 rows

