<a href="https://colab.research.google.com/github/ParalelaUCM/biciMAD/blob/master/AsesorDeRutaBiciMAD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Setup**

Instalamos y configuramos las herramientas necesarias para empezar a trabajar

In [0]:
!apt-get install openjdk-8-jdk
"""
#!apt install unzip ya no lo usamos
"""
!apt-get install unrar
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
!pip install pyspark

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  fonts-dejavu-core fonts-dejavu-extra libatk-wrapper-java
  libatk-wrapper-java-jni libxxf86dga1 openjdk-8-jdk-headless openjdk-8-jre
  openjdk-8-jre-headless x11-utils
Suggested packages:
  openjdk-8-demo openjdk-8-source visualvm icedtea-8-plugin libnss-mdns
  fonts-ipafont-gothic fonts-ipafont-mincho fonts-wqy-microhei
  fonts-wqy-zenhei fonts-indic mesa-utils
The following NEW packages will be installed:
  fonts-dejavu-core fonts-dejavu-extra libatk-wrapper-java
  libatk-wrapper-java-jni libxxf86dga1 openjdk-8-jdk openjdk-8-jdk-headless
  openjdk-8-jre openjdk-8-jre-headless x11-utils
0 upgraded, 10 newly installed, 0 to remove and 32 not upgraded.
Need to get 40.7 MB of archives.
After this operation, 153 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/main amd64 libxxf86dga1 amd64 2:1.1.4-1 [1

In [0]:
import json
import os
import matplotlib.pyplot as plt
import statistics as stats
from pyspark import SparkContext

In [0]:
sc = SparkContext()

# **Descargamos los datasets de bicimad**
Descargaremos cada dataset de la web oficial de biciMAD.
La función descarga usa los paquete Beautiful Soup y request, automatizando la obtención de los archivos. Los renombraremos a '.zip' o '.rar' para poder descomprimirlos y una vez descomprimidos los movemos a la carpeta 'datasets'. Por último eliminamos los ficheros comprimidos.

In [0]:
#Estructura de carpetas para el dataset
!mkdir dataset
!cd dataset/
!mkdir dataset/usages
!mkdir dataset/stations

In [0]:
!pip install patool

from bs4 import BeautifulSoup
import requests
import os
import zipfile
import patoolib

#datos de páginas web para la descarga de los dataset
pagina = "https://opendata.emtmadrid.es"
url = requests.get("https://opendata.emtmadrid.es/Datos-estaticos/Datos-generales-(1)")
html_doc = url.text
soup = BeautifulSoup(html_doc, 'html.parser')
meses_l = [None, "enero","febrero","marzo","abril","mayo","junio","julio",
           "agosto","septiembre","octubre","noviembre","diciembre"]

Collecting patool
[?25l  Downloading https://files.pythonhosted.org/packages/43/94/52243ddff508780dd2d8110964320ab4851134a55ab102285b46e740f76a/patool-1.12-py2.py3-none-any.whl (77kB)
[K     |████▎                           | 10kB 18.9MB/s eta 0:00:01[K     |████████▌                       | 20kB 1.6MB/s eta 0:00:01[K     |████████████▊                   | 30kB 2.1MB/s eta 0:00:01[K     |█████████████████               | 40kB 2.4MB/s eta 0:00:01[K     |█████████████████████▏          | 51kB 2.0MB/s eta 0:00:01[K     |█████████████████████████▍      | 61kB 2.2MB/s eta 0:00:01[K     |█████████████████████████████▋  | 71kB 2.5MB/s eta 0:00:01[K     |████████████████████████████████| 81kB 2.3MB/s 
[?25hInstalling collected packages: patool
Successfully installed patool-1.12


In [0]:
def descarga(mes,año):
  for link in soup.find_all('a'):
    l = link.get('title')
    if isinstance(l,str):
      if meses_l[mes] in l.lower() and str(año) in l:
        if "uso" in l:
          print(l)
          enlace = link.get('href')
          url = pagina+enlace
          r = requests.get(url, allow_redirects=True)
          open('temp.aspx', 'wb').write(r.content)
          os.rename("temp.aspx","temp.zip")
          try:
            with zipfile.ZipFile("/content/temp.zip", 'r') as zip_ref:
              zip_ref.extractall("/content/dataset/usages")
            os.remove("/content/temp.zip")
          except:
            os.rename("temp.zip","temp.rar")
            patoolib.extract_archive("temp.rar", outdir="/content/dataset/usages")
            os.remove("/content/temp.rar")
        elif "estaciones" in l:
          print(l)
          enlace = link.get('href')
          url = pagina+enlace
          r = requests.get(url, allow_redirects=True)
          open('temp.aspx', 'wb').write(r.content)
          os.rename("temp.aspx","temp.zip")
          try:
            with zipfile.ZipFile("/content/temp.zip", 'r') as zip_ref:
              zip_ref.extractall("/content/dataset/stations")
            os.remove("/content/temp.zip")
          except:
            os.rename("temp.zip","temp.rar")
            patoolib.extract_archive("temp.rar", outdir="/content/dataset/stations")
            os.remove("/content/temp.rar")

In [0]:
for i in range(1,7):
  descarga(i,2019)

# **Creamos los RDD**
Una vez tenemos las bases de datos descargadas vamos a codificarlas de forma cómoda.

Para tener los datos almacenados de una forma cómoda primero creamos un diccionario cuya clave va a ser un string con el mes y el año del dataset y como valor va a tener el rdd asociado al uso por usuario de ese mes.

La funcion `mapper_usages` nos servirá para crear la rdd más legible. Nos quedaremos con los datos necesarios y cada linea la codificaremos como un diccionario.

In [0]:
rdd_usages = {} 

In [0]:
def mapper_usages(line):
  data = json.loads(line)
  user = data['user_type']
  user_day = data['user_day_code']
  start = data['idunplug_station']
  end = data['idplug_station']
  date = data['unplug_hourTime']['$date'][0:10]
  hora = data['unplug_hourTime']['$date'][11:19]
  time = data['travel_time']
  age = data['ageRange']
  try:
    track = data['track']
  except:
    track = None
  return {"user_type": user,
          "user_day_code": user_day,
          "start": start,
          "end": end,
          "travel_time": time,
          "date": date,
          "hour": hora,
          "age": age,
          "track": track}

In [0]:
directory = 'dataset/usages'
for filename in os.listdir(directory):
    if filename.endswith(".json"):
      #Nos quedamos con la fecha del dataset en formato YYYYMM
      name = filename.split("_")[0]
      rdd_usages[name] = sc.textFile(os.path.join(directory, filename)).map(mapper_usages)
      #DEBUG starts
      print(name)
      #DEBUG ends
    else:
        continue

201906
201905
201901
201904
201902
201903


In [0]:
#Juntamos todos los datos de los meses en uno solo dataset, y lo metemos también al diccionario.
rdd_usages['2019_01a06'] = rdd_usages['201901'].union(rdd_usages['201902'].union(rdd_usages['201903'].union(rdd_usages['201904'].union(rdd_usages['201905'].union(rdd_usages['201906'])))))
#rdd_usages['2019_01a06'] = rdd_usages['201901'].concat(rdd_usages['201902'])

In [0]:
rdd_usages['2019_01a06'].take(1)

Por otro lado un diccionario cuya clave va a ser tambien un string con el mes y el año del dataset y como valor va a tener el rdd asociado a la ocupación de las estaciones en ese mes.

Aquí usaremos la funcion `mapper_stations` para acomodar los datos.

In [0]:
rdd_stations = {} 

In [0]:
def mapper_stations(line):
  data = json.loads(line)
  day = data['_id'][0:10]
  hour = data['_id'][11:27]
  station = data['stations']
  return {"day": day, "hour": hour, "station": station}

In [0]:
directory = 'dataset/stations'
for filename in os.listdir(directory):
    if filename.endswith(".json"):
      #Nos quedamos con la fecha del dataset en formato YYYYMM
      name = filename.split("_")[2].split(".")[0]
      rdd_stations[name] = sc.textFile(os.path.join(directory, filename)).map(mapper_stations)
      #DEBUG starts
      print(name)
      #DEBUG ends
    else:
        continue

201905
201906
201903
201902
201904
201901


# **Asesor de ruta BiciMAD**

Aquí, dada una estación de origen, una de destino y una hora a la que se quiera salir, calcularemos el tiempo medio para realizar el trayecto así como cuantas bicicletas suele haber libres en las estaciones y si suele haber hueco en la estación final para poder colocar la bicicleta

In [0]:
import statistics as stats

In [0]:
origen = input('Estación de la que se desea partir: ')
destino = input('Estación a la que se desea llegar: ')
hora_Viaje = int(input('Hora a la que se desea realizar el viaje(HH): '))

In [0]:
#Funcion que se queda con los viajes alrededor de la hora solicitada
def rangoTiempo(hora, rango, hora_target):
    hora = hora.split(":")
    h = int(hora[0])
    m = int(hora[1])
    hora = h + m/60.0
    print(hora)
    if (hora_target - rango < 0):
      return((hora < hora_target + rango) or 24 + hora_target - rango < hora)
    else:
      return(hora_target - rango < hora and hora < hora_target + rango)

rangoTiempo('17:00:00', 1.5, 17)

In [0]:
#Aquí hacemos un primer filtro quedándonos con todos los trayectos que parten de 
#la estación origen y terminan en la estacion destino
rddInvierno_viaje_dia = rdd_usages['2019_01a06'].filter(lambda x: x['start'] == int(origen) and x['end'] == int(destino))

In [0]:
#Debug
print('Total de viajes similares al del cliente sin tener en cuenta el horario: ', rddInvierno_viaje_dia.count())

In [0]:
#Y ahora filtramos ya solo en el rango de horas especificado. 
#En este caso 1.5h alrededor de la hora elegida
rddInvierno_viaje = rddInvierno_viaje_dia.filter(lambda x: rangoTiempo(x['hour'], 1.5, hora_Viaje))

In [0]:
#Debug
print('Total de viajes similares al del cliente alrededor de la hora especificada: ', rddInvierno_viaje.count())

In [0]:
#Estudiemos ahora las medias en tiempo de todos los viajes similares a esa hora
listaTiempos = rddInvierno_viaje.map(lambda x: ([x['travel_time']])).reduce(lambda a, b: a + b)
media_tiempo_viaje = stats.mean(listaTiempos)
print('La media de tiempo empleado por otros usuarios es: ',media_tiempo_viaje, 'segundos')

La media de tiempo empleado por otros usuarios es:  524.024 segundos


In [0]:
def estaciones(lista):
  filtro = []
  for estacion in lista['station']:
    if estacion['number'] == origen or estacion['number'] == destino:
      filtro.append(estacion)
  return {"day":lista['day'],
          "hour":lista['hour'],
          "station":filtro}

rdd_stations['201901a06'] = rdd_stations['201901'].union(rdd_stations['201902'].union(rdd_stations['201903'].union(rdd_stations['201904'].union(rdd_stations['201905'].union(rdd_stations['201906'])))))

#rdd_Sit_fil contiene solo los datos de las dos estaciones,
#la de partida y la de llegada
rdd_Sit_fil = rdd_stations['201901a06'].map(estaciones)

In [0]:
#Debug
rdd_Sit_fil.take(3)

In [0]:
def calcularBasesLibres(lista, n_estacion):
  for station in lista:
    if station['number'] == n_estacion:
      return station['free_bases']

def calcularBicisLibres(lista, n_estacion):
  for station in lista:
    if station['number'] == n_estacion:
      return station['dock_bikes']

bicisLibres = rdd_Sit_fil.filter(lambda x: rangoTiempo(x['hour'], 1.5, hora_Viaje)).map(lambda x: [calcularBicisLibres(x['station'], origen)]).reduce(lambda a, b: a+b)
basesLibres = rdd_Sit_fil.filter(lambda x: rangoTiempo(x['hour'], 1.5, media_tiempo_viaje / 3600.0)).map(lambda x: [calcularBasesLibres(x['station'], destino)]).reduce(lambda a, b: a+b)

totalBasesPorEstacion = {}
stationsLst = rdd_Sit_fil.take(1)[0]['station']
totalBasesPorEstacion[stationsLst[0]['number']] = stationsLst[0]['total_bases']
totalBasesPorEstacion[stationsLst[1]['number']] = stationsLst[1]['total_bases']

print('La media de bicicletas libres en', origen, 'respecto a la hora elegida es:',int(stats.mean(bicisLibres)), '/', totalBasesPorEstacion[origen])
print('La media de bases libres en', destino ,'respecto a la hora estimada de llegada es:',int(stats.mean(basesLibres)), '/', totalBasesPorEstacion[destino])

La media de bicicletas libres en 57 respecto a la hora elegida es: 8 / 24
La media de bases libres en 38 respecto a la hora elegida es: 4 / 24
