# Objetivo 

Este trabajo tiene como objetivo el desarrollar un datos utilizando los datos abiertos de la Ciudad de México
correspondientes a la ubicación de las unidades del metrobús durante la última hora para obtener un histórico de la posición en la que se encuentra cada unidad que pueda ser consultado mediante un API Rest filtrando por unidad o por alcaldía.

# Requerimientos y reglas de negocio

<ul>
<li>Presentar un diagrama con el diseño de su solución</li>
<li>Consultar periódicamente la fuente de datos</li>
<li>Obtener la alcaldía correspondiente a cada posición</li>
<li>Almacenar la información en una base de datos</li>
<li>Diseñar e implementar un API que permita consultar la información almacenada, con las
siguientes características:</li>
    <ul>
        <li>Obtener una lista de unidades disponibles.</li>
        <li>Consultar el historial de ubicaciones/fechas de una unidad dado su ID</li>
        <li>Obtener una lista de alcaldías disponibles</li>
        <li>Obtener una lista de unidades que hayan estado dentro de una alcaldía</li>
    </ul>
</ul>  
 


## Datos de entrada

Los datos obtenidos sobre la ubicación de las unidades del metrobús se encuentran en la página de *Datos Abiertos Ciudad de México* proporcionada por le Gobierno de la ciudad de México y se encuentran en el link https://datos.cdmx.gob.mx/explore/dataset/prueba_fetchdata_metrobus/export/

### Consideraciones

El sitio proporciona tres formatos de exportar los datos *csv, json, excel*; para este problema se usara el formato csv. De ligual manera, son **207 unidades del metrobús**,  la posición de estos se van *actualizando una vez cada hora*. 

#### Esquema de conjunto de datos

Datos proporcionados por el gobierno de México se describen los 13 atributos que se obtienen de cada unidad del metrobús:

<ul>
    <li>vehicle_id: tipo texto</li>
    <li>trip_start_date: tipo texto</li>
    <li>date_updated: tipo texto</li>
    <li>position_longitude tipo decimal</li>
    <li>trip_schedule_relationship: tipo int</li>
    <li>position_speed: tipo int</li>
    <li>vehicle_current_status: tipo int</li>
    <li>trip_route_id: tipo texto</li>
    <li>position_odometer: tipo int</li>
    <li>vehicle_label: tipo texto</li>
    <li>trip_id: tipo texto</li>
    <li>position_latitude: tipo decimal</li>
    <li>geographic_point: tipo geo_2d</li>
</ul>

Se debe tener en cuenta que no tienen niguna descripción o interpretacińo de dichos valores, puede existir una ambigüedad de interpretación en el caso del atributo *vehicle_current_status* donde no se describe elsignificado de cada valor. 

####  Lenguaje de programación

Se desarrollará el trabajo en el sistema operativo ubuntu en su versión 18.04 con el lenguaje de programación *Python*.


## Diagrama de la solución

Se decribe en el siguiente diagrama la estructura que se  esta realizando para cumlir con los requerimientos y reglas de negocio.

![title](Images/esq.png)

## Descarga del documento

El siguiente fragmento de código tiene como objetivo descargar el archivo del link previamente mencionado a partir del modulo wget.

In [None]:
#Verificar la existencia del archivo
import os
namepath = '/home/mb.csv' # se descarga el archivo en la ruta namepath
if os.path.exists(namepath):
  os.remove(namepath) # se actualiza el archivo, es decir, si existe se reemplaza por otro 

# Descargar el archivo de las unidades de metrobus
import wget
url = 'https://datos.cdmx.gob.mx/explore/dataset/prueba_fetchdata_metrobus/download/?format=csv&timezone=America/Mexico_City&lang=es&use_labels_for_header=true&csv_separator=%2C' #link del archivo
wget.download(url,namepath) #sentencia para descargar el archivo


Al concluir su descarga se lee el achivo usando l modulo de pandas para leer la columna que se llama *geographic_point* que indica la longitud y latitud de cada unidad.

In [None]:
# Leer el archivo
import pandas as pd
df = pd.read_csv(namepath) # se lee el archivo en u ndataframe
# indica en geographic_poiint  la columna que tiene las coordenadas para cada instancia
coords = df["geographic_point"]

## Obtener la alcaldía correspondiente a cada posición

PAra identificar a que alcaldía corresponde cada posicion de las unidades dle metrobus se hizo uso del módulo *geopy* que esta basado en la eolocalizacińo a partir de una consulta mediante el método http, para esto e agregó una columna más al  *Dataframe* creado por pandas para almacenarse con *mongodb*.

In [None]:
# Identificar a partir de la posicion a que alcaldia pertenece
from geopy.geocoders import Nominatim # se hace uso de una ibreria llamada geopy
import certifi
from six.moves import urllib
def uo(args, **kwargs):
	return urllib.request.urlopen(args, cafile=certifi.where(), **kwargs)
geolocator = Nominatim()
geolocator.urlopen = uo # indica po medio de una solicitud http la posicion en el mapa de esas coordenadas dando una serie de datos como pais, estado, ciudad, alcaldia, colonia, calle, codigo postal  

alcaldia = []
for i in coords: # se genera una lista de las alcaldias de cada instancia
	try:
		location = geolocator.reverse(i, language='en')
		li = list(location.address.split(","))
		alcaldia.append(li[len(li)-4]) # se alamcena la alcaldia
		#print(k)
		
	except:
		alcaldia.append("") # en caso contrario no se considera alaldia alguna.
df['alcaldia'] = alcaldia

## Almacenar la información en una base de datos

Se usa el módulo de Mongodb con la plataforma Web de Mongo Atlas usando el servicio de la nube de *Amazon AWS*.

**Plataforma de Atlas Mongodb**
![title](Images/a1.png)


**Base de datos de las unidades del metrobús almacenada en Atlas Mongodb**
![title](Images/a2.png)

In [None]:
# se almacena en Mongodb
from pymongo import MongoClient
client =  MongoClient("mongodb+srv://toto:toto@clustertest.pyelj.mongodb.net/toto?retryWrites=true&w=majority") # dirección de mi base de datos
db = client['toto']
collection = db['toto']
df.reset_index(inplace=True)
data_dict = df.to_dict("records")
collection.insert_many(data_dict)

## Consultar periódicamente la fuente de datos

Para realizar la obtención periódica de los datos se usa un bucle infinito donde se realizará el proceso cada 3600 segundos o 1 hora, ya que la lsita de las unidades se van actualizando cada hora, para tener un historial de estos.

## Diseñar e implementar un API que permita consultar la información almacenada

Gracias a la plataforma de MongoDB tiene la opción de hacer la API apoyada con GraphQL dónde se debe realizar la conexión de la base de datos  con una aplicación, posteriormente se enlaza esta con el cluster y la base que se subió de las unidades del metrobús.

**Aplicación para la API**


![title](Images/a3.png)




**Conexión con la base de datos del cluster**



![title](Images/a4.png)


**Esquema de la base de datos para la api GraphQL**


![title](Images/a5.png)



### Obtener una lista de unidades disponibles

Usando la opción de GraphQL de la plataforma y al no existir una descripción de los valores se considera el atributo *vehicle_id* el de la unidad y el valor **1** como disponible, siendo esto realizado mediante la consulta:

In [None]:
query {
  totos (query:{vehicle_current_status:1}) {
	 vehicle_id
  }
}

#### Salida:

![title](Images/a6.png)


### Consultar el historial de las ubicaciones/fechas de una unidad dado su ID

Se emplea el siguiente query considerando un id aleatorio com oes el *valor 28*, desplegando la alcaldia, fecha y posición geográfica en coordenadas:

In [None]:
query {
  totos (query:{vehicle_id:28}) {
    vehicle_id
	alcaldia
    date_updated
    geographic_point
  }
}


#### Salida:

![title](Images/a7.png)


### Obtener una lista de alcaldías disponibles

Considerando el valor 1 como disponible sólo se tiene que desplegar el valor de las alcaldías:

In [None]:
query {
  totos (query:{vehicle_current_status:1}) {
    alcaldia
  }
}

#### Salida

![image](Images/a8.png)

### Obtener una lista de unidades que hayan estado dentro de una alcaldía

PAra esta consuta se obtiene los id's de cada unidad seleccionando pro ejemplo la alcaldía *Tlalpan*

In [None]:
query {
  totos (query:{alcaldia:" Tlalpan"}) {
    vehicle_id

  }
}

#### Salida


![image](Images/a9.png)

## Docker 

Se usa el siguiente **Dockerfile**  para instalar las dependnecias de python necesarias para funcionar el archivo *script.py* que se indico al inicio dle documento


FROM python:2
WORKDIR /usr/src/app
MAINTAINER Alberto alberto.maldo1312@gmail.com
RUN pip install wget
RUN pip install pandas
RUN pip install geopy
RUN pip install certifi
RUN pip install six
RUN pip install pymongo
RUN pip install dnspython
COPY . .
CMD [ "python", "./script.py" ]

Posteriormente, se usa el siguiente comando para construir el contenedor:

In [None]:
 docker build -t m-python .

Finalmente se corre el contenedor con el archivo  en uso para correr en ciclos de una hora el archivo script.pi

In [None]:
docker run -it --rm --name my-running-app m-python 

## Puntos extras

La API esta basada a partir de la paltaforma de Mongodb que se conecta a GraphQL donde se puede genera la API. De igual manera para pruebas unitarias es considerano una iteración de dicho proceso. 

### Prueba unitaria

Usando el móudlo unittest que se encarga de identificar diferentes scripts basados en PYthon para hacer pruebas unitarias.

In [None]:
import unittest
import ex2
class TestMyModule(unittest.TestCase):
        def test_sum(self):
		self.assertEqual(ex2.prueba(), True)
if __name__ == "__main__":
	unittest.main()

El resultado de dicha prueba es de   152.356s y de una respuesta positiva.

![image](Images/a10.png)