# Práctica NoSQL

El objetivo de la práctica es afianzar y demostrar los conocimientos adquiridos en el modelado y gestión de datos en Elasticsearc, MongoDB o Neo4j.

Para ello se proporciona diversos datasets con la descripción de los datos de que se componen. Se deberá seleccionar uno de ellos y pensar un caso de uso que se pueda implementar acorde a los datos disponibles. 

Una vez seleccionado el dataset y pensado el caso de uso, se deberá implementar con alguno de los dataestores estudiados en clase (Elasticsearch, MongoDB o Neo4j). Hay que tener en cuenta que cada data store tine sus carácterísticas y es más idoneo para realizar ciertas operaciones que otros. 

Si se selecciona:

* **Elasticsearch**, es necesario implementar búsquedas fulltext, búsquedas facetadas y búsquedas aproximadas.
* **MongoDB**, utilizar el framework de agregación e indexar correctamente las colecciones para agilizar las búsquedas.
* **Neo4j**, realizar búsquedas basadas en patrones.


Para ello habra que realizar los siguientes ejercicios:

* Pensar un caso de uso acorde al conjunto de datos seleccionado.
* Crear el modelo de datos acorde al caso de uso que se ha pensado y el datastore seleccionado.
* Crear las estructuras de datos necesarias para implementar el caso de uso.
* Tratar e insertar los datos en el modelo de datos creado.
* Realizar las consultas necesarias para el caso de uso pensado.

Qué hay que entregar:

* Descripción del caso de uso y justificación de por qué es adecuado para ralizaro con el data store seleccionado.
* Diagrama del modelo de datos.
* Un notebook de Jupyter que contenga:
    * Todas las sentencias para crear las tablas
    * El código necesario para tratar los datos e insertarlos en Cassandra.
    * Las sentencias de consulta
* Conclusiones:
    * ¿Qué te parece la base de datos seleccionada como data store?
    * ¿Qué te ha parecido el ejercicio?
    * ¿Qué has aprendido?
    * ¿Qué has hechado de menos?
    * ¿Cómo mejorarías la prática?

## Datasets

### Las obras completas de Wiliam Sakespeare

Este dataset contiene los diálogos de todas la obras de Wiliam Sakespeare. Cada línea representa una fráse de un diálogo expresada por algún personaje de la obra.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/shakespeare.json

Formato: json

Cada diálogo contiene los siguientes campos:

* **line_id**: Identificador único de la línea de diálogo. Tipo entero.
* **play_name**: Nombre de la obra.
* **speach_number**: Número del diálogo.
* **line_number**: Número de línea del diálogo en la obra.
* **speaker**: Personaje que dice el téxto.
* **text_entry**: Texto dicho por el personaje en el diálogo.

Este data set tiene el siguiente formato:

`
{
    "line_id": INT,
    "play_name": "String",
    "speech_number": INT,
    "line_number": "String",
    "speaker": "String",
    "text_entry": "String",
}
`

Ejemplo:

`
{
    "line_id":110469,
    "play_name":"A Winters Tale",
    "speech_number":163,
    "line_number":"4.4.674",
    "speaker":"CAMILLO",
    "text_entry":"Do all lie there: it shall be so my care"
}
`

### Calidad del Aire de la ciudad de Madrid

El conjunto de datos hace referencia a la calidad del aire de la ciudad de Madrid. Es el conjunto de mediciones horarias de distintas métricas sobre la calidad del aire de Madrid de 2001 a 2020.
Este conjunto de datos se ha obtenido del portal de datos abiertos del Ayuntamiento de Madrid.

Datos de calidad del aire: https://datos.madrid.es/sites/v/index.jsp?vgnextoid=f3c0f7d512273410VgnVCM2000000c205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD

Datos sobre las estaciones de medida: https://datos.madrid.es/sites/v/index.jsp?vgnextoid=9e42c176313eb410VgnVCM1000000b205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD

Interpretación de los datos: https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf

Qué contienen los ficheros:

    12 ficheros con las mediciones horarias, uno por cada mes.
            Formato CSV
    1 Fichero con la información de las estaciones de medición.
            Formato CSV
    1 Fichero con la descripción de los datos y el procedimiento de medición.
            Formato PDF

Ficheros con mediciones

Listado de campos:

    PROVINCIA = Código numérico de la provincia (28).
    MUNICIPIO = Código numérico del municipio (079).
    ESTACION = Número de estación.
    MAGNITUD = Magnitud que se está midiendo. Ver Anexo II "Magnitudes, unidades y técnicas de medida".
    PUNTO_MUESTREO = Tiene el siguiente formato XXYYYZZZ_M_TT. XXYYYZZZ representa la estación de medida.
            XX = Códido de provincia
            YYY = Código de municipio
            ZZZ = Número de estación
            M = Magnitud
            TT = Técnica de medida
    ANO = Año en el que se tomó la medición.
    MES = Mes del año en el que se tomó la medición
    DIA = Día del mes en el que se tomó la medición.
    H01 - H24 = Hora del día en el que se tomó la medición.
    V01 - V24 = Indica si la medición es válida. ÚNICAMENTE SON VÁLIDOS LOS DATOS QUE LLEVAN EL CÓDIGO "V"


Fichero de estaciones

Listado de campos:

    NUMERO = Código de estación.
    ESTACION = Nombre de la estación.
    DIRECCION = Dirección de la estación.
    LONGITUD = Logitud geográfica de la ubicación de la estación. En grados, minutos y segundos.
    LATITUD = Latitud geográfica de la ubicación de la estación. En grados, minutos y segundos.
    ALTITUD = Altitud sobre el nivel del mar en metros.
    TIPO ESTACION:
            UT = Urbana de tráfico
            UF = Urbana de fondo
            S = Suburbanam
    CONTAMINANTE MEDIDO = Magnitud que se está midiendo. Ver Anexo II "Magnitudes, unidades y técnicas de medida".
            NO2;SO2;CO;PM10;PM2,5;O3;BTX;HC = Sólo mide las magnitudes que esténa 1.
    SENSORES METEOROLÓGICOS
            UV;VV;DV;TMP;HR;PRB;RS;LL = Sólo mide las magnitudes que esténa 1.


### City Bike

Este dataset contiene información sobre todos los trayectos realizados por los usuarios del sistema de bicicletas públicas de la ciudad de Nueva York.

Enlace de descarga: https://s3.amazonaws.com/tripdata/index.html

Formato: CSV

Información sobre el dataset: https://www.citibikenyc.com/system-data

Cada entrada del dataset tiene los siguientes campos:

* **Trip Duration**: Duración del viaje en segundos.
* **Start Time and Date**: Marca de tiempo con el inicio del trayecto.
* **Stop Time and Date**: Marca de tiempo con el final del trayecto.
* **Start Station Name**: Nombre de la estación de inicio.
* **End Station Name**: Nombre de la estación de destino
* **Station ID**: Identificador único de la estación de inicio.
* **Station Lat/Long**: Latitud y longitud de la estación de inicio.
* **Bike ID**: Identificador único de la bicicleta utilizada para el trayecto.
* **User Type** (Customer = 24-hour pass or 3-day pass user; Subscriber = Annual Member): Tipo de usuario que ha realizado el trayecto.
* **Gender** (Zero=unknown; 1=male; 2=female): Género del usuario que ha realizado el trayecto.
* **Year of Birth**: Año de nacimiento del usuario que ha realizado el trayecto.

### Log Files
Este dataset contiene ifnormación de ficheros de log de un servido web.

Enlace de descarga: https://github.com/rafaelgarrote/datahack-nosql/raw/nosql-especial/workespecial/practica/data/logs.jsonl

Formato: json

Cada línea del dataset es una entrada del ficheo de logs de un servidor web. Cada una contiene los siguientes campos:

* **@timestamp**: Marca de tempo de la petición web registrada en el log.
* **ip**: IP de origen de la petición.
* **extension**: Tipo de recurso pedido.
* **response**: Código de respuesta http del servirdor a la petición. 
* **geo**: Información geográfica asociada a la IP de origen de la petición.
* **@tags**: Etiquetas asociadas a la petición.
* **utc_time**: Marca de tiempo de la petición en UTC.
* **referer**: Url del host desde donde se hizo la petición.
* **agent**: User Agent del cliente que realizó la petición.
* **clientip**: IP del cliente que realizó la petición.
* **bytes**: Tamaño de la respuesta en bytes.
* **host**: Url del host de la aplicación.
* **url**: Url de la petición realizada al servidor.
* **@message**: Mendaje del log.
* **headings**: Cabecera de la página pedida.
* **links**: Enlaces que contiene la página pedida.
* **relatedContent**: Contenido relacionado con la petición.
* **machine**: Información sobre el dispositivo del cliente que realizó la petición.
* **@version**: Versión del mensaje.

Línea de Ejemplo:

`
{
   "@timestamp":"2015-05-18T12:28:25.013Z",
   "ip":"79.1.14.87",
   "extension":"gif",
   "response":"200",
   "geo":{
      "coordinates":{
         "lat":35.16531472,
         "lon":-107.9006142
      },
      "src":"GN",
      "dest":"US",
      "srcdest":"GN:US"
   },
   "@tags":[
      "success",
      "info"
   ],
   "utc_time":"2015-05-18T12:28:25.013Z",
   "referer":"http://www.slate.com/warning/b-alvin-drew",
   "agent":"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24",
   "clientip":"79.1.14.87",
   "bytes":774,
   "host":"motion-media.theacademyofperformingartsandscience.org",
   "request":"/canhaz/james-mcdivitt.gif",
   "url":"https://motion-media.theacademyofperformingartsandscience.org/canhaz/james-mcdivitt.gif",
   "@message":"79.1.14.87 - - [2015-05-18T12:28:25.013Z] \"GET /canhaz/james-mcdivitt.gif HTTP/1.1\" 200 774 \"-\" \"Mozilla/5.0 (X11; Linux i686) AppleWebKit/534.24 (KHTML, like Gecko) Chrome/11.0.696.50 Safari/534.24\"",
   "spaces":"this   is   a   thing    with lots of     spaces       wwwwoooooo",
   "xss":"",
   "headings":["http://www.slate.com/success/barry-wilmore"],
   "links":[george-nelson@twitter.com","http://facebook.com/info/anatoly-solovyev","www.www.slate.com"],
   "relatedContent":[],
   "machine":{
      "os":"osx",
      "ram":8589934592
   },
   "@version":"1"
}
`