# Práctica NoSQL

## Objetivo
El objetivo de la práctica es afianzar y demostrar los conocimientos adquiridos en el modelado y gestión de datos.

Realizar los siguientes ejercicios:

* Pensar un caso de uso acorde al conjunto de datos seleccionado.
* Crear el modelo de datos acorde al caso de uso que se ha pensado y el datastore seleccionado.
* Crear las estructuras de datos necesarias para implementar el caso de uso.
* Tratar e insertar los datos en el modelo de datos creado.
* Realizar las consultas necesarias para el caso de uso pensado.

## Descripción del caso de uso seleccionado
Descripción del caso de uso y justificación de por qué es adecuado para ralizaro con el data store seleccionado.

El dataset seleccionado es: **Calidad del Aire de la ciudad de Madrid**

El conjunto de datos hace referencia a la calidad del aire de la ciudad de Madrid. Es el conjunto de mediciones horarias de distintas métricas sobre la calidad del aire de Madrid de 2001 a 2020.
Este conjunto de datos se ha obtenido del portal de datos abiertos del Ayuntamiento de Madrid.

### Fuentes de datos
- [**Datos de calidad del aire**](https://datos.madrid.es/sites/v/index.jsp?vgnextoid=f3c0f7d512273410VgnVCM2000000c205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD): En este conjunto de datos se puede obtener la información recogida por las estaciones de control de calidad del aire, con los datos horarios por anualidades desde 2001. <span style="color:red">**_(Noota: Decidir si hacer sólo una anualidad o ver cómo evolucionan los datos por años)_**</span>

    - Los datos horarios de las magnitudes corresponden a la media aritmética de los valores diezminutales que se registran cada hora.


- [**Datos sobre las estaciones de medida**](https://datos.madrid.es/sites/v/index.jsp?vgnextoid=9e42c176313eb410VgnVCM1000000b205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD): Tabla descriptiva de las estaciones remotas, contiene ubicación, tipos de sensores y fechas de alta. 
    - El Sistema de Vigilancia está formado por 24 estaciones remotas automáticas que recogen la información básica para la vigilancia atmosférica. Poseen los analizadores necesarios para la medida correcta de los niveles de gases y de partículas.
    - Las estaciones remotas son de varios tipos:
        - **Urbanas de fondo**: Representativas de la exposición de la población urbana en general.
        - **De tráfico**: Situadas de tal manera que su nivel de contaminación está influido principalmente por las emisiones procedentes de una calle o carretera próxima, pero se ha de evitar que se midan microambientes muy pequeños en sus proximidades.
        - **Suburbanas**: Están situadas a las afueras de la ciudad, en los lugares donde se encuentran los mayores niveles de ozono.
    - Aviso: Desde el 1 de mayo de 2022 se han dado de baja en la red de vigilancia de la calidad del aire los siguientes equipos: 
        - 1 analizador de monóxido de carbono (CO) situado en la estación E18 Farolillo.
        - 1 analizador de dióxido de azufre (SO2) en la estación E57 Sanchinarro.



- [**Interpretación de los datos**](https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf): fichero PDF donde describe el significado de cada columna en los ficheros anteriores. A continuación se detalla la información relevante encontrada sobre cada fichero anterior:
    - **Datos de calidad del aire**: 
        - **H0X** corresponde al dato de la X de la mañana de ese día
        - **V0X** es el código de validación. Únicamente son válidos los datos que llevan el código de validación "V".
        - **Magnitud**: El anexo II mapea las magnitudes, sus unidades y técnicas de medida con los respectivos códigos.
    - **Datos sobre las estaciones de medida**: Incluye una tabla con los datos sobre los códigos de las estaciones y señala los cambios de código a lo largo de los años.
    
### Exploración inicial
Para hacer una exploración inicial, primero tenemos que ingestar todos los datos. Comenzaremos explorando el dataset del año 2023, ya que es el último año que tenemos completo. Los datos están guardados en la carpeta `work/practica/data`.

<span style="color:red">**_(Noota: Comenzaré sólo con el año 2023 y datos por horas. Y luego ya si eso, si quiero comparar diferentes años, veremos cómo hacer.)_**</span> 




Primero instalamos `pymongo`, creamos la conexión a la base de datos y creamos tanto la base de datos como la colección que utilizaremos.

In [1]:
# Instalar pymongo o comprobar que esté instalado
!pip install pymongo



In [89]:
# Importación del módulo pymongo y de la clase MongoClient
import pymongo
from pymongo import MongoClient

# Conexión con la base de datos
client = MongoClient('mongodb://nosql:nosql@mongo:27017/')

# Limpiar el entorno de anteriores ejecuciones
client.drop_database("practica_maialen")

In [90]:
# Crear la base de datos para la práctica
db = client["practica_maialen"]

#### Importar datos de la calidad de aire

Ahora procederemos a importar los datos:

In [91]:
import json

# Crear la colección "air_quality"
air_quality_collection = db["air_quality"]

def format_air_quality_data(air_quality_json):
    mediciones = {}
    for k, v in air_quality_json.items():
        if k.startswith('h') or k.startswith('v'):
            mediciones[k] = v
    
    formatted_json = {
        "fecha": {
            "ano": air_quality_json['ano'],
            "mes": air_quality_json['mes'],
            "dia": air_quality_json['dia']
        },
        "info_estacion": {
            "punto_muestreo": air_quality_json['punto_muestreo'],
            "provincia": air_quality_json['provincia'],
            "municipio": air_quality_json['municipio'],
            "estacion": air_quality_json['estacion']
        },
        "magnitud": air_quality_json['magnitud']
    }
    
    formatted_json["mediciones"] = mediciones
    
    return formatted_json    

In [92]:
import os

# Obtener la lista de archivos en la carpeta
files = os.listdir("./data/air_quality")

# Para cada archivo, cargar los datos
for file in files:
    # Ruta al archivo CSV
    csv_file = './data/air_quality/' + file

    # Lectura del archivo CSV y carga de datos en la base de datos
    with open(csv_file, 'r') as file:
        header = file.readline().strip().lower().split(';')  # Creamos el encabezado

        # Insertar datos en la colección
        for each_value in file:
            value_list = each_value.strip().split(';')
            row = dict(zip(header, value_list))  # Creamos el diccionario combinando el encabezado con los valores
            formatted_row = format_air_quality_data(row)  # Formateamos

            # Insertar cada fila como un documento en la colección
            air_quality_collection.insert_one(formatted_row)

Finalmente, verificaremos que los datos se han importado a la base de datos Mongo de manera correcta, haciendo consultas sobre los datos importados:

In [93]:
import pprint

# Obtener los primeros 10 documentos de la colección
documents = air_quality_collection.find().limit(10)

# Imprimir los documentos
for doc in documents:
    pprint.pprint(doc)
    print()

{'_id': ObjectId('65eca396d1abab5b9890aa2b'),
 'fecha': {'ano': '2023', 'dia': '01', 'mes': '04'},
 'info_estacion': {'estacion': '4',
                   'municipio': '079',
                   'provincia': '28',
                   'punto_muestreo': '28079004_1_38'},
 'magnitud': '1',
 'mediciones': {'h01': '1',
                'h02': '1',
                'h03': '1',
                'h04': '1',
                'h05': '1',
                'h06': '1',
                'h07': '1',
                'h08': '1',
                'h09': '1',
                'h10': '1',
                'h11': '1',
                'h12': '1',
                'h13': '1',
                'h14': '1',
                'h15': '1',
                'h16': '1',
                'h17': '1',
                'h18': '1',
                'h19': '1',
                'h20': '1',
                'h21': '1',
                'h22': '1',
                'h23': '1',
                'h24': '1',
                'v01': 'V',
               

                'h20': '1',
                'h21': '1',
                'h22': '1',
                'h23': '1',
                'h24': '1',
                'v01': 'V',
                'v02': 'V',
                'v03': 'V',
                'v04': 'V',
                'v05': 'V',
                'v06': 'V',
                'v07': 'V',
                'v08': 'V',
                'v09': 'V',
                'v10': 'V',
                'v11': 'V',
                'v12': 'V',
                'v13': 'V',
                'v14': 'V',
                'v15': 'V',
                'v16': 'V',
                'v17': 'V',
                'v18': 'V',
                'v19': 'V',
                'v20': 'V',
                'v21': 'V',
                'v22': 'V',
                'v23': 'V',
                'v24': 'V'}}

{'_id': ObjectId('65eca396d1abab5b9890aa34'),
 'fecha': {'ano': '2023', 'dia': '10', 'mes': '04'},
 'info_estacion': {'estacion': '4',
                   'municipio': '079',
            

En el siguiente código, se muestra un documento de la colección como ejemplo.
```
{'_id': ObjectId('65eca02ad1abab5b988ff188'),
 'fecha': {'ano': '2023', 'dia': '01', 'mes': '04'},
 'info_estacion': {'estacion': '4',
                   'municipio': '079',
                   'provincia': '28',
                   'punto_muestreo': '28079004_1_38'},
 'magnitud': '1',
 'mediciones': {'h01': '1', 'h02': '1', 'h03': '1', 'h04': '1', 'h05': '1', 'h06': '1', 'h07': '1', 'h08': '1',
                'h09': '1', 'h10': '1', 'h11': '1', 'h12': '1', 'h13': '1', 'h14': '1', 'h15': '1', 'h16': '1',
                'h17': '1', 'h18': '1', 'h19': '1', 'h20': '1', 'h21': '1', 'h22': '1', 'h23': '1', 'h24': '1',
                'v01': 'V', 'v02': 'V', 'v03': 'V', 'v04': 'V', 'v05': 'V', 'v06': 'V', 'v07': 'V', 'v08': 'V',
                'v09': 'V', 'v10': 'V', 'v11': 'V', 'v12': 'V', 'v13': 'V', 'v14': 'V', 'v15': 'V', 'v16': 'V',
                'v17': 'V', 'v18': 'V', 'v19': 'V', 'v20': 'V', 'v21': 'V', 'v22': 'V', 'v23': 'V', 'v24': 'V'}}
```

Vemos que cada documento corresponde a un día concreto del año, una estación en concreta y una magnitud de medida. Los resultados de las mediciones están marcadas con el código `hxx`, y la validez de dichos resultados está etiquetada con el código `vxx`.

#### Importar datos de las estaciones de medida
Ahora importaremos los datos de las estaciones de medida:

In [94]:
# Crear la colección "measurement_stations"
measurement_stations_collection = db["measurement_stations"]

# Ruta al archivo CSV
csv_file = './data/informacion_estaciones_red_calidad_aire.csv'

# Lectura del archivo CSV y carga de datos en la base de datos
with open(csv_file, 'r') as file:
    header = file.readline().strip().replace('\ufeff', '').lower().split(';')  # Creamos el encabezado

    # Insertar datos en la colección
    for each_value in file:
        value_list = each_value.strip().split(';')
        row = dict(zip(header, value_list))  # Creamos el diccionario combinando el encabezado con los valores

        # Insertar cada fila como un documento en la colección
        measurement_stations_collection.insert_one(row)

In [95]:
# Obtener los primeros 10 documentos de la colección
documents = measurement_stations_collection.find().limit(10)

# Imprimir los documentos
for doc in documents:
    pprint.pprint(doc)
    print()

{'_id': ObjectId('65eca3cbd1abab5b989162b5'),
 'altitud': '637',
 'btx': '',
 'co': 'X',
 'cod_tipo': 'UT',
 'cod_via': '273600',
 'codigo_corto': '4',
 'coordenada_x_etrs89': '439579,3291',
 'coordenada_y_etrs89': '4475049,263',
 'direccion': 'Plaza de España',
 'estacion': 'Plaza de España',
 'fecha alta': '01/12/1998',
 'latitud': '40.4238823',
 'latitud_etrs89': '"40°25\'25.98""N"',
 'longitud': '-3.7122567',
 'longitud_etrs89': '"3°42\'43.91""O"',
 'no2': 'X',
 'nom_tipo': 'Urbana tráfico',
 'o3': '',
 'pm10': '',
 'pm2_5': '',
 'so2': 'X',
 'via_clase': 'PLAZA',
 'via_nombre': 'ESPAÑA',
 'via_par': 'DE',
 '\ufeffcodigo': '28079004'}

{'_id': ObjectId('65eca3cbd1abab5b989162b6'),
 'altitud': '672',
 'btx': 'X',
 'co': 'X',
 'cod_tipo': 'UT',
 'cod_via': '18900',
 'codigo_corto': '8',
 'coordenada_x_etrs89': '442117,2366',
 'coordenada_y_etrs89': '4474770,696',
 'direccion': 'Entre C/ Alcalá y C/ O’ Donell ',
 'estacion': 'Escuelas Aguirre',
 'fecha alta': '01/12/1998',
 'latitud':

Esta importación de los datos es en RAW.

<span style="color:red">**_(Noota: Aquí puedo explicar el ciclo de vida de la ingesta de datos, donde primero se crea una base de datos RAW donde tenemos los datos crudos, y después se pasan las diferentes etapas de la ingeniería de datos, donde vamos refinando los datos. Esto sería la etapa de recibimiento de datos.)_**</span> 

## Data store seleccionado
Tener en cuenta que cada data store tine sus carácterísticas y es más idoneo para realizar ciertas operaciones que otros

Hacer una comparativa con todos los data stores vistos en clase, incluyendo los relacionales, de clave valor, etc.

**Nuestro caso de uso:**

En los datos de calidad de aire se tienen diferentes niveles de estaciones. A primer nivel, por cada estación, se tiene una serie temporal que se reporta cada hora.

La solución a la que me gustaría llegar es: crear un dashboard que hace consultas cada mes al dataset (según la comunidad de Madrid, actualizan el dataset cada mes), y que muestre los resultados actualizados cada mes. Tendría que pensar cuáles son las preguntas que quieren responder los usuarios del dashboard mediante las consultas.

**Requerimiento # 1: Caso de uso de Analítica**

En un principio, podemos pensar que si se consulta mucho los datos, lo más rápido sería clave-valor. Pero tenemos que enfocarnos si nuestro caso de uso qué tipo de consultas va a realizar:
- Analítica sobre la información almacenada y time-series.
- Cálculo de ciertas consultas y almacenamiento ya calculado.

Ahora mismo nos interesaría más la parte de analítica. Entonces tenemos que buscar una base de datos que soporte esta analítica. Con un clave-valor no se podría hacer este tipo de operaciones, por lo que con esto, descartamos el conjunto de bases de datos de clave-valor. Mongo nos permite hacer esta parte de analítica, con toda la parte de agregación que vimos en clase.

**Requerimiento # 2: Disponibilidad de la información en minutos**

Otra cosa a tener en cuenta es la disponibilidad de la información, cómo de alta disponibilidad necesitamos (requisitos de disponibilidad):
- Necesitamos tener la disponibilidad del dato en cuestión de **segundos**.
- Necesitamos tener la disponibilidad del dato en cuestión de **minutos**.

Una BBDD clave-valor nos dará el dato en milisegundos. Un Mongo tarda un poco más, estarán entorno al segundo, medio-minuto. En este caso, no importa si es medio-minuto, por lo que Mongo nos vale.

**Requerimiento # 3: Búsquedas sobre índices geoespaciales**

Necesitamos que nuestra base de datos tenga la capacidad de hacer analítica sobre índices geoespaciales. Elastic también nos permite hacer búsquedas sobre Posiciones Georreferenciadas. También permite hacer agregaciones/búsquedas agregadas. También permite trabajar con time-series.

Mongo también permite trabajar con time-series. Lo de los time-series no lo hemos visto en clase.

Viendo que en ambas vamos a poder trabajar con time-series. Y viendo que ambas son dos bases de datos de documentos, aquí debemos de ver cuál va a ser mejor para nuestro caso de uso, si Mongo o Elastic. Son bastante parecidas, pero tengo que argumentar cuál me interesa más. Podría decir que por facilidad de uso me he ido a Mongo.

**Requerimiento # 4: Necesidad de consistencia**

En este caso de uso, como estamos trabajando con datos científicos, necesitamos consistencia, porque tomamos decisiones en base a umbrales. Mongo y Elastic están más orientadas a la consistencia que a la disponibilidad, por lo que serían adecuados. En contraposición, una base de datos de familia de columnas como puede ser Cassandra está más orientada a la disponibilidad de la información que a la consistencia, por lo que esto no sería útil en nuestro caso.


**Requerimiento # 5: Necesidad de particionado**

Tenemos que tener en cuenta la necesidad de particionar nuestros datos o no, con el objetivo de trabajar con grandes volúmenes de datos. Si necesitamos particionar nuestros datos, ver el tipo de particionado que me permite Elastic versus el tipo de particionado que me permite Mongo. En este caso sí que difieren una de la otra.


<span style="color:red">**_(Noota: Revisar la ortografía en todo el documento.)_**</span> 

## Diagrama de modelo de datos
Para definir el modelado de los datos, tenemos que tener en cuenta las consultas necesarias que queremos hacer.

Tendría que pensar cuáles son las preguntas que quieren responder los usuarios del dashboard mediante las consultas. Y a partir de esto, tendría que ir de abajo a arriba, pensando cuáles son:
- Las agregaciones necesarias (analítica).
- Las particiones necesarias.
- Indexación necesaria.

Sobre todo, cuando queremos hacer consultas analíticas, nos tenemos que dejar guiar por la consulta.

<span style="color:red">**_(Noota: Aquí puedo hacer algo similar al modelado de datos que hicimos en clase.)_**</span> 