# Práctica NoSQL

## Objetivo
El objetivo de la práctica es afianzar y demostrar los conocimientos adquiridos en el modelado y gestión de datos.

Realizar los siguientes ejercicios:

* Pensar un caso de uso acorde al conjunto de datos seleccionado.
* Crear el modelo de datos acorde al caso de uso que se ha pensado y el datastore seleccionado.
* Crear las estructuras de datos necesarias para implementar el caso de uso.
* Tratar e insertar los datos en el modelo de datos creado.
* Realizar las consultas necesarias para el caso de uso pensado.

## Descripción del caso de uso seleccionado
Descripción del caso de uso y justificación de por qué es adecuado para ralizaro con el data store seleccionado.

El dataset seleccionado es: **Calidad del Aire de la ciudad de Madrid**

El conjunto de datos hace referencia a la calidad del aire de la ciudad de Madrid. Es el conjunto de mediciones horarias de distintas métricas sobre la calidad del aire de Madrid de 2001 a 2020.
Este conjunto de datos se ha obtenido del portal de datos abiertos del Ayuntamiento de Madrid.

### Fuentes de datos
- [**Datos de calidad del aire**](https://datos.madrid.es/sites/v/index.jsp?vgnextoid=f3c0f7d512273410VgnVCM2000000c205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD): En este conjunto de datos se puede obtener la información recogida por las estaciones de control de calidad del aire, con los datos horarios por anualidades desde 2001. <span style="color:red">**_(Noota: Decidir si hacer sólo una anualidad o ver cómo evolucionan los datos por años)_**</span>

    - Los datos horarios de las magnitudes corresponden a la media aritmética de los valores diezminutales que se registran cada hora.


- [**Datos sobre las estaciones de medida**](https://datos.madrid.es/sites/v/index.jsp?vgnextoid=9e42c176313eb410VgnVCM1000000b205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD): Tabla descriptiva de las estaciones remotas, contiene ubicación, tipos de sensores y fechas de alta. 
    - El Sistema de Vigilancia está formado por 24 estaciones remotas automáticas que recogen la información básica para la vigilancia atmosférica. Poseen los analizadores necesarios para la medida correcta de los niveles de gases y de partículas.
    - Las estaciones remotas son de varios tipos:
        - **Urbanas de fondo**: Representativas de la exposición de la población urbana en general.
        - **De tráfico**: Situadas de tal manera que su nivel de contaminación está influido principalmente por las emisiones procedentes de una calle o carretera próxima, pero se ha de evitar que se midan microambientes muy pequeños en sus proximidades.
        - **Suburbanas**: Están situadas a las afueras de la ciudad, en los lugares donde se encuentran los mayores niveles de ozono.
    - Aviso: Desde el 1 de mayo de 2022 se han dado de baja en la red de vigilancia de la calidad del aire los siguientes equipos: 
        - 1 analizador de monóxido de carbono (CO) situado en la estación E18 Farolillo.
        - 1 analizador de dióxido de azufre (SO2) en la estación E57 Sanchinarro.



- [**Interpretación de los datos**](https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf): fichero PDF donde describe el significado de cada columna en los ficheros anteriores. A continuación se detalla la información relevante encontrada sobre cada fichero anterior:
    - **Datos de calidad del aire**: 
        - **H0X** corresponde al dato de la X de la mañana de ese día
        - **V0X** es el código de validación. Únicamente son válidos los datos que llevan el código de validación "V".
        - **Magnitud**: El anexo II mapea las magnitudes, sus unidades y técnicas de medida con los respectivos códigos.
    - **Datos sobre las estaciones de medida**: Incluye una tabla con los datos sobre los códigos de las estaciones y señala los cambios de código a lo largo de los años.
    
### Ingesta de datos
Para hacer una exploración inicial, primero tenemos que ingestar todos los datos. Comenzaremos explorando el dataset del año 2023, ya que es el último año que tenemos completo. Los datos están guardados en la carpeta `work/practica/data`.

<span style="color:red">**_(Noota: Comenzaré sólo con el año 2023 y datos por horas. Y luego ya si eso, si quiero comparar diferentes años, veremos cómo hacer.)_**</span> 




Primero instalamos `pymongo`, creamos la conexión a la base de datos y creamos tanto la base de datos como la colección que utilizaremos.

In [87]:
# Instalar pymongo o comprobar que esté instalado
!pip install pymongo



In [88]:
# Importación del módulo pymongo y de la clase MongoClient
import pymongo
from pymongo import MongoClient

# Conexión con la base de datos
client = MongoClient('mongodb://nosql:nosql@mongo:27017/')

# Limpiar el entorno de anteriores ejecuciones
client.drop_database("practica_maialen")

In [89]:
# Crear la base de datos para la práctica
db = client["practica_maialen"]

#### Importar datos de la calidad de aire

Ahora procederemos a importar los datos. En un pipeline de bid data, la ingesta de datos se hace por diferentes etapas, según el **ciclo de vida del dato**.

En la primera importación a la base de datos, los datos no suelen ser modificados o manipulados, se trata de una importación "raw" de los datos.

Sin embargo, en este caso, podemos analizar la calidad de los datos iniciales en csv, ya que estos datos tienen un formato determinado según la página web origen. Y basándonos en ello, podemos hacer una importación utilizando un esquema apropiado JSON, así como realizando varias transformaciones de datos convenientes.

En este caso, creo que es útil unificar los pasos de ingesta de datos crudos junto con el paso de limpieza por motivos prácticos de agilidad en el desarrollo y reducción de tiempos de ejecución, ya que realizar limpiezas e interacciones posteriores en los datos lleva mucho tiempo de carga de datos.

- Cambiar el formato de "Fecha" al tipo de datos "Date" o "ISODate" (ISODate es el formato recomendado de para almacenar fechas en Mongo). <span style="color:red">**_(Noota: To do, de momento lo dejamos como está.)_**</span> 


<span style="color:red">**_(Noota: Aquí puedo explicar el ciclo de vida de la ingesta de datos, donde primero se crea una base de datos RAW donde tenemos los datos crudos, y después se pasan las diferentes etapas de la ingeniería de datos, donde vamos refinando los datos. Esto sería la etapa de recibimiento de datos.)_**</span> 

In [90]:
import json

# Crear la colección "air_quality"
air_quality_collection = db["air_quality"]

def format_air_quality_data(air_quality_json):
    
    # Crear el JSON de las mediciones
    mediciones = {}
    for k, v in air_quality_json.items():
        if k.startswith('v'):
            mediciones[k] = v
        elif k.startswith('h'):
            mediciones[k] = float(v)  # Cambiamos el tipo de datos a float
    
    # Cambiar los valores de "Magnitud" a los valores correspondientes

    # Define un diccionario de mapeo para los valores de magnitud
    mapping_magintud = {
        '1': 'so2',  # Dióxido de azufre
        '6': 'co',  # Monóxido de carbono
        '7': 'no',  # Monóxido de nitrógeno
        '8': 'no2',  # Dióxido de nitrógeno
        '9': 'pm2_5',  # Partículas superiores a 2.5 micrometros
        '10': 'pm10',  # Partículas superiores a 10 micrometros
        '12': 'nox',  # Óxidos de nitrógeno
        '14': 'o3',  # Ozono
        '20': 'tol',  # Tolueno
        '30': 'ben',  # Benceno
        '35': 'ebe'  # Etilbenceno
    }
    
    value_magnitud = mapping_magintud[air_quality_json['magnitud']]
    
    formatted_json = {
        "fecha": {
            "ano": air_quality_json['ano'],
            "mes": air_quality_json['mes'],
            "dia": air_quality_json['dia']
        },
        "info_estacion": {
            "punto_muestreo": air_quality_json['punto_muestreo'],
            "provincia": air_quality_json['provincia'],
            "municipio": air_quality_json['municipio'],
            "estacion": air_quality_json['estacion']
        },
        "magnitud": value_magnitud
    }
    
    formatted_json["mediciones"] = mediciones
    
    return formatted_json    

In [91]:
import os

# Obtener la lista de archivos en la carpeta
files = os.listdir("./data/air_quality")

# Para cada archivo, cargar los datos
for file in files:
    # Ruta al archivo CSV
    csv_file = './data/air_quality/' + file

    # Lectura del archivo CSV y carga de datos en la base de datos
    with open(csv_file, 'r') as file:
        header = file.readline().strip().lower().split(';')  # Creamos el encabezado

        # Insertar datos en la colección
        for each_value in file:
            value_list = each_value.strip().split(';')
            row = dict(zip(header, value_list))  # Creamos el diccionario combinando el encabezado con los valores
            formatted_row = format_air_quality_data(row)  # Formateamos

            # Insertar cada fila como un documento en la colección
            air_quality_collection.insert_one(formatted_row)

Finalmente, verificaremos que los datos se han importado a la base de datos Mongo de manera correcta, haciendo consultas sobre los datos importados:

In [92]:
import pprint

# Obtener algunos documentos de la colección
documents = air_quality_collection.find().limit(5)

# Imprimir los documentos
for doc in documents:
    pprint.pprint(doc)
    print()

{'_id': ObjectId('65ece3f476aaef7b839ee023'),
 'fecha': {'ano': '2023', 'dia': '01', 'mes': '04'},
 'info_estacion': {'estacion': '4',
                   'municipio': '079',
                   'provincia': '28',
                   'punto_muestreo': '28079004_1_38'},
 'magnitud': 'so2',
 'mediciones': {'h01': 1.0,
                'h02': 1.0,
                'h03': 1.0,
                'h04': 1.0,
                'h05': 1.0,
                'h06': 1.0,
                'h07': 1.0,
                'h08': 1.0,
                'h09': 1.0,
                'h10': 1.0,
                'h11': 1.0,
                'h12': 1.0,
                'h13': 1.0,
                'h14': 1.0,
                'h15': 1.0,
                'h16': 1.0,
                'h17': 1.0,
                'h18': 1.0,
                'h19': 1.0,
                'h20': 1.0,
                'h21': 1.0,
                'h22': 1.0,
                'h23': 1.0,
                'h24': 1.0,
                'v01': 'V',
             

En el siguiente código, se muestra un documento de la colección como ejemplo.
```
{'_id': ObjectId('65ecd46c76aaef7b839e2780'),
 'fecha': {'ano': '2023', 'dia': '01', 'mes': '04'},
 'info_estacion': {'estacion': '4',
                   'municipio': '079',
                   'provincia': '28',
                   'punto_muestreo': '28079004_1_38'},
 'magnitud': 'so2',
 'mediciones': {'h01': 1.0, 'h02': 1.0, 'h03': 1.0, 'h04': 1.0, 'h05': 1.0, 'h06': 1.0, 'h07': 1.0, 'h08': 1.0,
                'h09': 1.0, 'h10': 1.0, 'h11': 1.0, 'h12': 1.0, 'h13': 1.0, 'h14': 1.0, 'h15': 1.0, 'h16': 1.0,
                'h17': 1.0, 'h18': 1.0, 'h19': 1.0, 'h20': 1.0, 'h21': 1.0, 'h22': 1.0, 'h23': 1.0, 'h24': 1.0,
                'v01': 'V', 'v02': 'V', 'v03': 'V', 'v04': 'V', 'v05': 'V', 'v06': 'V', 'v07': 'V', 'v08': 'V',
                'v09': 'V', 'v10': 'V', 'v11': 'V', 'v12': 'V', 'v13': 'V', 'v14': 'V', 'v15': 'V', 'v16': 'V',
                'v17': 'V', 'v18': 'V', 'v19': 'V', 'v20': 'V', 'v21': 'V', 'v22': 'V', 'v23': 'V', 'v24': 'V'}}
```

Vemos que cada documento corresponde a un día concreto del año, una estación en concreta y una magnitud de medida. Los resultados de las mediciones están marcadas con el código `hxx`, y la validez de dichos resultados está etiquetada con el código `vxx`.

#### Importar datos de las estaciones de medida
Ahora importaremos los datos de las estaciones de medida:

In [93]:
def format_measurement_stations_data(measurement_stations_json):
    formatted_json = {
        "codigo": measurement_stations_json["codigo"],
        "codigo_corto": measurement_stations_json["codigo_corto"],
        "estacion": measurement_stations_json["estacion"],
        "ubicacion": {
            'direccion': measurement_stations_json["direccion"],
            'via_clase': measurement_stations_json["via_clase"],
            'via_par': measurement_stations_json["via_par"],
            'via_nombre': measurement_stations_json["via_nombre"],
            'coordenadas': {
                'longitud_etrs89': measurement_stations_json["longitud_etrs89"],
                'latitud_etrs89': measurement_stations_json["latitud_etrs89"],
                'coordenada_x_etrs89': float(measurement_stations_json["coordenada_x_etrs89"].replace(",", ".")),
                'coordenada_y_etrs89': float(measurement_stations_json["coordenada_y_etrs89"].replace(",", ".")),
                'longitud': float(measurement_stations_json["longitud"]),
                'latitud': float(measurement_stations_json["latitud"])
            },
            'altitud': float(measurement_stations_json["altitud"]),
            'cod_via': measurement_stations_json["cod_via"]
        },
        'tipo_estacion': {
            'cod_tipo': measurement_stations_json["cod_tipo"],
            'nom_tipo': measurement_stations_json["nom_tipo"]
        },
        'magnitudes_de_medida': {
            'no2': measurement_stations_json["no2"],
            'so2': measurement_stations_json["so2"],
            'co': measurement_stations_json["co"],
            'pm10': measurement_stations_json["pm10"],
            'pm2_5': measurement_stations_json["pm2_5"],
            'o3': measurement_stations_json["o3"],
            'btx': measurement_stations_json["btx"]
        },
        'fecha alta': measurement_stations_json["fecha alta"]
    }
    
    return formatted_json 

In [94]:
# Crear la colección "measurement_stations"
measurement_stations_collection = db["measurement_stations"]

# Ruta al archivo CSV
csv_file = './data/informacion_estaciones_red_calidad_aire.csv'

# Lectura del archivo CSV y carga de datos en la base de datos
with open(csv_file, 'r') as file:
    header = file.readline().strip().replace('\ufeff', '').lower().split(';')  # Creamos el encabezado

    # Insertar datos en la colección
    for each_value in file:
        value_list = each_value.strip().split(';')
        row = dict(zip(header, value_list))  # Creamos el diccionario combinando el encabezado con los valores
        formatted_row = format_measurement_stations_data(row)  # Formateamos

        # Insertar cada fila como un documento en la colección
        measurement_stations_collection.insert_one(formatted_row)

In [95]:
# Obtener los primeros documentos de la colección
documents = measurement_stations_collection.find().limit(5)

# Imprimir los documentos
for doc in documents:
    pprint.pprint(doc)
    print()

{'_id': ObjectId('65ece42676aaef7b839f98ad'),
 'codigo': '28079004',
 'codigo_corto': '4',
 'estacion': 'Plaza de España',
 'fecha alta': '01/12/1998',
 'magnitudes_de_medida': {'btx': '',
                          'co': 'X',
                          'no2': 'X',
                          'o3': '',
                          'pm10': '',
                          'pm2_5': '',
                          'so2': 'X'},
 'tipo_estacion': {'cod_tipo': 'UT', 'nom_tipo': 'Urbana tráfico'},
 'ubicacion': {'altitud': 637.0,
               'cod_via': '273600',
               'coordenadas': {'coordenada_x_etrs89': 439579.3291,
                               'coordenada_y_etrs89': 4475049.263,
                               'latitud': 40.4238823,
                               'latitud_etrs89': '"40°25\'25.98""N"',
                               'longitud': -3.7122567,
                               'longitud_etrs89': '"3°42\'43.91""O"'},
               'direccion': 'Plaza de España',
               '

En el siguiene código se muestra un documento de la colección como ejemplo:
```
{'_id': ObjectId('65ece42676aaef7b839f98ad'),
 'codigo': '28079004',
 'codigo_corto': '4',
 'estacion': 'Plaza de España',
 'fecha alta': '01/12/1998',
 'magnitudes_de_medida': {'btx': '',
                          'co': 'X',
                          'no2': 'X',
                          'o3': '',
                          'pm10': '',
                          'pm2_5': '',
                          'so2': 'X'},
 'tipo_estacion': {'cod_tipo': 'UT', 'nom_tipo': 'Urbana tráfico'},
 'ubicacion': {'altitud': 637.0,
               'cod_via': '273600',
               'coordenadas': {'coordenada_x_etrs89': 439579.3291,
                               'coordenada_y_etrs89': 4475049.263,
                               'latitud': 40.4238823,
                               'latitud_etrs89': '"40°25\'25.98""N"',
                               'longitud': -3.7122567,
                               'longitud_etrs89': '"3°42\'43.91""O"'},
               'direccion': 'Plaza de España',
               'via_clase': 'PLAZA',
               'via_nombre': 'ESPAÑA',
               'via_par': 'DE'}}
```

Vemos que cada documento corresponde a la información de una etación concreta. En ella, se detallan datos sobre el tipo de la estación, ubicación y maginitudes de medida que toma dicha estación.

### Análisis de los datos - Exploración inicial

Intentaremos definir qué preguntas puede responder nuestra base de datos. Algunas ideas:

 **Impacto de los contaminantes:**
   - ¿Qué contaminantes son los más comunes?
   - ¿Cómo varía la concentración de contaminantes como el dióxido de nitrógeno (NO2), el dióxido de azufre (SO2), el monóxido de carbono (CO) y las partículas PM10 y PM2.5?
   
   **Comparaciones entre estaciones y Análisis espacial:**
   - ¿Hay diferencias significativas en los niveles de contaminación entre las diferentes estaciones de medición?
   - ¿Qué estaciones registran los niveles más altos y más bajos de contaminantes?
   - ¿Cómo varía la contaminación del aire en diferentes áreas de la ciudad?
   - ¿Existen patrones geográficos en la distribución de los contaminantes? P. ej. tráfico, la industria, la topografía y las condiciones meteorológicas.


**Tendencias temporales:**
   - ¿Cómo varía la concentración de diferentes contaminantes a lo largo del año?
   - ¿Hay algún patrón estacional en los niveles de contaminación?
   - ¿Hay días específicos de la semana en los que los niveles de contaminación son más altos?







Primero revisaremos cuántos datos tenemos de cada contaminante:

In [96]:
# Consulta para agrupar y contar la frecuencia de cada valor de "magnitud"
pipeline = [
    {"$group": {"_id": "$magnitud", "count": {"$sum": 1}}},
    {"$sort": {"count": -1}}  # Ordenar los resultados por el valor de "magnitud"
]

# Ejecutar la consulta
resultados = list(air_quality_collection.aggregate(pipeline))

# Imprimir los resultados
for resultado in resultados:
    print(resultado)

{'_id': 'nox', 'count': 8629}
{'_id': 'no', 'count': 8629}
{'_id': 'no2', 'count': 8629}
{'_id': 'pm10', 'count': 4718}
{'_id': 'o3', 'count': 4675}
{'_id': 'pm2_5', 'count': 2897}
{'_id': 'ben', 'count': 2092}
{'_id': 'tol', 'count': 2092}
{'_id': 'ebe', 'count': 2092}
{'_id': 'co', 'count': 1395}
{'_id': 'so2', 'count': 1394}


Con esta última consulta nos hacemos una idea de cuáles son las magnitudes que más mediciones han tenido a lo largo del año.

In [97]:
# Realizar la consulta
resultados = air_quality_collection.find({"fecha.ano": "2023", "magnitud": "no2", "fecha.mes": "02", "info_estacion.estacion": "4"})

# Iterar sobre los resultados
for resultado in resultados:
    print(resultado)
    print()

{'_id': ObjectId('65ece40676aaef7b839f1f41'), 'fecha': {'ano': '2023', 'mes': '02', 'dia': '01'}, 'info_estacion': {'punto_muestreo': '28079004_8_8', 'provincia': '28', 'municipio': '079', 'estacion': '4'}, 'magnitud': 'no2', 'mediciones': {'h01': 60.0, 'v01': 'V', 'h02': 58.0, 'v02': 'V', 'h03': 51.0, 'v03': 'V', 'h04': 46.0, 'v04': 'V', 'h05': 41.0, 'v05': 'V', 'h06': 37.0, 'v06': 'V', 'h07': 40.0, 'v07': 'V', 'h08': 58.0, 'v08': 'V', 'h09': 63.0, 'v09': 'V', 'h10': 55.0, 'v10': 'V', 'h11': 36.0, 'v11': 'V', 'h12': 27.0, 'v12': 'V', 'h13': 27.0, 'v13': 'V', 'h14': 30.0, 'v14': 'V', 'h15': 34.0, 'v15': 'V', 'h16': 29.0, 'v16': 'V', 'h17': 32.0, 'v17': 'V', 'h18': 46.0, 'v18': 'V', 'h19': 64.0, 'v19': 'V', 'h20': 92.0, 'v20': 'V', 'h21': 109.0, 'v21': 'V', 'h22': 95.0, 'v22': 'V', 'h23': 72.0, 'v23': 'V', 'h24': 62.0, 'v24': 'V'}}

{'_id': ObjectId('65ece40676aaef7b839f1f42'), 'fecha': {'ano': '2023', 'mes': '02', 'dia': '02'}, 'info_estacion': {'punto_muestreo': '28079004_8_8', 'provi

Vamos a revisar la **media de las mediciones de NO2** en una de las estaciones durante el año 2023.

Hemos elegido NO2 debido a que contamos una gran cantidad de estaciones que miden este contaminante. Además, NO2 suele ser una magnitud particularmente relevante debido a:
1. Su impacto en la salud: El NO2 puede causar una serie de efectos adversos en el sistema respiratorio, como irritación de los pulmones, exacerbación del asma y aumento del riesgo de enfermedades respiratorias crónicas.
2. Su papel como precursor del ozono (O3).
3. Su relación con fuentes de emisión específicas, ya que se produce principalmente a partir de la combustión de combustibles fósiles, especialmente en vehículos motorizados y plantas de energía.

In [98]:
# Consulta de agregación
pipeline = [
    {
        "$match": {
            "fecha.ano": "2023",  # Filtrar por el año 2023
            "magnitud": "no2",     # Filtrar por la magnitud 'no2'
            "info_estacion.estacion": "4"  # Filtrar por la estación 4
        }
    },
    {
        "$group": {
            "_id": {
                "mes": "$fecha.mes"  # Agrupar por mes
            },
            "month_average": {
                "$avg": {  # Hacer la media del mes
                    "$avg": [           # Hacer la media los valores de 'h01' a 'h24' de un día
                        "$mediciones.h01", "$mediciones.h02", "$mediciones.h03",
                        "$mediciones.h04", "$mediciones.h05", "$mediciones.h06",
                        "$mediciones.h07", "$mediciones.h08", "$mediciones.h09",
                        "$mediciones.h10", "$mediciones.h11", "$mediciones.h12",
                        "$mediciones.h13", "$mediciones.h14", "$mediciones.h15",
                        "$mediciones.h16", "$mediciones.h17", "$mediciones.h18",
                        "$mediciones.h19", "$mediciones.h20", "$mediciones.h21",
                        "$mediciones.h22", "$mediciones.h23", "$mediciones.h24"
                    ]
                }
            }
        }
    },
    {
        "$sort": {
            "_id.mes": 1  # Ordenar alfabéticamente por mes
        }
    }
]

# Ejecutar la consulta de agregación
result = list(air_quality_collection.aggregate(pipeline))

# Imprimir resultados
for item in result:
    print(item)

{'_id': {'mes': '01'}, 'month_average': 32.502688172043015}
{'_id': {'mes': '02'}, 'month_average': 40.55059523809524}
{'_id': {'mes': '03'}, 'month_average': 27.973118279569892}
{'_id': {'mes': '04'}, 'month_average': 23.915277777777778}
{'_id': {'mes': '05'}, 'month_average': 17.01478494623656}
{'_id': {'mes': '06'}, 'month_average': 22.579166666666666}
{'_id': {'mes': '07'}, 'month_average': 22.75}
{'_id': {'mes': '08'}, 'month_average': 21.422043010752688}
{'_id': {'mes': '09'}, 'month_average': 32.68194444444445}
{'_id': {'mes': '10'}, 'month_average': 32.829301075268816}
{'_id': {'mes': '11'}, 'month_average': 28.90138888888889}
{'_id': {'mes': '12'}, 'month_average': 37.24731182795699}


Vemos que en los meses de invierno la medición aumenta. El aumento en las mediciones de NO2 durante los meses de invierno puede atribuirse a una combinación de factores, que incluyen el aumento del uso de calefacción, las inversiones térmicas, la menor dispersión de contaminantes y el aumento del tráfico. Habría que investigar más allá para extraer conclusiones más exactas sobre la causa de este aumento en este caso concreto de la estación número 4 de Madrid.

Ahora, seleccionaremos el mes de febrero, ya que ha sido el mes con la mayor media de NO2, y haremos una comparativa entre diferentes estaciones.

In [99]:
# Consulta de agregación
pipeline = [
    {
        "$match": {
            "fecha.ano": "2023",  # Filtrar por el año 2023
            "fecha.mes": "02",     # Filtrar por el mes de febrero
            "magnitud": "no2",     # Filtrar por la magnitud 'no2'
        }
    },
    {
        "$group": {
            "_id": {
                "estacion": "$info_estacion.estacion"  # Agrupar por estación
            },
            "station_average": {
                "$avg": {               # Hacer la media del la estación
                    "$avg": [           # Hacer la media los valores de 'h01' a 'h24' de un día
                        "$mediciones.h01", "$mediciones.h02", "$mediciones.h03",
                        "$mediciones.h04", "$mediciones.h05", "$mediciones.h06",
                        "$mediciones.h07", "$mediciones.h08", "$mediciones.h09",
                        "$mediciones.h10", "$mediciones.h11", "$mediciones.h12",
                        "$mediciones.h13", "$mediciones.h14", "$mediciones.h15",
                        "$mediciones.h16", "$mediciones.h17", "$mediciones.h18",
                        "$mediciones.h19", "$mediciones.h20", "$mediciones.h21",
                        "$mediciones.h22", "$mediciones.h23", "$mediciones.h24"
                    ]
                }
            }
        }
    },
    {
        "$sort": {
            "station_average": -1  # Ordenar descendentemente según el resultado
        }
    }
]

# Ejecutar la consulta de agregación
result = list(air_quality_collection.aggregate(pipeline))

# Imprimir resultados
for item in result:
    print(item)

{'_id': {'estacion': '56'}, 'station_average': 50.410714285714285}
{'_id': {'estacion': '17'}, 'station_average': 48.81547619047619}
{'_id': {'estacion': '55'}, 'station_average': 47.726190476190474}
{'_id': {'estacion': '27'}, 'station_average': 44.52827380952381}
{'_id': {'estacion': '35'}, 'station_average': 43.794642857142854}
{'_id': {'estacion': '47'}, 'station_average': 42.19940476190476}
{'_id': {'estacion': '54'}, 'station_average': 41.688988095238095}
{'_id': {'estacion': '8'}, 'station_average': 41.04166666666667}
{'_id': {'estacion': '4'}, 'station_average': 40.55059523809524}
{'_id': {'estacion': '38'}, 'station_average': 40.285714285714285}
{'_id': {'estacion': '18'}, 'station_average': 39.05357142857143}
{'_id': {'estacion': '39'}, 'station_average': 38.28858024691358}
{'_id': {'estacion': '36'}, 'station_average': 36.95833333333333}
{'_id': {'estacion': '16'}, 'station_average': 36.735119047619044}
{'_id': {'estacion': '50'}, 'station_average': 36.67708333333333}
{'_id'

Vemos que la estación con mayores niveles de NO es el número 56, y el de menor es el número 58. Veamos más detalles sobre estas estaciones:

In [100]:
pprint.pprint(measurement_stations_collection.find_one({"codigo_corto": "56"}))

{'_id': ObjectId('65ece42676aaef7b839f98c0'),
 'codigo': '28079056',
 'codigo_corto': '56',
 'estacion': 'Plaza Elíptica',
 'fecha alta': '18/01/2010',
 'magnitudes_de_medida': {'btx': '',
                          'co': 'X',
                          'no2': 'X',
                          'o3': '',
                          'pm10': 'X',
                          'pm2_5': 'X',
                          'so2': ''},
 'tipo_estacion': {'cod_tipo': 'UT', 'nom_tipo': 'Urbana tráfico'},
 'ubicacion': {'altitud': 605.0,
               'cod_via': '293200',
               'coordenadas': {'coordenada_x_etrs89': 438991.9161,
                               'coordenada_y_etrs89': 4470741.548,
                               'latitud': 40.3850336,
                               'latitud_etrs89': '"40°23\'6.10""N"',
                               'longitud': -3.7187679,
                               'longitud_etrs89': '"3°43\'7.54""O"'},
               'direccion': 'Plaza Elíptica - Avda. Oporto',
   

In [101]:
pprint.pprint(measurement_stations_collection.find_one({"codigo_corto": "58"}))

{'_id': ObjectId('65ece42676aaef7b839f98c2'),
 'codigo': '28079058',
 'codigo_corto': '58',
 'estacion': 'El Pardo',
 'fecha alta': '01/12/2009',
 'magnitudes_de_medida': {'btx': '',
                          'co': '',
                          'no2': 'X',
                          'o3': 'X',
                          'pm10': '',
                          'pm2_5': '',
                          'so2': ''},
 'tipo_estacion': {'cod_tipo': 'S', 'nom_tipo': 'Suburbana'},
 'ubicacion': {'altitud': 612.0,
               'cod_via': '348500',
               'coordenadas': {'coordenada_x_etrs89': 434381.6,
                               'coordenada_y_etrs89': 4485548.7,
                               'latitud': 40.5180701,
                               'latitud_etrs89': '"40°31\'4.97""N"',
                               'longitud': -3.7746101,
                               'longitud_etrs89': '"3°46\'28.62""O"'},
               'direccion': 'Avda. La Guardia',
               'via_clase': 'AVENI

Si revisamos los detalles de estas estaciones, vemos que los que tienen mayores niveles de contaminación se encuentran en zonas urbanas de alta densidad de tráfico, y aquellos que tienen menores niveles de contaminación se encuentran en zonas verdes más alejadas del tráfico. Pasa lo mismo revisando otras que están o bien muy arriba o bien muy abajo en el ranking.

Comprobamos si en las consultas realizadas arriba, hay algún dato inválido. <span style="color:red">**_(Noota: Veo que los hay, y creo que debería no ingestarlos para no tener interferencias después en el análisis de datos.)_**</span> 

In [105]:
pipeline = [
    {
        "$match": {
            "fecha.ano": "2023",
            "magnitud": "no2",
            "info_estacion.estacion": "4"
        }
    },
    {
        "$group": {
            "_id": "$mediciones.v01",
            "count": {"$sum": 1}
        }
    },
    {
        "$sort": {"_id": 1}
    }
]

resultado = list(air_quality_collection.aggregate(pipeline))

for r in resultado:
    print(r)

{'_id': 'N', 'count': 3}
{'_id': 'V', 'count': 362}


## Data store seleccionado
Tener en cuenta que cada data store tine sus carácterísticas y es más idoneo para realizar ciertas operaciones que otros

Hacer una comparativa con todos los data stores vistos en clase, incluyendo los relacionales, de clave valor, etc.

**Nuestro caso de uso:**

En los datos de calidad de aire se tienen diferentes niveles de estaciones. A primer nivel, por cada estación, se tiene una serie temporal que se reporta cada hora.

La solución a la que me gustaría llegar es: crear un dashboard que hace consultas cada mes al dataset (según la comunidad de Madrid, actualizan el dataset cada mes), y que muestre los resultados actualizados cada mes. Tendría que pensar cuáles son las preguntas que quieren responder los usuarios del dashboard mediante las consultas.

**Requerimiento # 1: Caso de uso de Analítica**

En un principio, podemos pensar que si se consulta mucho los datos, lo más rápido sería clave-valor. Pero tenemos que enfocarnos si nuestro caso de uso qué tipo de consultas va a realizar:
- Analítica sobre la información almacenada y time-series.
- Cálculo de ciertas consultas y almacenamiento ya calculado.

Ahora mismo nos interesaría más la parte de analítica. Entonces tenemos que buscar una base de datos que soporte esta analítica. Con un clave-valor no se podría hacer este tipo de operaciones, por lo que con esto, descartamos el conjunto de bases de datos de clave-valor. Mongo nos permite hacer esta parte de analítica, con toda la parte de agregación que vimos en clase.

**Requerimiento # 2: Disponibilidad de la información en minutos**

Otra cosa a tener en cuenta es la disponibilidad de la información, cómo de alta disponibilidad necesitamos (requisitos de disponibilidad):
- Necesitamos tener la disponibilidad del dato en cuestión de **segundos**.
- Necesitamos tener la disponibilidad del dato en cuestión de **minutos**.

Una BBDD clave-valor nos dará el dato en milisegundos. Un Mongo tarda un poco más, estarán entorno al segundo, medio-minuto. En este caso, no importa si es medio-minuto, por lo que Mongo nos vale.

**Requerimiento # 3: Búsquedas sobre índices geoespaciales**

Necesitamos que nuestra base de datos tenga la capacidad de hacer analítica sobre índices geoespaciales. Elastic también nos permite hacer búsquedas sobre Posiciones Georreferenciadas. También permite hacer agregaciones/búsquedas agregadas. También permite trabajar con time-series.

Mongo también permite trabajar con time-series. Lo de los time-series no lo hemos visto en clase.

Viendo que en ambas vamos a poder trabajar con time-series. Y viendo que ambas son dos bases de datos de documentos, aquí debemos de ver cuál va a ser mejor para nuestro caso de uso, si Mongo o Elastic. Son bastante parecidas, pero tengo que argumentar cuál me interesa más. Podría decir que por facilidad de uso me he ido a Mongo.

**Requerimiento # 4: Necesidad de consistencia**

En este caso de uso, como estamos trabajando con datos científicos, necesitamos consistencia, porque tomamos decisiones en base a umbrales. Mongo y Elastic están más orientadas a la consistencia que a la disponibilidad, por lo que serían adecuados. En contraposición, una base de datos de familia de columnas como puede ser Cassandra está más orientada a la disponibilidad de la información que a la consistencia, por lo que esto no sería útil en nuestro caso.


**Requerimiento # 5: Necesidad de particionado**

Tenemos que tener en cuenta la necesidad de particionar nuestros datos o no, con el objetivo de trabajar con grandes volúmenes de datos. Si necesitamos particionar nuestros datos, ver el tipo de particionado que me permite Elastic versus el tipo de particionado que me permite Mongo. En este caso sí que difieren una de la otra.


<span style="color:red">**_(Noota: Revisar la ortografía en todo el documento.)_**</span> 

## Diagrama de modelo de datos
Para definir el modelado de los datos, tenemos que tener en cuenta las consultas necesarias que queremos hacer.

Tendría que pensar cuáles son las preguntas que quieren responder los usuarios del dashboard mediante las consultas. Y a partir de esto, tendría que ir de abajo a arriba, pensando cuáles son:
- Las agregaciones necesarias (analítica).
- Las particiones necesarias.
- Indexación necesaria.

Sobre todo, cuando queremos hacer consultas analíticas, nos tenemos que dejar guiar por la consulta, porque cuánto mejor preparemos la información para la consulta, mejor será el rendimiento.

<span style="color:red">**_(Noota: Aquí puedo hacer algo similar al modelado de datos que hicimos en clase.)_**</span> 

<span style="color:red">**_(Noota: Futuras líneas: ¿Existe alguna correlación entre la concentración de ciertos contaminantes y la salud pública, como tasas de enfermedades respiratorias o de hospitalización?.)_**</span> 