# Práctica NoSQL Sergio Yunta Martín
El conjunto de datos elegido es el de la calidad del aire de la ciudad de Madrid, es un tema que me llama mucho a atención, además que recientemente me he fijado en las aplicaciones relacionadas con este tema en el teléfono móvil y ordenador.

## Descripción de caso de uso

La idea con este conjunto de datos es estudiar la calidad del aire en diferentes momentos del año en la ciudad de Madrid, así como las zonas más y menos afectadas por la contaminación para poder generar métricas y tomar decisiones para mejorar la situación y avanzar hacia una ciudad más sostenible.

[El dataset elegido es este](https://datos.madrid.es/sites/v/index.jsp?vgnextoid=f3c0f7d512273410VgnVCM2000000c205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD), específicamente el conjunto de 2024, como los datos son horarios, nos interesa tener esa granularidad a la hora de hacer las consultas.

Por lo tanto es importante tener dos queries, la calidad del aire de un día específico, calculando la media de todas sus mediciones y la calidad del aire a una hora específica, puede ser interesante también ver cómo las diferentes actividades que se llevan al cabo al día, como por ejemplo conducir al trabajo, festividades, carreras... pueden afectar a la calidad del aire, dentro del mismo día.

Después, el cliente que consuma estas consultas tiene que ser el encargado de interpretar estos datos y generar los informes correspondientes. Además, esta solución se ha pensado de manera que se pudiera integrar fácilmente con una web interactiva, por ejemplo con un mapa que muestre la situación y que con un `slider` se puedan ir cambiando dentro del mismo día, por ejemplo.

En este caso de uso, como estamos hablando de analítica, agregaciones y gran cantidad de datos tenemos que usar el data store **MongoDB**. Este datastore es idóneo ya que una buena indexación puede agilizar mucho las consultas, además que posee un framework de agregación muy completo que nos permite realizar todo tipo de operaciones y manipular los documentos a nuestro gusto. **Neo4j** queda totalmente descartado porque no tenemos relaciones en este conjunto de datos, además de que no vamos a buscar patrones, necesitamos un motor rápido en gestionar esta carga de datos y que nos permita realizar operaciones sobre ellos, todo lo contrario al paradigma que nos presenta `Neo4j`.

## Modelado
De cara a modelar los datos, tenemos que tener en cuenta que nos interesa tener la mayor cantidad de información de golpe (más si queremos la integración con una aplicación web), las relaciones no son deseables en este datastore por lo que idealmente guardaremos toda la información en una única colección. La idea es por tanto embeber las posibles relaciones que tenemos en los datos del dataset, que en ese caso serían la información de las estaciones dentro de la propia medición.

Esto lo tenemos que tener en cuenta a la hora de leer los datos. La idea es interactuar sobre mediciones, y no tanto sobre estaciones de medida, además, el número de estas no es muy grande ya que estamos hablando de datos sólo de la ciudad de Madrid, por lo que la redundancia no es un problema.

Otra decisión a tomar es qué datos nos quedamos (están más abajo en el esquema) ya que muchos no los necesitamos o tal vez no aplican a nuestro caso de uso. Además, se han decidido agrupar todos los datos horarios en un array, lo que nos permite luego operar sobre ellos y a su vez elegir mediante el índice a una hora en concreto.

> NOTA: En la interpretación de los datos se explica el el dato H01 es de la 1 de la mañana, por lo que si queremos acceder por índice, tiene que ser `hora - 1` 

También es importante saber el patrón de acceso a los datos, qué consultas vamos a hacer y por tanto qué datos vamos a necesitar para ellas. La decisión anterior es consecuencia directa de esto, y las consultas a realizar son:

- Obtener la calidad del aire de un día a una hora en concreto. Se debe indicar el día, el mes, el año y la hora. Solo se han incluido datos de 2024, aunque la idea es que esta solución sea escalable.
- Obtener la calidad del aire de un día completo. Se debe indicar el día, el mes y el año.

Con esto en mente, el modelo de datos quedaría así:

![Modelo_Sergio_Yunta](./Modelo_SY.jpg)


## Paso 1: Limpieza de los datos
Para saber cómo usar los datos y por tanto, limpiarlos, debemos informarnos un poco sobre lo que estamos manejando. En este caso, he mirado diferentes referencias sobre la medición de la capacidad del aire en España, las referencias utilizadas son las siguientes:

- [Interpretación csv estaciones](https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Estructura_C.A.Estaciones.pdf)
- [Interpretación csv mediciones](https://datos.madrid.es/FWProjects/egob/Catalogo/MedioAmbiente/Aire/Ficheros/Interprete_ficheros_%20calidad_%20del_%20aire_global.pdf)
- [Explicación del Índice de Calidad del Aire (ICA) del gobierno de España](https://www.miteco.gob.es/es/calidad-y-evaluacion-ambiental/temas/atmosfera-y-calidad-del-aire/calidad-del-aire/ica.html)
- [¿Cómo se mide la calidad del aire? de fundación aquae](https://www.fundacionaquae.org/wiki/como-se-mide-calidad-aire/#:~:text=La%20temperatura%2C%20la%20humedad%2C%20los,medici%C3%B3n%20del%20aire%20que%20respiramos.)
- [Otra explicación sobre el ICA de eurofins (valores tabla inferior)](https://www.eurofins-environment.es/es/indice-de-calidad-del-aire/)

Me gustaría destacar que esta solución muestra una interpretación muy simplificada acerca de este tema ya que la rigurosidad científica queda algo fuera del alcance de esta práctica. De estas referencias, podemos extraer ciertas conclusiones como que la medición de la calidad del aire se reduce a 5 magnitudes que forman el código ICA junto con sus valores recomendados (de nuevo, simplificado). Estas son:

| Código |      Magnitud        | Calidad Buena  | Calidad Regular | Calidad Mala   |
|:------:|:--------------------:|:--------------:|:---------------:|:--------------:|
|   01   | Dióxido de Azufre    |     0 - 200    |    201 - 350    |     > 351      |
|   08   | Dióxido de Nitrógeno |     0 - 100    |    101 - 200    |     > 201      |
|   09   | Partículas < 2.5 µm  |     0 - 20     |     21 - 25     |     > 26       |
|   10   | Partículas < 10 µm   |     0 - 40     |     41 - 50     |     > 51       |
|   14   | Ozono                |     0 - 100    |    101 - 130    |     > 131      |

Otro aspecto que puede interesar limpiar son las medidas que no son válidas (poniendo un cero para no estropear la consulta horaria), en los csv junto con la medida horaria se indica si es válida o no.


In [2]:
!pip install pandas



Esta es la función que se utiliza para leer el csv de las estaciones, lo más destacable es quedarnos con la info que nos interesa. Por ejemplo, nos da igual el tipo de magnitudes que lea porque esta información la vamos a tener más adelante en los datos. La idea principal es generar un diccionario de estaciones para luego embeberlo en la medición.

In [3]:
import pandas as pd

def read_stations(file_path: str) -> dict:
    """
    Read a file with air quality stations.
    
    Parameters
    ----------
    file_path : str
        Name of the file with the data

    Returns
    -------
    dict
        dictionary with station information ready to insert to mongoDB
    """
    
    stations_df = pd.read_csv(file_path, sep=";")

    # keep columns that we need
    stations_df = stations_df[["CODIGO", "ESTACION", "NOM_TIPO", "Fecha alta", "LONGITUD", "LATITUD"]]
    stations_df["location"] = stations_df.apply(lambda row: [row["LONGITUD"], row["LATITUD"]], axis=1)
    stations_df = stations_df[["CODIGO", "ESTACION", "NOM_TIPO", "Fecha alta", "location"]]
    stations_df.rename(columns={"CODIGO": "_id", "ESTACION": "location_name", "NOM_TIPO": "type", "Fecha alta": "start_date"}, inplace=True)
    stations = stations_df.to_dict("records") # it generates a list, not a dict

    stations_dict = {}
    for station in stations:
        stations_dict[str(station["_id"])] = station

    return stations_dict


Esta es la función para leer los datos de las mediciones junto con una auxiliar para transformar los datos horarios a un array, teniendo en cuenta si el valor es válido o no. De la función principal podemos destacar que extraemos del campo `PUNTO_MUESTREO` la info necesaria para embeber el documento de estación correspondiente que viene dado por el diccionario que se recibe como argumento.

In [4]:
from typing import List

def _convert_columns_into_list(row):
    """
    Convert dataframe row into a list

    Parameters
    ----------
    row : Dataframe Row
        row of a dataframe for applying condition
    
    Returns
    -------
    List :
        list with transformed columns
    """
    values = []
    for i in range(1, 25):
        key = f"0{i}" if i < 10 else str(i)
        if row[f"V{key}"] == "V":
            values.append(row[f"H{key}"])
        else:
            values.append(0)
    
    return values

VALID_MAGNITUDES = [1, 8, 9, 10, 14]

def read_measurements(file_path: str, stations: dict) -> List[dict]:
    """
    Read files in a path with air quality measurements.

    Parameters
    ----------
    file_path : str
        path with multiple csv files with data
    stations : dict
        dictionary with stations data
    """
    measurements_df = pd.read_csv(file_path, sep=";")
    measurements_df = measurements_df[measurements_df["MAGNITUD"].isin(VALID_MAGNITUDES)]
    # Transform colums into array of values
    measurements_df["values"] = measurements_df.apply(_convert_columns_into_list, axis=1)
    measurements_df["station"] = measurements_df.apply(lambda row: stations[row["PUNTO_MUESTREO"].split("_")[0]], axis=1)
    # Keep columns that we need
    measurements_df = measurements_df[["ANO", "MES", "DIA", "MAGNITUD", "values", "station"]]
    measurements_df.rename(columns={"ANO": "year", "MES": "month", "DIA": "day", "MAGNITUD": "magnitude"}, inplace=True)

    return measurements_df.to_dict("records") # it generates a list, not a dict


## Paso 2: Insertamos los documentos en la base de datos
Ya tenemos las funciones que van a limpiar y formatear los datos según nos interesan para las operaciones que realizaremos a continuación.

El siguiente paso es conectarnos con la base de datos, crearla y rellenarla con los datos que vamos a parsear.

In [5]:
!pip install pymongo



In [None]:
import os
from pymongo import MongoClient

# connect to database
client = MongoClient("mongodb://nosql:nosql@mongo:27017/")
# client = MongoClient("mongodb://nosql:nosql@localhost:27017/")

# Reset database
client.drop_database("datahack_task2")

# Create database and collection
db = client["datahack_task2"]
measurements = db["measurements"]

# stations info
stations_dict = read_stations("./data/informacion_estaciones_red_calidad_aire.csv")
data_path = "./data/metrics"

# Insert documents by month
for file in os.listdir(data_path):
    values = read_measurements(os.path.join(data_path, file), stations_dict)
    measurements.insert_many(values)

measurement = db.measurements.count_documents({})
print(measurement)

22309


## Paso 3: Índice para optimizar la consulta a bbdd
En este punto, ya tenemos claro el patrón de acceso a la base datos, básicamente va a ser la fecha, por lo que nuestro índice está claro, debemos crear uno sobre estos campos. De manera más específica, sobre día, mes y año. Sobre la hora no es necesaria, ya que nunca se va a realizar un filtrado de los documentos de la base de datos por ese campo, tenemos en cada uno toda la información del día completo.

In [7]:
import pymongo

# Creamos índice para la consulta
try:
    db.measurements.drop_index("DateIdx")
except Exception as _: # does not exist
    pass

db.measurements.create_index( 
    [("day", pymongo.ASCENDING), ("month", pymongo.ASCENDING), ("year", pymongo.ASCENDING)], name = "DateIdx")

'DateIdx'

## Paso 4: Consultas
Las consultas que se van a realizar son las que se han mencionado antes, una para obtener los datos de la calidad del aire para un día y una hora específica y otra con la media del día.

Para cada consulta, se va a calcular la calidad de todas las magnitudes, dándoles una etiqueta de `fair`, `moderate` o `poor`, además, se mostrará esta información para todas las estaciones (se tratan como zonas) y ordenadas en función del que tiene la peor calidad.

Ahora vamos a crear funciones que hagan el código de la consulta más legible, pero que nos ayuden a dar formato a la salida de la misma, por ejemplo, transformando los códigos de magnitudes por su nombre y el valor por su interpretación en la tabla mencionada anteriormente.

In [8]:
def transform_code_to_magnitude(magnitude):
    return {
        "$switch": {
            "branches": [
                { "case": { "$eq": [magnitude, 1] }, "then": "sulfur dioxide" },
                { "case": { "$eq": [magnitude, 8] }, "then": "nitrogen dioxide" },
                { "case": { "$eq": [magnitude, 9] }, "then": "PM2.5" },
                { "case": { "$eq": [magnitude, 10] }, "then": "PM10" },
                { "case": { "$eq": [magnitude, 14] }, "then": "Ozone" }
            ],
            "default": "unknown"
        }
    }

def transform_number_to_quality(key, value):
    return { 
        "$switch": {
            "branches": [
                # Dioxido de azufre (cod 1)
                { "case": { "$and": [{"$eq": [key, 1]}, { "$gte": [value, 0] }, { "$lte": [value, 200] }] }, "then": { "quality": "good", "value": value, "order": 3 } },
                { "case": { "$and": [{"$eq": [key, 1]}, { "$gt": [value, 200] }, { "$lte": [value, 350] }] }, "then": { "quality": "moderate", "value": value, "order": 2 } },
                { "case": { "$and": [{"$eq": [key, 1]}, { "$gt": [value, 350] }] }, "then": { "quality": "poor", "value": value, "order": 1 } },
                # Dioxido de nitrogeno (cod 8)
                { "case": { "$and": [{"$eq": [key, 8]}, { "$gte": [value, 0] }, { "$lte": [value, 100] }] }, "then": { "quality": "good", "value": value, "order": 3 } },
                { "case": { "$and": [{"$eq": [key, 8]}, { "$gt": [value, 100] }, { "$lte": [value, 200] }] }, "then": { "quality": "moderate", "value": value, "order": 2 } },
                { "case": { "$and": [{"$eq": [key, 8]}, { "$gt": [value, 200] }] }, "then": { "quality": "poor", "value": value, "order": 1 } },
                # PM2.5 (cod 9)
                { "case": { "$and": [{"$eq": [key, 9]}, { "$gte": [value, 0] }, { "$lte": [value, 20] }] }, "then": { "quality": "good", "value": value, "order": 3 } },
                { "case": { "$and": [{"$eq": [key, 9]}, { "$gt": [value, 20] }, { "$lte": [value, 25] }] }, "then": { "quality": "moderate", "value": value, "order": 2 } },
                { "case": { "$and": [{"$eq": [key, 9]}, { "$gt": [value, 25] }] }, "then": { "quality": "poor", "value": value, "order": 1 } },
                # PM10 (cod 10)
                { "case": { "$and": [{"$eq": [key, 10]}, { "$gte": [value, 0] }, { "$lte": [value, 40] }] }, "then": { "quality": "good", "value": value, "order": 3 } },
                { "case": { "$and": [{"$eq": [key, 10]}, { "$gt": [value, 40] }, { "$lte": [value, 50] }] }, "then": { "quality": "moderate", "value": value, "order": 2 } },
                { "case": { "$and": [{"$eq": [key, 10]}, { "$gt": [value, 50] }] }, "then": { "quality": "poor", "value": value, "order": 1 } },
                # Ozono (cod 14)
                { "case": { "$and": [{"$eq": [key, 14]}, { "$gte": [value, 0] }, { "$lte": [value, 100] }] }, "then": { "quality": "good", "value": value, "order": 3 } },
                { "case": { "$and": [{"$eq": [key, 14]}, { "$gt": [value, 100] }, { "$lte": [value, 130] }] }, "then": { "quality": "moderate", "value": value, "order": 2 } },
                { "case": { "$and": [{"$eq": [key, 14]}, { "$gt": [value, 130] }] }, "then": { "quality": "poor", "value": value, "order": 1 } },
            ],
            "default": { "quality": "unknown", "value": value, "order": 4 }
        }
    }

## Calidad del aire en un día específico, a una hora específica

Esta consulta tiene como objetivo conocer la calidad del aire a una hora y día específico. Esto cumple con la parte de nuestro caso de uso de que podemos usarlo para estudiar la evolución de la calidad del aire a lo largo del día, así como para poder integrarlo con una interfaz web, donde mediante un elemento podemos permitir al usuario cambiar la entrada de la consulta.

In [9]:
from pprint import pprint

day = 26
month = 7
year = 2024
hour = 8
# Transform into index in our array of values
hour = (hour - 1) % 24

query_pipeline_hour  = [
    { "$match": {"day": day, "month": month, "year": year} },
    { "$project": { "magnitude": 1, "station": 1, "value": {"$arrayElemAt": ["$values", hour]} } },
    { "$group": {
        "_id": "$station",
        "magnitudes": {
            "$push": { 
                "k": "$magnitude",
                "v": "$value"
            }
        }
    }},
    { "$addFields": {
        "magnitudes": {
            "$map": {
                "input": "$magnitudes",
                "as": "current",
                "in": {
                    "k": transform_code_to_magnitude("$$current.k"),
                    "v": transform_number_to_quality("$$current.k", "$$current.v")
                }
            }
        }
    }},
    { "$addFields": {
        "min_priority": { "$min": {
            "$map": {
                "input": "$magnitudes",
                "as": "current",
                "in": "$$current.v.order"
            }}
        }
    }},
    { "$sort": { "min_priority": 1 }},
    { "$project": {
        "_id.location_name": 1,
        "magnitudes": { "$arrayToObject": "$magnitudes" }
    }},
]

results = db.measurements.aggregate(query_pipeline_hour)

for result in results:
    pprint(result, width=100)
    print()

{'_id': {'location_name': 'Plaza Castilla'},
 'magnitudes': {'PM10': {'order': 3, 'quality': 'good', 'value': 39.0},
                'PM2.5': {'order': 1, 'quality': 'poor', 'value': 28.0},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 24.0}}}

{'_id': {'location_name': 'Escuelas Aguirre'},
 'magnitudes': {'Ozone': {'order': 3, 'quality': 'good', 'value': 60.0},
                'PM10': {'order': 2, 'quality': 'moderate', 'value': 42.0},
                'PM2.5': {'order': 3, 'quality': 'good', 'value': 18.0},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 26.0},
                'sulfur dioxide': {'order': 3, 'quality': 'good', 'value': 3.0}}}

{'_id': {'location_name': 'Moratalaz'},
 'magnitudes': {'PM10': {'order': 2, 'quality': 'moderate', 'value': 46.0},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 24.0},
                'sulfur dioxide': {'order': 3, 'quality': 'good', 'value': 2.0}}}

{'_id

## Calidad del aire en un día específico

Esta consulta tiene como objetivo conocer la calidad del aire en un día específico calculando la media de sus medidas por horas. Esto cumple con la parte de nuestro caso de uso de que podemos usarlo para estudiar la evolución de la calidad del aire en días diferentes. Por ejemplo, ¿qué diferencia hay entre un día de agosto y uno de octubre?. Esto se puede obtener ejecutanto varias veces la consulta con distintos días para ver ese cambio. Esto tiene una buena integración con aplicaciones de representación de gráficas o visualización de los resultados.

In [10]:
from pprint import pprint

day = 26
month = 7
year = 2024

query_pipeline_day  = [
    { "$match": {"day": day, "month": month, "year": year} },
    { "$unwind": "$values" },
    { "$group": {
        "_id": {"magnitude": "$magnitude", "station": "$station.location_name"},
        "avg_value": {"$avg": "$values"}
    }},
    { "$group": {
        "_id": "$_id.station",
        "magnitudes": {
            "$push": { 
                "k": "$_id.magnitude",
                "v": "$avg_value"
            }
        }
    }},
    { "$addFields": {
        "magnitudes": {
            "$map": {
                "input": "$magnitudes",
                "as": "current",
                "in": {
                    "k": transform_code_to_magnitude("$$current.k"),
                    "v": transform_number_to_quality("$$current.k", "$$current.v")
                }
            }
        }
    }},
    { "$addFields": {
        "min_priority": { "$min": {
            "$map": {
                "input": "$magnitudes",
                "as": "current",
                "in": "$$current.v.order"
            }}
        }
    }},
    { "$sort": { "min_priority": 1 }},
    { "$project": {
        "_id": 1,
        "magnitudes": { "$arrayToObject": "$magnitudes" }
    }},
]

results = db.measurements.aggregate(query_pipeline_day)

for result in results:
    pprint(result, width=100)
    print()

{'_id': 'Arturo Soria',
 'magnitudes': {'Ozone': {'order': 2, 'quality': 'moderate', 'value': 111.41666666666667},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 14.125}}}

{'_id': 'Plaza del Carmen',
 'magnitudes': {'Ozone': {'order': 2, 'quality': 'moderate', 'value': 107.04166666666667},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 18.291666666666668},
                'sulfur dioxide': {'order': 3, 'quality': 'good', 'value': 3.625}}}

{'_id': 'Tres Olivos',
 'magnitudes': {'Ozone': {'order': 2, 'quality': 'moderate', 'value': 117.41666666666667},
                'PM10': {'order': 3, 'quality': 'good', 'value': 36.0},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 12.333333333333334}}}

{'_id': 'Juan Carlos I',
 'magnitudes': {'Ozone': {'order': 2, 'quality': 'moderate', 'value': 108.375},
                'nitrogen dioxide': {'order': 3, 'quality': 'good', 'value': 12.375}}}

{'_id': 'Escuela

Podemos ver la actuación del índice en las consultas mediante un explain. Para ambas vemos que en la etapa de `FETCH` se utiliza `IXSCAN`, que nos indica que se está utilizando el índice que hemos creado anteriormente. Además, en la parte de `indexName` vemos que pone `DateIdx`, que es el que hemos definido antes.

In [13]:
from pprint import pprint

explain_output = db.command('aggregate', 'measurements', pipeline=query_pipeline_hour, explain=True)

pprint(explain_output["stages"][0]["$cursor"]["queryPlanner"]["winningPlan"])

explain_output = db.command('aggregate', 'measurements', pipeline=query_pipeline_day, explain=True)

pprint(explain_output["stages"][0]["$cursor"]["queryPlanner"]["winningPlan"])

{'inputStage': {'inputStage': {'direction': 'forward',
                               'indexBounds': {'day': ['[26, 26]'],
                                               'month': ['[7, 7]'],
                                               'year': ['[2024, 2024]']},
                               'indexName': 'DateIdx',
                               'indexVersion': 2,
                               'isMultiKey': False,
                               'isPartial': False,
                               'isSparse': False,
                               'isUnique': False,
                               'keyPattern': {'day': 1, 'month': 1, 'year': 1},
                               'multiKeyPaths': {'day': [],
                                                 'month': [],
                                                 'year': []},
                               'stage': 'IXSCAN'},
                'stage': 'FETCH'},
 'stage': 'PROJECTION_DEFAULT',
 'transformBy': {'_id': True,
               

## Conclusiones

### ¿Qué te parece la base de datos seleccionada como data store?

En mi opinión, además de ser ideal para el caso de uso seleccionado para la práctica, me parece un data store muy interesante, con bastante funcionalidad hasta el punto que me ha sorprendido mucho. Me he quedado sorprendido con la cantidad de cosas que se pueden hacer con su framework de agregación, que he querido explorar al máximo lo que he podido encontrar sobre él. 

Por otro lado, la creación de la base de datos y poblarla es bastante sencillo porque los documentos están en formato json (con el que me siento muy cómodo). 

Lo que sí me ha parecido es que precisamente porque es un json, se puede hacer poco legible muy rápido, aunque el framework de agregación lo solventa un poco con el concepto de pipeline, cosa que me ha parecido comodísima.

### ¿Qué te ha parecido el ejercicio?

El ejercicio me ha parecido muy interesante. Que sea tan abierto y tengamos la posibilidad de elegir los datos sobre los que trabajar me parece una decisión muy acertada, haciendo que elijamos algo que nos atraiga y lo hagamos con más ganas y sea más atractivo.

Por ejemplo, es mi primera vez tratando datos así y lo he encontrado muy enriquecedor, también incluida la etapa de buscar información sobre los datos, cómo se interpretan en la vida real y cómo encaja con data store.

### ¿Qué has aprendido?

He aprendido mucho sobre una de las etapas muy importantes y críticas del big data, tomar la decisión sobre dónde y cómo almacenar los datos. Considero que esto es muy importante porque va a condicionar todo lo que viene detrás, las consultas, la rapidez, la disponibilidad del dato, la consistencia...

Además era un tema que tenía prácticamente desconocido, ya que en la carrera lo había visto de manera muy superficial dando mucha importancia a la parte técnica y las consultas antes que lo realmente importante, ¿cuándo nos planteamos un data store así? Al menos esta pregunta ya la tengo resuelta.

### ¿Qué has echado de menos?

Pues la verdad que no sabría qué decir. La práctica es muy abierta lo que da pie a tomar tus propias decisiones, cosa que considero muy difícil y está muy bien poderlo practicar, ya que es una habilidad muy importante en lo laboral.

Esto puede ser bueno o malo, se podría echar de menos algo de guía en la práctica, pero no es mi caso, me parece muy correcto con unos requisitos abiertos pero suficientes.

### ¿Cómo mejorarías la práctica?

Creo que puede quedar un poco raro sin un cliente que consuma los resultados, pero quedaba fuera del alcance de la práctica.

También me he estado debatiendo si añadir alguna consulta más al caso de uso, pero creo que ha quedado un resultado interesante, también quiero ilustrar la importancia de limitar estas consultas y tenerlas claras antes de modelar los datos y consumirlos, orientando todo el desarrollo a que dichas consultas sean óptimas y su almacenamiento eficiente. Finalmente se ha quedado así.

Por último, he intentado pensar en la solución para que escale, como son tan específicas el caso de uso y las consultas, estaría muy optimizado para aumentar el tamaño de la base de datos, añadiendo datasets de años anteriores y comparando los resultados.

Para finalizar, me gustaría darte las gracias Rafa por las explicaciones y por las clases que nos has dado. Por mi parte he aprendido muchísimo de un mundo que desconocía casi por completo, con la parte justa de teoría y práctica.

Además aprecio mucho los notebooks de ejercicios, que miraré durante estos días e intentaré resolver por mi cuenta.