# Manejo de Datos Tabulares con Listas de Diccionarios

Este set de retos se centra en la manipulación de datos tabulares utilizando listas de diccionarios, una estructura fundamental en Python. Estas habilidades son esenciales en ciencia de datos, ya que permiten filtrar, transformar, agrupar y analizar datos crudos de manera eficiente. Dominar este tema forma la base para trabajar con herramientas avanzadas como Pandas y desarrollar soluciones sólidas para el análisis de datos en el mundo real.

**Nota:**

Los siguientes retos van seriados por ello es importante que los resuelvas en orden. En cada reto utilizarás conceptos aplicados en el reto anterior lo que te permitirá ir aumentando la complejidad gradualmente.

Recuerda, no se trata de saberlo todo desde el principio. Estos retos están diseñados para que aprendas haciendo, cometiendo errores y resolviendo problemas de manera práctica. ¡Confía en el proceso!

## Reto 1: Filtrado Básico de Registros

**Descripción:**

Crear una función que reciba una lista de diccionarios representando un conjunto de datos y devuelva solo los registros que cumplan con una condición simple.

**Objetivo:**

Filtrar registros basados en un valor específico en una clave dada.

**Requerimientos:**

1.	La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave por la cual se va a hacer el filtro (key).
	- Un valor del filtro (value).
2.	La salida debe ser una lista con los registros que tengan value en la clave key.

**Ejemplo de Entrada:**

In [1]:
from Soluciones.manejo_datos_tabulares import filter_records


data = [{"name": "Alice", "age": 25}, {"name": "Bob", "age": 30}]
# Se devolverán los registros en "data" que tengan el valor de "age" igual a 25
filter_records(data, "age", 25)

# Salida Esperada:

[{'name': 'Alice', 'age': 25}]

**Hints:**

- Usa bucles para recorrer cada registro.
- El método [.get(key)](https://docs.python.org/3/library/stdtypes.html#dict.get) de los diccionarios puede ayudarte a acceder a los valores y evita errores que `dict_[key]` te da en caso de que el diccionario no tenga esa llave, además te permite poner un valor por default.

---

## Reto 2: Cálculo de Promedio en una Columna

**Descripción:**

Crear una función que reciba una lista de diccionarios y calcule el promedio de los valores numéricos en una columna específica.

**Objetivo:**

Extraer y calcular el promedio de valores numéricos en una clave dada.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave numérica (key).
2. La salida debe ser un número que represente el promedio de la variable enviada.

**Ejemplo de Entrada:**

In [2]:
from Soluciones.manejo_datos_tabulares import calculate_average


data = [{"name": "Alice", "age": 25}, {"name": "Bob", "age": 30}]
# Se devolverá el promedio de los valores de "age" en "data"
calculate_average(data, "age")

# Salida Esperada:

27.5

**Hints:**

- Usa listas por comprensión para extraer los valores numéricos **(como en el Reto 1)**.
- Asegúrate de manejar casos en los que la lista esté vacía.

---

## Reto 3: Creación de una Nueva Columna

**Descripción:**

Agregar una nueva clave-valor a cada registro, donde el valor sea la suma de las otras columnas existentes.

**Objetivo:**

Modificar cada registro en la lista para incluir una nueva columna calculada.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una nueva clave (new_key).
	- Dos claves existentes (key1 y key2).
2. La salida debe ser la lista con los registros modificados.

**Ejemplo de Entrada:**


In [3]:
from Soluciones.manejo_datos_tabulares import add_sum_column


data = [{"value1": 10, "value2": 20}, {"value1": 5, "value2": 15}]
# Se devolverá la suma de "value1" y "value2" en la columna "total"
add_sum_column(data, "total", "value1", "value2")

# Salida Esperada:

[{'value1': 10, 'value2': 20, 'total': 30},
 {'value1': 5, 'value2': 15, 'total': 20}]

**Hints:**

- Usa bucles para recorrer cada registro.
- Asegúrate de verificar que las claves key1 y key2 existan en cada registro.
- Usa la validación de tipo de dato que **usaste en el Reto 2**.

---

## Reto 4: Agrupamiento de Registros

**Descripción:**

Agrupar los registros por un valor en una clave específica y calcular el número de registros en cada grupo.

**Objetivo:**

Crear un resumen que cuente los registros por grupo.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave (key) para agrupar los datos.
2. La salida debe ser un diccionario donde las claves sean los valores únicos de key y los valores sean los conteos.

**Ejemplo de Entrada:**

In [4]:
from Soluciones.manejo_datos_tabulares import group_records


data = [{"city": "A"}, {"city": "B"}, {"city": "A"}]
# Se devolverá un diccionario con los valores de "city" como clave
# y el valor será la cantidad de registros con ese valor
group_records(data, "city")

# Salida Esperada:

{'A': 2, 'B': 1}

**Hints:**

- Usa un diccionario para acumular los conteos.
- El método [.get(key)](https://docs.python.org/3/library/stdtypes.html#dict.get) puede ayudar a acceder a los valores de los registros **(como en el Reto 1)**.

___

## Reto 5: Resumen de Datos

**Descripción:**

Crear una función que devuelva un resumen de los datos, incluyendo el número total de registros, el promedio de una columna numérica y los valores únicos en otra columna.

**Objetivo:**

Consolidar el análisis básico de un conjunto de datos en un resumen.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave numérica (numeric_key) para el promedio.
	- Una clave (unique_key) para los valores únicos.
2. La salida debe ser un diccionario con:
	- Total de registros.
	- Promedio de la columna numérica.
	- Lista de valores únicos de la otra columna.

**Ejemplo de Entrada:**

In [5]:
from Soluciones.manejo_datos_tabulares import summarize_data

data = [{"name": "Alice", "age": 25}, {"name": "Bob", "age": 30}]
summarize_data(data, "age", "name")

# Salida Esperada:

{'total_records': 2, 'average': 27.5, 'unique_values': ['Bob', 'Alice']}

**Hints:**

- Usa las funcion `calculate_average` para calcular el promedio.
- Las claves únicas se pueden obtener utilizando un conjunto (set).

___

## Reto 6: Ordenamiento de Registros por una Clave

**Descripción:**

Crear una función que ordene una lista de diccionarios en función de los valores de una clave específica. Si los valores no son comparables o no existen en algunos registros, esos registros deben ignorarse.

**Objetivo:**

Implementar un ordenamiento ascendente o descendente basado en una clave.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave (key) para ordenar.
	- Un parámetro opcional (reverse) para especificar el orden.
2. La salida debe ser la lista ordenada.

**Ejemplo de Entrada:**

In [6]:
from Soluciones.manejo_datos_tabulares import sort_records


data = [
    {"name": "Alice", "age": 25},
    {"name": "Bob", "age": 30},
    {"name": "Charlie"},
    {"name": "David", "age": 15},
]
# Se devolverán los registros ordenados por el valor de "age" de mayor a menor
# como la edad de "Charlie" no está definida, no se incluirá en el resultado
sort_records(data, "age", reverse=True)

# Salida Esperada:

[{'name': 'Bob', 'age': 30},
 {'name': 'Alice', 'age': 25},
 {'name': 'David', 'age': 15}]

**Hints:**

- Usa el argumento key en la función [sorted()](https://docs.python.org/3/howto/sorting.html) para acceder al valor de la clave.
- Maneja los registros que no tienen la clave especificada usando un filtro **como en Reto 1**.

___

## Reto 7: Filtrado con Condiciones Complejas

**Descripción:**

Crear una función que permita filtrar los registros con múltiples condiciones, especificadas como un diccionario de clave-valor.

**Objetivo:**

Implementar un filtrado avanzado que combine varias condiciones.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Un diccionario de condiciones (conditions).
2. La salida debe ser la lista de registros que cumplen con todas las condiciones.

**Ejemplo de Entrada:**

In [7]:
from Soluciones.manejo_datos_tabulares import filter_with_conditions


data = [
    {"name": "Alice", "age": 25, "city": "A"},
    {"name": "Bob", "age": 30, "city": "B"},
    {"name": "Charlie", "age": 25, "city": "C"},
]
# Se devolverán los registros que cumplan "age" == 25 y "city" == "A"
filter_with_conditions(data, {"age": 25, "city": "A"})

# Salida Esperada:

[{'name': 'Alice', 'age': 25, 'city': 'A'}]

**Hints:**

- Usa el método .items() de los diccionarios para iterar sobre las condiciones.
- Verifica que todos los valores coincidan utilizando una combinación de bucles y condicionales.

___

## Reto 8: Cálculo de Métricas Agregadas por Grupos

**Descripción:**

Crear una función que agrupe los registros por una clave y calcule métricas agregadas (promedio, suma y conteo) para otra clave numérica.

**Objetivo:**

Combinar agrupamiento con cálculo de métricas.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave para agrupar (group_key).
	- Una clave numérica para calcular métricas (numeric_key).
2. La salida debe ser un diccionario con las métricas para cada grupo.

**Ejemplo de Entrada:**

In [8]:
from Soluciones.manejo_datos_tabulares import group_and_calculate_metrics


data = [{"city": "A", "revenue": 100}, {"city": "A", "revenue": 200}, {"city": "B", "revenue": 300}]
# Se devolverá un diccionario con los valores de "city" como clave 
# (ya que es la clave agrupadora)
# y el valor será un diccionario con las métricas calculadas para "revenue"
group_and_calculate_metrics(data, "city", "revenue")

# Salida Esperada:

{'A': {'sum': 300, 'count': 2, 'average': 150.0},
 'B': {'sum': 300, 'count': 1, 'average': 300.0}}

**Hints:**

- Usa un diccionario para acumular los valores por grupo.
- Calcula las métricas al final iterando sobre los valores acumulados.

___

## Reto 9: Selección de las N Mayores o Menores

**Descripción:**

Crear una función que devuelva los N registros con los valores más altos o más bajos en una clave específica.

**Objetivo:**

Seleccionar los registros extremos basados en una clave.

**Requerimientos:**

1. La función debe recibir:
	- Una lista de diccionarios (data).
	- Una clave numérica (key).
	- Un número N (cantidad de registros a seleccionar).
	- Un parámetro opcional (reverse) para especificar si seleccionar los mayores o menores.
2. La salida debe ser una lista con los registros seleccionados.

**Ejemplo de Entrada:**

In [9]:
from Soluciones.manejo_datos_tabulares import select_top_or_bottom


data = [{"name": "Alice", "score": 95}, {"name": "Bob", "score": 80}, {"name": "Charlie", "score": 90}]
# Se devolverán los 2 registros con el valor de "score" más alto
select_top_or_bottom(data, "score", 2, reverse=True)

# Salida Esperada:

[{'name': 'Alice', 'score': 95}, {'name': 'Charlie', 'score': 90}]

**Hints:**

- Usa sorted() para ordenar los datos.
- Devuelve los primeros N registros de la lista ordenada.

___

## Reto 10: Consolidación de Datos y Reporte Final

**Descripción:**

Crear una función que tome una lista de diccionarios representando datos tabulares y genere un reporte final. El reporte debe incluir:
1. Filtrado de los datos según una condición específica.
2. Agrupamiento de los registros por una clave y cálculo de métricas agregadas (suma, promedio, conteo).
3. Ordenamiento de los grupos por una métrica especificada (como promedio o suma).
4. Selección de los N grupos con los valores más altos o más bajos en la métrica especificada.

**Objetivo:**

Aplicar de forma integrada las habilidades de filtrado, agrupamiento, cálculo de métricas, ordenamiento y selección para resolver un problema completo.

**Requerimientos:**

1. La función debe llamarse generate_final_report.
2. Recibirá:
    - Una lista de diccionarios (data) representando los registros.
    - Una clave para filtrar (filter_key).
    - Un valor para filtrar (filter_value).
    - Una clave para agrupar (group_key).
    - Una clave numérica para calcular métricas (numeric_key).
    - Una métrica para ordenar (sort_metric), que puede ser “sum”, “average” o “count”.
    - Un número N para seleccionar los grupos con los valores más altos o más bajos.
    - Un parámetro opcional reverse para especificar si se seleccionan los valores más altos (True) o más bajos (False).
3. La salida debe ser un diccionario con:
    - Los grupos seleccionados.
    - Sus métricas agregadas.

**Ejemplo de Entrada:**

In [10]:
from Soluciones.manejo_datos_tabulares import generate_final_report


data = [
    {"city": "A", "revenue": 100, "category": "X"},
    {"city": "A", "revenue": 200, "category": "Y"},
    {"city": "B", "revenue": 300, "category": "X"},
    {"city": "B", "revenue": 100, "category": "Y"},
    {"city": "C", "revenue": 400, "category": "X"},
]

generate_final_report(
    data=data,
    filter_key="category",
    filter_value="X",
    group_key="city",
    numeric_key="revenue",
    sort_metric="sum",
    N=2,
    reverse=True
)

# Salida Esperada:

{'selected_groups': [{'group': 'C', 'sum': 400, 'count': 1, 'average': 400.0},
  {'group': 'B', 'sum': 300, 'count': 1, 'average': 300.0}]}

**Hints:**

1. Filtrado de Datos:
- Usa comprensión de listas para crear una nueva lista que solo contenga los registros que cumplan con la condición.
- El método `.get(key)` de los diccionarios es útil para acceder al valor de una clave. Si la clave no existe, devolverá `None`.
- Compara el valor de la clave con el valor deseado (filter_value) para determinar si el registro debe incluirse.

2. Agrupamiento y Cálculo de Métricas:
- Crea un diccionario vacío donde las claves serán los valores únicos de group_key.
- Asegúrate de verificar que los valores en la clave numeric_key sean números válidos antes de agregarlos al grupo.
- Para cada grupo, guarda los totales (sum) y conteos (count).
- Una vez agrupados los datos, calcula el promedio (average) para cada grupo dividiendo la suma entre el conteo.

3. Ordenamiento:
- Usa la función `sorted()` para ordenar los grupos. Recuerda que `sorted()` devuelve una nueva lista ordenada sin modificar el original.
- Especifica una función de ordenamiento usando key=lambda, donde seleccionas la métrica (sort_metric) que se utilizará como criterio.
- Usa el parámetro `reverse=True` para ordenar de forma descendente, o `reverse=False` para ascendente.

4. Selección de los N Mejores o Peores:
- Una vez ordenados los datos, usa slicing `([:N])` para seleccionar los primeros N elementos de la lista.
- Si estás seleccionando los valores más bajos, asegúrate de que el orden sea ascendente (`reverse=False`). Para los valores más altos, debe ser descendente (`reverse=True`).

5. Construcción del Reporte Final:
- Crea un diccionario que contenga los grupos seleccionados y sus métricas.
- Usa una clave como "selected_groups" para almacenar la lista final de grupos.
- Asegúrate de que el formato del reporte sea claro y organizado.

Consejos Generales

- Divide el problema en pasos más pequeños y prueba cada uno por separado.
- Usa prints temporales para verificar que cada parte del código esté funcionando como esperas.
- Asegúrate de manejar casos especiales:
- ¿Qué pasa si no hay datos que coincidan con el filtro?
- ¿Qué ocurre si la métrica seleccionada no existe en los datos?
- ¿Cómo manejar un valor de N mayor que el número de grupos disponibles?
- Documenta tu código: escribe comentarios que expliquen lo que estás haciendo en cada paso.