### 🧮 Agrupamientos y Agregaciones

Has aprendido a seleccionar y filtrar datos. Ahora es el momento de empezar a resumirlos para extraer insights valiosos. La agrupación de datos es una de las funcionalidades más potentes de Pandas y se basa en un paradigma llamado **Split-Apply-Combine** (Dividir-Aplicar-Combinar).

1.  **Split (Dividir):** El `DataFrame` se divide en grupos más pequeños basados en los valores de una o más columnas.
2.  **Apply (Aplicar):** Se aplica una función a cada uno de esos grupos de forma independiente (por ejemplo, calcular la media, sumar, contar, etc.).
3.  **Combine (Combinar):** Los resultados de aplicar la función a cada grupo se combinan en una nueva estructura de datos (normalmente un `DataFrame` o una `Serie`).

* **4.1. El Poder de `.groupby()`**

El método `.groupby()` es el que inicia este proceso. Por sí solo, no calcula nada, sino que crea un objeto especial `DataFrameGroupBy` que está listo para que le apliques una función de agregación.

In [None]:
import pandas as pd

# Cargamos de nuevo el dataset de pingüinos
url = 'https://raw.githubusercontent.com/allisonhorst/palmerpenguins/main/inst/extdata/penguins.csv'
df = pd.read_csv(url)

# Agrupemos los datos por la columna 'species'
grupos_por_especie = df.groupby('species')

# ¿Qué es este objeto?
print(grupos_por_especie)

Como ves, no es un DataFrame. Es un objeto que contiene la información sobre los grupos. Ahora, apliquemos una función.

In [None]:
# Apply: Calculemos la media de todas las columnas numéricas para cada grupo
media_por_especie = grupos_por_especie.mean()

print("Media de las variables numéricas por especie:")
display(media_por_especie)

¡Magia! Pandas dividió el DataFrame en 3 grupos (Adelie, Chinstrap, Gentoo), calculó la media de las columnas numéricas para cada uno y combinó los resultados en un nuevo DataFrame.

Puedes ser más específico y calcular la agregación solo para una columna.

In [None]:
# Media de la masa corporal ('body_mass_g') por especie
media_masa_por_especie = df.groupby('species')['body_mass_g'].mean()

print("Media de la masa corporal por especie:")
display(media_masa_por_especie)

* **4.2. Agregaciones Múltiples con `.agg()`**

¿Y si quieres calcular varias métricas a la vez? Para eso está el método `.agg()`. Puedes pasarle una lista de funciones a una sola columna:

In [None]:
# Para la columna 'flipper_length_mm', calculemos la media, la mediana y la desviación estándar
agregaciones_aleta = df.groupby('species')['flipper_length_mm'].agg(['mean', 'median', 'std'])

display(agregaciones_aleta)

**Sintaxis Avanzada con Diccionarios**

Para un control aún mayor, puedes usar un diccionario para aplicar **diferentes funciones a diferentes columnas**. ¡Incluso puedes aplicar múltiples funciones a la misma columna!

In [None]:
# Usando un diccionario para especificar las agregaciones
# Para 'bill_length_mm' queremos la mínima y máxima
# Para 'body_mass_g' queremos la media
# Para 'sex' queremos contar cuántos hay

agregaciones_dict = {
    'bill_length_mm': ['min', 'max'],
    'body_mass_g': 'mean',
    'sex': 'count'
}

resumen_con_dict = df.groupby('species').agg(agregaciones_dict)

display(resumen_con_dict)

*Nota*: Fíjate que el resultado tiene columnas con múltiples niveles (un `MultiIndex`). Esto es potente, pero a veces queremos un resultado "plano". Para eso, la siguiente sintaxis es la más recomendada.

**La Mejor Práctica: Agregaciones Nombradas**

La sintaxis más moderna y legible te permite aplicar diferentes funciones a diferentes columnas y, lo más importante, **nombrar las columnas resultantes directamente**. Esto evita el `MultiIndex` y hace el código más fácil de leer.

In [None]:
# Agrupemos por especie e isla, y calculemos métricas específicas
resumen_detallado = df.groupby(['species', 'island']).agg(
    conteo_pingüinos=('sex', 'count'),
    media_masa_corporal=('body_mass_g', 'mean'),
    max_largo_pico=('bill_length_mm', 'max'),
    min_largo_pico=('bill_length_mm', 'min')
)

display(resumen_detallado)

* **4.3. Ordenando los Resultados con `.sort_values()`**

A menudo, querrás ordenar los resultados de tus agregaciones para ver los valores más altos o más bajos.

In [None]:
# Usemos el resumen anterior y ordenémoslo por la media de la masa corporal
# de forma descendente (los más pesados primero)

resumen_ordenado = resumen_detallado.sort_values(by='media_masa_corporal', ascending=False)

display(resumen_ordenado)

* **4.4. ¿A Dónde se Fue mi Columna? `.reset_index()`**

Fíjate en los DataFrames que hemos creado con `groupby`. Las columnas por las que agrupamos (`species`, `island`) no son columnas normales, ¡son el **índice** del DataFrame!

Esto es útil, pero a veces quieres que vuelvan a ser columnas para poder filtrarlas o usarlas en gráficos. Para eso sirve `.reset_index()`.

In [None]:
# El índice de nuestro resumen son 'species' e 'island'
print("Índice ANTES de reset_index:")
print(resumen_ordenado.index)

# Convertimos el índice en columnas
resumen_final = resumen_ordenado.reset_index()

print("\nDataFrame DESPUÉS de reset_index:")
display(resumen_final.head())

Ahora `species` e `island` son columnas normales y el DataFrame tiene un nuevo índice numérico simple.

* **🧠 Ejercicios Propuestos**

Volvemos al Titanic. `url_titanic = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'`

1. **Carga los datos.**

2. **Agregación Simple:** Calcula la edad (`Age`) promedio de los pasajeros agrupando por clase (`Pclass`). ¿En qué clase viajaban los pasajeros de mayor edad en promedio?

3. **Agregación por Múltiples Columnas:** Calcula la tarifa (`Fare`) promedio pagada, agrupando por clase (`Pclass`) y sexo (`Sex`).

4. **Agregaciones Múltiples con `.agg()`:**

   * Agrupa los datos por la columna `Survived` (0 = No, 1 = Sí).

   * Para cada grupo, calcula la edad media (`mean`), la tarifa máxima (`max`) y la tarifa mínima (`min`).

   * Usa la sintaxis de **agregaciones nombradas** para las nuevas columnas.

5. **Desafío Completo:** Encuentra la tasa de supervivencia por clase. Para ello, agrupa por `Pclass` y calcula la media de la columna `Survived` (como `Survived` es 0 o 1, la media es la proporción o tasa de supervivencia). Ordena el resultado para ver qué clase tuvo la mayor tasa de supervivencia.