### üßÆ Agrupamientos y Agregaciones

Has aprendido a seleccionar y filtrar datos. Ahora es el momento de empezar a resumirlos para extraer insights valiosos. La agrupaci√≥n de datos es una de las funcionalidades m√°s potentes de Pandas y se basa en un paradigma llamado **Split-Apply-Combine** (Dividir-Aplicar-Combinar).

1.  **Split (Dividir):** El `DataFrame` se divide en grupos m√°s peque√±os basados en los valores de una o m√°s columnas.
2.  **Apply (Aplicar):** Se aplica una funci√≥n a cada uno de esos grupos de forma independiente (por ejemplo, calcular la media, sumar, contar, etc.).
3.  **Combine (Combinar):** Los resultados de aplicar la funci√≥n a cada grupo se combinan en una nueva estructura de datos (normalmente un `DataFrame` o una `Serie`).

* **4.1. El Poder de `.groupby()`**

El m√©todo `.groupby()` es el que inicia este proceso. Por s√≠ solo, no calcula nada, sino que crea un objeto especial `DataFrameGroupBy` que est√° listo para que le apliques una funci√≥n de agregaci√≥n.

In [None]:
import pandas as pd

# Cargamos de nuevo el dataset de ping√ºinos
url = 'https://raw.githubusercontent.com/allisonhorst/palmerpenguins/main/inst/extdata/penguins.csv'
df = pd.read_csv(url)

# Agrupemos los datos por la columna 'species'
grupos_por_especie = df.groupby('species')

# ¬øQu√© es este objeto?
print(grupos_por_especie)

Como ves, no es un DataFrame. Es un objeto que contiene la informaci√≥n sobre los grupos. Ahora, apliquemos una funci√≥n.

In [None]:
# Apply: Calculemos la media de todas las columnas num√©ricas para cada grupo
media_por_especie = grupos_por_especie.mean()

print("Media de las variables num√©ricas por especie:")
display(media_por_especie)

¬°Magia! Pandas dividi√≥ el DataFrame en 3 grupos (Adelie, Chinstrap, Gentoo), calcul√≥ la media de las columnas num√©ricas para cada uno y combin√≥ los resultados en un nuevo DataFrame.

Puedes ser m√°s espec√≠fico y calcular la agregaci√≥n solo para una columna.

In [None]:
# Media de la masa corporal ('body_mass_g') por especie
media_masa_por_especie = df.groupby('species')['body_mass_g'].mean()

print("Media de la masa corporal por especie:")
display(media_masa_por_especie)

* **4.2. Agregaciones M√∫ltiples con `.agg()`**

¬øY si quieres calcular varias m√©tricas a la vez? Para eso est√° el m√©todo `.agg()`. Puedes pasarle una lista de funciones a una sola columna:

In [None]:
# Para la columna 'flipper_length_mm', calculemos la media, la mediana y la desviaci√≥n est√°ndar
agregaciones_aleta = df.groupby('species')['flipper_length_mm'].agg(['mean', 'median', 'std'])

display(agregaciones_aleta)

**Sintaxis Avanzada con Diccionarios**

Para un control a√∫n mayor, puedes usar un diccionario para aplicar **diferentes funciones a diferentes columnas**. ¬°Incluso puedes aplicar m√∫ltiples funciones a la misma columna!

In [None]:
# Usando un diccionario para especificar las agregaciones
# Para 'bill_length_mm' queremos la m√≠nima y m√°xima
# Para 'body_mass_g' queremos la media
# Para 'sex' queremos contar cu√°ntos hay

agregaciones_dict = {
    'bill_length_mm': ['min', 'max'],
    'body_mass_g': 'mean',
    'sex': 'count'
}

resumen_con_dict = df.groupby('species').agg(agregaciones_dict)

display(resumen_con_dict)

*Nota*: F√≠jate que el resultado tiene columnas con m√∫ltiples niveles (un `MultiIndex`). Esto es potente, pero a veces queremos un resultado "plano". Para eso, la siguiente sintaxis es la m√°s recomendada.

**La Mejor Pr√°ctica: Agregaciones Nombradas**

La sintaxis m√°s moderna y legible te permite aplicar diferentes funciones a diferentes columnas y, lo m√°s importante, **nombrar las columnas resultantes directamente**. Esto evita el `MultiIndex` y hace el c√≥digo m√°s f√°cil de leer.

In [None]:
# Agrupemos por especie e isla, y calculemos m√©tricas espec√≠ficas
resumen_detallado = df.groupby(['species', 'island']).agg(
    conteo_ping√ºinos=('sex', 'count'),
    media_masa_corporal=('body_mass_g', 'mean'),
    max_largo_pico=('bill_length_mm', 'max'),
    min_largo_pico=('bill_length_mm', 'min')
)

display(resumen_detallado)

* **4.3. Ordenando los Resultados con `.sort_values()`**

A menudo, querr√°s ordenar los resultados de tus agregaciones para ver los valores m√°s altos o m√°s bajos.

In [None]:
# Usemos el resumen anterior y orden√©moslo por la media de la masa corporal
# de forma descendente (los m√°s pesados primero)

resumen_ordenado = resumen_detallado.sort_values(by='media_masa_corporal', ascending=False)

display(resumen_ordenado)

* **4.4. ¬øA D√≥nde se Fue mi Columna? `.reset_index()`**

F√≠jate en los DataFrames que hemos creado con `groupby`. Las columnas por las que agrupamos (`species`, `island`) no son columnas normales, ¬°son el **√≠ndice** del DataFrame!

Esto es √∫til, pero a veces quieres que vuelvan a ser columnas para poder filtrarlas o usarlas en gr√°ficos. Para eso sirve `.reset_index()`.

In [None]:
# El √≠ndice de nuestro resumen son 'species' e 'island'
print("√çndice ANTES de reset_index:")
print(resumen_ordenado.index)

# Convertimos el √≠ndice en columnas
resumen_final = resumen_ordenado.reset_index()

print("\nDataFrame DESPU√âS de reset_index:")
display(resumen_final.head())

Ahora `species` e `island` son columnas normales y el DataFrame tiene un nuevo √≠ndice num√©rico simple.

* **üß† Ejercicios Propuestos**

Volvemos al Titanic. `url_titanic = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'`

1. **Carga los datos.**

2. **Agregaci√≥n Simple:** Calcula la edad (`Age`) promedio de los pasajeros agrupando por clase (`Pclass`). ¬øEn qu√© clase viajaban los pasajeros de mayor edad en promedio?

3. **Agregaci√≥n por M√∫ltiples Columnas:** Calcula la tarifa (`Fare`) promedio pagada, agrupando por clase (`Pclass`) y sexo (`Sex`).

4. **Agregaciones M√∫ltiples con `.agg()`:**

   * Agrupa los datos por la columna `Survived` (0 = No, 1 = S√≠).

   * Para cada grupo, calcula la edad media (`mean`), la tarifa m√°xima (`max`) y la tarifa m√≠nima (`min`).

   * Usa la sintaxis de **agregaciones nombradas** para las nuevas columnas.

5. **Desaf√≠o Completo:** Encuentra la tasa de supervivencia por clase. Para ello, agrupa por `Pclass` y calcula la media de la columna `Survived` (como `Survived` es 0 o 1, la media es la proporci√≥n o tasa de supervivencia). Ordena el resultado para ver qu√© clase tuvo la mayor tasa de supervivencia.