### üßÆ Agrupamientos y Agregaciones

Has aprendido a seleccionar y filtrar datos. Ahora es el momento de empezar a resumirlos para extraer insights valiosos. La agrupaci√≥n de datos es una de las funcionalidades m√°s potentes de Pandas y se basa en un paradigma llamado **Split-Apply-Combine** (Dividir-Aplicar-Combinar).

1.  **Split (Dividir):** El `DataFrame` se divide en grupos m√°s peque√±os basados en los valores de una o m√°s columnas.
2.  **Apply (Aplicar):** Se aplica una funci√≥n a cada uno de esos grupos de forma independiente (por ejemplo, calcular la media, sumar, contar, etc.).
3.  **Combine (Combinar):** Los resultados de aplicar la funci√≥n a cada grupo se combinan en una nueva estructura de datos (normalmente un `DataFrame` o una `Serie`).

* **4.1. El Poder de `.groupby()`**

El m√©todo `.groupby()` es el que inicia este proceso. Por s√≠ solo, no calcula nada, sino que crea un objeto especial `DataFrameGroupBy` que est√° listo para que le apliques una funci√≥n de agregaci√≥n.

In [1]:
import pandas as pd

# Cargamos de nuevo el dataset de ping√ºinos
url = 'https://raw.githubusercontent.com/allisonhorst/palmerpenguins/main/inst/extdata/penguins.csv'
df = pd.read_csv(url)

# Agrupemos los datos por la columna 'species'
grupos_por_especie = df.groupby('species')

# ¬øQu√© es este objeto?
print(grupos_por_especie)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000023AF7D18E10>


Como ves, no es un DataFrame. Es un objeto que contiene la informaci√≥n sobre los grupos. Ahora, apliquemos una funci√≥n.

In [2]:
# Apply: Calculemos la media de todas las columnas num√©ricas para cada grupo
# Agregamos numeric_only=True para evitar un error con las columnas no num√©ricas
media_por_especie = grupos_por_especie.mean(numeric_only=True)

print("Media de las variables num√©ricas por especie:")
display(media_por_especie)

Media de las variables num√©ricas por especie:


Unnamed: 0_level_0,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adelie,38.791391,18.346358,189.953642,3700.662252,2008.013158
Chinstrap,48.833824,18.420588,195.823529,3733.088235,2007.970588
Gentoo,47.504878,14.982114,217.186992,5076.01626,2008.080645


**Nota sobre el error `TypeError`:** Si ejecutas `grupos_por_especie.mean()` sin m√°s, en versiones recientes de Pandas podr√≠as obtener un `TypeError`. Esto se debe a que el DataFrame contiene columnas no num√©ricas (como `island` y `sex`) y Pandas ya no intenta adivinar si debe ignorarlas. La soluci√≥n correcta es ser expl√≠cito y usar `numeric_only=True` para indicarle que solo calcule la media de las columnas que son num√©ricas.

¬°Magia! Pandas dividi√≥ el DataFrame en 3 grupos (Adelie, Chinstrap, Gentoo), calcul√≥ la media de las columnas num√©ricas para cada uno y combin√≥ los resultados en un nuevo DataFrame.

Puedes ser m√°s espec√≠fico y calcular la agregaci√≥n solo para una columna.

In [3]:
# Media de la masa corporal ('body_mass_g') por especie
media_masa_por_especie = df.groupby('species')['body_mass_g'].mean()

print("Media de la masa corporal por especie:")
display(media_masa_por_especie)

Media de la masa corporal por especie:


species
Adelie       3700.662252
Chinstrap    3733.088235
Gentoo       5076.016260
Name: body_mass_g, dtype: float64

* **4.2. Agregaciones M√∫ltiples con `.agg()`**

¬øY si quieres calcular varias m√©tricas a la vez? Para eso est√° el m√©todo `.agg()`. Puedes pasarle una lista de funciones a una sola columna:

In [4]:
# Para la columna 'flipper_length_mm', calculemos la media, la mediana y la desviaci√≥n est√°ndar
agregaciones_aleta = df.groupby('species')['flipper_length_mm'].agg(['mean', 'median', 'std'])

display(agregaciones_aleta)

Unnamed: 0_level_0,mean,median,std
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Adelie,189.953642,190.0,6.539457
Chinstrap,195.823529,196.0,7.131894
Gentoo,217.186992,216.0,6.484976


**Sintaxis Avanzada con Diccionarios**

Para un control a√∫n mayor, puedes usar un diccionario para aplicar **diferentes funciones a diferentes columnas**. ¬°Incluso puedes aplicar m√∫ltiples funciones a la misma columna!

In [5]:
# Usando un diccionario para especificar las agregaciones
# Para 'bill_length_mm' queremos la m√≠nima y m√°xima
# Para 'body_mass_g' queremos la media
# Para 'sex' queremos contar cu√°ntos hay

agregaciones_dict = {
    'bill_length_mm': ['min', 'max'],
    'body_mass_g': 'mean',
    'sex': 'count'
}

resumen_con_dict = df.groupby('species').agg(agregaciones_dict)

display(resumen_con_dict)

Unnamed: 0_level_0,bill_length_mm,bill_length_mm,body_mass_g,sex
Unnamed: 0_level_1,min,max,mean,count
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Adelie,32.1,46.0,3700.662252,146
Chinstrap,40.9,58.0,3733.088235,68
Gentoo,40.9,59.6,5076.01626,119


*Nota*: F√≠jate que el resultado tiene columnas con m√∫ltiples niveles (un `MultiIndex`). Esto es potente, pero a veces queremos un resultado "plano". Para eso, la siguiente sintaxis es la m√°s recomendada.

**La Mejor Pr√°ctica: Agregaciones Nombradas**

La sintaxis m√°s moderna y legible te permite aplicar diferentes funciones a diferentes columnas y, lo m√°s importante, **nombrar las columnas resultantes directamente**. Esto evita el `MultiIndex` y hace el c√≥digo m√°s f√°cil de leer.

In [6]:
# Agrupemos por especie e isla, y calculemos m√©tricas espec√≠ficas
resumen_detallado = df.groupby(['species', 'island']).agg(
    conteo_ping√ºinos=('sex', 'count'),
    media_masa_corporal=('body_mass_g', 'mean'),
    max_largo_pico=('bill_length_mm', 'max'),
    min_largo_pico=('bill_length_mm', 'min')
)

display(resumen_detallado)

Unnamed: 0_level_0,Unnamed: 1_level_0,conteo_ping√ºinos,media_masa_corporal,max_largo_pico,min_largo_pico
species,island,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Adelie,Biscoe,44,3709.659091,45.6,34.5
Adelie,Dream,55,3688.392857,44.1,32.1
Adelie,Torgersen,47,3706.372549,46.0,33.5
Chinstrap,Dream,68,3733.088235,58.0,40.9
Gentoo,Biscoe,119,5076.01626,59.6,40.9


* **4.3. Ordenando los Resultados con `.sort_values()`**

A menudo, querr√°s ordenar los resultados de tus agregaciones para ver los valores m√°s altos o m√°s bajos.

In [7]:
# Usemos el resumen anterior y orden√©moslo por la media de la masa corporal
# de forma descendente (los m√°s pesados primero)

resumen_ordenado = resumen_detallado.sort_values(by='media_masa_corporal', ascending=False)

display(resumen_ordenado)

Unnamed: 0_level_0,Unnamed: 1_level_0,conteo_ping√ºinos,media_masa_corporal,max_largo_pico,min_largo_pico
species,island,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Gentoo,Biscoe,119,5076.01626,59.6,40.9
Chinstrap,Dream,68,3733.088235,58.0,40.9
Adelie,Biscoe,44,3709.659091,45.6,34.5
Adelie,Torgersen,47,3706.372549,46.0,33.5
Adelie,Dream,55,3688.392857,44.1,32.1


* **4.4. ¬øA D√≥nde se Fue mi Columna? `.reset_index()`**

F√≠jate en los DataFrames que hemos creado con `groupby`. Las columnas por las que agrupamos (`species`, `island`) no son columnas normales, ¬°son el **√≠ndice** del DataFrame!

Esto es √∫til, pero a veces quieres que vuelvan a ser columnas para poder filtrarlas o usarlas en gr√°ficos. Para eso sirve `.reset_index()`.

In [8]:
# El √≠ndice de nuestro resumen son 'species' e 'island'
print("√çndice ANTES de reset_index:")
print(resumen_ordenado.index)

# Convertimos el √≠ndice en columnas
resumen_final = resumen_ordenado.reset_index()

print("\nDataFrame DESPU√âS de reset_index:")
display(resumen_final.head())

√çndice ANTES de reset_index:
MultiIndex([(   'Gentoo',    'Biscoe'),
            ('Chinstrap',     'Dream'),
            (   'Adelie',    'Biscoe'),
            (   'Adelie', 'Torgersen'),
            (   'Adelie',     'Dream')],
           names=['species', 'island'])

DataFrame DESPU√âS de reset_index:


Unnamed: 0,species,island,conteo_ping√ºinos,media_masa_corporal,max_largo_pico,min_largo_pico
0,Gentoo,Biscoe,119,5076.01626,59.6,40.9
1,Chinstrap,Dream,68,3733.088235,58.0,40.9
2,Adelie,Biscoe,44,3709.659091,45.6,34.5
3,Adelie,Torgersen,47,3706.372549,46.0,33.5
4,Adelie,Dream,55,3688.392857,44.1,32.1


Ahora `species` e `island` son columnas normales y el DataFrame tiene un nuevo √≠ndice num√©rico simple.

* **üß† Ejercicios Propuestos**

Volvemos al Titanic. `url_titanic = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'`

1. **Carga los datos.**

2. **Agregaci√≥n Simple:** Calcula la edad (`Age`) promedio de los pasajeros agrupando por clase (`Pclass`). ¬øEn qu√© clase viajaban los pasajeros de mayor edad en promedio?

3. **Agregaci√≥n por M√∫ltiples Columnas:** Calcula la tarifa (`Fare`) promedio pagada, agrupando por clase (`Pclass`) y sexo (`Sex`).

4. **Agregaciones M√∫ltiples con `.agg()`:**

   * Agrupa los datos por la columna `Survived` (0 = No, 1 = S√≠).

   * Para cada grupo, calcula la edad media (`mean`), la tarifa m√°xima (`max`) y la tarifa m√≠nima (`min`).

   * Usa la sintaxis de **agregaciones nombradas** para las nuevas columnas.

5. **Desaf√≠o Completo:** Encuentra la tasa de supervivencia por clase. Para ello, agrupa por `Pclass` y calcula la media de la columna `Survived` (como `Survived` es 0 o 1, la media es la proporci√≥n o tasa de supervivencia). Ordena el resultado para ver qu√© clase tuvo la mayor tasa de supervivencia.