# Agrupación de datos para agregaciones complejas

El método principal para agrupar datos en Pandas es ``groupby()``. Este método segmenta el DataFrame en grupos basados en uno o más criterios y permite aplicar funciones de agregación a cada grupo.  
Al combinar ``groupby()`` con otras funciones y métodos de Pandas, se pueden obtener insights detallados y precisos sobre los datos, lo cual es esencial para el análisis y la manipulación de datos a gran escala.  
La estructura básica para usar ``groupby()`` es la siguiente:

In [6]:
import pandas as pd

df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 2, 3, 4, 5, 6],
    'D': [2.5, 3.5, 4.5, 5.5, 6.5, 7.5]
})

grupo_A = df.groupby('A')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B85C96DC70>


Después de agrupar el DataFrame, se pueden aplicar varias funciones de agregación para obtener estadísticas o realizar operaciones sobre cada grupo. Algunas de las funciones de agregación más utilizadas son sum(), mean(), count(), min(), max(), entre otras. Por ejemplo:

In [9]:
suma_por_grupo = grupo_A.sum()
# Resultado: DataFrame con la suma de cada columna para cada grupo en 'A'
print(suma_por_grupo)

             B   C     D
A                       
bar  onetwoone  12  16.5
foo  onetwoone   9  13.5


Para realizar agregaciones más complejas, se puede usar el método ``agg()``, que permite aplicar múltiples funciones de agregación a diferentes columnas. Por ejemplo:

In [12]:
agregaciones_complejas = grupo_A.agg({
    'C': ['sum', 'mean'],
    'D': ['min', 'max']
})
# Resultado: DataFrame con sum y mean para la columna 'C' y min y max para la columna 'D'
print(agregaciones_complejas)

      C         D     
    sum mean  min  max
A                     
bar  12  4.0  3.5  7.5
foo   9  3.0  2.5  6.5


Además de las funciones de agregación estándar, es posible definir funciones personalizadas y aplicarlas a los grupos. Esto se puede hacer usando ``apply()`` o ``transform()``.  
Por ejemplo, para crear una función que calcule el rango de una columna:

In [18]:
def rango(x):
    return x.max() - x.min()

rango_por_grupo = grupo_A['C'].apply(rango)
# Resultado: Serie con el rango de la columna 'C' para cada grupo en 'A'
print(rango_por_grupo)

A
bar    4
foo    4
Name: C, dtype: int64


Pandas también permite agrupar por múltiples columnas, lo que facilita realizar análisis más detallados. Por ejemplo:

In [21]:
grupo_A_B = df.groupby(['A', 'B']).sum()
# Resultado: DataFrame con la suma de cada columna para cada combinación de grupos en 'A' y 'B'
print(grupo_A_B)

         C     D
A   B           
bar one  8  11.0
    two  4   5.5
foo one  6   9.0
    two  3   4.5


Para mejorar la legibilidad de los resultados, se puede utilizar el método ``reset_index()`` para convertir los índices jerárquicos en columnas normales:

In [25]:
grupo_A_B_reset = grupo_A_B.reset_index()
# Resultado: DataFrame con los índices jerárquicos convertidos en columnas
print(grupo_A_B_reset)

     A    B  C     D
0  bar  one  8  11.0
1  bar  two  4   5.5
2  foo  one  6   9.0
3  foo  two  3   4.5
