# Explorando el método `groupby()` en Pandas

En este notebook exploraremos la función y utilidad del método `groupby()` en Pandas.

El método `groupby()` permite agrupar los datos de un DataFrame según una o varias columnas, para posteriormente aplicar funciones de agregación a cada grupo. Esto resulta muy útil para analizar, resumir y obtener información relevante segmentada de nuestros datos.

In [6]:
import pandas as pd

# Cargamos el dataset
df = pd.read_csv('../data/Books.csv')
# Mostramos las primeras filas del DataFrame
df['pages'] = pd.to_numeric(df['pages'], errors='coerce')
# Agrupamos el DataFrame por la columna 'language' y calculamos la media de la columna 'pages' para cada grupo
df.groupby('language')['pages'].agg(['mean', 'min', 'max', 'count'])

Unnamed: 0_level_0,mean,min,max,count
language,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
cs,352.666667,340.0,371.0,3
el,509.4,404.0,574.0,5
en,408.46445,8.0,8114.0,1955
es,453.4,37.0,1124.0,10
eu,412.0,412.0,412.0,1
fr,69.666667,29.0,96.0,3
gl,636.0,636.0,636.0,1
hi,374.0,374.0,374.0,1
hu,379.0,379.0,379.0,1
id,502.571429,84.0,1230.0,21


También podemos agrupar por varias columnas, por ejemplo, si queremos agrupar por 'language' y 'author', podemos hacerlo de la siguiente manera:

In [7]:
df.groupby(['language', 'author'])['pages'].agg(['mean', 'min', 'max', 'count']).reset_index()

Unnamed: 0,language,author,mean,min,max,count
0,cs,Suzanne Collins,340.000000,340.0,340.0,1
1,cs,Suzanne Collinsová,359.000000,347.0,371.0,2
2,el,George R. R. Martin,457.500000,404.0,511.0,2
3,el,"George R. R. Martin, Lisa Tuttle",568.000000,568.0,568.0,1
4,el,Ε. Λ. Τζέιμς,532.000000,490.0,574.0,2
...,...,...,...,...,...,...
1481,tr,J.K. Rowling,23.333333,9.0,41.0,3
1482,vi,George R.R. Martin,658.000000,636.0,680.0,2
1483,vi,George R.R. Martin,672.000000,672.0,672.0,1
1484,vi,Gillian Flynn,652.000000,652.0,652.0,1
