In [1]:
import numpy as np
import pandas as pd
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_columns = 20
pd.options.display.max_rows = 20
pd.options.display.max_colwidth = 80
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

# 4 Agregación de datos y operaciones de grupo

Categorizar un conjunto de datos y aplicar una función a cada grupo, ya sea una agregación o transformación, puede ser un componente crítico de un flujo de trabajo de análisis de datos. Después de cargar, fusionar y preparar un conjunto de datos, es posible que necesite calcular estadísticas de grupo o posiblemente tablas dinámicas (pivot tables) para fines de generación de informes o visualización. pandas proporciona una interfaz groupby versátil, lo que le permite cortar (slice), dividir (dice) y resumir (summarize) conjuntos de datos (datasets) de una manera natural.

Una de las razones de la popularidad de las bases de datos relacionales y SQL es la facilidad con la que los datos se pueden unir (join), filtrar, transformar y agregar. Sin embargo, los lenguajes de consulta como SQL imponen ciertas limitaciones a los tipos de operaciones de grupo que pueden realizarse. Como verás, con la expresividad de Python y pandas, podemos realizar operaciones de grupo bastante complejas expresándolas como funciones personalizadas de Python que manipulan los datos asociados a cada grupo. Entre los cuales se destaca:

- Dividir (split) un objeto pandas en trozos utilizando una o más claves (en forma de funciones, arrays o nombres de columnas DataFrame).

- Calcular estadísticas de resumen de grupo, como recuento (count), media (mean) o desviación estándar, o una función definida por el usuario

- Aplicar transformaciones dentro del grupo u otras manipulaciones, como normalización, regresión lineal, rango o selección de subconjuntos.

- Calcular tablas dinámicas (Pivot tables) y tabulaciones cruzadas (cross-tabulations: crosstab)

- Realizar análisis de cuantiles y otros análisis estadísticos de grupos

#### **¿Qué es una agregación de datos?**

Son operaciones que condensan varios valores en un grupo en un **valor único**. Estas operaciones son esenciales para resumir y obtener información estadística de los datos agrupados. Las agregaciones pueden ser simples, como sumar o promediar, o más complejas, como calcular estadísticas específicas.

#### **¿Que son operaciones de grupo?**

Se refieren a la capacidad de realizar cálculos y transformaciones en subconjuntos de datos que han sido agrupados en función de uno o más criterios. Esto se logra a través del método `groupby`, que permite agrupar datos en base a valores únicos en una o más columnas y luego aplicar diversas funciones de agregación, transformación o filtrado a estos grupos.

Las operaciones de grupo generalmente siguen el patrón **"split-apply-combine"**:

1- `Split (Dividir)`: Los datos se dividen en grupos basados en uno o más criterios (columnas).  
2- `Apply (Aplicar)`: Se aplican funciones específicas a cada grupo. Estas funciones pueden ser de agregación, transformación o filtrado.  
3- `Combine (Combinar)`: Los resultados de las aplicaciones de funciones a cada grupo se combinan en una estructura de datos resultante.  

## 4.1  Cómo pensar en las operaciones de grupo

Hadley Wickham, autor de muchos paquetes populares para el lenguaje de programación R, acuñó el término dividir-aplicar-combinar (**split-apply-combine**) para describir las operaciones de grupo. 

En la primera etapa del proceso, los datos contenidos en un objeto pandas, ya sea una Serie, DataFrame u otro, se dividen en grupos basados en una o más **claves (keys) que el analista proporciona**. La división (split) se realiza en un eje particular de un objeto. Por ejemplo, un DataFrame se puede agrupar en sus filas (axis="index") o en sus columnas (axis="columns"). 

Una vez hecho esto, se aplica `(apply)` una función a cada grupo, produciendo un nuevo valor. 

Por último, los resultados de todas esas aplicaciones de funciones se combinan `(combine)` en un objeto resultado. La forma del objeto resultante dependerá normalmente de lo que se haga con los datos. En la Figura 4.1 se muestra un modelo de agregación de grupos simple.

<img src='4_1.png'>

Cada clave de agrupación puede adoptar muchas formas, y las claves no tienen por qué ser todas del mismo tipo:

- Una lista o array de valores de la misma longitud que el eje que se está agrupando.

- Un valor que indica el nombre de una columna en un DataFrame

- Un diccionario o serie que indique la correspondencia entre los valores del eje que se está agrupando y los nombres de los grupos

- Una función que se invocará en el índice del eje o en las etiquetas individuales del índice

Tenga en cuenta que los tres últimos métodos son atajos para producir un array de valores que se utilizará para dividir el objeto.  
Para empezar, supongamos un pequeño conjunto de datos tabulares como un DataFrame:

In [2]:
df = pd.DataFrame({"key1" : ["a", "a", None, "b", "b", "a", None],
                   "key2" : pd.Series([1, 2, 1, 2, 1, None, 1],
                                      dtype="Int64"),
                   "data1" : np.random.standard_normal(7),
                   "data2" : np.random.standard_normal(7)})
df

Unnamed: 0,key1,key2,data1,data2
0,a,1.0,-0.204708,0.281746
1,a,2.0,0.478943,0.769023
2,,1.0,-0.519439,1.246435
3,b,2.0,-0.55573,1.007189
4,b,1.0,1.965781,-1.296221
5,a,,1.393406,0.274992
6,,1.0,0.092908,0.228913


Supongamos que desea calcular la media de la columna `data1` utilizando las etiquetas de `key1`. Hay varias formas de hacerlo.  
Una es acceder a `data1` y llamar a `groupby` con la columna (una Serie) en `key1`:

In [5]:
grouped = df["data1"].groupby(df["key1"])
grouped

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001C9B0FA1C50>

Esta variable 'grouped' es ahora un objeto especial "GroupBy". En realidad, aún no ha calculado nada, salvo algunos datos intermedios sobre la clave de grupo df["key1"]. La idea es que este objeto tenga toda la información necesaria para aplicar alguna operación a cada uno de los grupos. Por ejemplo, para calcular las medias de los grupos podemos llamar al método de la media de GroupBy:

In [8]:
grouped.mean()

key1
a    0.555881
b    0.705025
Name: data1, dtype: float64

 Lo importante aquí es que los datos (una Serie) han sido agregados dividiendo los datos en la key de grupo, produciendo una nueva Serie que ahora está indexada por los valores únicos de la columna key1. El índice resultante tiene el nombre "key1" porque la columna DataFrame df["key"] lo tenía.

Podemos usar un `.describe()`:

In [7]:
grouped.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
a,3.0,0.555881,0.80183,-0.204708,0.137118,0.478943,0.936175,1.393406
b,2.0,0.705025,1.782977,-0.55573,0.074647,0.705025,1.335403,1.965781


Si se le pasan múltiples arrays como una lista, obtendríamos algo diferente:

In [138]:
means = df["data1"].groupby([df["key1"], df["key2"]]).mean()
means

key1  key2
a     1      -0.204708
      2       0.478943
b     1       1.965781
      2      -0.555730
Name: data1, dtype: float64

Aquí agrupamos los datos utilizando dos keys, y la Serie resultante tiene ahora un índice jerárquico formado por los pares únicos de claves observados

Supongamos que se quiere convertir 'means' a un dataframe:

In [139]:
means.unstack()

key2,1,2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
a,-0.204708,0.478943
b,1.965781,-0.55573


En este ejemplo, las claves (keys) de grupo son todas Series, aunque podrían ser cualquier array de la longitud adecuada:

Con frecuencia, la información de agrupación se encuentra en el mismo DataFrame que los datos con los que se desea trabajar. En ese caso, puedes pasar nombres de columnas (ya sean cadenas, números u otros objetos Python) como claves de grupo:

In [10]:
states = np.array(["OH", "CA", "CA", "OH", "OH", "CA", "OH"])

years = [2005, 2005, 2006, 2005, 2006, 2005, 2006]

df["data1"].groupby([states, years]).mean()

CA  2005    0.936175
    2006   -0.519439
OH  2005   -0.380219
    2006    1.029344
Name: data1, dtype: float64

Recordemos que tiene df:

In [12]:
df

Unnamed: 0,key1,key2,data1,data2
0,a,1.0,-0.204708,0.281746
1,a,2.0,0.478943,0.769023
2,,1.0,-0.519439,1.246435
3,b,2.0,-0.55573,1.007189
4,b,1.0,1.965781,-1.296221
5,a,,1.393406,0.274992
6,,1.0,0.092908,0.228913


In [11]:
df.groupby("key1").mean()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1.5,0.555881,0.44192
b,1.5,0.705025,-0.144516


In [13]:
df.groupby("key2").mean(numeric_only=True)

Unnamed: 0_level_0,data1,data2
key2,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.333636,0.115218
2,-0.038393,0.888106


Puede observar que es necesario pasar `numeric_only=True` porque la columna key1 no es numérica y por lo tanto no se puede agregar con `mean()`.

In [14]:
df.groupby(["key1", "key2"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,-0.204708,0.281746
a,2,0.478943,0.769023
b,1,1.965781,-1.296221
b,2,-0.55573,1.007189


Independientemente del objetivo que se persiga al utilizar `groupby`, un método de GroupBy generalmente útil es `size`, que devuelve una Serie que contiene los tamaños de los grupos:

In [15]:
df.groupby(["key1", "key2"]).size()

key1  key2
a     1       1
      2       1
b     1       1
      2       1
dtype: int64

Tenga en cuenta que los valores que faltan en una clave de grupo se excluyen del resultado por defecto. Este comportamiento puede desactivarse pasando `dropna=False` a `groupby`:

In [16]:
df.groupby("key1", dropna=False).size()

key1
a      3
b      2
NaN    2
dtype: int64

In [146]:
df.groupby(["key1", "key2"], dropna=False).size()

key1  key2
a     1       1
      2       1
      <NA>    1
b     1       1
      2       1
NaN   1       2
dtype: int64

Una función de grupo similar a size es `count`, que calcula el número de valores no nulos en cada grupo:

In [17]:
df.groupby("key1").count()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,2,3,3
b,2,2,2


### Iteración sobre grupos

El objeto devuelto por groupby admite la iteración, generando una secuencia de 2-tuplas que contienen el nombre del grupo junto con el trozo (chunk) de datos. Considere lo siguiente:

In [18]:
for name, group in df.groupby("key1"): 
    print(name)
    print(group)
# , itera sobre cada grupo y muestra 
# el nombre del grupo y los datos 
# correspondientes a ese grupo.

a
  key1  key2     data1     data2
0    a     1 -0.204708  0.281746
1    a     2  0.478943  0.769023
5    a  <NA>  1.393406  0.274992
b
  key1  key2     data1     data2
3    b     2 -0.555730  1.007189
4    b     1  1.965781 -1.296221


En el caso de múltiples claves, el primer elemento de la tupla será una tupla de valores clave:

In [149]:
for (k1, k2), group in df.groupby(["key1", "key2"]):
    print((k1, k2))
    print(group)


('a', 1)
  key1  key2     data1     data2
0    a     1 -0.204708  0.281746
('a', 2)
  key1  key2     data1     data2
1    a     2  0.478943  0.769023
('b', 1)
  key1  key2     data1     data2
4    b     1  1.965781 -1.296221
('b', 2)
  key1  key2    data1     data2
3    b     2 -0.55573  1.007189


Por supuesto, puedes elegir hacer lo que quieras con las piezas (`chunks`) de datos. Una receta que puede resultarte útil es calcular un diccionario de las piezas de datos como una sola línea:

In [25]:
pieces = {name: group for name, group in df.groupby("key1")}
pieces

{'a':   key1  key2     data1     data2
 0    a     1 -0.204708  0.281746
 1    a     2  0.478943  0.769023
 5    a  <NA>  1.393406  0.274992,
 'b':   key1  key2     data1     data2
 3    b     2 -0.555730  1.007189
 4    b     1  1.965781 -1.296221}

In [26]:
pieces["b"]

Unnamed: 0,key1,key2,data1,data2
3,b,2,-0.55573,1.007189
4,b,1,1.965781,-1.296221


Por defecto groupby agrupa en axis="index", pero puedes agrupar en cualquiera de los otros ejes. Por ejemplo, podríamos agrupar las columnas de nuestro ejemplo df aquí por si empiezan por "key" o "data":

In [29]:
grouped = df.groupby({"key1": "key", "key2": "key",
                      "data1": "data", "data2": "data"}, axis="columns")

  grouped = df.groupby({"key1": "key", "key2": "key",


Aqui `groupby` se está utilizando para agrupar columnas en lugar de filas. Esto se especifica con `axis="columns"`.  

El diccionario pasado a `groupby` indica cómo agrupar las columnas:  
    - `"key1"` y `"key2"` se agrupan bajo la clave `"key"`.  
    - `"data1"` y `"data2"` se agrupan bajo la clave `"data"`.

Podemos imprimir los grupos así:

In [30]:
for group_key, group_values in grouped:
    print(group_key)
    print(group_values)

data
      data1     data2
0 -0.204708  0.281746
1  0.478943  0.769023
2 -0.519439  1.246435
3 -0.555730  1.007189
4  1.965781 -1.296221
5  1.393406  0.274992
6  0.092908  0.228913
key
   key1  key2
0     a     1
1     a     2
2  None     1
3     b     2
4     b     1
5     a  <NA>
6  None     1


### Seleccionar una columna o un subconjunto de columnas

Indexar un objeto GroupBy creado a partir de un DataFrame con un nombre de columna o un array de nombres de columna tiene el efecto de subconjunto de columnas para la agregación. Esto significa que:

In [37]:
df.groupby("key1")["data1"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001C9B0E85190>

In [38]:
df.groupby("key1")[["data2"]]

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001C9B1C3BB90>

Especialmente para grandes conjuntos de datos (large datasets), puede ser deseable agregar sólo unas pocas columnas. Por ejemplo, en el conjunto de datos anterior, para calcular las medias de sólo la columna data2 y obtener el resultado como DataFrame, podríamos escribir:

In [40]:
df.groupby(["key1", "key2"])[["data2"]].mean()
# [["data2"]] Con doble corchete devuelve un dataframe

Unnamed: 0_level_0,Unnamed: 1_level_0,data2
key1,key2,Unnamed: 2_level_1
a,1,0.281746
a,2,0.769023
b,1,-1.296221
b,2,1.007189


In [39]:
df.groupby(["key1", "key2"])["data2"].mean()
# ["data2"] Con un corchete devuelve una serie

key1  key2
a     1       0.281746
      2       0.769023
b     1      -1.296221
      2       1.007189
Name: data2, dtype: float64

El objeto devuelto por esta operación de indexación es un DataFrame agrupado si se pasa una lista o array, o una Serie agrupada si sólo se pasa un nombre de columna como escalar:

In [42]:
s_grouped = df.groupby(["key1", "key2"])["data2"]

In [43]:
s_grouped

<pandas.core.groupby.generic.SeriesGroupBy object at 0x000001C9B1C2B590>

In [44]:
s_grouped.mean()

key1  key2
a     1       0.281746
      2       0.769023
b     1      -1.296221
      2       1.007189
Name: data2, dtype: float64

### Agrupación con diccionarios y series

La información de agrupación puede existir de otra forma que no sea un array. Consideremos otro ejemplo:

In [45]:
people = pd.DataFrame(np.random.standard_normal((5, 5)),
                      columns=["a", "b", "c", "d", "e"],
                      index=["Joe", "Steve", "Wanda", "Jill", "Trey"])
people

Unnamed: 0,a,b,c,d,e
Joe,1.352917,0.886429,-2.001637,-0.371843,1.669025
Steve,-0.43857,-0.539741,0.476985,3.248944,-1.021228
Wanda,-0.577087,0.124121,0.302614,0.523772,0.00094
Jill,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
Trey,-0.860757,0.560145,-1.265934,0.119827,-1.063512


In [46]:
people.iloc[2:3, [1, 2]] = np.nan 

- `2:3` selecciona la tercera fila (índice 2, que corresponde a "Wanda") porque iloc utiliza índices basados en 0 y el rango es exclusivo del valor final (por lo que selecciona solo la fila en la posición 2).
- `[1, 2]` selecciona las columnas en las posiciones 1 y 2 (que corresponden a las columnas "b" y "c").
- `= np.nan` asigna el valor NaN (Not a Number) a las posiciones seleccionadas.

In [48]:
people

Unnamed: 0,a,b,c,d,e
Joe,1.352917,0.886429,-2.001637,-0.371843,1.669025
Steve,-0.43857,-0.539741,0.476985,3.248944,-1.021228
Wanda,-0.577087,,,0.523772,0.00094
Jill,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
Trey,-0.860757,0.560145,-1.265934,0.119827,-1.063512


In [63]:
people1 = people.iloc[4:6, [1, 2]] 
people1.head()

Unnamed: 0,b,c
Trey,0.560145,-1.265934


Ahora, supongamos que tengo una correspondencia de grupo para las columnas y quiero sumar las columnas por grupo:

In [49]:
mapping = {"a": "red", "b": "red", "c": "blue",
           "d": "blue", "e": "red", "f" : "orange"}

Ahora bien, se podría construir un array a partir de este diccionario para pasarlo a groupby, pero en su lugar podemos simplemente pasar el diccionario (se ha incluido la clave "f" para resaltar que las claves de agrupación no utilizadas están bien):

In [64]:
by_column = people.groupby(mapping, axis="columns")

  by_column = people.groupby(mapping, axis="columns")


In [65]:
by_column.sum()

Unnamed: 0,blue,red
Joe,-2.37348,3.908371
Steve,3.725929,-1.999539
Wanda,0.523772,-0.576147
Jill,-3.201385,-1.230495
Trey,-1.146107,-1.364125


La misma funcionalidad se aplica a las series, que pueden verse como una asignación de tamaño fijo (fixed size mapping):

In [66]:
map_series = pd.Series(mapping)

In [167]:
map_series

a       red
b       red
c      blue
d      blue
e       red
f    orange
dtype: object

In [67]:
people.groupby(map_series, axis="columns").count()

  people.groupby(map_series, axis="columns").count()


Unnamed: 0,blue,red
Joe,2,3
Steve,2,3
Wanda,1,2
Jill,2,3
Trey,2,3


### Agrupación con funciones 

El uso de funciones Python es una forma más genérica de definir una asignación de grupo (group mapping) en comparación con un diccionario o una serie. Cualquier función que se pase como clave de grupo se llamará una vez por cada valor de índice (o una vez por cada valor de columna si se utiliza axis="columns"), y los valores devueltos se utilizarán como nombres de grupo.  

Más concretamente, considere el ejemplo DataFrame de la sección anterior, que tiene los nombres de pila de las personas como valores de índice. Supongamos que desea agrupar por la longitud del nombre. Aunque podría calcular un array de longitudes de cadena, es más sencillo pasar la función `len`:

In [69]:
people

Unnamed: 0,a,b,c,d,e
Joe,1.352917,0.886429,-2.001637,-0.371843,1.669025
Steve,-0.43857,-0.539741,0.476985,3.248944,-1.021228
Wanda,-0.577087,,,0.523772,0.00094
Jill,1.34381,-0.713544,-0.831154,-2.370232,-1.860761
Trey,-0.860757,0.560145,-1.265934,0.119827,-1.063512


In [68]:
people.groupby(len).sum()

Unnamed: 0,a,b,c,d,e
3,1.352917,0.886429,-2.001637,-0.371843,1.669025
4,0.483052,-0.153399,-2.097088,-2.250405,-2.924273
5,-1.015657,-0.539741,0.476985,3.772716,-1.020287


`groupby(len)`: Agrupa las filas del DataFrame people según la longitud de los nombres de los índices.  
    -- `"Joe"` tiene una longitud de 3.  
    -- `"Steve"` y `"Wanda"` tienen una longitud de 5.  
    -- `"Jill"` y `"Trey"` tienen una longitud de 4.  
    -- `.sum()`: Suma los valores de cada columna dentro de cada grupo.

Mezclar funciones con arrays, diccionarios o Series no es un problema, ya que todo se convierte en arrays internamente:

In [70]:
key_list = ["one", "one", "one", "two", "two"]

In [171]:
people.groupby([len, key_list]).min()

Unnamed: 0,Unnamed: 1,a,b,c,d,e
3,one,1.352917,0.886429,-2.001637,-0.371843,1.669025
4,two,-0.860757,-0.713544,-1.265934,-2.370232,-1.860761
5,one,-0.577087,-0.539741,0.476985,0.523772,-1.021228


`len`: Agrupa las filas del DataFrame people según la longitud de los nombres de los índices.  

`key_list`: Agrupa adicionalmente las filas utilizando los valores de key_list.  

`.min()`: Calcula el valor mínimo de cada columna dentro de cada grupo.


### Agrupación por niveles de índice

Una última posibilidad para los conjuntos de datos indexados jerárquicamente es la posibilidad de agregar utilizando uno de los niveles de un índice de eje. Veamos un ejemplo:

In [71]:
columns = pd.MultiIndex.from_arrays([["US", "US", "US", "JP", "JP"],
                                    [1, 3, 5, 1, 3]],
                                    names=["cty", "tenor"])
columns

MultiIndex([('US', 1),
            ('US', 3),
            ('US', 5),
            ('JP', 1),
            ('JP', 3)],
           names=['cty', 'tenor'])

In [73]:
hier_df = pd.DataFrame(np.random.standard_normal((4, 5)), columns=columns)

In [74]:
hier_df

cty,US,US,US,JP,JP
tenor,1,3,5,1,3
0,0.332883,-2.359419,-0.199543,-1.541996,-0.970736
1,-1.30703,0.28635,0.377984,-0.753887,0.331286
2,1.349742,0.069877,0.246674,-0.011862,1.004812
3,1.327195,-0.919262,-1.549106,0.022185,0.758363


Para agrupar por nivel, pase el número o el nombre del nivel utilizando la palabra clave `level`:

In [75]:
hier_df.groupby(level="cty", axis="columns").count()

  hier_df.groupby(level="cty", axis="columns").count()


cty,JP,US
0,2,3
1,2,3
2,2,3
3,2,3


## 4.2 Agregación de datos

Las agregaciones se refieren a cualquier transformación de datos que produzca valores escalares a partir de arrays. En los ejemplos anteriores se han utilizado varias de ellas, como la media, el recuento (count), el mínimo y la suma. Puede que se pregunte qué ocurre cuando invoca mean() en un objeto GroupBy. Muchas agregaciones comunes, como las que se encuentran en la Tabla a continuación , tienen implementaciones optimizadas. Sin embargo, no está limitado sólo a este conjunto de métodos.

`any, all` : Devuelve True si alguno (uno o más valores) o todos los valores no-NA son "truthy"

`count`: Número de valores no NA

`cummin, cummax`: Mínimo y máximo acumulados de los valores no NA

`cumsum`: Suma acumulada de los valores no NA

`cumprod`: Producto acumulado de los valores no NA

`first, last` : First and last non-NA values

`mean`: Media de los valores no NA

`median`: Mediana aritmética de los valores no NA

`min, max` : Mínimo y máximo de los valores no NA

`nth`: Recuperar el valor que aparecería en la posición n con los datos ordenados

`ohlc`: Calcular cuatro estadísticas de "apertura-alta-baja-cierre" para datos de tipo serie temporal

`prod`: Producto de valores no NA

`cuantil`: Calcular el cuantil de la muestra

`rango`: Rangos ordinales de valores no NA, como llamar a `Series.rank`

`size`: Calcular el tamaño de los grupos, devolviendo el resultado como una Serie.

`sum`: Suma de los valores no NA

`std, var`: Desviación típica y varianza de la muestra





Puede utilizar agregaciones de su propia autoría y, además, llamar a cualquier método que también esté definido en el objeto que se está agrupando. Por ejemplo, el método `nsmallest` Series selecciona el menor número solicitado de valores de los datos. Aunque `nsmallest` no está implementado explícitamente para GroupBy, podemos utilizarlo con una implementación no optimizada. Internamente, GroupBy trocea(slices) la serie, llama a `piece.nsmallest(n)` para cada trozo y, a continuación, reúne los resultados en el objeto resultante:

In [96]:
df

Unnamed: 0,key1,key2,data1,data2
0,a,1.0,-0.204708,0.281746
1,a,2.0,0.478943,0.769023
2,,1.0,-0.519439,1.246435
3,b,2.0,-0.55573,1.007189
4,b,1.0,1.965781,-1.296221
5,a,,1.393406,0.274992
6,,1.0,0.092908,0.228913


In [98]:
grouped = df.groupby("key1")

In [99]:
grouped["data1"].nsmallest(2)

key1   
a     0   -0.204708
      1    0.478943
b     3   -0.555730
      4    1.965781
Name: data1, dtype: float64

- `grouped["data1"]`: selecciona la columna "data1" de cada grupo.  
- `.nsmallest(2)` devuelve los 2 valores más pequeños de "data1" en cada grupo.

Para utilizar sus propias funciones de agregación, pase cualquier función que agregue un array al método `aggregate` o a su alias corto `agg`:

In [100]:
def peak_to_peak(arr):
    return arr.max() - arr.min()

Definimos una función `peak_to_peak` que calcula el rango (la diferencia entre el valor máximo y el mínimo) de un array (o Serie):

In [102]:
grouped.agg(peak_to_peak)

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,1.598113,0.494031
b,1,2.521511,2.30341


`grouped.agg(peak_to_peak)`: Usamos el método `agg` para aplicar la función peak_to_peak a cada columna de cada grupo:

Puede observar que algunos métodos, como `describe`, también funcionan, aunque no sean agregaciones, estrictamente hablando:

In [103]:
grouped.describe()

Unnamed: 0_level_0,key2,key2,key2,key2,key2,key2,key2,key2,data1,data1,data1,data1,data1,data2,data2,data2,data2,data2,data2,data2,data2
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
a,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,3.0,0.555881,...,0.936175,1.393406,3.0,0.44192,0.283299,0.274992,0.278369,0.281746,0.525384,0.769023
b,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,0.705025,...,1.335403,1.965781,2.0,-0.144516,1.628757,-1.296221,-0.720368,-0.144516,0.431337,1.007189


### Aplicación por columnas y funciones múltiples

Vamos a utilizar el conjunto de datos tips.xls (propinas).   
Tras cargarlo con pandas.read_csv, añadimos una columna de porcentaje de propina:

In [105]:
tips = pd.read_csv("tips.xls")

In [113]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size
0,16.99,1.01,No,Sun,Dinner,2
1,10.34,1.66,No,Sun,Dinner,3
2,21.01,3.5,No,Sun,Dinner,3
3,23.68,3.31,No,Sun,Dinner,2
4,24.59,3.61,No,Sun,Dinner,4


In [115]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   smoker      244 non-null    object 
 3   day         244 non-null    object 
 4   time        244 non-null    object 
 5   size        244 non-null    int64  
dtypes: float64(2), int64(1), object(3)
memory usage: 11.6+ KB


**Significado de cada columna:**  

`total_bill`: El monto total de la factura para la comida.  
`tip`: La cantidad de propina dejada.  
`smoker`: Indica si la persona que pagó es fumadora (Yes) o no (No).  
`day`: El día de la semana en que se realizó la transacción (por ejemplo, Sun para domingo).  
`time`: El momento del día en que se realizó la transacción (Lunch para almuerzo, Dinner para cena).  
`size`: El tamaño del grupo o la cantidad de personas en la mesa.  

Ahora se añadirá una columna `tip_pct` con el porcentaje de propina de la factura total:

In [116]:
tips["tip_pct"] = tips["tip"] / tips["total_bill"]

In [117]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
0,16.99,1.01,No,Sun,Dinner,2,0.059447
1,10.34,1.66,No,Sun,Dinner,3,0.160542
2,21.01,3.5,No,Sun,Dinner,3,0.166587
3,23.68,3.31,No,Sun,Dinner,2,0.13978
4,24.59,3.61,No,Sun,Dinner,4,0.146808


Como ya has visto, agregar una Serie o todas las columnas de un DataFrame es cuestión de usar `aggregate` (o agg) con la función deseada o llamar a un método como `mean` o `std`.  
Sin embargo, puede que se quiera agregar usando una función diferente, dependiendo de la columna, o múltiples funciones a la vez. Afortunadamente, esto es posible de hacer.  
En primer lugar, vamos a agrupar las propinas por día y fumador:

In [118]:
grouped = tips.groupby(["day", "smoker"])

Tenga en cuenta que para estadísticas descriptivas como las de la anterior, puede pasar el nombre de la función como una cadena:

In [119]:
grouped_pct = grouped["tip_pct"]

In [120]:
grouped_pct.agg("mean")

day   smoker
Fri   No        0.151650
      Yes       0.174783
Sat   No        0.158048
      Yes       0.147906
Sun   No        0.160113
      Yes       0.187250
Thur  No        0.160298
      Yes       0.163863
Name: tip_pct, dtype: float64

Si en su lugar pasa una lista de funciones o nombres de funciones, obtendrá un DataFrame con nombres de columnas tomados de las funciones:

In [121]:
grouped_pct.agg(["mean", "std", peak_to_peak])

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,std,peak_to_peak
day,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,No,0.15165,0.028123,0.067349
Fri,Yes,0.174783,0.051293,0.159925
Sat,No,0.158048,0.039767,0.235193
Sat,Yes,0.147906,0.061375,0.290095
Sun,No,0.160113,0.042347,0.193226
Sun,Yes,0.18725,0.154134,0.644685
Thur,No,0.160298,0.038774,0.19335
Thur,Yes,0.163863,0.039389,0.15124


Aquí pasamos una lista de funciones de agregación a agg para que las evalúe independientemente en los grupos de datos.

No es necesario que aceptes los nombres que GroupBy da a las columnas; en particular, las funciones `lambda` tienen el nombre "<lambda>", lo que las hace difíciles de identificar . Por lo tanto, si pasa una lista de tuplas (nombre, función), el primer elemento de cada tupla se utilizará como los nombres de columna del DataFrame (puede pensar en una lista de 2 tuplas como un mapeo (mapping) ordenado):

In [190]:
grouped_pct.agg([("average", "mean"), ("stdev", np.std)])

  grouped_pct.agg([("average", "mean"), ("stdev", np.std)])


Unnamed: 0_level_0,Unnamed: 1_level_0,average,stdev
day,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,No,0.15165,0.028123
Fri,Yes,0.174783,0.051293
Sat,No,0.158048,0.039767
Sat,Yes,0.147906,0.061375
Sun,No,0.160113,0.042347
Sun,Yes,0.18725,0.154134
Thur,No,0.160298,0.038774
Thur,Yes,0.163863,0.039389


Con un DataFrame se tienen más opciones, ya que puede especificar una lista de funciones para aplicar a todas las columnas o diferentes funciones por columna. Para empezar, supongamos que queremos calcular las mismas tres estadísticas para las columnas `tip_pct` y `total_bill`:

In [191]:
functions = ["count", "mean", "max"]

In [192]:
result = grouped[["tip_pct", "total_bill"]].agg(functions)

In [193]:
result

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,total_bill,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,max,count,mean,max
day,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Fri,No,4,0.15165,0.187735,4,18.42,22.75
Fri,Yes,15,0.174783,0.26348,15,16.813333,40.17
Sat,No,45,0.158048,0.29199,45,19.661778,48.33
Sat,Yes,42,0.147906,0.325733,42,21.276667,50.81
Sun,No,57,0.160113,0.252672,57,20.506667,48.17
Sun,Yes,19,0.18725,0.710345,19,24.12,45.35
Thur,No,45,0.160298,0.266312,45,17.113111,41.19
Thur,Yes,17,0.163863,0.241255,17,19.190588,43.11


Como puede ver, el DataFrame resultante tiene columnas jerárquicas, lo mismo que obtendría agregando cada columna por separado y utilizando concat para unir los resultados utilizando los nombres de las columnas como argumento clave:

In [194]:
result["tip_pct"]

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,max
day,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fri,No,4,0.15165,0.187735
Fri,Yes,15,0.174783,0.26348
Sat,No,45,0.158048,0.29199
Sat,Yes,42,0.147906,0.325733
Sun,No,57,0.160113,0.252672
Sun,Yes,19,0.18725,0.710345
Thur,No,45,0.160298,0.266312
Thur,Yes,17,0.163863,0.241255


Como antes, se puede pasar una lista de tuplas con nombres personalizados:

In [195]:
ftuples = [("Average", "mean"), ("Variance", np.var)]

In [196]:
grouped[["tip_pct", "total_bill"]].agg(ftuples)

  grouped[["tip_pct", "total_bill"]].agg(ftuples)


Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,total_bill,total_bill
Unnamed: 0_level_1,Unnamed: 1_level_1,Average,Variance,Average,Variance
day,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Fri,No,0.15165,0.000791,18.42,25.596333
Fri,Yes,0.174783,0.002631,16.813333,82.562438
Sat,No,0.158048,0.001581,19.661778,79.908965
Sat,Yes,0.147906,0.003767,21.276667,101.387535
Sun,No,0.160113,0.001793,20.506667,66.09998
Sun,Yes,0.18725,0.023757,24.12,109.046044
Thur,No,0.160298,0.001503,17.113111,59.625081
Thur,Yes,0.163863,0.001551,19.190588,69.808518


Ahora, supongamos que desea aplicar funciones potencialmente diferentes a una o más de las columnas. Para ello, pase un diccionario a agg que contenga un mapeo de nombres de columnas a cualquiera de las especificaciones de función enumeradas hasta ahora:

In [197]:
grouped.agg({"tip" : np.max, "size" : "sum"})

  grouped.agg({"tip" : np.max, "size" : "sum"})


Unnamed: 0_level_0,Unnamed: 1_level_0,tip,size
day,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1
Fri,No,3.5,9
Fri,Yes,4.73,31
Sat,No,9.0,115
Sat,Yes,10.0,104
Sun,No,6.0,167
Sun,Yes,6.5,49
Thur,No,6.7,112
Thur,Yes,5.0,40


In [198]:
grouped.agg({"tip_pct" : ["min", "max", "mean", "std"],
             "size" : "sum"})

Unnamed: 0_level_0,Unnamed: 1_level_0,tip_pct,tip_pct,tip_pct,tip_pct,size
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,std,sum
day,smoker,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Fri,No,0.120385,0.187735,0.15165,0.028123,9
Fri,Yes,0.103555,0.26348,0.174783,0.051293,31
Sat,No,0.056797,0.29199,0.158048,0.039767,115
Sat,Yes,0.035638,0.325733,0.147906,0.061375,104
Sun,No,0.059447,0.252672,0.160113,0.042347,167
Sun,Yes,0.06566,0.710345,0.18725,0.154134,49
Thur,No,0.072961,0.266312,0.160298,0.038774,112
Thur,Yes,0.090014,0.241255,0.163863,0.039389,40


Un DataFrame tendrá columnas jerárquicas sólo si se aplican múltiples funciones al menos a una columna.

### Devolución de datos agregados sin índices de filas

En todos los ejemplos hasta ahora, los datos agregados vuelven con un índice, potencialmente jerárquico, compuesto a partir de las combinaciones únicas de claves de grupo. Dado que esto no siempre es deseable, puede desactivar este comportamiento en la mayoría de los casos pasando as_index=False a groupby:

In [199]:
grouped = tips.groupby(["day", "smoker"], as_index=False)

In [200]:
grouped.mean(numeric_only=True)

Unnamed: 0,day,smoker,total_bill,tip,size,tip_pct
0,Fri,No,18.42,2.8125,2.25,0.15165
1,Fri,Yes,16.813333,2.714,2.066667,0.174783
2,Sat,No,19.661778,3.102889,2.555556,0.158048
3,Sat,Yes,21.276667,2.875476,2.47619,0.147906
4,Sun,No,20.506667,3.167895,2.929825,0.160113
5,Sun,Yes,24.12,3.516842,2.578947,0.18725
6,Thur,No,17.113111,2.673778,2.488889,0.160298
7,Thur,Yes,19.190588,3.03,2.352941,0.163863


Por supuesto, siempre es posible obtener el resultado en este formato llamando a reset_index sobre el resultado. El uso del argumento as_index=False evita algunos cálculos innecesarios.

## 4.3 Aplicar: General dividir-aplicar-combinar (split-apply-combine)

El método GroupBy de propósito más general es `apply`. Este metodo `apply` divide el objeto que se está manipulando en trozos, invoca la función pasada en cada trozo, y luego intenta concatenar los trozos.

Volviendo al conjunto de datos de propinas de antes, supongamos que desea seleccionar los cinco valores principales de `tip_pct` por grupo. Primero, se escribe una función que seleccione las filas con los mayores valores en una columna en particular:

In [201]:
def top(df, n=5, column="tip_pct"):
    return df.sort_values(column, ascending=False)[:n]

In [202]:
top(tips, n=6)

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
172,7.25,5.15,Yes,Sun,Dinner,2,0.710345
178,9.6,4.0,Yes,Sun,Dinner,2,0.416667
67,3.07,1.0,Yes,Sat,Dinner,1,0.325733
232,11.61,3.39,No,Sat,Dinner,2,0.29199
183,23.17,6.5,Yes,Sun,Dinner,4,0.280535
109,14.31,4.0,Yes,Sat,Dinner,2,0.279525


Ahora, si agrupamos por (smoker) fumador, digamos, y llamamos a `apply` con esta función, obtenemos lo siguiente:

In [203]:
tips.groupby("smoker").apply(top)

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,smoker,day,time,size,tip_pct
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
No,232,11.61,3.39,No,Sat,Dinner,2,0.29199
No,149,7.51,2.0,No,Thur,Lunch,2,0.266312
No,51,10.29,2.6,No,Sun,Dinner,2,0.252672
No,185,20.69,5.0,No,Sun,Dinner,5,0.241663
No,88,24.71,5.85,No,Thur,Lunch,2,0.236746
Yes,172,7.25,5.15,Yes,Sun,Dinner,2,0.710345
Yes,178,9.6,4.0,Yes,Sun,Dinner,2,0.416667
Yes,67,3.07,1.0,Yes,Sat,Dinner,1,0.325733
Yes,183,23.17,6.5,Yes,Sun,Dinner,4,0.280535
Yes,109,14.31,4.0,Yes,Sat,Dinner,2,0.279525


¿Qué ha ocurrido aquí? En primer lugar, la DataFrame `tips` se divide en grupos basados en el valor de `smoker`. Después se llama a la función `top` en cada grupo, y los resultados de cada llamada a la función se pegan usando `pandas.concat`, etiquetando(labelling) las piezas con los nombres de los grupos. Por lo tanto, el resultado tiene un índice jerárquico con un nivel interno que contiene valores de índice del DataFrame original.

Si se pasa una función a `apply` que toma otros argumentos o palabras clave, puede pasarlos después de la función:

In [204]:
tips.groupby(["smoker", "day"]).apply(top, n=1, column="total_bill")

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,total_bill,tip,smoker,day,time,size,tip_pct
smoker,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
No,Fri,94,22.75,3.25,No,Fri,Dinner,2,0.142857
No,Sat,212,48.33,9.0,No,Sat,Dinner,4,0.18622
No,Sun,156,48.17,5.0,No,Sun,Dinner,6,0.103799
No,Thur,142,41.19,5.0,No,Thur,Lunch,5,0.121389
Yes,Fri,95,40.17,4.73,Yes,Fri,Dinner,4,0.11775
Yes,Sat,170,50.81,10.0,Yes,Sat,Dinner,3,0.196812
Yes,Sun,182,45.35,3.5,Yes,Sun,Dinner,3,0.077178
Yes,Thur,197,43.11,5.0,Yes,Thur,Lunch,4,0.115982


Más allá de esta mecánica básica de uso, sacar el máximo partido de apply puede requerir algo de creatividad. Lo que ocurra dentro de la función pasada depende del analista; debe devolver un objeto pandas o un valor escalar. El resto de este capítulo consistirá principalmente en ejemplos que muestran cómo resolver varios problemas utilizando groupby.

Por ejemplo, recordamos que antes llamó a `describe` sobre un objeto GroupBy:

In [205]:
result = tips.groupby("smoker")["tip_pct"].describe()

In [206]:
result

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
No,151.0,0.159328,0.03991,0.056797,0.136906,0.155625,0.185014,0.29199
Yes,93.0,0.163196,0.085119,0.035638,0.106771,0.153846,0.195059,0.710345


In [207]:
result.unstack("smoker")

       smoker
count  No        151.000000
       Yes        93.000000
mean   No          0.159328
       Yes         0.163196
std    No          0.039910
       Yes         0.085119
min    No          0.056797
       Yes         0.035638
25%    No          0.136906
       Yes         0.106771
50%    No          0.155625
       Yes         0.153846
75%    No          0.185014
       Yes         0.195059
max    No          0.291990
       Yes         0.710345
dtype: float64

Dentro de GroupBy, cuando se invoca un método como `describe`, en realidad es sólo un atajo para:

In [208]:
def f(group):
    return group.describe()

grouped.apply(f)

Unnamed: 0,Unnamed: 1,total_bill,tip,size,tip_pct
0,count,4.000000,4.000000,4.00,4.000000
0,mean,18.420000,2.812500,2.25,0.151650
0,std,5.059282,0.898494,0.50,0.028123
0,min,12.460000,1.500000,2.00,0.120385
0,25%,15.100000,2.625000,2.00,0.137239
...,...,...,...,...,...
7,min,10.340000,2.000000,2.00,0.090014
7,25%,13.510000,2.000000,2.00,0.148038
7,50%,16.470000,2.560000,2.00,0.153846
7,75%,19.810000,4.000000,2.00,0.194837


### Suprimir las claves de grupo

En los ejemplos anteriores, se ve que el objeto resultante tiene un índice jerárquico formado a partir de las claves de grupo, junto con los índices de cada pieza del objeto original. Puede desactivar esto pasando group_keys=False a groupby:

In [209]:
tips.groupby("smoker", group_keys=False).apply(top)

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
232,11.61,3.39,No,Sat,Dinner,2,0.29199
149,7.51,2.0,No,Thur,Lunch,2,0.266312
51,10.29,2.6,No,Sun,Dinner,2,0.252672
185,20.69,5.0,No,Sun,Dinner,5,0.241663
88,24.71,5.85,No,Thur,Lunch,2,0.236746
172,7.25,5.15,Yes,Sun,Dinner,2,0.710345
178,9.6,4.0,Yes,Sun,Dinner,2,0.416667
67,3.07,1.0,Yes,Sat,Dinner,1,0.325733
183,23.17,6.5,Yes,Sun,Dinner,4,0.280535
109,14.31,4.0,Yes,Sat,Dinner,2,0.279525


In [210]:
tips.groupby("smoker").apply(top)

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill,tip,smoker,day,time,size,tip_pct
smoker,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
No,232,11.61,3.39,No,Sat,Dinner,2,0.29199
No,149,7.51,2.0,No,Thur,Lunch,2,0.266312
No,51,10.29,2.6,No,Sun,Dinner,2,0.252672
No,185,20.69,5.0,No,Sun,Dinner,5,0.241663
No,88,24.71,5.85,No,Thur,Lunch,2,0.236746
Yes,172,7.25,5.15,Yes,Sun,Dinner,2,0.710345
Yes,178,9.6,4.0,Yes,Sun,Dinner,2,0.416667
Yes,67,3.07,1.0,Yes,Sat,Dinner,1,0.325733
Yes,183,23.17,6.5,Yes,Sun,Dinner,4,0.280535
Yes,109,14.31,4.0,Yes,Sat,Dinner,2,0.279525


### Análisis de cuantiles y Bucket ("Contenedor")

Como se vió en el tema de Data Wrangling (Join, Combine, and Reshape), pandas tiene algunas herramientas, en particular `pandas.cut` y `pandas.qcut`, para rebanar los datos en buckets con bins de su elección, o por cuantiles de muestra. Combinando estas funciones con groupby es conveniente realizar análisis de ' buckets'  o cuantiles en un conjunto de datos. Considere un conjunto de datos aleatorio simple y una categorización de buckets de igual longitud utilizando `pandas.cut`:

In [211]:
frame = pd.DataFrame({"data1": np.random.standard_normal(1000),
                      "data2": np.random.standard_normal(1000)})


frame

Unnamed: 0,data1,data2
0,-0.660524,-0.612905
1,0.862580,0.316447
2,-0.010032,0.838295
3,0.050009,-1.034423
4,0.670216,0.434304
...,...,...
995,-1.261344,1.170900
996,1.165148,0.678661
997,-0.621249,-0.125921
998,-0.799318,0.150581


In [212]:
frame.head()

Unnamed: 0,data1,data2
0,-0.660524,-0.612905
1,0.86258,0.316447
2,-0.010032,0.838295
3,0.050009,-1.034423
4,0.670216,0.434304


In [213]:
quartiles = pd.cut(frame["data1"], 4)

In [214]:
quartiles.head(10)

0     (-1.23, 0.489]
1     (0.489, 2.208]
2     (-1.23, 0.489]
3     (-1.23, 0.489]
4     (0.489, 2.208]
5     (0.489, 2.208]
6     (-1.23, 0.489]
7     (-1.23, 0.489]
8    (-2.956, -1.23]
9     (-1.23, 0.489]
Name: data1, dtype: category
Categories (4, interval[float64, right]): [(-2.956, -1.23] < (-1.23, 0.489] < (0.489, 2.208] < (2.208, 3.928]]

El objeto `Categorical` devuelto por `cut` puede pasarse directamente a groupby. Así que podríamos calcular un conjunto de estadísticas de grupo para los cuartiles, así:

In [215]:
def get_stats(group):
    return pd.DataFrame(
        {"min": group.min(), "max": group.max(),
        "count": group.count(), "mean": group.mean()}
    )

In [216]:
grouped = frame.groupby(quartiles)

  grouped = frame.groupby(quartiles)


In [217]:
grouped.apply(get_stats)

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,count,mean
data1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"(-2.956, -1.23]",data1,-2.949343,-1.230179,94,-1.658818
"(-2.956, -1.23]",data2,-3.399312,1.670835,94,-0.033333
"(-1.23, 0.489]",data1,-1.228918,0.488675,598,-0.329524
"(-1.23, 0.489]",data2,-2.989741,3.260383,598,-0.002622
"(0.489, 2.208]",data1,0.489965,2.200997,298,1.065727
"(0.489, 2.208]",data2,-3.745356,2.954439,298,0.078249
"(2.208, 3.928]",data1,2.212303,3.927528,10,2.644253
"(2.208, 3.928]",data2,-1.929776,1.76564,10,0.02475


Ten en cuenta que el mismo resultado podría haberse calculado de forma más sencilla con:

In [218]:
grouped.agg(["min", "max", "count", "mean"])

Unnamed: 0_level_0,data1,data1,data1,data1,data2,data2,data2,data2
Unnamed: 0_level_1,min,max,count,mean,min,max,count,mean
data1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
"(-2.956, -1.23]",-2.949343,-1.230179,94,-1.658818,-3.399312,1.670835,94,-0.033333
"(-1.23, 0.489]",-1.228918,0.488675,598,-0.329524,-2.989741,3.260383,598,-0.002622
"(0.489, 2.208]",0.489965,2.200997,298,1.065727,-3.745356,2.954439,298,0.078249
"(2.208, 3.928]",2.212303,3.927528,10,2.644253,-1.929776,1.76564,10,0.02475


Estos eran cubos de igual longitud; para calcular cubos de igual tamaño basados en cuantiles muestrales, utilice pandas.qcut. Podemos pasar 4 como el número de cubos para calcular los cuartiles de la muestra, y pasar labels=False para obtener sólo los índices de los cuartiles en lugar de los intervalos:

In [219]:
quartiles_samp = pd.qcut(frame["data1"], 4, labels=False)
quartiles_samp

0      1
1      3
2      2
3      2
4      3
      ..
995    0
996    3
997    1
998    0
999    3
Name: data1, Length: 1000, dtype: int64

In [220]:
quartiles_samp.head()

0    1
1    3
2    2
3    2
4    3
Name: data1, dtype: int64

In [221]:
grouped = frame.groupby(quartiles_samp)

In [222]:
grouped.apply(get_stats)

Unnamed: 0_level_0,Unnamed: 1_level_0,min,max,count,mean
data1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,data1,-2.949343,-0.685484,250,-1.212173
0,data2,-3.399312,2.628441,250,-0.027045
1,data1,-0.683066,-0.03028,250,-0.368334
1,data2,-2.630247,3.260383,250,-0.027845
2,data1,-0.027734,0.618965,250,0.295812
2,data2,-3.05699,2.458842,250,0.01445
3,data1,0.623587,3.927528,250,1.248875
3,data2,-3.745356,2.954439,250,0.115899


### Ejemplo: Rellenar valores faltantes con valores específicos de grupo

Al limpiar los datos que faltan, en algunos casos eliminará las observaciones de datos utilizando dropna, pero en otros es posible que desee rellenar los valores nulos (NA) utilizando un valor fijo o algún valor derivado de los datos. fillna es la herramienta adecuada para utilizar; por ejemplo, aquí se rellenan los valores nulos con la media:

In [223]:
s = pd.Series(np.random.standard_normal(6))

In [224]:
s[::2] = np.nan

In [225]:
s

0         NaN
1    0.227290
2         NaN
3   -2.153545
4         NaN
5   -0.375842
dtype: float64

In [226]:
s.fillna(s.mean())

0   -0.767366
1    0.227290
2   -0.767366
3   -2.153545
4   -0.767366
5   -0.375842
dtype: float64

Supongamos que necesita que el valor de relleno varíe según el grupo. Una forma de hacerlo es agrupar los datos y utilizar apply con una función que llame a fillna en cada trozo de datos. Aquí hay algunos datos de muestra sobre los estados de EE.UU. divididos en regiones orientales y occidentales:

In [227]:
states = ["Ohio", "New York", "Vermont", "Florida",
          "Oregon", "Nevada", "California", "Idaho"]
group_key = ["East", "East", "East", "East",
             "West", "West", "West", "West"]

In [228]:
data = pd.Series(np.random.standard_normal(8), index=states)

In [229]:
data

Ohio          0.329939
New York      0.981994
Vermont       1.105913
Florida      -1.613716
Oregon        1.561587
Nevada        0.406510
California    0.359244
Idaho        -0.614436
dtype: float64

Establezcamos que faltan algunos valores en los datos:

In [230]:
data[["Vermont", "Nevada", "Idaho"]] = np.nan
data

Ohio          0.329939
New York      0.981994
Vermont            NaN
Florida      -1.613716
Oregon        1.561587
Nevada             NaN
California    0.359244
Idaho              NaN
dtype: float64

In [231]:
data.groupby(group_key).size()

East    4
West    4
dtype: int64

In [232]:
data.groupby(group_key).count()

East    3
West    2
dtype: int64

In [233]:
data.groupby(group_key).mean()

East   -0.100594
West    0.960416
dtype: float64

Podemos rellenar los valores NA utilizando las medias de grupo, así:

In [234]:
def fill_mean(group):
    return group.fillna(group.mean())

data.groupby(group_key).apply(fill_mean)

East  Ohio          0.329939
      New York      0.981994
      Vermont      -0.100594
      Florida      -1.613716
West  Oregon        1.561587
      Nevada        0.960416
      California    0.359244
      Idaho         0.960416
dtype: float64

En otro caso, es posible que tenga valores de relleno predefinidos en su código que varían según el grupo. Dado que los grupos tienen un atributo de nombre establecido internamente, podemos utilizarlo:

In [235]:
fill_values = {"East": 0.5, "West": -1}
def fill_func(group):
    return group.fillna(fill_values[group.name])

data.groupby(group_key).apply(fill_func)

East  Ohio          0.329939
      New York      0.981994
      Vermont       0.500000
      Florida      -1.613716
West  Oregon        1.561587
      Nevada       -1.000000
      California    0.359244
      Idaho        -1.000000
dtype: float64

### Ejemplo: Muestreo aleatorio y permutación

Supongamos que desea extraer una muestra aleatoria (con o sin reemplazo) de un gran conjunto de datos con fines de simulación Monte Carlo o alguna otra aplicación. Hay varias formas de realizar los "sorteos"; aquí utilizamos el método de muestreo para Series.

Para demostrarlo, aquí tienes una forma de construir una baraja de naipes al estilo inglés:

In [236]:
suits = ["H", "S", "C", "D"]  # Hearts, Spades, Clubs, Diamonds
card_val = (list(range(1, 11)) + [10] * 3) * 4
base_names = ["A"] + list(range(2, 11)) + ["J", "K", "Q"]
cards = []
for suit in suits:
    cards.extend(str(num) + suit for num in base_names)

In [237]:
deck = pd.Series(card_val, index=cards)

Ahora tenemos una Serie de longitud 52 cuyo índice contiene nombres de cartas, y los valores son los que se usan en el blackjack y otros juegos (para simplificar las cosas, dejo que el as "A" sea 1):

In [238]:
deck.head(13)

AH      1
2H      2
3H      3
4H      4
5H      5
6H      6
7H      7
8H      8
9H      9
10H    10
JH     10
KH     10
QH     10
dtype: int64

Ahora, basándome en lo que he dicho antes, robar una mano de cinco cartas de la baraja podría escribirse como:

In [239]:
def draw(deck, n=5):
    return deck.sample(n)
draw(deck)

4D     4
QH    10
8S     8
7D     7
9C     9
dtype: int64

Supongamos que queremos dos cartas al azar de cada palo. Dado que el palo es el último carácter del nombre de cada carta, podemos agruparlas en función de éste y utilizar aplicar:

In [240]:
def get_suit(card):
    # last letter is suit
    return card[-1]

deck.groupby(get_suit).apply(draw, n=2)

C  6C     6
   KC    10
D  7D     7
   3D     3
H  7H     7
   9H     9
S  2S     2
   QS    10
dtype: int64

Alternativamente, podríamos pasar group_keys=False para eliminar el índice de palos externo, dejando sólo las cartas seleccionadas:

In [241]:
deck.groupby(get_suit, group_keys=False).apply(draw, n=2)

AC      1
3C      3
5D      5
4D      4
10H    10
7H      7
QS     10
7S      7
dtype: int64

### Ejemplo: Media ponderada por grupo y correlación

Bajo el paradigma dividir-aplicar-combinar (splitapply-combine) de groupby, son posibles las operaciones entre columnas de un DataFrame o dos Series, como una media ponderada de grupo. Como ejemplo, tomemos este conjunto de datos que contiene claves de grupo, valores y algunos pesos:

In [242]:
df = pd.DataFrame({"category": ["a", "a", "a", "a",
                                "b", "b", "b", "b"],
                   "data": np.random.standard_normal(8),
                   "weights": np.random.uniform(size=8)})
df

Unnamed: 0,category,data,weights
0,a,-1.691656,0.955905
1,a,0.511622,0.012745
2,a,-0.401675,0.137009
3,a,0.968578,0.763037
4,b,-1.818215,0.492472
5,b,0.279963,0.832908
6,b,-0.200819,0.658331
7,b,-0.217221,0.612009


La media ponderada por categoría sería entonces:

In [243]:
grouped = df.groupby("category")
def get_wavg(group):
    return np.average(group["data"], weights=group["weights"])

grouped.apply(get_wavg)

category
a   -0.495807
b   -0.357273
dtype: float64

Como ejemplo, consideremos un conjunto de datos financieros obtenidos originalmente de Yahoo! Finance que contiene los precios al final del día de algunas acciones y del índice S&P 500 (el símbolo SPX):

In [244]:
close_px = pd.read_csv("stock_px.csv", parse_dates=True,
                       index_col=0)
close_px.info()
close_px.tail(4)

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2214 entries, 2003-01-02 to 2011-10-14
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   AAPL    2214 non-null   float64
 1   MSFT    2214 non-null   float64
 2   XOM     2214 non-null   float64
 3   SPX     2214 non-null   float64
dtypes: float64(4)
memory usage: 86.5 KB


Unnamed: 0,AAPL,MSFT,XOM,SPX
2011-10-11,400.29,27.0,76.27,1195.54
2011-10-12,402.19,26.96,77.16,1207.25
2011-10-13,408.43,27.18,76.37,1203.66
2011-10-14,422.0,27.27,78.11,1224.58


El método DataFrame info() es una forma práctica de obtener una visión general del contenido de un DataFrame.

Una tarea de interés podría ser calcular un DataFrame consistente en las correlaciones anuales de los rendimientos diarios (calculados a partir de los cambios porcentuales) con el SPX. Para ello, primero creamos una función que calcula la correlación por pares de cada columna con la columna "SPX":

In [245]:
def spx_corr(group):
    return group.corrwith(group["SPX"])

A continuación, calculamos el cambio porcentual en close_px utilizando pct_change:

In [246]:
rets = close_px.pct_change().dropna()

Por último, agrupamos estos cambios porcentuales por año, que puede extraerse de cada etiqueta de fila con una función de una línea que devuelve el atributo year de cada etiqueta datetime:

In [247]:
def get_year(x):
    return x.year

by_year = rets.groupby(get_year)
by_year.apply(spx_corr)

Unnamed: 0,AAPL,MSFT,XOM,SPX
2003,0.541124,0.745174,0.661265,1.0
2004,0.374283,0.588531,0.557742,1.0
2005,0.46754,0.562374,0.63101,1.0
2006,0.428267,0.406126,0.518514,1.0
2007,0.508118,0.65877,0.786264,1.0
2008,0.681434,0.804626,0.828303,1.0
2009,0.707103,0.654902,0.797921,1.0
2010,0.710105,0.730118,0.839057,1.0
2011,0.691931,0.800996,0.859975,1.0


También se pueden calcular correlaciones entre columnas. Aquí calculamos la correlación anual entre Apple y Microsoft:

In [248]:
def corr_aapl_msft(group):
    return group["AAPL"].corr(group["MSFT"])
by_year.apply(corr_aapl_msft)

2003    0.480868
2004    0.259024
2005    0.300093
2006    0.161735
2007    0.417738
2008    0.611901
2009    0.432738
2010    0.571946
2011    0.581987
dtype: float64

### Ejemplo: Regresión lineal por grupos

En la misma línea que el ejemplo anterior, puede utilizar groupby para realizar análisis estadísticos más complejos por grupos, siempre que la función devuelva un objeto pandas o un valor escalar. Por ejemplo, se puede definir la siguiente función `regress` (usando la librería econométrica statsmodels), que ejecuta una regresión por mínimos cuadrados ordinarios (MCO) en cada trozo de datos:

In [249]:
import statsmodels.api as sm
def regress(data, yvar=None, xvars=None):
    Y = data[yvar]
    X = data[xvars]
    X["intercept"] = 1.
    result = sm.OLS(Y, X).fit()
    return result.params

Puedes instalar `statsmodels` con conda si no lo tienes ya:

`conda install statsmodels`

Ahora, para ejecutar una regresión lineal anual de AAPL sobre los rendimientos del SPX, ejecute:

In [250]:
by_year.apply(regress, yvar="AAPL", xvars=["SPX"])

Unnamed: 0,SPX,intercept
2003,1.195406,0.00071
2004,1.363463,0.004201
2005,1.766415,0.003246
2006,1.645496,8e-05
2007,1.198761,0.003438
2008,0.968016,-0.00111
2009,0.879103,0.002954
2010,1.052608,0.001261
2011,0.806605,0.001514


## 4.4 Transformaciones de grupos y funciones GroupBy "simplificadas"

En la sección **split-apply-combine**, vimos el método apply en operaciones agrupadas para realizar transformaciones. Hay otro método incorporado llamado `transform`, que es similar a `apply`, pero impone más restricciones sobre el tipo de función que puede utilizar:

- Puede producir un valor escalar que se transmite a la forma del grupo.

- Puede producir un objeto de la misma forma que el grupo de entrada.

- No debe mutar su entrada.

Veamos un ejemplo sencillo para ilustrarlo:

In [251]:
df = pd.DataFrame({'key': ['a', 'b', 'c'] * 4,
                   'value': np.arange(12.)})
df

Unnamed: 0,key,value
0,a,0.0
1,b,1.0
2,c,2.0
3,a,3.0
4,b,4.0
5,c,5.0
6,a,6.0
7,b,7.0
8,c,8.0
9,a,9.0


Estas son las medias de grupos por clave::

In [290]:
g = df.groupby('key')['value']

In [274]:
g.mean()

key
a    4.5
b    5.5
c    6.5
Name: value, dtype: float64

Supongamos que lo que realmente queríamos era producir una serie con la misma forma que df['valor'] pero con los valores sustituidos por la media agrupadas según 'key'. Podemos pasarle a `transform` una función que calcule la media de un solo grupo:

In [253]:
def get_mean(group):
    return group.mean()
g.transform(get_mean)

0     4.5
1     5.5
2     6.5
3     4.5
4     5.5
5     6.5
6     4.5
7     5.5
8     6.5
9     4.5
10    5.5
11    6.5
Name: value, dtype: float64

Para las funciones de agregación internas, podemos pasar un alias de cadena como con el método `agg` de GroupBy:

In [254]:
g.transform('mean')

0     4.5
1     5.5
2     6.5
3     4.5
4     5.5
5     6.5
6     4.5
7     5.5
8     6.5
9     4.5
10    5.5
11    6.5
Name: value, dtype: float64

Al igual que `apply`, `transform` sirve con funciones que devuelven series, pero el resultado debe tener el mismo tamaño que la entrada. Por ejemplo, podemos multiplicar cada grupo por 2 utilizando una función auxiliar:

In [277]:
def times_two(group):
    return group * 2
g.transform(times_two)

0      0.0
1      2.0
2      4.0
3      6.0
4      8.0
5     10.0
6     12.0
7     14.0
8     16.0
9     18.0
10    20.0
11    22.0
Name: value, dtype: float64

Como ejemplo más complicado, podemos calcular los rangos en orden descendente para cada grupo:

In [256]:
def get_ranks(group):
    return group.rank(ascending=False)
g.transform(get_ranks)

0     4.0
1     4.0
2     4.0
3     3.0
4     3.0
5     3.0
6     2.0
7     2.0
8     2.0
9     1.0
10    1.0
11    1.0
Name: value, dtype: float64

Consideremos una función de transformación de grupo creada a partir de agregaciones simples:

In [278]:
def normalize(x):
    return (x - x.mean()) / x.std()

Podemos obtener resultados equivalentes en este caso utilizando la `transform` o `apply`

In [258]:
g.transform(normalize)

0    -1.161895
1    -1.161895
2    -1.161895
3    -0.387298
4    -0.387298
5    -0.387298
6     0.387298
7     0.387298
8     0.387298
9     1.161895
10    1.161895
11    1.161895
Name: value, dtype: float64

In [259]:
g.apply(normalize)

key    
a    0    -1.161895
     3    -0.387298
     6     0.387298
     9     1.161895
b    1    -1.161895
     4    -0.387298
     7     0.387298
     10    1.161895
c    2    -1.161895
     5    -0.387298
     8     0.387298
     11    1.161895
Name: value, dtype: float64

Las funciones de agregación internas, como "mean" o "sum", suelen ser mucho más rápidas que una función de aplicación general. Éstas también tienen un "camino rapido" cuando se utilizan con `transform`. Esto nos permite realizar lo que se denomina una operación de grupo simplificada (unwrapped):

In [279]:
g.transform('mean')

0     4.5
1     5.5
2     6.5
3     4.5
4     5.5
5     6.5
6     4.5
7     5.5
8     6.5
9     4.5
10    5.5
11    6.5
Name: value, dtype: float64

In [281]:
normalized = (df['value'] - g.transform('mean')) / g.transform('std')

In [262]:
normalized

0    -1.161895
1    -1.161895
2    -1.161895
3    -0.387298
4    -0.387298
5    -0.387298
6     0.387298
7     0.387298
8     0.387298
9     1.161895
10    1.161895
11    1.161895
Name: value, dtype: float64

Aquí, estamos haciendo cálculos entre los resultados de múltiples operaciones GroupBy en lugar de escribir una función y pasarla a `groupby(...).apply`. Esto es a lo que nos referimos con "simplificado" (unwrapped).

##  4.5 Tablas dinámicas (Pivot Tables) y tabulación cruzada (Cross-Tabulation)

Una tabla dinámica es una herramienta de resumen de datos que se encuentra con frecuencia en los programas de hojas de cálculo y otros programas de análisis de datos. Agrega una tabla de datos por una o más claves, organizando los datos en un rectángulo con algunas de las claves de grupo a lo largo de las filas y otras a lo largo de las columnas. Las tablas dinámicas en Python con pandas son posibles utilizando groupby, combinado con operaciones de remodelación (reshape) utilizando indexación jerárquica. El objeto DataFrame también tiene un método `pivot_table`, y también hay una función de alto nivel `pandas.pivot_table`. Además de proporcionar una interfaz conveniente para groupby, pivot_table puede añadir totales parciales, también conocidos como márgenes (margins).

Volviendo al conjunto de datos de propinas (tips.csv), supongamos que desea calcular una tabla de medias de grupo (el tipo de agregación por defecto de pivot_table) ordenadas por `day` y `smoker` en las filas:

In [282]:
tips.head()

Unnamed: 0,total_bill,tip,smoker,day,time,size,tip_pct
0,16.99,1.01,No,Sun,Dinner,2,0.059447
1,10.34,1.66,No,Sun,Dinner,3,0.160542
2,21.01,3.5,No,Sun,Dinner,3,0.166587
3,23.68,3.31,No,Sun,Dinner,2,0.13978
4,24.59,3.61,No,Sun,Dinner,4,0.146808


In [283]:
tips.pivot_table(index=["day", "smoker"],
                 values=["size", "tip", "tip_pct", "total_bill"])

Unnamed: 0_level_0,Unnamed: 1_level_0,size,tip,tip_pct,total_bill
day,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Fri,No,2.25,2.8125,0.15165,18.42
Fri,Yes,2.066667,2.714,0.174783,16.813333
Sat,No,2.555556,3.102889,0.158048,19.661778
Sat,Yes,2.47619,2.875476,0.147906,21.276667
Sun,No,2.929825,3.167895,0.160113,20.506667
Sun,Yes,2.578947,3.516842,0.18725,24.12
Thur,No,2.488889,2.673778,0.160298,17.113111
Thur,Yes,2.352941,3.03,0.163863,19.190588


Esto se podría haber hecho directamente con groupby, utilizando `tips.groupby(["day", "smoker"]).mean()`. Ahora, supongamos que queremos tomar la media de sólo `tip_pct` y `size`, y adicionalmente agrupar por `time`. Aqui se pondrá `smoker` en las columnas de la tabla y `time` y `day` en las filas:

In [284]:
tips.pivot_table(index=["time", "day"], columns="smoker",
                 values=["tip_pct", "size"])

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,No,Yes,No,Yes
time,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Dinner,Fri,2.0,2.222222,0.139622,0.165347
Dinner,Sat,2.555556,2.47619,0.158048,0.147906
Dinner,Sun,2.929825,2.578947,0.160113,0.18725
Dinner,Thur,2.0,,0.159744,
Lunch,Fri,3.0,1.833333,0.187735,0.188937
Lunch,Thur,2.5,2.352941,0.160311,0.163863


Podríamos ampliar esta tabla para incluir totales parciales pasando `margins=True`. Con esto se logra añadir todas las etiquetas de fila y columna, siendo los valores correspondientes a las estadísticas de grupo para todos los datos dentro de un solo nivel:

In [285]:
tips.pivot_table(index=["time", "day"], columns="smoker",
                 values=["tip_pct", "size"], margins=True)

Unnamed: 0_level_0,Unnamed: 1_level_0,size,size,size,tip_pct,tip_pct,tip_pct
Unnamed: 0_level_1,smoker,No,Yes,All,No,Yes,All
time,day,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Dinner,Fri,2.0,2.222222,2.166667,0.139622,0.165347,0.158916
Dinner,Sat,2.555556,2.47619,2.517241,0.158048,0.147906,0.153152
Dinner,Sun,2.929825,2.578947,2.842105,0.160113,0.18725,0.166897
Dinner,Thur,2.0,,2.0,0.159744,,0.159744
Lunch,Fri,3.0,1.833333,2.0,0.187735,0.188937,0.188765
Lunch,Thur,2.5,2.352941,2.459016,0.160311,0.163863,0.161301
All,,2.668874,2.408602,2.569672,0.159328,0.163196,0.160803


Aquí, los valores `All` son medias que no tienen en cuenta al smoker frente a non-smoker (las columnas `All`) ni ninguno de los dos niveles de agrupamiento de las filas (la fila `All`).

Para utilizar una función de agregación distinta a `mean`, se le pasa al argumento de palabra clave `aggfunc`. Por ejemplo, "count" o `len` le proporcionarán una tabulación cruzada (cross-tabulation) (recuento o frecuencia) de los tamaños de los grupos (aunque "count" excluirá los valores nulos del recuento dentro de los grupos de datos, mientras que `len` no lo hará):

In [267]:
tips.pivot_table(index=["time", "smoker"], columns="day",
                 values="tip_pct", aggfunc=len, margins=True)

Unnamed: 0_level_0,day,Fri,Sat,Sun,Thur,All
time,smoker,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dinner,No,3.0,45.0,57.0,1.0,106
Dinner,Yes,9.0,42.0,19.0,,70
Lunch,No,1.0,,,44.0,45
Lunch,Yes,6.0,,,17.0,23
All,,19.0,87.0,76.0,62.0,244


Si algunas combinaciones están vacías (o son NA), es posible que desee pasar un `fill_value`:

In [286]:
tips.pivot_table(index=["time", "size", "smoker"], columns="day",
                 values="tip_pct", fill_value=0)

Unnamed: 0_level_0,Unnamed: 1_level_0,day,Fri,Sat,Sun,Thur
time,size,smoker,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dinner,1,No,0.000000,0.137931,0.000000,0.000000
Dinner,1,Yes,0.000000,0.325733,0.000000,0.000000
Dinner,2,No,0.139622,0.162705,0.168859,0.159744
Dinner,2,Yes,0.171297,0.148668,0.207893,0.000000
Dinner,3,No,0.000000,0.154661,0.152663,0.000000
...,...,...,...,...,...,...
Lunch,3,Yes,0.000000,0.000000,0.000000,0.204952
Lunch,4,No,0.000000,0.000000,0.000000,0.138919
Lunch,4,Yes,0.000000,0.000000,0.000000,0.155410
Lunch,5,No,0.000000,0.000000,0.000000,0.121389


La siguiente tabla muestra un resumen de las opciones de pivot_table

`values`: Nombre o nombres de columna a agregar; por defecto, agrega todas las columnas numéricas

`index`: Nombres de columnas u otras claves de grupo para agrupar en las filas de la tabla dinámica resultante

`columns`: Nombres de columnas u otras claves de grupo para agrupar en las columnas de la tabla dinámica resultante

`aggfunc`: Función de agregación o lista de funciones ("media" por defecto); puede ser cualquier función válida en un contexto groupby

`fill_value`: Sustituir los valores que faltan en la tabla de resultados

`dropna` : Si es True, no incluir columnas cuyas entradas sean todas NA

`margins`: Añadir subtotales de fila/columna y total general (False por defecto)

`margins_name`: Nombre que se utilizará para las etiquetas de fila/columna de margen al pasar margins=True; por defecto es "All".

`observed` : Con claves de grupo categóricas, si es True, mostrar sólo los valores de categoría observados en las claves en lugar de todas las categorías.

### Tabulaciones cruzadas: Crosstab

Una tabulación cruzada (cross-tabulation or crosstab) es un caso especial de tabla dinámica (pivot table) que calcula frecuencias de grupos. Por ejemplo:

In [287]:
from io import StringIO
data = """Sample  Nationality  Handedness
1   USA  Right-handed
2   Japan    Left-handed
3   USA  Right-handed
4   Japan    Right-handed
5   Japan    Left-handed
6   Japan    Right-handed
7   USA  Right-handed
8   USA  Left-handed
9   Japan    Right-handed
10  USA  Right-handed"""
data = pd.read_table(StringIO(data), sep="\s+")

In [288]:
data

Unnamed: 0,Sample,Nationality,Handedness
0,1,USA,Right-handed
1,2,Japan,Left-handed
2,3,USA,Right-handed
3,4,Japan,Right-handed
4,5,Japan,Left-handed
5,6,Japan,Right-handed
6,7,USA,Right-handed
7,8,USA,Left-handed
8,9,Japan,Right-handed
9,10,USA,Right-handed


Como parte de algún análisis de encuestas, podríamos querer resumir estos datos por nacionalidad y lateralidad (mano dominante). Se podría utilizar pivot_table para hacer esto, pero la función `pandas.crosstab` sería más práctica:

In [271]:
pd.crosstab(data["Nationality"], data["Handedness"], margins=True)

Handedness,Left-handed,Right-handed,All
Nationality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Japan,2,3,5
USA,1,4,5
All,3,7,10


Los dos primeros argumentos de `crosstab` pueden ser un array o una serie o una lista de arrays. Como en los datos de tips:

In [272]:
pd.crosstab([tips["time"], tips["day"]], tips["smoker"], margins=True)

Unnamed: 0_level_0,smoker,No,Yes,All
time,day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Dinner,Fri,3,9,12
Dinner,Sat,45,42,87
Dinner,Sun,57,19,76
Dinner,Thur,1,0,1
Lunch,Fri,1,6,7
Lunch,Thur,44,17,61
All,,151,93,244


Dominar las herramientas de agrupamiento de datos de pandas facilita la limpieza y modelado de los datos o el trabajo de análisis estadístico