In [14]:
import pandas as pd

# `groupby`

In [15]:
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon','Parrot', 'Parrot'],
                    'Max Speed': [380., 370., 24., 26.],
                    'valor': [10, 254, 45, 48]
                    })

df

Unnamed: 0,Animal,Max Speed,valor
0,Falcon,380.0,10
1,Falcon,370.0,254
2,Parrot,24.0,45
3,Parrot,26.0,48


In [16]:
df.groupby(df['Animal'])["valor"].apply(lambda x: x.nlargest(3).min())

Animal
Falcon    10
Parrot    45
Name: valor, dtype: int64

In [17]:
df.groupby(df['Animal'])["valor"].apply(lambda x: x.nlargest(3).min())

Animal
Falcon    10
Parrot    45
Name: valor, dtype: int64

In [18]:
df["valor"].nlargest()

1    254
3     48
2     45
0     10
Name: valor, dtype: int64

Se calcula el valor máximo de cada columna numérica dentro de cada grupo. Se selecciona el valor máximo de cada columna por separado.

Los maximos no necesariamente provienen de la misma fila. Es decir, el resultado final puede ser una combinación de diferentes filas dentro del mismo grupo.

In [19]:
a = df.groupby(["valor", "Max Speed"]).agg({"Animal": ["count", "first", "last", "nunique"]})
a

Unnamed: 0_level_0,Unnamed: 1_level_0,Animal,Animal,Animal,Animal
Unnamed: 0_level_1,Unnamed: 1_level_1,count,first,last,nunique
valor,Max Speed,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
10,380.0,1,Falcon,Falcon,1
45,24.0,1,Parrot,Parrot,1
48,26.0,1,Parrot,Parrot,1
254,370.0,1,Falcon,Falcon,1


In [20]:
a.loc[(10, 380.0), ("Animal", "count")]

1

In [21]:
a.reset_index(inplace=True)
a

Unnamed: 0_level_0,valor,Max Speed,Animal,Animal,Animal,Animal
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,first,last,nunique
0,10,380.0,1,Falcon,Falcon,1
1,45,24.0,1,Parrot,Parrot,1
2,48,26.0,1,Parrot,Parrot,1
3,254,370.0,1,Falcon,Falcon,1


In [22]:
a["Animal"]

Unnamed: 0,count,first,last,nunique
0,1,Falcon,Falcon,1
1,1,Parrot,Parrot,1
2,1,Parrot,Parrot,1
3,1,Falcon,Falcon,1


## Otro ejemplo

In [23]:
import pandas as pd

data = {
    'grupo': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'valor': [10, 20, 15, 30, 25, 35, 5, 45, 40],
    'price': [100, 200, 150, 300, 250, 350, 50, 450, 400]
}
df = pd.DataFrame(data)
df

Unnamed: 0,grupo,valor,price
0,A,10,100
1,A,20,200
2,A,15,150
3,B,30,300
4,B,25,250
5,B,35,350
6,C,5,50
7,C,45,450
8,C,40,400


## Obtener el n-ésimo valor más grande de cada grupo.

In [24]:
# Definir la función para obtener el n-ésimo valor más grande
def nth_largest(series, n):
    return series.nlargest(n).iloc[-1]

# Especificar el valor de n
n = 3

# Aplicar la agrupación y obtener el n-ésimo valor más grande para cada grupo
result = df.groupby('grupo')['valor'].apply(nth_largest, n=n).reset_index()

# Renombrar las columnas para mayor claridad
result.columns = ['grupo', f'{n}º_valor_más_grande']

print(result)


  grupo  3º_valor_más_grande
0     A                   10
1     B                   25
2     C                    5


### forma mas corta

In [25]:
df.groupby('grupo')['valor'].agg(lambda x: x.nlargest(n).iloc[-1])

grupo
A    10
B    25
C     5
Name: valor, dtype: int64

## obtener la fila con el n-ésimo valor más grande dentro de cada grupo

In [26]:
# Especificar el valor de n
n = 2

# Definir una función para obtener la fila con el n-ésimo valor más grande dentro de cada grupo
def nth_largest_row(group, n):
    return group.nlargest(n, 'valor').iloc[-1]

# Aplicar la función a cada grupo usando groupby y apply
result = df.groupby('grupo').apply(nth_largest_row, n=n).reset_index(drop=True)

result


Unnamed: 0,grupo,valor,price
0,A,15,150
1,B,30,300
2,C,40,400


### forma mas corta

**Con GroupBy**
- ``apply`` es flexible y puede devolver DataFrames, Series o valores escalares.
- ``agg`` espera funciones que devuelvan valores escalares. Ejemplo df.groupby('grupo').agg(lambda grup: grup.first()), no se puede hacer df.groupby('grupo').agg(lambda grup: grup), porque no devuelve un valor escalar.
- ``map`` no está disponible para objetos GroupBy.

Ver APUNTE.md

In [27]:
df.groupby('grupo').apply(lambda group: group.nlargest(n, 'valor').iloc[-1])

Unnamed: 0_level_0,grupo,valor,price
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,A,15,150
B,B,30,300
C,C,40,400
