In [2]:
import numpy as np
import pandas as pd

In [3]:

# Generamos datos aleatorios para 5 estudiantes
data = {
    'math_score': np.random.randint(50, 101, size=5),       # puntuación entre 50 y 100
    'reading_score': np.random.randint(50, 101, size=5),
    'wrinting_score': np.random.randint(50, 101, size=5)
}

# Creamos el DataFrame
df = pd.DataFrame(data)

In [4]:
df

Unnamed: 0,math_score,reading_score,wrinting_score
0,95,80,100
1,74,100,88
2,58,95,88
3,88,96,67
4,91,57,88


In [5]:
# Podemos aplicar la media
df.apply(np.mean)

math_score        81.2
reading_score     85.6
wrinting_score    86.2
dtype: float64

Los inputs que pasan por `np.mean` al momento de llamarla con `df.apply()` pasan a la función como `pd.Series`.

In [6]:
# Podemos hacer nuestras propias funciones
def divide_score(x):
    return x / 2

df_new = df.apply(divide_score)
df_new

Unnamed: 0,math_score,reading_score,wrinting_score
0,47.5,40.0,50.0
1,37.0,50.0,44.0
2,29.0,47.5,44.0
3,44.0,48.0,33.5
4,45.5,28.5,44.0


In [7]:
# Se puede aplicar con lambda expressions
df.apply(lambda x: x/2)

Unnamed: 0,math_score,reading_score,wrinting_score
0,47.5,40.0,50.0
1,37.0,50.0,44.0
2,29.0,47.5,44.0
3,44.0,48.0,33.5
4,45.5,28.5,44.0


**Argumento: `axis`**

También se puede específicar si se aplica la función sobre las columnas o sobre las filas de un dataframe.

`df.apply(function, axis= )`

* `axis=0` - `function` es aplicada sobre las **columnas**.

* `axis=1` - `function` es aplicada sobre las **filas**.

In [8]:
df.apply(np.mean, axis=1)

0    91.666667
1    87.333333
2    80.333333
3    83.666667
4    78.666667
dtype: float64

In [9]:
df.apply(np.mean, axis=0)

math_score        81.2
reading_score     85.6
wrinting_score    86.2
dtype: float64

**Argumento: `result_type`**

Puede tomar distintos valores como: `expand` y  `broadcast`.

* `result_type='expand'` expande los resultados de la función, si la función devuelve una lista (o tupla) de 1 o más valores.

In [12]:
def span(x):
    return [np.min(x), np.max(x)]

df.apply(span, result_type='expand')

Unnamed: 0,math_score,reading_score,wrinting_score
0,58,57,67
1,95,100,100


In [13]:
# Podemos agregar el argumento de axis para calcular para cada fila
df.apply(span, result_type='expand', axis=1)

Unnamed: 0,0,1
0,80,100
1,74,100
2,58,95
3,67,96
4,57,91


* `result_type=broadcast` devuelve un `dataframe` con el mismo `shape` que el original pero con el valor que toma la función en cada columna o fila según sea el caso.

In [14]:
df.apply(np.mean, result_type='broadcast')

Unnamed: 0,math_score,reading_score,wrinting_score
0,81,85,86
1,81,85,86
2,81,85,86
3,81,85,86
4,81,85,86


In [15]:
df.apply(np.mean, result_type='broadcast', axis=1)

Unnamed: 0,math_score,reading_score,wrinting_score
0,91,91,91
1,87,87,87
2,80,80,80
3,83,83,83
4,78,78,78


Podemos encontrar casos con funciones que tienen más de 1 argumento.

In [16]:
def check_mean(x, a, b, inside=True):
    mean = np.mean(x)
    if inside:
        return mean > a and mean < b
    else:
        return mean < a or mean > b

**Argumento: `args`:** Sirve para pasar a una función los positional arguments adicionales a una función.

In [26]:
# De esta manera podemos checar los estudiantes con promedio mayor a 90
df.apply(check_mean, args=[90, 100], axis=1)

0     True
1    False
2    False
3    False
4    False
dtype: bool

¿Cómo pasamos los keyword arguments?

In [27]:
df.apply(check_mean, args=[90, 100], inside=False, axis=1)  # Solo se los pasamos en .apply()

0    False
1     True
2     True
3     True
4     True
dtype: bool