## Lambda y otras funciones importantes

En el Procesamiento de Datos, a menudo es necesario realizar operaciones (como cálculos estadísticos, división o sustitución de valores) en una determinada fila o columna para obtener nuevos datos. Escribir un bucle for para iterar a través de Pandas DataFrame y Series hará el trabajo, pero no parece una buena idea. El bucle for tiende a tener más líneas de código, menos legibilidad del código y un rendimiento más lento.

Afortunadamente, ¡ya hay grandes métodos incorporados en Pandas para ayudarte a lograr los objetivos! En este artículo, veremos cómo realizar operaciones usando apply() y applymap(), y cómo sustituir valores usando map().

* apply() se utiliza para aplicar una función a lo largo de un eje del DataFrame o sobre valores de Series.
* applymap() se utiliza para aplicar una función a un DataFrame por elementos.
* map() se utiliza para sustituir cada valor de una Serie por otro valor.

Creemos un dataset dummy...

In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

El Pandas apply() se utiliza para aplicar una función a lo largo de un eje del DataFrame o sobre valores de Series.

In [2]:
def custom_sum(row):
    return row.sum()
    
df['D'] = df.apply(custom_sum, axis=1)

In [3]:
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124


In [4]:
df.loc['Row 5'] = df.apply(custom_sum, axis=0)

In [5]:
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124
Row 5,10,100,200,310


In [6]:
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

Las funciones Lambda son también conocidas como funciones anónimas ya que se definen sin un nombre.

In [7]:
df['D'] = df.apply(lambda x:x.sum(), axis=1)

In [8]:
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124


In [9]:
df.loc['Row 5'] = df.apply(lambda x:x.sum(), axis=0)

In [10]:
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,31
Row 2,2,20,40,62
Row 3,3,30,60,93
Row 4,4,40,80,124
Row 5,10,100,200,310


In [11]:
df['D'] = df['C'].apply(lambda x:x*2)

In [12]:
df

Unnamed: 0,A,B,C,D
Row 1,1,10,20,40
Row 2,2,20,40,80
Row 3,3,30,60,120
Row 4,4,40,80,160
Row 5,10,100,200,400


applymap() sólo está disponible en DataFrame y se utiliza para la operación por elementos en todo el DataFrame

In [13]:
df.applymap(np.square)

Unnamed: 0,A,B,C,D
Row 1,1,100,400,1600
Row 2,4,400,1600,6400
Row 3,9,900,3600,14400
Row 4,16,1600,6400,25600
Row 5,100,10000,40000,160000


In [14]:
df.applymap(lambda x: x*2)

Unnamed: 0,A,B,C,D
Row 1,2,20,40,80
Row 2,4,40,80,160
Row 3,6,60,120,240
Row 4,8,80,160,320
Row 5,20,200,400,800


map() sólo está disponible en Series y se utiliza para sustituir cada valor de una Serie por otro valor.

In [15]:
s = pd.Series(['cat', 'dog', np.nan, 'rabbit'])

In [16]:
s

0       cat
1       dog
2       NaN
3    rabbit
dtype: object

map() acepta un dict o una Serie. Los valores que no se encuentran en el dict se convierten en NaN, a menos que el dict tenga un valor por defecto (por ejemplo, defaultdict):

In [17]:
s.map({'cat': 'kitten', 'dog': 'puppy'})

0    kitten
1     puppy
2       NaN
3       NaN
dtype: object

También acepta funciones


In [18]:
s.map('I am a {}'.format)

0       I am a cat
1       I am a dog
2       I am a nan
3    I am a rabbit
dtype: object

Para evitar aplicar la función a los valores perdidos (y mantenerlos como NaN) se puede utilizar na_action='ignore'

In [19]:
s.map('I am a {}'.format, na_action='ignore')

0       I am a cat
1       I am a dog
2              NaN
3    I am a rabbit
dtype: object

Tomado y adaptado de: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff