## Lambda y otras funciones importantes

En el Procesamiento de Datos, a menudo es necesario realizar operaciones (como cálculos estadísticos, división o sustitución de valores) en una determinada fila o columna para obtener nuevos datos. Escribir un bucle for para iterar a través de Pandas DataFrame y Series hará el trabajo, pero no parece una buena idea. El bucle for tiende a tener más líneas de código, menos legibilidad del código y un rendimiento más lento.

Afortunadamente, ¡ya hay grandes métodos incorporados en Pandas para ayudarte a lograr los objetivos! En este artículo, veremos cómo realizar operaciones usando apply() y applymap(), y cómo sustituir valores usando map().

* apply() se utiliza para aplicar una función a lo largo de un eje del DataFrame o sobre valores de Series.
* applymap() se utiliza para aplicar una función a un DataFrame por elementos.
* map() se utiliza para sustituir cada valor de una Serie por otro valor.

Creemos un dataset dummy...

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

El Pandas apply() se utiliza para aplicar una función a lo largo de un eje del DataFrame o sobre valores de Series.

In [None]:
def custom_sum(row):
    return row.sum()
    
df['D'] = df.apply(custom_sum, axis=1)

In [None]:
df

In [None]:
df.loc['Row 5'] = df.apply(custom_sum, axis=0)

In [None]:
df

In [None]:
df = pd.DataFrame({ 'A': [1,2,3,4], 
                   'B': [10,20,30,40],
                   'C': [20,40,60,80]
                  }, 
                  index=['Row 1', 'Row 2', 'Row 3', 'Row 4'])

Las funciones Lambda son también conocidas como funciones anónimas ya que se definen sin un nombre.

In [None]:
df['D'] = df.apply(lambda x:x.sum(), axis=1)

In [None]:
df

In [None]:
df.loc['Row 5'] = df.apply(lambda x:x.sum(), axis=0)

In [None]:
df

In [None]:
df['D'] = df['C'].apply(lambda x:x*2)

In [None]:
df

applymap() sólo está disponible en DataFrame y se utiliza para la operación por elementos en todo el DataFrame

In [None]:
df.applymap(np.square)

In [None]:
df.applymap(lambda x: x*2)

map() sólo está disponible en Series y se utiliza para sustituir cada valor de una Serie por otro valor.

In [None]:
s = pd.Series(['cat', 'dog', np.nan, 'rabbit'])

In [None]:
s

map() acepta un dict o una Serie. Los valores que no se encuentran en el dict se convierten en NaN, a menos que el dict tenga un valor por defecto (por ejemplo, defaultdict):

In [None]:
s.map({'cat': 'kitten', 'dog': 'puppy'})

También acepta funciones


In [None]:
s.map('I am a {}'.format)

Para evitar aplicar la función a los valores perdidos (y mantenerlos como NaN) se puede utilizar na_action='ignore'

In [None]:
s.map('I am a {}'.format, na_action='ignore')

Tomado y adaptado de: https://towardsdatascience.com/introduction-to-pandas-apply-applymap-and-map-5d3e044e93ff