In [18]:
# initial setup
# %run "../../../common/0_notebooks_base_setup.py"


---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Funciones Lambda. Apply. Applymap.


<a id="section_toc"></a> 
## Tabla de Contenidos

[Funciones Lambda](#section_intro)

$\hspace{.5cm}$[Sintaxis](#section_sintaxis)

[Métodos apply applymap map](#section_apply)


<a id="section_lambda"></a> 
## Funciones Lambda


[volver a TOC](#section_toc)


Las funciones lambda también se denominan funciones anónimas. Una función anónima es una función definida sin un nombre. Como sabemos, para definir una función normal en Python, usamos la palabra clave `def`. Pero en el caso de funciones anónimas, usamos la palabra clave `lambda` para definirlas.

Las funciones lambda son especialmente útiles en análisis de datos porque, como veremos, hay muchos casos donde las funciones de transformación de datos tomarán **funciones como argumentos**. En general, es más claro pasar una función lambda en lugar de escribir una declaración de función completa, o de asignar una expresión lambda a una variable local.

<a id="section_sintaxis"></a> 
### Sintaxis


[volver a TOC](#section_toc)


`lambda arguments: expression`

Ejemplos:

1) Definimos una función lambda y la asignamos a la variable add. En la siguiente linea la ejecutamos e imprimimos el resultado.

In [19]:
add = lambda a: a + a
print(add(20))

40


2) Definimos otra función lambda y la guardamos en la variable add, la ejecutamos e imprimimos el resultado.

In [20]:
add = lambda a, b, c: a + b + c
print(add(10, 11, 12))

33


3) Rescribimos como función lambda la función `short_function`

In [21]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

<div id="caja1" style="float:left;width: 100%;">
  <div style="float:left;width: 15%;"><img src="../../../common/icons/haciendo_foco.png" style="align:left"/> </div>
  <div style="float:left;width: 85%;"><label>
En cada unos de los ejemplos de funciones lambda:<br/>
¿Cuáles son los argumentos?
<br/>
¿Cuál es la expresión?
</label></div>
</div>



---

<a id="section_apply"></a> 
##  apply, applymap, map

[volver a TOC](#section_toc)


Pandas cuenta con un conjunto de métodos que permiten operar eficientemente sobre los elementos de un objeto DataFrame o Series.
Para aplicar la lógica deseada, podemos optar tanto por definir funciones con nombre como por utilizar expresiones lambda que luego no pueden reutilizarse.
    
1)  pd.DataFrame.apply: Opera sobre filas o columnas completas de una instancia de DataFrame

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html
    
2)  pd.DataFrame.applymap: Opera sobre cada uno de los elementos de una instancia de DataFrame

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.applymap.html
    
3)  pd.Series.apply: Opera sobre cada uno de los elementos de la instancia de Series. 
    
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.apply.html
    
4)  pd.Series.map: Opera sobre cada uno de los elementos de la instancia de Series, muy similar a Series.apply. 
    
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html

La diferencia entre pd.Series.map y pd.Series.apply es que la segunda puede generar un Dataframe a partir de la serie, mientras que la primera si recibiera una serie como return de la función crearía una serie de series.

El método apply de pandas permite realizar operaciones vectorizadas sobre los objetos DataFrame tanto fila por fila como columna por columna.

Vamos a ver ahora algunos ejemplos de uso sobre el dataset de propiedades de Melbourne, que usamos en la práctica de Limpieza de Datos

In [22]:
import pandas as pd

# local
data_location = "../Data/melb_data.csv"
# colab
# data_location = ""

data = pd.read_csv(data_location)

data.head(3)


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


## Apply sobre filas de un objeto DataFrame

Vamos a calcular el precio por metro cuadrado de cada uno de los registros del dataset.

Para eso, vamos a dividir el valor del campo Price por el valor del campo Landsize para cada registro.

Escribimos esa cuenta como una función Lambda, que pasaremos como primer argumento de apply.

En la documentación, para el argumento axis vemos:

    0 or ‘index’: apply function to each column.

    1 or ‘columns’: apply function to each row.

Por lo tanto, en el segundo argumento el valor de de axis es 1 porque queremos aplicar la función a cada fila.

Como tenemos que hacer una división, debemos verificar que el denominador no sea cero. Para eso vamos a escribir una expresión condicional en una linea con esta sintaxis:

`value_when_true if condition else value_when_false`

En este caso:

`0 if x['Landsize'] == 0 else x['Price'] / x['Landsize']`


In [23]:
precio_m2 = data.apply(lambda x: 0 if x['Landsize'] == 0 else x['Price'] / x['Landsize'], axis=1)
print(type(precio_m2))
print("Cantidad de elementos en precio_m2: " + str(len(precio_m2)))
print("Cantidad de filas en data: " + str(data.shape[0]))
print(precio_m2.head(3))

<class 'pandas.core.series.Series'>
Cantidad de elementos en precio_m2: 13580
Cantidad de filas en data: 13580
0     7326.732673
1     6634.615385
2    10932.835821
dtype: float64


Vemos que precio_m2 es una instancia de Series y que tiene la misma cantidad de elementos que la cantidad de filas en data

## Apply sobre columnas de un objeto DataFrame

Ahora vamos a calcular el promedio de cada una de las columnas con valores numéricos.

Para determinar si una columna es de tipo numérico vamos a usar `np.issubdtype(..., np.number)` que devuelve True si col_type hereda de np.number, y False si no. Y vamos a armar una lista por comprensión con los nombres de las columnas de tipo numérico:

`numeric_columns_mask = [np.issubdtype(data[col].dtypes, np.number) for col in data.columns]
numeric_columns_names = data.columns[numeric_columns_mask]`


Para eso definiremos una función lambda que aplique `mean` sobre cada columna cuyo nombre esté en la lista que construimos en el paso anterior.

Como queremos aplicar esta función sobre cada una de las columnas del DataFrame, el valor de axis que usamos es 0.


In [24]:
import numpy as np

numeric_columns_mask = [np.issubdtype(data[col].dtypes, np.number) for col in data.columns]
numeric_columns_names = data.columns[numeric_columns_mask]
print(numeric_columns_names)

means = data.apply(lambda x: x.mean() if x.name in numeric_columns_names else np.NaN, axis=0)
print(means)
print(type(means))
print(len(means) == data.shape[1])

Index(['Rooms', 'Price', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'Lattitude', 'Longtitude',
       'Propertycount'],
      dtype='object')
Suburb                    NaN
Address                   NaN
Rooms            2.937997e+00
Type                      NaN
Price            1.075684e+06
Method                    NaN
SellerG                   NaN
Date                      NaN
Distance         1.013778e+01
Postcode         3.105302e+03
Bedroom2         2.914728e+00
Bathroom         1.534242e+00
Car              1.610075e+00
Landsize         5.584161e+02
BuildingArea     1.519676e+02
YearBuilt        1.964684e+03
CouncilArea               NaN
Lattitude       -3.780920e+01
Longtitude       1.449952e+02
Regionname                NaN
Propertycount    7.454417e+03
dtype: float64
<class 'pandas.core.series.Series'>
True


Vemos que `means` es una instancia de Series y que tiene la misma cantidad de elementos que la cantidad de columnas en data

## Applymap sobre un objeto DataFrame

Vamos a escribir ahora todos los valores de los elementos del DataFrame en minúscula.

Si es el valor es numérico, no lo cambiamos.


In [25]:
data_lower = data.applymap(lambda x: x if np.isreal(x) else str(x).lower())
# comparo los tipos de datos antes y después de pasar a minúsculas:
print(data_lower.dtypes == data.dtypes)
print(data_lower.head(3))

Suburb           True
Address          True
Rooms            True
Type             True
Price            True
Method           True
SellerG          True
Date             True
Distance         True
Postcode         True
Bedroom2         True
Bathroom         True
Car              True
Landsize         True
BuildingArea     True
YearBuilt        True
CouncilArea      True
Lattitude        True
Longtitude       True
Regionname       True
Propertycount    True
dtype: bool
       Suburb          Address  Rooms Type      Price Method SellerG  \
0  abbotsford     85 turner st      2    h  1480000.0      s  biggin   
1  abbotsford  25 bloomburg st      2    h  1035000.0      s  biggin   
2  abbotsford     5 charles st      3    h  1465000.0     sp  biggin   

        Date  Distance  Postcode  ...  Bathroom  Car  Landsize  BuildingArea  \
0  3/12/2016       2.5    3067.0  ...       1.0  1.0     202.0           NaN   
1  4/02/2016       2.5    3067.0  ...       1.0  0.0     156.0          79.0 

Vemos que los tipos de datos de las columnas del DataFrame no se modificaron, y que todas las cadenas de caracteres quedaron en minúscula.

## Apply sobre un objeto Series


Construimos una instancia de Series con los valores de la columna Price.

Vamos a aplicar un descuento del 10% en el precio, multiplicando cada uno de los valores de este objeto Series por 0.9

In [26]:
price_serie = data.Price
print(type(price_serie))

price_discount = price_serie.apply(lambda x: x * 0.9)
price_discount

<class 'pandas.core.series.Series'>


0        1332000.0
1         931500.0
2        1318500.0
3         765000.0
4        1440000.0
           ...    
13575    1120500.0
13576     927900.0
13577    1053000.0
13578    2250000.0
13579    1156500.0
Name: Price, Length: 13580, dtype: float64

## Map sobre un objeto Series

Repetimos el ejemplo anterior con map.

In [27]:
price_serie = data.Price
print(type(price_serie))

price_discount = price_serie.map(lambda x: x * 0.9)
price_discount

<class 'pandas.core.series.Series'>


0        1332000.0
1         931500.0
2        1318500.0
3         765000.0
4        1440000.0
           ...    
13575    1120500.0
13576     927900.0
13577    1053000.0
13578    2250000.0
13579    1156500.0
Name: Price, Length: 13580, dtype: float64

## Usando apply con funciones no anónimas

En todos los casos anteriores usamos funciones anónimas porque se ejecutan de modo más eficiente que las definidas con `def`. Sin embargo, la sintaxis de apply, applymap y map es la misma cualquiera sea la forma de difinir la función (`lambda` o `def`).

Como ejemplo, vamos a rescribir el ejercicio en el que calculamos el promedio de cada una de las columnas de data con valores numéricos, pero con una función definida con "def" (no anónima).

In [28]:
def promedio_numerica(columna):    
    columna_numeric = pd.to_numeric(columna, errors='coerce') 
    # si no puede convertirlo va a asignar NaN a todos los elementos de la columna
    result = columna_numeric.mean()
    return result

means = data.apply(promedio_numerica, axis=0)
print(means)
print(type(means))
print(len(means) == data.shape[1])

Suburb                    NaN
Address                   NaN
Rooms            2.937997e+00
Type                      NaN
Price            1.075684e+06
Method                    NaN
SellerG                   NaN
Date                      NaN
Distance         1.013778e+01
Postcode         3.105302e+03
Bedroom2         2.914728e+00
Bathroom         1.534242e+00
Car              1.610075e+00
Landsize         5.584161e+02
BuildingArea     1.519676e+02
YearBuilt        1.964684e+03
CouncilArea               NaN
Lattitude       -3.780920e+01
Longtitude       1.449952e+02
Regionname                NaN
Propertycount    7.454417e+03
dtype: float64
<class 'pandas.core.series.Series'>
True


**Observación:**

Es importante destacar que los métodos que vimos en esta práctica, apply applymap y map, son vectorizados y por lo tanto se ejecutan de forma muy eficiente. Por eso siempre vamos a preferirlos en reemplazo de los ciclos for o while.

---

## Ejercicio

Construyamos una columna nueva (de nombre postcode_suburb) en el DataFrame data, que sea la concatenación del campo Postcode, seguido de "-", seguido del valor del campo Suburb.

Para esto usemos apply sobre data, y una función lambda.



In [29]:
data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [43]:
data["postalcode_suburb"] = data.apply(lambda x: f'{int(x["Postcode"])} - {x["Suburb"]}', axis=1)
data.sample(3)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,postal_code,postalcode_suburb
9129,Eaglemont,2/12 Ashby Gr,2,u,750000.0,PI,Nelson,3/06/2017,8.9,3084.0,...,112.0,93.0,1960.0,Banyule,-37.76689,145.05206,Eastern Metropolitan,1651.0,3084 - Eaglemont,3084 - Eaglemont
3481,Keilor East,35 Gungarlan Dr,3,h,695000.0,S,Barry,19/11/2016,12.8,3033.0,...,716.0,154.0,1970.0,Moonee Valley,-37.734,144.8593,Western Metropolitan,5629.0,3033 - Keilor East,3033 - Keilor East
13103,Bayswater,85 Begonia Av,3,h,755000.0,S,iTRAK,23/09/2017,23.2,3153.0,...,782.0,,,,-37.85002,145.25964,Eastern Metropolitan,5030.0,3153 - Bayswater,3153 - Bayswater
