[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# Los métodos ```apply()``` y ```transform()```.

In [None]:
import pandas as pd
import numpy as np

## *Dataframe* ilustrativo.

El *dataframe* ```poblacion``` representa un censo poblacional de especies animales en diversas regiones geográficas.

Las poblaciones de animales censadas representan los índices del *dataframe* y son:
* ```'lobo'```.
* ```'jaguar'```.
* ```'coyote'```.
* ```'halcón'```. 
* ```'lechuza'```.
* ```'aguila'```.

Las regiones geográficas representan la columnas del *dataframe* y son:

* ```Norte_1```.
* ```Norte_2```.
* ```Sur_1```.
* ```Sur_2```.

In [None]:
indice = ('lobo', 'jaguar', 'coyote', 'halcón', 'lechuza', 'aguila')
poblacion = pd.DataFrame({'Norte_1':(25,
                                     45,
                                     23,
                                     67,
                                     14,
                                     12),
                          'Norte_2':(31,
                                     0,
                                     23,
                                     3,
                                     34,
                                     2),
                          'Sur_1':(0,
                                       4,
                                       3,
                                       1,
                                       1,
                                       2),
                          'Sur_2':(2,
                                       0,
                                       12,
                                       23,
                                       11,
                                       2)}, index=indice)

In [None]:
poblacion

## El método ```apply()```.

El método ```apply()``` permite aplicar una función a una serie o dataframe de *Pandas*.

```
<obj>.apply(<func>, axis=<eje>)
```

Donde:

* ```<obj>``` es una serie o un *dataframe* de *Pandas*.
* ```<func>``` es una función de *Python* o de *Numpy*.
* ```<eje>``` puede ser:
   * ```0``` para aplicar la función a los renglones. Este es el valor por defecto.
   * ```1``` para aplicar la función a las columnas.

Este método realiza operaciones de *broadcast* dentro del objeto.

Para fines prácticos se explorará el método ```pd.DataFrame.apply()``` cuya documentación puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

### Funciones aceptadas.

* El método ```apply()``` permite ingresar como argumento el nombre de una función o una función *lambda* de *Python*.

**Ejemplos:**

* La siguiente celda definirá a la función ```suma_dos()```.

In [None]:
def suma_dos(x:int) -> int:
    ''''Función que regrea el resultado de sumar 2 unidades a un entero.'''
    return x + 2

* La siguiente celda regresará un *dataframe* que contiene el resultado de ejecutar la función ```suma_dos()``` usando a cada elemento del *dataframe* ```población``` como argumento.

In [None]:
poblacion.apply(suma_dos)

* La siguiente celda regresará un *dataframe* que contiene el resultado de ejecutar la función definida como ```lambda x: x + 2``` usando a cada elemento del *dataframe* ```población``` como argumento.

In [None]:
poblacion.apply(lambda x: x + 2)

* La siguiente celda regresará una serie que corresponde a ejecutar la función ```suma_dos()``` a cada elemento de la serie que conforma la columna ```poblacion['Norte_2']```. 

In [None]:
poblacion['Norte_2'].apply(suma_dos)

### *Broadcasting*.

* La siguiente celda utilizará las propiedades de *broadcasting* para aplicar una función que suma diversos elementos a cada renglón del *dataframe* ```poblacion```el *dataframe* ```poblacion``` en el eje ```0```. 
* En vista de que el objeto ```[1, 2, 3, 4, 5, 6]``` tiene ```6``` elementos y el *dataframe* ```poblacion``` es de forma ```(6, 4)```, es posible realizar el *broadcasting*.

In [None]:
poblacion.apply(lambda x: x + [1, 2, 3, 4, 5, 6])

* La siguiente celda utilizará las propiedades de *broadcasting* para aplicar una función que suma diversos elementos a cada renglón del *dataframe* ```poblacion```el *dataframe* ```poblacion``` en el eje ```1```. 
* En vista de que el objeto ```[1, 2, 3, 4]``` tiene ```4``` elementos y el *dataframe* ```poblacion``` es de forma ```(6, 4)```, es posible realizar el *broadcasting*.

In [None]:
poblacion.apply(lambda x: x + [1, 2, 3, 4], axis=1)

* La siguiente celda aplicará la función con *broadcasting* sobre el eje ```0``` con un objeto de tamaño iadecuado. Se desencadenará una excepción del tipo ```ValueError```.

In [None]:
poblacion.apply(lambda x: x + [1, 2, 3, 4])

### Aplicación de funciones de *Numpy*.

*Numpy* cuenta con funciones de agregación capaces de realizar operaciones con la totalidad de los elementos de un arreglo, en vez de con cada uno de ellos. 

El método *apply()* es compatible con este tipo de funciones.

* La siguiente celda realizará una sumatoria de cada elemento en el eje ```0``` (columnas) del *dataframe* ```poblacion```,  usando la función ```np.sum()``` y regresará una serie con los resultados.

In [None]:
poblacion.apply(np.sum)

* La siguiente celda realizará una sumatoria de cada elemento en el eje ```1``` (columnas) del *dataframe* ```poblacion```, usando la función ```np.sum()``` y regresará una serie con los resultados.

In [None]:
poblacion.apply(np.sum, axis=1)

* La siguiente celda realizará una sumatoria de cada elemento en el eje ```0``` (columnas) del *dataframe* ```poblacion```, usando la función ```np.mean()``` y regresará una serie con los resultados.

In [None]:
poblacion.apply(np.mean)

* La siguiente celda realizará una sumatoria de cada elemento en el eje ```1``` (columnas) del *dataframe* ```poblacion```, usando la función ```np.mean()``` y regresará una serie con los resultados.

In [None]:
poblacion.apply(np.mean, axis=1)

### Optimización en función de contexto de los  datos.

El método ```pd.Dataframe.apply()``` permite identificar ciertos datos que podrían causar errores o excepciones y es capaz de utilizar funcione de *numpy* análogas que den un resultado en vez de una excepción.

**Ejemplo:**

* La función ```np.mean()``` regresa un valor ```np.NaN``` cuando encuentra un valor ```np.Nan``` en el arreglo que se le ingresa como argumento.

In [None]:
arreglo = np.array([25, np.NaN, 23, 67, 14, 12])

In [None]:
arreglo

In [None]:
np.mean(arreglo)

* La función ```np.nanmean()``` descarta los valores ```np.NaN``` que se encuentren en el arreglo que se le ingresa como argumento y calcula el promedio con el resto de los elementos.

In [None]:
np.nanmean(arreglo)

* La siguiente celda creará al *dataframe* ```poblacion_nan``` a partir del *dataframe* ```poblacion```, sustituyendo el valor de ```poblacion_nan['Norte_1']['jaguar']```por ```np.NaN```.

In [None]:
poblacion_nan = poblacion.copy()
poblacion_nan['Norte_1']['jaguar'] = np.NaN
poblacion_nan

* La siguiente celda usará la función ```np.mean()``` como argumento del método ```poblacion_nan.apply()```. El comportamiento es idéntico a usar ```np.nanmean()```.
* El resultado para la columna ```Norte_1``` es ```28.2``` en vez de ```np.Nan```.

In [None]:
poblacion_nan.apply(np.mean)

In [None]:
poblacion_nan.apply(np.nanmean)

## El método ```pd.DataFrame.transform()```.

Este método permite crear nuevos niveles con los resultados de  las funciones de aplicará una o más funciones a los elementos de un *dataframe*.

```
df.transform(<func_1>, <func_2>, <func_3> ..., axis=<eje>)
```

Donde:

* ```<func>``` es una función de *Python* o de *Numpy*.
* ```<eje>``` puede ser:
   * ```0``` para aplicar la función a los renglones. Este es el valor por defecto.
   * ```1``` para aplicar la función a las columnas.

**NOTA:** Este método no permite realizar operaciones de agregación.


La documentación del método ```pd.DataFrame.transform()``` puede ser consultada en:

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.transform.html

**Ejemplo:**

* Se utilizará el *dataframe* ```poblacion``` definido previamente.

In [None]:
poblacion

* La siguiente celda aplicará las funciones al *dataframe* ```poblacion```:
    * ```lambda x: x + [1, 2, 3, 4, 5, 6]```.
    * ```np.log```
    * ```np.sin```
* El dataframe resultante tendrá un subnivel debajo de cada columna de ```poblacion``` para en el que e creará una columna con el resultado de aplicar la función tomando a cada elemento como argumento.

In [None]:
poblacion.transform([lambda x: x + [1, 2, 3, 4, 5, 6],
                     np.log,
                     np.sin])

* El método ```poblacion.transform()``` no es compatible con la función ```np.mean()```, por lo que se desencadenará una excepción ```ValueError```.

In [None]:
poblacion.transform(np.mean)

* Sin embargo, es posible ingresar una función de agregación en otra función que no realice agregación por si misma.

In [None]:
poblacion.transform(lambda x: x - x.mean())

<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2022.</p>