In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('./Sets/titanic_train.csv')

# Transform, apply, map, applymap

Cuando quieres iterar un dataframe tienes que pensar primero en cómo lo quieres iterar.  

Por columnas (transform, apply), por renglones (transform, apply) o por valor individual (applymap).

## Transform

Toma una Serie y te regresa esa Serie modificada por alguna función. La clave es: si entran 10 valores, salen 10 valores transformados. Ya sean 10 valores diferentes o un solo valor repetido 10 veces.

In [3]:
df['Age'].transform([np.sqrt])

Unnamed: 0,sqrt
0,4.690416
1,6.164414
2,5.099020
3,5.916080
4,5.916080
...,...
886,5.196152
887,4.358899
888,
889,5.099020


In [4]:
df['Age'].transform([np.sqrt,np.exp])

Unnamed: 0,sqrt,exp
0,4.690416,3.584913e+09
1,6.164414,3.185593e+16
2,5.099020,1.957296e+11
3,5.916080,1.586013e+15
4,5.916080,1.586013e+15
...,...,...
886,5.196152,5.320482e+11
887,4.358899,1.784823e+08
888,,
889,5.099020,1.957296e+11


In [5]:
df[['Age','Fare']].transform([np.sqrt])

Unnamed: 0_level_0,Age,Fare
Unnamed: 0_level_1,sqrt,sqrt
0,4.690416,2.692582
1,6.164414,8.442944
2,5.099020,2.815138
3,5.916080,7.286975
4,5.916080,2.837252
...,...,...
886,5.196152,3.605551
887,4.358899,5.477226
888,,4.842520
889,5.099020,5.477226


In [6]:
df[['Age','Fare']].transform([np.sqrt,np.exp])

Unnamed: 0_level_0,Age,Age,Fare,Fare
Unnamed: 0_level_1,sqrt,exp,sqrt,exp
0,4.690416,3.584913e+09,2.692582,1.408105e+03
1,6.164414,3.185593e+16,8.442944,9.077031e+30
2,5.099020,1.957296e+11,2.815138,2.765564e+03
3,5.916080,1.586013e+15,7.286975,1.150898e+23
4,5.916080,1.586013e+15,2.837252,3.133795e+03
...,...,...,...,...
886,5.196152,5.320482e+11,3.605551,4.424134e+05
887,4.358899,1.784823e+08,5.477226,1.068647e+13
888,,,4.842520,1.528289e+10
889,5.099020,1.957296e+11,5.477226,1.068647e+13


In [7]:
df[['Age','Fare']].transform(lambda columna: columna+columna.mean())

Unnamed: 0,Age,Fare
0,51.699118,39.454208
1,67.699118,103.487508
2,55.699118,40.129208
3,64.699118,85.304208
4,64.699118,40.254208
...,...,...
886,56.699118,45.204208
887,48.699118,62.204208
888,,55.654208
889,55.699118,62.204208


In [8]:
df[['Age','Fare']]

Unnamed: 0,Age,Fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


Con axis=0 (default) haces operaciones sobre columnas.

In [9]:
df[['Age','Fare']].transform(lambda columna: columna+columna[0], axis=0)

Unnamed: 0,Age,Fare
0,44.0,14.5000
1,60.0,78.5333
2,48.0,15.1750
3,57.0,60.3500
4,57.0,15.3000
...,...,...
886,49.0,20.2500
887,41.0,37.2500
888,,30.7000
889,48.0,37.2500


In [10]:
df[['Age','Fare']]

Unnamed: 0,Age,Fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


Usando axis=1 puedes hacer operaciones sobre renglones

In [11]:
df[['Age','Fare']].transform(lambda renglon: renglon+renglon['Age'],axis=1)

Unnamed: 0,Age,Fare
0,44.0,29.2500
1,76.0,109.2833
2,52.0,33.9250
3,70.0,88.1000
4,70.0,43.0500
...,...,...
886,54.0,40.0000
887,38.0,49.0000
888,,
889,52.0,56.0000


## Apply

Todo lo que puedas hacer con Transform lo puedes hacer con Apply, aunque sea un poco más confusa su implementación. Además Apply aplica una función sobre una columna o renglón y su resultado puede ser otra columna/renglón, un valor único, una matriz etc... no se limita como transform a meramente hacer cálculos sobre los valores y transformarlos. https://towardsdatascience.com/difference-between-apply-and-transform-in-pandas-242e5cf32705

In [12]:
df['Age'].apply([np.sqrt])

Unnamed: 0,sqrt
0,4.690416
1,6.164414
2,5.099020
3,5.916080
4,5.916080
...,...
886,5.196152
887,4.358899
888,
889,5.099020


In [13]:
df[['Age','Fare']].apply(lambda renglon: renglon['Age']+renglon['Fare']+42,axis=1)

0       71.2500
1      151.2833
2       75.9250
3      130.1000
4       85.0500
         ...   
886     82.0000
887     91.0000
888         NaN
889     98.0000
890     81.7500
Length: 891, dtype: float64

## Apply vs transform

Transform no puede promediar porque esto reduciría una columna/renglón a un sólo valor agregado. Recuerda la clave, si entran x valores deben salir x valores.

In [21]:
df[['Age','Fare']].transform(np.mean)

ValueError: Function did not transform

Apply no tiene problemas agregando resultados. 

In [18]:
df[['Age','Fare']].apply(np.mean)

Age     29.699118
Fare    32.204208
dtype: float64