#### 데이터 프레임에 함수 적용하기
- apply(): 데이터프레임 또는 시리즈의 각 요소별로 특정 함수를 적용시키거나 축 별로 적용
- applymap(): 데이터프레임에만 적용 가능하며, 항상 요소(element)별로 적용
- map(): 시리즈에만 적용 가능하며, 항상 요소별로 함수가 적용

- func : 각 열 또는 행에 적용할 함수
- axis : 함수가 적용될 축. 
  - 기본값(0 또는 ‘index’)이면 각 열 별로 함수가 적용
  - 1 또는 ‘columns’이면 각 행 별로 함수가 적용

In [2]:
import seaborn as sns
import numpy as np
import pandas as pd

In [3]:
iris_df = sns.load_dataset('iris')

In [4]:
# np.round : 요소 별로 적용 되도록 동작
iris_df.iloc[:, :-1].apply(np.round).head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.0,4.0,1.0,0.0
1,5.0,3.0,1.0,0.0
2,5.0,3.0,1.0,0.0
3,5.0,3.0,2.0,0.0
4,5.0,4.0,1.0,0.0


In [5]:
iris_df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [6]:
# 각 열의 합, np.sum 이 컬럼 단위로 동작
iris_df.iloc[:, :-1].apply(np.sum)

sepal_length    876.5
sepal_width     458.6
petal_length    563.7
petal_width     179.9
dtype: float64

In [7]:
iris_df.iloc[:, :-1].apply(np.mean)

sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64

In [9]:
# axis=1을 지정하여 행 별 합을 구할 수 있음
iris_df.iloc[:, :-1].apply(np.sum, axis=1)

0      10.2
1       9.5
2       9.4
3       9.4
4      10.2
       ... 
145    17.2
146    15.7
147    16.7
148    17.3
149    15.8
Length: 150, dtype: float64

In [11]:
# 컬럼별 평균값을 찾는 시리즈 객체를 리턴
iris_avg = iris_df.iloc[:, :-1].apply(np.average)
iris_avg

sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64

In [13]:
def minus(x):
    iris_avg = iris_df.iloc[:, :-1].apply(np.average)
    return x - iris.avg

In [12]:
# lambda : 일회성 함수, 이름이 없는 함수
# 위 함수 minus와 같다
iris_df.iloc[:, :-1].apply(lambda x: x - iris_avg, axis=1).head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,-0.743333,0.442667,-2.358,-0.999333
1,-0.943333,-0.057333,-2.358,-0.999333
2,-1.143333,0.142667,-2.458,-0.999333
3,-1.243333,0.042667,-2.258,-0.999333
4,-0.843333,0.542667,-2.358,-0.999333


In [14]:
iris_df2 = iris_df.iloc[:, :-1]

In [19]:
# iris_df2.applymap(lambda x : x**2).head()     # deprecate 됨
iris_df2.map(lambda x : x**2).head() 

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,26.01,12.25,1.96,0.04
1,24.01,9.0,1.96,0.04
2,22.09,10.24,1.69,0.04
3,21.16,9.61,2.25,0.04
4,25.0,12.96,1.96,0.04


In [23]:
# sepal_length만 np.round map 적용
iris_df.sepal_length.map(np.round)

0      5.0
1      5.0
2      5.0
3      5.0
4      5.0
      ... 
145    7.0
146    6.0
147    6.0
148    6.0
149    6.0
Name: sepal_length, Length: 150, dtype: float64

In [24]:
s = pd.Series([1, 2, 3, None])

In [26]:
s.map(lambda x: (x, x**2))

0    (1.0, 1.0)
1    (2.0, 4.0)
2    (3.0, 9.0)
3    (nan, nan)
dtype: object

In [29]:
# na_action='ignore' : NaN값을 무시하여 튜플생성이 안됨
s.map(lambda x: (x, x**2), na_action='ignore')

0    (1.0, 1.0)
1    (2.0, 4.0)
2    (3.0, 9.0)
3           NaN
dtype: object