#### apply() 로 함수 적용

In [2]:
import pandas as pd
import numpy as np

In [None]:
def my_sqaure(x):
    """ 제곱함수
    """
    return x ** 2

In [4]:
def avg_2(x, y):
    return (x + y) / 2

In [9]:
def my_exp(x, e):
    return x ** e

In [5]:
df = pd.DataFrame({'a': [ 10, 20, 30 ],
                   'b': [22, 33, 44]})

In [6]:
df

Unnamed: 0,a,b
0,10,22
1,20,33
2,30,44


In [7]:
df['a'] ** 2

0    100
1    400
2    900
Name: a, dtype: int64

In [8]:
df['a'].apply(my_sqaure)

0    100
1    400
2    900
Name: a, dtype: int64

In [10]:
df['b'].apply(my_exp, e=2)

0     484
1    1089
2    1936
Name: b, dtype: int64

In [11]:
df['b'].apply(my_exp, e=3)


0    10648
1    35937
2    85184
Name: b, dtype: int64

#### 열단위/행단위 함수 적용

In [12]:
def avg_3(col):
    x = col[0]
    y = col[1]
    z = col[2]
    return (x + y + z) /3

In [14]:
df.apply(avg_3, axis=0)

a    20.0
b    33.0
dtype: float64

In [None]:
df.apply(avg_3, axis=1)

In [16]:
def avg_2_row(row):
    x = row[0]
    y = row[1]
    return (x + y) /2

In [18]:
df.apply(avg_2_row, axis=1)

  x = row[0]
  y = row[1]


0    16.0
1    26.5
2    37.0
dtype: float64

#### 람다함수
- 함수로 정의할 필요도 없는 간단한 처리일때

In [19]:
df

Unnamed: 0,a,b
0,10,22
1,20,33
2,30,44


In [20]:
df['a'].apply(lambda x: x ** 2)

0    100
1    400
2    900
Name: a, dtype: int64

In [22]:
df.apply(lambda x: x ** 2)

Unnamed: 0,a,b
0,100,484
1,400,1089
2,900,1936


#### 벡터화된 함수
- 행와 열의 크기에 따라 동작하는 함수를 작성하기는 어려움
- vectorize() 함수와 데코레이터로 효율적으로 코드 작성 가능

In [23]:
df = pd.DataFrame({'a': [10, 20, 30 ],
                   'b': [20, 30, 40]})

행이 2개 평균함수를 아래

In [None]:
def avg_2(x, y):
    return (x + y) / 2

In [25]:
avg_2(df['a'], df['b'])

0    15.0
1    25.0
2    35.0
dtype: float64

##### x가 20이 아니면 평균을 계산, 20이면 NaN을 리턴하는 avg_2_mod() 함수생성

In [26]:
def avg_2_mod(x, y):
    if (x == 20):
        return np.nan
    else:
        return (x + y) / 2

In [30]:
avg_2_mod(df['a'], df['b'])

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [31]:
avg_2_mod(10, 20)

15.0

In [32]:
avg_2_mod(20, 30)

nan

##### 넘파이로 벡터화

In [33]:
avg_2_mod_vec = np.vectorize(avg_2_mod)

In [34]:
avg_2_mod_vec(df['a'], df['b'])

array([15., nan, 35.])

##### 또는 데코레이터 사용

In [35]:
@np.vectorize
def v_avg_2_mod(x, y):
    if (x == 20):
        return np.nan
    else:
        return (x + y) / 2

In [36]:
v_avg_2_mod(df['a'], df['b'])

array([15., nan, 35.])