### 06 apply() 메서드로 함수 적용하기

#### [06 - 1] 간단한 함수 만들기

##### 1) 사용자 함수 만들기

In [4]:
# 숫자의 제곱을 반환하는 함수
def my_sq(x):
    return x ** 2

In [5]:
# 두 숫자의 평균을 구하는 함수
def avg_2(x, y):
    """두 숫자의 평균을 구하는 함수
    """
    return (x + y) / 2

In [6]:
# 함수 호출
my_calc_1 = my_sq(4)
print(my_calc_1)

my_calc_2 = avg_2(10, 20)
print(my_calc_2)

16
15.0


#### [06 - 2] apply[] 메서드 사용하기

In [7]:
import pandas as pd

In [8]:
# 데이터프레임 생성
df = pd.DataFrame({"a" : [10, 20, 30],
                   "b" : [20, 30, 40]})
print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [9]:
# 데이터프레임 a열의 모든 값 제곱
print(df['a'] ** 2)

0    100
1    400
2    900
Name: a, dtype: int64


##### 1. 시리즈에 함수 적용하기

##### 1) 시리즈에 함수 적용하기

In [10]:
# 데이터프레임에서 a열 추출하여 유형 확인
print(type(df['a']))

# 데이터프레임에서 첫 번째 행 유형 확인
print(type(df.iloc[0]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [11]:
# apply() 메서드 적용
sq = df['a'].apply(my_sq)
print(sq)

0    100
1    400
2    900
Name: a, dtype: int64


##### 2) 사용자 함수 만들어 데이터프레임에 적용하기

In [12]:
# n제곱 함수
def my_exp(x, e):
    return x ** e

In [13]:
# 2의 3제곱
cubed = my_exp(2, 3)
print(cubed)

8


In [15]:
# apply() 메서드에 적용하여 시리즈 요소의 제곱 구하기
ex = df['a'].apply(my_exp, e = 2)   ## 2번째 매개변수를 변수와 함께 전달
print(ex)

0    100
1    400
2    900
Name: a, dtype: int64


In [None]:
# 3제곱 구하기
ex = df['a'].apply(my_exp, e = 3)
print(ex)

0     1000
1     8000
2    27000
Name: a, dtype: int64


##### 2. 데이터프레임에 함수 적용하기

In [17]:
# 데이터프레임 생성
df = pd.DataFrame({"a" : [10, 20, 30], "b" : [20, 30, 40]})
print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [18]:
# 함수 생성
def print_me(x):
    print(x)

##### 1) 열 단위로 함수 적용하기

가. 함수를 열 단위로 적용하고 싶다면 axis = 0 또는 axis = "index"  
나. 함수를 행 단위로 적용하고 싶다면 axis = 1 또는 axis = "columns"

In [19]:
# 열 단위로 함수 적용
df.apply(print_me, axis = 0)

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64


a    None
b    None
dtype: object

In [22]:
# print()로 직접 각 열 출력
print(df['a'])
print('-----------')
print(df['b'])

0    10
1    20
2    30
Name: a, dtype: int64
-----------
0    20
1    30
2    40
Name: b, dtype: int64


In [23]:
# 세 숫자의 평균을 구하는 함수
def avg_3(x, y, z):
    return (x + y + z) / 3

In [None]:
# print(df.apply(avg_3))    ## 오류 발생

# 수정본
def avg_3_apply(col):
    x = col[0]      ## 열의 첫 번째 행
    y = col[1]      ## 열의 두 번째 행
    z = col[2]      ## 열의 세 번째 행
    return (x + y + z) / 3

In [26]:
# 결과 확인
print(df.apply(avg_3_apply))

a    20.0
b    30.0
dtype: float64


##### 2) 행 단위로 함수 적용하기

In [28]:
# 행의 값을 받아서 2개의 값을 추출한 후 평균 반환
def avg_2_apply(row):
    x = row[0]
    y = row[1]
    return (x + y) / 2

In [29]:
# 결과 확인
print(df.apply(avg_2_apply, axis = 1))

0    15.0
1    25.0
2    35.0
dtype: float64


  x = row[0]
  y = row[1]


#### [06 - 3] 람다 함수

##### 1) 데이터프레임에 람다 함수 사용하기

In [None]:
# 데이터프레임 생성
df = pd.DataFrame({"a" : [50, 60, 70], "b" : [80, 90, 100]})
print(df)

    a    b
0  50   80
1  60   90
2  70  100


In [None]:
# 함수 생성하여 apply() 적용
def my_sq(x):
    return x ** 2

df['a_sq'] = df['a'].apply(my_sq)
print(df)

    a    b  a_sq
0  50   80  2500
1  60   90  3600
2  70  100  4900


In [32]:
# 람다 함수 사용
df['a_sq_lamb'] = df['a'].apply(lambda x : x ** 2)
print(df)

    a    b  a_sq  a_sq_lamb
0  50   80  2500       2500
1  60   90  3600       3600
2  70  100  4900       4900


#### [06 - 4] 벡터화된 함수 사용하기

##### 1) 벡터화된 함수 사용하기

In [None]:
# 데이터프레임 생성
df = pd.DataFrame({"a" : [10, 20, 30], "b" : [20, 30, 40]})
print(df)

    a   b
0  10  20
1  20  30
2  30  40


In [None]:
# 평균 함수
def avg_2(x, y):
    return (x + y) / 2

In [None]:
# 벡터화 확인
print(avg_2(df['a'], df['b']))

0    15.0
1    25.0
2    35.0
dtype: float64


In [None]:
import numpy as np

# 벡터화할 수 없는 계산을 수행하는 함수
def avg_2_mod(x, y):
    if (x == 20):
        return(np.NaN)
    else:
        return (x + y) / 2

In [42]:
# 벡터 전달
# print(avg_2_mod(df['a'], df['b']))    ## 오류 발생

# 숫자 전달
print(avg_2_mod(10, 20))
print(avg_2_mod(20, 30))

15.0
nan


#### 1. 넘파이와 넘바로 벡터화하기

##### 1) 넘파이로 벡터화하기

In [43]:
# avg_2_mod()와 같은 함수 벡터 요소별로 계산
avg_2_mod_vec = np.vectorize(avg_2_mod)

In [None]:
# 결과 확인
print(avg_2_mod_vec(df['a'], df['b']))

[15. nan 35.]


In [45]:
# 데코레이터 사용
@np.vectorize   # 데코레이터를 사용하여 벡터화
def v_avg_2_mod(x, y):
    if (x == 20):
        return(np.NAN)
    else:
        return (x + y) / 2
    
print(v_avg_2_mod(df['a'], df['b']))

[15. nan 35.]


##### 2) 넘바로 벡터화하기

In [48]:
!pip install numba



In [49]:
import numba

@numba.vectorize        ## 넘바로 벡터화
def v_avg_2_numba(x, y):
    if (int(x) == 20):
        return(np.NAN)
    else:
        return (x + y) / 2

In [None]:
# 열 벡터를 전달하여 확인
print(v_avg_2_numba(df['a'], df['b']))

0    15.0
1     NaN
2    35.0
dtype: float64


In [None]:
# values 속성 사용하여 확인
print(v_avg_2_numba(df['a'].values, df['b'].values))

[15. nan 35.]
