## **Pandas apply() 메서드 함수** 
 - 함수는 파이썬 코드를 그룹화하고 재사용하는 방법임
 - PEP8에 따라 들여쓰기에는 공백 4개를 사용함

In [1]:
def my_sq(x):
    return x**2

In [5]:
def avg_2(x, y):
    """두 변수의 평균을 구해주는 함수""" # 독스트링 주석
    return (x+y)/2

In [4]:
calc1= my_sq(4)
calc1

16

In [7]:
import pandas as pd

In [11]:
df = pd.DataFrame({"a" :[100,200,300],
                  "b": [0,0,0]})

---
- apply() 메서드 사용하기
  

In [17]:
print(my_sq(df["a"]))

#df["a"]은 판다스의 시리즈임

0    10000
1    40000
2    90000
Name: a, dtype: int64


In [18]:
print(type(df.iloc[0]))

<class 'pandas.core.series.Series'>


In [23]:
sq = df["a"].apply(my_sq) #해당함수를 적용시킴
sq

 #함수(매개변수)  -> 매개변수.apply(함수명) 으로 형식이 바뀜

0    10000
1    40000
2    90000
Name: a, dtype: int64

- 사용자 함수 만들어 데이터 프레임에 적용하기


In [24]:
def my_exp(x,e):
    return  x**e

In [25]:
cubed = my_exp(2,3)
print(cubed)

8


In [28]:
ex = df["a"].apply(my_exp, e=2) #매개변수1.apply(함수, 매개변수2 = 지정)
ex

0    10000
1    40000
2    90000
Name: a, dtype: int64

In [30]:
ex = df["a"].apply(my_exp, e=3) 
#매개변수1.apply(함수, 매개변수2 = 지정)
# 2번째 매개변수를 함수와 함께 전달
ex

0     1000000
1     8000000
2    27000000
Name: a, dtype: int64

In [31]:
#데이터 프레임에 함수 적용하기
df = pd.DataFrame({"a" :[10,20,30],
                  "b": [20,30,40]})

In [36]:
def print_me(x):
    print(x)

print_me(df)

    a   b
0  10  20
1  20  30
2  30  40


열단위로 함수 적용하기

In [79]:
df.apply(print_me, axis = 0) #열단위로 프린트 됨, axis의 기본값

0    10
1    20
2    30
Name: a, dtype: int64
0    20
1    30
2    40
Name: b, dtype: int64
0    100
1    400
2    900
Name: a_sq, dtype: int64
0    100
1    400
2    900
Name: a_sq_lamb, dtype: int64


a            None
b            None
a_sq         None
a_sq_lamb    None
dtype: object

In [38]:
df.apply(print_me, axis = 1) #행단위로 프린트 됨

a    10
b    20
Name: 0, dtype: int64
a    20
b    30
Name: 1, dtype: int64
a    30
b    40
Name: 2, dtype: int64


0    None
1    None
2    None
dtype: object

In [35]:
print(df["a"])

0    10
1    20
2    30
Name: a, dtype: int64


In [39]:
print(df["b"])

0    20
1    30
2    40
Name: b, dtype: int64


- print_me() 함수의 매개변수에는 데이터프레임의 각 열이 인수로 들어감

In [42]:
def avg3(x,y,z):
    return (x+y+z)/3

In [43]:
print(df.apply(avg3)) #인수가 하나만 전달되어 오류

TypeError: avg3() missing 2 required positional arguments: 'y' and 'z'

In [84]:
def avg3_df(col):
    x = col[0]
    y = col[1]
    z = col[2]
    return (x+y+z)/3 

#이 경우 데이터 프레임을 인수로 전달받을떄

In [83]:
print(df.apply(avg3_df))

a             20.000000
b             30.000000
a_sq         466.666667
a_sq_lamb    466.666667
dtype: float64


In [53]:
df["a_sq"] = df["a"].apply(my_sq) #함수의 결과를 열로 추가

print(df)

    a   b  a_sq  a_sq_lamb
0  10  20   100        100
1  20  30   400        400
2  30  40   900        900


---
- 람다 + apply() 함께 이용하기

In [57]:
#람다 이용하기

df["a_sq_lamb"] = df["a"].apply(lambda x : x**2)

#'a'값을 lambda 뒤 x에 전달 -> x**2로 변환하여 a_sq_lamb 열에 추가
 #간단한 식의 경우 함수를 만드는 것보다 람다를 활용하는 것이 더욱 간편함 --> 무조건 숙지 !!
print(df) # 위 코드와 결과가 같은 것을 확인할 수 있음

    a   b  a_sq  a_sq_lamb
0  10  20   100        100
1  20  30   400        400
2  30  40   900        900


---
- 벡터화된 함수 사용하기

In [56]:
df1 = pd.DataFrame({"a" :[10,20,30],
                  "b": [20,30,40]})

print(df1)

    a   b
0  10  20
1  20  30
2  30  40


 - apply는 열 단위 또는 행 단위로 함수 적용 가능
 - 그러나 전체열이나 행을 첫 인수로 전달 -> 크기에 따라 함수를 변환해줘야 하는 단점

In [58]:
def avg2(x,y) : 
    return (x+y)/2

In [65]:
print(avg2(df1["a"], df1["b"])) 

#array값이 인수로 들어가 계산 -> (df["a"]+df["b"])/2 의 결과와 같음

0    15.0
1    25.0
2    35.0
dtype: float64


In [62]:
import numpy as np

def avg2_mod(x,y):
    if (x==20):
        return (np.nan) #NaN 반환
    else : 
        return (x + y)/2

In [66]:
print(avg2_mod(df1["a"], df1["b"]))

# 오류 발생 : 어레이(10,20,30) 와 20을 비교하였으니 에러

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [68]:
print(avg2_mod(10, 20))

15.0


In [69]:
print(avg2_mod(20, 30))

nan


---
넘파이로 벡터화 하기

In [85]:
avg2_mod_vec = np.vectorize(avg2_mod) #벡터화

print(avg2_mod_vec(df["a"], df["b"]))

[15. nan 35.]


In [72]:
print(avg2_mod_vec([10, 20, 30], [20, 30, 40]))

[15. nan 35.]


In [75]:
import numba 

In [90]:
@numba.vectorize
#데코레이터 사용 : 벡터화 함수를 새로 생성하지 않아도 벡터 인수 바로 적용 가능

#조건문에서 자료형 정보를 추가해야함
def v_avg2_numba(x,y):
    if (int(x)==20):
        return (np.nan)
    else : 
        return (x+y)/2

In [89]:
print(v_avg2_numba(df1["a"], df1["b"]))

  # 함수에 데이터 프레임의 열 벡터를 그대로 전달하면 오류발생 ?

0    15.0
1     NaN
2    35.0
dtype: float64


In [88]:
print(v_avg2_numba(df["a"].values, df["b"].values))

[15. nan 35.]
