In [4]:
import numpy as np
import pandas as pd
import math

python의 list에서는 map() 함수를 적용하는 방법과 유사하게 pandas에서 DataFrame에서는 apply()를 map() 대신에 적용할 수 있습니다.
<br><br>
apply() 함수는 DataFrame의 칼럼에 복잡한 연산을 vectorizing 할 수 있게 해주는 함수로 매우 많이 활용되는 함수입니다.
<br><br>
apply() 함수는 간단한 경우 lambda() 함수를 적용할 수 있으며, 복잡한 경우 사용자 정의 함수를 적용할 수도 있습니다.

### lambda() 함수와 사용하기
lambda 함수는 사용자정의 함수를 문법에 맞추어 작성하는 것보다 훨씬 간단하게 해결할 수 있도록 해주는 함수입니다. lambda 함수의 기본 구조는 다음과 같습니다.

In [5]:
f = lambda x, y : x + y
f(5, 6)

11

다음은 lambda() 함수와 apply() 함수를 연결하여 사용한 예시입니다.

In [6]:
#DataFrame명.apply(lambda x : x['칼럼명']들의 조건식 
#                               if x['칼럼명']들의 조건식 
#                               else (x['칼럼명']들의 조건식 또는 값), axis = 1)

In [8]:
df = pd.DataFrame({'국어' : [100, 45, 33],
                  '수학' : [39, 90, 49]},
                 index = ['김철수', '김민정', '강동훈'])
df

Unnamed: 0,국어,수학
김철수,100,39
김민정,45,90
강동훈,33,49


행은 사라지고 열 단위로 집계하고 싶은 경우 axis = 0으로 지정합니다.<br>
열은 사라지고 행 단위로 집계하고 싶은 경우 axis = 1으로 지정합니다.

In [9]:
# apply 함수를 적용하여 열 단위로 집계합니다. 
df.apply(np.sqrt, axis=0)

Unnamed: 0,국어,수학
김철수,10.0,6.244998
김민정,6.708204,9.486833
강동훈,5.744563,7.0


In [10]:
df.apply(np.sqrt, axis=1)

Unnamed: 0,국어,수학
김철수,10.0,6.244998
김민정,6.708204,9.486833
강동훈,5.744563,7.0


In [13]:
# 합계 column은 국어가 수학보다 크거나 같은 경우 국어와 수학의 차, 그렇지 않은 경우 0의 값을 가집니다.
df['합계'] = df.apply(lambda x : x['국어'] - x['수학']
                   if (x['국어'] >= x['수학'])
                   else 0, axis=1)

In [16]:
# head 명령어를 사용해 DataFrame을 출력한다.
df.head()

Unnamed: 0,국어,수학,합계
김철수,100,39,61
김민정,45,90,0
강동훈,33,49,0


In [20]:
df['날짜'] = ['2021-09-24', '2021-10-11', '2021-02-11']
df.head()

Unnamed: 0,국어,수학,합계,날짜
김철수,100,39,61,2021-09-24
김민정,45,90,0,2021-10-11
강동훈,33,49,0,2021-02-11


In [22]:
# DataTime으로 datatype을 변경
df['날짜1'] = pd.to_datetime(df['날짜'], format='%Y-%m-%d')
df['요일'] = df['날짜1'].dt.dayofweek
df.head()

Unnamed: 0,국어,수학,합계,날짜,날짜1,요일
김철수,100,39,61,2021-09-24,2021-09-24,4
김민정,45,90,0,2021-10-11,2021-10-11,0
강동훈,33,49,0,2021-02-11,2021-02-11,3


In [23]:
def 요일(x):
    if x == 0:
        return '월'
    elif x == 1:
        return '화'
    elif x == 2:
        return '수'
    elif x == 3:
        return '목'
    elif x == 4:
        return '금'
    elif x == 5:
        return '토'
    else:
        return '일'

In [24]:
df['요일'].apply(요일)

김철수    금
김민정    월
강동훈    목
Name: 요일, dtype: object

위와 같이 사용자 정의 함수를 apply의 인자로 넘겨주어 모든 dataframe의 해당 column의 element에 대해서 사용자 정의 함수를 적용시킨 후의 값으로 변경이 가능합니다.

만약 '요일' 함수를 다음과 같이 정의한 경우에는 호출 방식을 가장 아래와 같이 바꿔야 합니다.
<pre>
def 요일(x):
    if x['요일'] == 0:
        return '월'
    elif x['요일'] == 1 :
        return '화'
    elif x['요일'] == 2 :
        return '수'
    elif x['요일'] == 3 :
        return '목'
    elif x['요일'] == 4 :
        return '금'
    elif x['요일'] == 5 :
        return '토'
    else :
        return '일'
</pre>
아래와 같이 열을 지정하지 않고 호출해도 됩니다. 다만 x['요일']에 대해서 적용함므로 axis=1 옵션이 포함되어야 합니다. (axis=1 -> 열은 없애고 행 단위로 집계)<br>
df.apply(요일, axis=1)