함수 매핑이란 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정을 의미한다. 사용자 함수를 적용할 수 있어 판다스 기본함수로 처리하기 힘든 연산을 판다스 객체에 적용할 수 있다.

<h3> 개별 원소에 함수 매핑 </h3>
<h4> 시리즈 원소에 함수 매핑 </h4>

시리즈 객체에 **apply() 메소드**를 적용하면 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴값을 돌려받는다. 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환한다.

* **시리즈 원소에 함수 매핑: Series 객체.apply(매핑함수)**

먼저 seaborn 라이브러리의 titanic 데이터셋을 가져오자.

In [None]:
import seaborn as sns

titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


매핑할 사용자 함수 2개를 제작하자.

In [None]:
def add_10(n):
  return n + 10

def add_two_obj(a, b):
  return a + b

print(add_10(10))
print(add_two_obj(10, 10))

20
20


df의 'age'열을 이용해 apply() 메소드를 적용해보자. <br>
lambda 함수 역시 사용자 함수이므로 apply() 메소드의 인자로 전달할 수 있다.

In [None]:
sr1 = df['age'].apply(add_10) # n = df['age']의 모든 원소
print(sr1.head())
print('\n')

sr2 = df['age'].apply(add_two_obj, b = 10) # n = df['age']의 모든 원소, b = 10
print(sr2.head())
print('\n')

sr3 = df['age'].apply(lambda x: add_10(x)) # x = df['age']
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


<h4> 데이터프레임 원소에 함수 매핑 </h4>

데이터프레임의 개별 원소에 특정 함수를 매핑하려면 **applymap() 메소드**를 사용한다. 매핑 함수에 데이터프레임의 각 원소를 하나씩 넣어 리턴값으로 돌려받는다. 원소의 원래 위치에 리턴값을 입력해 동일한 형태의 데이터프레임이 만들어진다. 

* **데이터프레임 원소에 함수 매핑: DataFrame 객체.applymap(매핑 함수)**

'age'와 'fare'열로 구성된 데이터프레임에 applymap() 메소드를 사용해보자.

In [None]:
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

df_map = df.applymap(add_10)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


<h3> 시리즈 객체에 함수 매핑 </h3>
<h4> 데이터프레임의 각 열에 함수 매핑 </h4>

데이터프레임에 **apply(axis = 0) 메소드**를 적용하면 모든 열을 하나씩 분리해 매핑 함수의 인자로 각 열(시리즈)이 전달된다. 매핑 함수에 따라 반환되는 객체의 종류가 다르다. 

* **데이터프레임의 열에 함수 매핑: DataFrame 객체.apply(매핑 함수, axis = 0)**

시리즈를 입력받고 시리즈를 반환하는 함수를 매핑하면, 데이터프레임을 반환한다. <br>
시리즈를 인자로 받고 시리즈를 반환하는 missing_value() 함수를 만들어 apply() 메소드를 사용해보자. 

* apply() 메소드의 axis 기본값은 0이다. 따라서 굳이 axis 값을 설정할 필요는 없다.

In [None]:
df = titanic.loc[:, ['age', 'fare']]
print(df.head())
print('\n')

def missing_value(series):
  return series.isnull()

result = df.apply(missing_value, axis = 0)
print(result.head())
print('\n')
print(type(result))

result = df.apply(missing_value)
print(result.head())
print('\n')
print(type(result))

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>
     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


시리즈를 입력받아서 하나의 값을 반환하는 함수를 매핑하면 시리즈를 반환한다. 이때 각 열의 이름이 시리즈의 인덱스가 된다. <br>
시리즈의 최대값과 최솟값의 차이를 계산해주는 함수 min_max() 를 만들고 apply() 메소드를 적용해보자.

In [None]:
def min_max(series):
  return series.max() - series.min()

result = df.apply(min_max)
print(result)
print('\n')
print(type(result))

age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


<h4> 데이터프레임의 각 행에 함수 매핑 </h4>

데이터프레임 객체에 **(axis = 1) 메소드**를 적용하면 데이터프레임의 각 행을 매핑 함수의 인자로 전달한다. 데이터프레임의 행 인덱스가 매핑 결과로 반환되는 시리즈의 인덱스가 된다.

* **데이터프레임의 행에 함수 매핑: DataFrame 객체.apply(매핑 함수, axis = 1)**

행이 동일한 'age'와 'ten'의 데이터를 더해보자.

In [None]:
df = titanic.loc[:, ['age', 'fare']]
df['ten'] = 10
print(df.head())
print('\n')

def add_two_obj(a, b):
  return a + b

df['add'] = df.apply(lambda x: add_two_obj(x['age'], x['ten']), axis = 1)
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


<h3> 데이터프레임 객체에 함수 매핑 </h3>

데이터프레임 객체를 함수에 매핑하려면 pipe() 함수를 사용할 수 있다. 사용하는 함수가 반환하는 리턴값에 따라 반환하는 객체의 종류가 달라진다. 데이터프레임, 시리즈, 개별 값을 반환할 수 있다.

* **데이터프레임 객체에 함수 매핑: DataFrame 객체.pipe(매핑 함수)**

먼저 데이터프레임을 인자로 받아 데이터프레임, 시리즈, 개별 값을 반환하는 3가지 사용자 함수를 만들어보자.

In [None]:
df = titanic.loc[:, ['age', 'fare']]

# 각 열의 NaN값을 찾는다.
def missing_value(x):
  return x.isnull()

# 각 열의 NaN값 개수를 반환한다.
def missing_count(x):
  return missing_value(x).sum()

# 데이터프레임의 총 NaN값 개수를 반환한다.
def total_number_missing(x):
  return missing_count(x).sum()

pipe() 함수를 이용해 모든 함수를 매핑해보면 각각 데이터프레임, 시리즈, 개별 값을 반환한다.

In [None]:
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [None]:
result_series = df.pipe(missing_count)
print(result_series)
print(type(result_series))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>
