## 함수 매핑

#### 개별 원소에 함수 매핑

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns

In [4]:
#시리즈 원소에 함수 매핑
#타이타닉 데이터셋에서 age,fare, 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]  #2개 열 선택
df['ten'] = 10
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


In [5]:
#사용자 함수 정의
def add_10(n): #10을 더하는 함수
    return n + 10

def add_two_obj(a,b): #두 객체의 합
    return a + b

print(add_10(10))
print(add_two_obj(10,10))

20
20


In [7]:
#시리즈 객체에 적용
sr1 = df['age'].apply(add_10)                 # n = df['age']의 모든 원소
print(sr1.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [8]:
#시리즈 객체와 숫자에 적용: 2개의 인수(시리즈+숫자)
sr2 = df['age'].apply(add_two_obj, b=10)    #a=df['age']의 모든 원소, b=10
print(sr2.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


In [11]:
#lambda 함수 활용: 시리즈 객체에 적용
sr3 = df['age'].apply(lambda x: add_10(x))    #a=df['age']
print(sr3.head())

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64


#### 데이터프레임 원소에 함수 매핑

In [16]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]  #2개 열 선택
print(df.head())

#사용자 함수 정의
def add_10(n):
    return n + 10

# 데이터프레임에 add_10() 함수를 매핑 적용, applymap()
df_map = df.applymap(add_10)
print(df_map.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500
    age     fare
0  32.0  17.2500
1  48.0  81.2833
2  36.0  17.9250
3  45.0  63.1000
4  45.0  18.0500


#### 시리즈 객체에 함수 매핑

In [18]:
#데이터프레임의 각 열에 함수 매핑
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.head())

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500


In [20]:
#사용자 함수 정의
def missing_value(series):      #시리즈를 인자로 전달
    return series.isnull()      #불린 시리즈를 반환

#데이터프레임에 apply 메소드를 적용
result = df.apply(missing_value, axis=0)
print(result.head())
print('\n')
print(type(result))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False


<class 'pandas.core.frame.DataFrame'>


In [27]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]
print(df.head())
print('\n')

#사용자 함수 정의
def min_max(x):             #최대값 - 최소값
    return x.max() - x.min()

    age     fare
0  22.0   7.2500
1  38.0  71.2833
2  26.0   7.9250
3  35.0  53.1000
4  35.0   8.0500




In [28]:
#데이터프레임에 apply 메소드를 적용
result = df.apply(min_max)   #axis=0
print(result)
print('\n')
print(type(result))

age      79.5800
fare    512.3292
dtype: float64


<class 'pandas.core.series.Series'>


#### 데이터프레임의 각 행에 함수 매핑

In [29]:
#타이타닉 데이터셋에서 age,fare, 2개 열을 선택하여 데이터프레임 만들기
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]  #2개 열 선택
df['ten'] = 10
print(df.head())

    age     fare  ten
0  22.0   7.2500   10
1  38.0  71.2833   10
2  26.0   7.9250   10
3  35.0  53.1000   10
4  35.0   8.0500   10


In [30]:
#사용자 함수 정의
def add_two_obj(a,b): #두 객체의 합
    return a + b

In [31]:
#데이터프레임의 2개 열에 적용
# x=df, a=df['age'], b=df['ten']
df['add'] = df.apply(lambda x: add_two_obj(x['age'],x['ten']), axis=1)
print(df.head())

    age     fare  ten   add
0  22.0   7.2500   10  32.0
1  38.0  71.2833   10  48.0
2  26.0   7.9250   10  36.0
3  35.0  53.1000   10  45.0
4  35.0   8.0500   10  45.0


#### 데이터프레임 객체에 함수 매핑

In [32]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age','fare']]  #2개 열 선택

#각 열의 NaN 찾기, 데이터프레임을 전달하면 데이터프레임 반환
def missing_value(x):
    return x.isnull()

#각 열의 NaN 개수 반환 - 데이터프레임을 전달하면 시리즈 반환
def missing_count(x):
    return missing_value(x).sum()

#데이터프레임의 총 NaN 개수 - 데이터프레임을 전달하면 값 반환
def total_number_missing(x):
    return missing_count(x).sum()

In [33]:
#데이터프레임에 함수 매핑
result_df = df.pipe(missing_value)
print(result_df.head())
print(type(result_df))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [34]:
result_series = df.pipe(missing_count)
print(result_series)
print(type(result_series))

age     177
fare      0
dtype: int64
<class 'pandas.core.series.Series'>


In [36]:
result_value = df.pipe(total_number_missing)
print(result_value)
print(type(result_value))

177
<class 'numpy.int64'>
