### 함수 매핑
- 시리즈 또는 데이터프레임의 개별 원소를 특정함수에 일대일 대응시키는 과정
- 사용자가 직접 만든 함수(lambda 함수 포함)를 적용할 수 있어서 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 적용하는 것이 가능함

#### 개별 원소에 함수 매핑
- 시리즈 원소에 함수 매핑
  - 시리즈 객체에 apply() 함수를 적용하면 인자로 전달하는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 함수의 리턴값을 리턴
  - 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환
  - **Series객체.apply(매핑 함수)**

titanic 데이터셋에서 숫자 데이터로 구성된 2개의 열('age', 'fare')을 선택하고, 숫자 10을 원소 값으로 갖는 새로운 열('ten')을 추가

In [4]:
import seaborn as sns
import pandas as pd

In [5]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'fare']]
df['ten'] =  10
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


두 개의 함수 정의
- add_10(n) 함수 : 매개변수로 받아온 값에 10을 더하는 기능
- add_two_obj(a, b) 함수 : 매개변수로 받아온 2개의 값을 더하는 기능

In [7]:
def add_10(n):
    return n + 10

def add_two_obj(a, f):
    return a + f

print(add_10(10))
print(add_two_obj(10, 10))

20
20


**apply() 함수 이용**

df['age']열에 add_10 함수를 매핑하면 모든 원소에 숫자 10을 더한 결과를 리턴(결과는 시리즈)

In [10]:
sr1 = df['age'].apply(add_10)
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [11]:
sr2 = df['age'].apply(add_two_obj , f =10)
sr2.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [12]:
sr3 = df['age'].apply(lambda x: x + 10)
sr3.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [13]:
sr4 = df['age'].apply(lambda x : add_10(x))
sr4.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [14]:
sr5 = df['age'].apply(lambda a, b: a + b , b = 10)
sr5.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [15]:
sr6 = df['age'].apply(lambda a, b, c: a + b + c , b = 5, c = 5)
sr6.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [16]:
def over_thirty(n):
    return n > 30

sr7 = df['age'].apply(over_thirty)
sr7.head()

0    False
1     True
2    False
3     True
4     True
Name: age, dtype: bool

In [17]:
def over_thirty(n):
    return n > 30

sr7 = df['age'].map(over_thirty)
sr7.head()

0    False
1     True
2    False
3     True
4     True
Name: age, dtype: bool

In [18]:
sr8 = df['age'].apply(lambda x : x > 30)
sr8.head()

0    False
1     True
2    False
3     True
4     True
Name: age, dtype: bool

In [19]:
sr8 = df['age'].map(lambda x : x > 30)
sr8.head()

0    False
1     True
2    False
3     True
4     True
Name: age, dtype: bool

In [20]:
sr9 = df['age'].map(lambda x : '성인' if x > 30 else '미성년')
sr9.head()

0    미성년
1     성인
2    미성년
3     성인
4     성인
Name: age, dtype: object

**성별(sex)이 male이면 '남자', female이면 '여자'를 구하는 gender 시리즈 구하기**

In [22]:
gender = titanic['sex'].map(lambda x : '남자' if x == 'male' else '여자')
gender.head()

0    남자
1    여자
2    여자
3    여자
4    남자
Name: sex, dtype: object

In [23]:
titanic['sex'].head()

0      male
1    female
2    female
3    female
4      male
Name: sex, dtype: object

- 데이터프레임 원소에 함수 매핑
  - 데이터프레임의 개별 원소에 특정함수를 매핑하려면 map() 함수를 활용
  - 매핑 함수에 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 리턴받음
  - 원소의 원래 위치에 매핑 함수의 리턴값을 입력하여 동일한 형태의 데이터프레임이 만들어진다.
  - **DataFrame객체.map(매핑 함수)**

titanic 데이터셋에서 age, fare 열을 df으로 만들고, add_10 함수와 add_two_obj 함수를 만들어 보자

In [26]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:,['age', 'fare']]

def add_10(n):
    return n + 10

def add_two_obj(a, b):
    return a + b

In [27]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [28]:
df_map = df.map(add_10)
df_map.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [29]:
df2 = df.map(lambda x : x + 10)
df2.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [30]:
df3 = df.map(add_two_obj, b = 10)
df3.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


In [31]:
df4 = df.map(lambda a, b: a + b , b = 10)
df4.head()

Unnamed: 0,age,fare
0,32.0,17.25
1,48.0,81.2833
2,36.0,17.925
3,45.0,63.1
4,45.0,18.05


#### 시리즈 객체에 함수 매핑
- 데이터프레임의 각 열(시리즈)에 함수 매핑
  - 데이터프레임에 apply(axis = 0) 함수를 적용하면 모든 열을 하나씩 분리하여 매핑함수의 인자로 각 열(시리즈)이 전달된다.
  - **DataFrame객체.apply(매핑 함수, axis=0)**
  - 시리즈를 입력받고 시리즈를 반환하는 함수를 매핑하면, 결과로 데이터프레임을 반환
  - 데이터프레임의 열을 매핑함수에 전달하면 각 열의 리턴값은 시리즈 형태로 반환, 그리고 이 시리즈가 하나의 데이터프레임으로 통합

In [33]:
type(df)

pandas.core.frame.DataFrame

In [34]:
df['age'].isna()

0      False
1      False
2      False
3      False
4      False
       ...  
886    False
887    False
888     True
889    False
890    False
Name: age, Length: 891, dtype: bool

In [35]:
def missing_value(series):
    return series.isna()

result = df.apply(missing_value, axis=0)
print(result.head())
print(type(result))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


In [36]:
r1 = df.apply(lambda x : x.isna() , axis=0)
print(r1.head())
print(type(r1))

     age   fare
0  False  False
1  False  False
2  False  False
3  False  False
4  False  False
<class 'pandas.core.frame.DataFrame'>


- 데이터프레임에서 시리즈(열)를 입력받아서 하나의 값을 반환하는 함수를 매핑하면 결과는 시리즈를 반환

In [38]:
def min_max(x):
    return x.max() - x.min()

result = df.apply(min_max, axis=0)
print(result)
print(type(result))

age      79.5800
fare    512.3292
dtype: float64
<class 'pandas.core.series.Series'>


In [39]:
r2 = df.apply(lambda x : x.max() - x.min(), axis=0)
print(r2)
print(type(r2))

age      79.5800
fare    512.3292
dtype: float64
<class 'pandas.core.series.Series'>


In [40]:
## df에 calc 함수를 매핑, 최대, 최소, 평균, 중앙값

In [111]:
def calc(series):
    sr_list = {'max':series.max(), 'min':series.min(), 'mean':series.mean(), 'median':series.median()}
    return pd.Series(sr_list)

r3 = df.apply(calc, axis=0)
r3

Unnamed: 0,age,fare
max,80.0,512.3292
min,0.42,0.0
mean,29.699118,32.204208
median,28.0,14.4542


In [None]:
## 각 행에 대해 최대, 최솟값의 차이와, 평균을 계산하는 매칭함수 , 인덱스 : 차이, 평균

In [125]:
df.head()

Unnamed: 0,age,fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [157]:
def calc2(row):
    diff = row.max() - row.min()
    avg = row.mean()
    return pd.Series([diff, avg], index=['차이', '평균'])

r4 = df.apply(calc2, axis=1)
r4.head()


Unnamed: 0,차이,평균
0,14.75,14.625
1,33.2833,54.64165
2,18.075,16.9625
3,18.1,44.05
4,26.95,21.525


In [165]:
r5 = df.apply(lambda row: pd.Series([row.max()-row.min(), row.mean()], index=['차이', '평균']), axis=1)
r5.head()

Unnamed: 0,차이,평균
0,14.75,14.625
1,33.2833,54.64165
2,18.075,16.9625
3,18.1,44.05
4,26.95,21.525


In [171]:
def calc3(row, mul=1):
    diff = (row.max() - row.min()) * mul
    avg = row.mean()
    return pd.Series([diff, avg], index=['차이', '평균'])

r6 = df.apply(calc3, mul=10, axis=1)
r6.head()


Unnamed: 0,차이,평균
0,147.5,14.625
1,332.833,54.64165
2,180.75,16.9625
3,181.0,44.05
4,269.5,21.525


In [179]:
r7 = df.apply(lambda row, mul=1: pd.Series([(row.max()-row.min()) * mul, row.mean()], index=['차이', '평균']), mul=10, axis=1)
r7.head()

Unnamed: 0,차이,평균
0,147.5,14.625
1,332.833,54.64165
2,180.75,16.9625
3,181.0,44.05
4,269.5,21.525
