# 함수 매핑
- <u>**`함수 매핑`**은 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정</u>을 뜻한다.
- 사용자가 직접 만든 함수(lambda 함수 포함)를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 데이터프레임 등 판다스 객체에 적용하는 것이 가능하다.

## 개별 원소에 함수 매핑

### 시리즈 원소에 함수 매핑

<b>`시리즈객체.apply(매핑 함수)`</b>

- 시리즈 객체에 apply() 메소드를 적용하면 인자로 전달하는 <u>매핑 함수에 시리즈의 모든 원소를 하나씩 입력</u>하고 함수의 리턴값을 돌려받는다.
- <u>시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체 반환</u>한다.

In [1]:
# pandas 임포트

import pandas as pd

![d.png](attachment:d.png)

In [42]:
# 각 도시의 여름 온도를 정보를 가진 시리즈 객체 s 생성

s = pd.Series([20,21,12], index=["London","New York","Helsinki"])
s

London      20
New York    21
Helsinki    12
dtype: int64

In [43]:
# 각 도시의 온드를 두배로 바꾼다.(연산자이용)

s*2

London      40
New York    42
Helsinki    24
dtype: int64

In [44]:
# 각 도시의 온도를 제곱한다. - 사용자 정의 함수 정의(square)

def square(x):
    return x**2

In [45]:
# 시리즈의 원소가 하나씩 매개변수로 전달되고 제곱한 값을 리턴
# 리턴받은 값들을 시리즈로 구성하여 반환

s.apply(square)


London      400
New York    441
Helsinki    144
dtype: int64

In [46]:
#동일식 

square(s)

London      400
New York    441
Helsinki    144
dtype: int64

In [47]:
# 위와 동일한 일을 lambda함수를 이용한다.

s.apply(lambda x: x**2)

London      400
New York    441
Helsinki    144
dtype: int64

In [48]:
# 각도시의 온도를 -5도 한다. - 사용자 정의함수 정의(substract_custom_value)

def substract_custom_value(x,y):
    return x+y

In [49]:
# substract_custom_value호출, custom_values 매개변수=-5를 적용

s.apply(substract_custom_value, y=-5)

London      15
New York    16
Helsinki     7
dtype: int64

In [50]:
#동일식

substract_custom_value(s,-5)

London      15
New York    16
Helsinki     7
dtype: int64

In [51]:
# substract_custom_value호출, custom_values args=(-5,)를 적용

s.apply(substract_custom_value, args=(-5,))

London      15
New York    16
Helsinki     7
dtype: int64

![b.PNG](attachment:b.PNG)

* 위 결과처럼 만드는 함수 정의하고 시리즈s에 매핑하기

In [52]:
# decorate함수 정의

def decorate(x):
    return str(x)+"도"

In [53]:
# s에 decorate함수 매핑

s.apply(decorate)

London      20도
New York    21도
Helsinki    12도
dtype: object

![e.PNG](attachment:e.PNG)

* 위 결과처럼 만드는 함수 정의하고 시리즈s에 매핑하기

In [81]:
# 두 매개변수와의 차를 구해 리턴하는 함수 gap정의
# 반올림 소수둘쨰자리

def gap(x,y):
    return round(x-y, 2)

In [82]:
# 세 도시의 평균온도 구하기

s.mean()

17.666666666666668

In [83]:
# 각도시와 세도시의 평균온도와의 차이 구하기
# 시리즈 s에 gap함수 매핑

s.apply(gap, y=s.mean())

London      2.33
New York    3.33
Helsinki   -5.67
dtype: float64

In [84]:
# 시리즈 s확인

s

London      20
New York    21
Helsinki    12
dtype: int64

In [85]:
# s에 decorate함수 매핀해서 시리즈r만들기

r = s.apply(decorate)
r

London      20도
New York    21도
Helsinki    12도
dtype: object

In [86]:
# 시리즈 r을 데이터프레임으로 만들기

r = pd.DataFrame(r)
r = r.reset_index()
r

Unnamed: 0,index,0
0,London,20도
1,New York,21도
2,Helsinki,12도


In [87]:
# r의 컬럼명을 '도시명', '온도'로 변경

r.columns = ['도시명', '온도']
r

Unnamed: 0,도시명,온도
0,London,20도
1,New York,21도
2,Helsinki,12도


In [89]:
# '도시명'을 인덱스로 설정

r = r.set_index("도시명")
r

Unnamed: 0_level_0,온도
도시명,Unnamed: 1_level_1
London,20도
New York,21도
Helsinki,12도


In [93]:
# 시리즈s에 gap함수 매핑하여 temp시리즈 만들기

temp = s.apply(gap, y=s.mean())
temp

London      2.33
New York    3.33
Helsinki   -5.67
dtype: float64

In [95]:
# 데이터프레임 r에 '평균온도와의차이'컬럼 만들고 temp대입

r["평균온도와의 차이"]=temp

In [96]:
# 데이터프레임 r확인하기

r

Unnamed: 0_level_0,온도,평균온도와의 차이
도시명,Unnamed: 1_level_1,Unnamed: 2_level_1
London,20도,2.33
New York,21도,3.33
Helsinki,12도,-5.67


In [98]:
# 평균온도와의 차이에 '도' 붙이기 
# 함수 decorate 이용

r["평균온도와의 차이"] = r["평균온도와의 차이"].apply(decorate)

In [99]:
r

Unnamed: 0_level_0,온도,평균온도와의 차이
도시명,Unnamed: 1_level_1,Unnamed: 2_level_1
London,20도,2.33도
New York,21도,3.33도
Helsinki,12도,-5.67도


* seaborn의 'titanic'데이터셋을 이용하여 시리즈에 apply()함수를 적용해본다.

In [100]:
# seaborn 임포트

import seaborn as sns

In [197]:
# seaborn 의 'titanic'데이터셋을 로드하여 titanic 데이터프레임 객체를 생성한다.

titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [198]:
# 데이터프레임 titanic에서 모든 행의 'age'와 'fare'열을 선택하여 서브데이터프레임 df를 생성한다.

df = titanic.loc[:,["age","fare"]]
df

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [199]:
# 데이터프레임 df에 새로운 열'ten'을 만들고 10을 대입한다.

df["ten"]=10
df

Unnamed: 0,age,fare,ten
0,22.0,7.2500,10
1,38.0,71.2833,10
2,26.0,7.9250,10
3,35.0,53.1000,10
4,35.0,8.0500,10
...,...,...,...
886,27.0,13.0000,10
887,19.0,30.0000,10
888,,23.4500,10
889,26.0,30.0000,10


In [200]:
# 10을 더하는 사용자 함수 정의

def add_ten(x):
    return x+10

In [130]:
# 매개변수로 넘어온 custom값을 더하는 사용자 함수 정의

def add_custom(x, a):
    return x+a

In [133]:
# 시리즈 객체에 적용
# 데이터프레임 df의 모든 행의 나이를 +10해준다.

df["age"].apply(add_ten)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [131]:
# 시리즈 객체와 숫자에 적용: 2개의 인수(시리즈 + 숫자)
# 데이터프레임 df의 모든 행의 나이를 +10해준다.

df["age"].apply(add_custom, a=10)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

In [134]:
# lambda 함수 활용: 시리즈 객체에 적용
# 데이터프레임 df의 모든 행의 나이를 +10해준다.

df["age"].apply( lambda x : x+10)

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Name: age, Length: 891, dtype: float64

### 데이터프레임 원소에 함수 매핑

<b>`데이터프레임객체.applymap(매핑 함수)`</b>

- <u>데이터프레임의 개별 원소에 특정 함수를 매핑</u>하려면, applymap() 메소드를 활용한다.
- 매핑 함수에 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 돌려받는다.
- 원소의 원래 위치에 매핑 함수의 리턴값을 입력하여 <u>동일한 형태의 데이터프레임</u>이 만들어진다.

![f.PNG](attachment:f.PNG)

In [141]:
# [1, 2.12], [3.356, 4.567] 을 데이터로 가지는 데이터프레임 df0생성

df0 =pd.DataFrame([[1, 2.12], [3.356, 4.567]])
df0

Unnamed: 0,0,1
0,1.0,2.12
1,3.356,4.567


In [145]:
# df0의 각 원소의 데이터 길이를 구하는 함수를  lambda 함수로 생성한다
df0 = df0.applymap(lambda x: len(str(x)))

# df0의 각 원소가 람다함수의 매개변수로 전달되고 숫자를 리턴
# 리턴된 숫자들을 데이터프레임으로 구성
df0


Unnamed: 0,0,1
0,3,4
1,5,5


In [146]:
# [1, -2.12], [3.356, 4.567] 을 데이터로 가지는 데이터프레임 df0생성

df0 = pd.DataFrame([[1, -2.12], [3.356, 4.567]])
df0

Unnamed: 0,0,1
0,1.0,-2.12
1,3.356,4.567


In [153]:
# 음수이면 -, 양수이면 + 부호를 리턴하는 sign함수 정의

def sign(x):
    if x>0: return "+"
    elif x<0: return "-"

In [154]:
# df0에 sign함수 매핑

df0.applymap(sign)

Unnamed: 0,0,1
0,+,-
1,+,+


In [156]:
import numpy as np
import math

In [172]:
#결측치이면 True, 아니면 False를 리턴하는 함수

math.isnan(np.nan)

True

In [158]:
# # [1, -2.12], [np.nan, 4.567] 을 데이터로 가지는 데이터프레임 df1생성

df1 = pd.DataFrame([[1, -2.12], [np.nan, 4.567]])
df1

Unnamed: 0,0,1
0,1.0,-2.12
1,,4.567


In [170]:
# 결측치이면 True, 아니면 False를 리턴하는 check_null함수 정의

def check_null(x):
    return math.isnan(np.nan)

In [171]:
# df1에 check_null함수 매핑

df1.applymap(check_null)

Unnamed: 0,0,1
0,True,True
1,True,True


In [175]:
def ck_null(x):
    if x==np.nan: return "True"
    else: return "False"

In [177]:
df1.applymap(ck_null)

Unnamed: 0,0,1
0,False,False
1,False,False


* seaborn의 'titanic'데이터셋을 이용하여 시리즈에 apply()함수를 적용해본다.

In [173]:
# df확인
df

Unnamed: 0,age,fare,ten
0,22.0,7.2500,10
1,38.0,71.2833,10
2,26.0,7.9250,10
3,35.0,53.1000,10
4,35.0,8.0500,10
...,...,...,...
886,27.0,13.0000,10
887,19.0,30.0000,10
888,,23.4500,10
889,26.0,30.0000,10


In [178]:
# 데이터프레임의 모든 원소에 +10 하기
# 사용자 함수 정의


df.apply(add_ten)

Unnamed: 0,age,fare,ten
0,32.0,17.2500,20
1,48.0,81.2833,20
2,36.0,17.9250,20
3,45.0,63.1000,20
4,45.0,18.0500,20
...,...,...,...
886,37.0,23.0000,20
887,29.0,40.0000,20
888,,33.4500,20
889,36.0,40.0000,20


## 시리즈 객체에 함수 매핑

### 데이터프레임의 각 열에 함수 매핑

<b>`데이터프레임객체.apply(매핑 함수, axis=0)`</b>

**axis=0**이면 행이 아닌 **열!**
**axis=1**이면 열이 아닌 **행!**

- 데이터프레임에 apply(axis=0) 메소드를 적용하면 <u>모든 열을 하나씩 분리하여 매핑 함수의 인자로 각 열(시리즈)이 전달</u>된다.
- 매핑 함수에 따라 <u>반환되는 객체의 종류가 다르다.</u>

In [191]:
# {'국어':[51, 65, 78], '수학':[80, 90, 100]}, index=['홍길동', '사오정', '저팔계']을 이용하여 데이터프레임 객체 df1를 생성

df1 = pd.DataFrame({'국어':[51, 65, 78], '수학':[80, 90, 100]}, index=['홍길동', '사오정', '저팔계'])
df1

Unnamed: 0,국어,수학
홍길동,51,80
사오정,65,90
저팔계,78,100


In [192]:
# 사용자 정의함수 pow정의

def pow(x):
    return x**2

In [193]:
# df의 각열 시리즈가 함수의 매개변수로 전달된다.
# df.국어 열이 처음 매개변수로 전달됨 : 국어열의 모든 원소를 제곱하고 그열을 리턴
# df.수학 열이 두번째 매개변수로 전달됨 : 수학열의 모든 원소를 제곱하고 그열을 리턴
# 리턴받은 시리즈 두개을 하나의 데이터프레임으로 완성하여 리턴

df1.apply(pow, axis=1)

Unnamed: 0,국어,수학
홍길동,2601,6400
사오정,4225,8100
저팔계,6084,10000


In [194]:
df1.apply(pow, axis=0)

Unnamed: 0,국어,수학
홍길동,2601,6400
사오정,4225,8100
저팔계,6084,10000


In [195]:
#기본값은 axis=0 열의 곱이다.
df1.apply(pow)

Unnamed: 0,국어,수학
홍길동,2601,6400
사오정,4225,8100
저팔계,6084,10000


* seaborn의 'titanic'데이터셋을 이용하여 데이터프레임에 apply()함수를 적용해본다.

In [201]:
# df확인
df

Unnamed: 0,age,fare,ten
0,22.0,7.2500,10
1,38.0,71.2833,10
2,26.0,7.9250,10
3,35.0,53.1000,10
4,35.0,8.0500,10
...,...,...,...
886,27.0,13.0000,10
887,19.0,30.0000,10
888,,23.4500,10
889,26.0,30.0000,10


- <u>시리즈를 입력받고 시리즈를 반환하는 함수를 매핑</u>하면, <u>데이터프레임을 반환</u>한다.
    - 데이터프레임의 열을 매핑 함수에 전달하면 각 열의 리턴값은 시리즈 형태로 반환다. 
    - 그리고 이들 반환된 시리즈가 하나의 데이터프레임으로 통합되는 과정을 거친다.

In [202]:
# 시리즈를 입력받고 시리즈를 반환하는 사용자 함수 정의

def missing_value(x):
    return x.isnull()

In [203]:
#  df.age 열이 처음 매개변수로 전달되고 그결과 시리즈를 리턴
# df.fare 열이 두번째 매개변수로 전달되고 그결과 시리즈를 리턴
# 리턴된 결과시리즈들을 하나의 데이터프레임으로 통합한다.

# 데이터프레임df에 apply 메소드를 적용
df.apply(missing_value, axis=0)

Unnamed: 0,age,fare,ten
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
886,False,False,False
887,False,False,False
888,True,False,False
889,False,False,False


- <u>시리즈를 입력받아서 하나의 값을 반환하는 함수를 매핑</u>하면, <u>시리즈를 반환</u>한다.
    - 데이터프레임의 각 열을 매핑 함수에 전달하면 각 열의 리턴값은 하나의 값으로 반환된다.
    - 이들 반환된 값들이 하나의 시리즈로 통합되는 과정을 거친다.

In [208]:
# 시리즈를 입력받고 하나의 값을 반환하는 사용자 함수 정의

def min_max(s):
    return s.max() - s.min()

In [209]:
# df.age열이 처음 매개변수로 전달되고 결과값으로 숫자가 리턴
# df.fare여리 두번째 매개변수로 전달되고 결과값으로 숫자가 리턴
# 리턴된 두개의 숫자를 시리즈로 구성하여 반환

# 열별로!!!

df.apply(min_max, axis=0)

age      79.5800
fare    512.3292
ten       0.0000
dtype: float64

In [210]:
# df확인

df

Unnamed: 0,age,fare,ten
0,22.0,7.2500,10
1,38.0,71.2833,10
2,26.0,7.9250,10
3,35.0,53.1000,10
4,35.0,8.0500,10
...,...,...,...
886,27.0,13.0000,10
887,19.0,30.0000,10
888,,23.4500,10
889,26.0,30.0000,10


In [211]:
# df의 0행이 처음 매개변수로 전달되고 결과값으로 숫자가 리턴
# df의 1행이 두번째 매개변수로 전달되고 결과값으로 숫자가 리턴
# ...
# df의 마지막행이 매개변수로 전달되고 결과값으로 숫자가 리터
# 리턴된 두개의 숫자를 시리즈로 구성하여 반환

# 행별로!!

df.apply(min_max, axis=1)

0      14.7500
1      61.2833
2      18.0750
3      43.1000
4      26.9500
        ...   
886    17.0000
887    20.0000
888    13.4500
889    20.0000
890    24.2500
Length: 891, dtype: float64

### 데이터프레임의 각 행에 함수 매핑

<b>`데이터프레임객체.apply(매핑 함수, axis=1)`</b>

- 데이터프레임 객체에 apply(axis=1) 메소드를 적용하면 <u>데이터프레임의 각 행을 매핑 함수의 인자</u>로 전달한다.
- <u>매핑 함수의 결과로 주로 시리즈가 반환</u>된다.
    - 기존 데이터프레임의 행 인덱스가 매핑 결과로 반환되는 시리즈의 인덱스가 된다.
    - 반환되는 시리즈의 인덱스에 매칭되는 데이터 값에는 각 행의 데이터를 함수에 적용한 리턴값을 가져온다

* seaborn의 'titanic'데이터셋을 이용하여 데이터프레임의 각 행에 apply()함수를 적용해본다.

In [234]:
# df확인

df

Unnamed: 0,age,fare,ten
0,22.0,7.2500,10
1,38.0,71.2833,10
2,26.0,7.9250,10
3,35.0,53.1000,10
4,35.0,8.0500,10
...,...,...,...
886,27.0,13.0000,10
887,19.0,30.0000,10
888,,23.4500,10
889,26.0,30.0000,10


In [213]:
# 사용자 함수 정의

def add_custom(x, a):
    return x + a

In [214]:
# df의 0번째 행이 람다함수의 매개변수로 전달되고 그 결과값을 숫자로 리턴
# df의 1번째 행이 람다함수의 매개변수로 전달되고 그 결과값을 숫자로 리턴
# df의 마지막 행이 람다함수의 매개변수로 전달되고 그 결과값을 숫자로 리턴
# 리턴된 결과들을 모아 시리즈로 만들어 반환

df.apply( lambda x: add_custom(x["age"],x["ten"]), axis=1 )

0      32.0
1      48.0
2      36.0
3      45.0
4      45.0
       ... 
886    37.0
887    29.0
888     NaN
889    36.0
890    42.0
Length: 891, dtype: float64

In [219]:
# df2생성: titanic의 age와 sex

df2 = titanic[["age","sex"]]
df2

Unnamed: 0,age,sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male
...,...,...
886,27.0,male
887,19.0,female
888,,female
889,26.0,male


In [227]:
# 사용자 정의함수(to_message)

def to_messages(r):
    #age
    age = r["age"]
    if age>=60: a="노인"
    elif age>=40: a="중년"
    elif age>=20: a="청년"
    elif age>=10: a="10대"
    elif age>=1: a="어린이"
    else: a="나이모름"
    
    #sex
    sex = r["sex"]
    if sex=="male": b="남자"
    elif sex=="female": b="여자"
    else: b="성별모르는"
        
    return b +" "+ a

In [228]:
# '특징 '열을 새로 만들고 df2에 to_message함수를 매핑한 결과값을 대입

df2["특징"] = df2.apply(to_messages, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2["특징"] = df2.apply(to_messages, axis=1)


In [229]:
# df2확인

df2

Unnamed: 0,age,sex,특징
0,22.0,male,남자 청년
1,38.0,female,여자 청년
2,26.0,female,여자 청년
3,35.0,female,여자 청년
4,35.0,male,남자 청년
...,...,...,...
886,27.0,male,남자 청년
887,19.0,female,여자 10대
888,,female,여자 나이모름
889,26.0,male,남자 청년


* seaborn의 'titanic'데이터셋이 컬럼별 누락값 비율과 행별 누락값 비율을 apply()메소들 이용해 확인해본다.

In [235]:
# 데이터프레임 titanic 의 요약정보 확인

titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [236]:
# 시리즈를 매개변수로 받아 그 시리즈의 NaN개수를 리턴하는 함수 정의

def count_missing(s):
    return s.isnull().sum()

In [238]:
# titanic에 함수매핑

titanic.apply(count_missing)

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

In [239]:
# 시리즈를 매개변수로 받아 NaN의 비율(시리즈의 NaN개수 / 시리즈전체원소개수 )을 리턴하는 함수 정의

def prop_missing(s):
    return count_missing(s)/len(s)

In [240]:
# titanic에 적용

titanic.apply(prop_missing)

survived       0.000000
pclass         0.000000
sex            0.000000
age            0.198653
sibsp          0.000000
parch          0.000000
fare           0.000000
embarked       0.002245
class          0.000000
who            0.000000
adult_male     0.000000
deck           0.772166
embark_town    0.002245
alive          0.000000
alone          0.000000
dtype: float64

In [241]:
# 시리즈를 매개변수로 받아 시리즈의 유효한 데이터 비율(1-시리즈의 NaN비율)을 리턴하는 함수 정의

def prop_valid(s):
    return 1-prop_missing(s)

In [242]:
# titanic에 적용

titanic.apply(prop_valid)

survived       1.000000
pclass         1.000000
sex            1.000000
age            0.801347
sibsp          1.000000
parch          1.000000
fare           1.000000
embarked       0.997755
class          1.000000
who            1.000000
adult_male     1.000000
deck           0.227834
embark_town    0.997755
alive          1.000000
alone          1.000000
dtype: float64

**```🪐 행 기준으로 조회해보기```**

In [248]:
#타이타닉 조회

titanic.head(3)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


In [251]:
# 위에 정의한 count_missing함수들을 titanic의 행에 적용

titanic.apply(count_missing, axis=1).head(3)

0    1
1    0
2    1
dtype: int64

In [250]:
# 위에 정의한 prop_missing함수들을 titanic의 행에 적용

titanic.apply(prop_missing, axis=1).head(3)

0    0.066667
1    0.000000
2    0.066667
dtype: float64

In [249]:
# 위에 정의한 prop_valid함수들을 titanic의 행에 적용

titanic.apply(prop_valid, axis=1).head(3)

0    0.933333
1    1.000000
2    0.933333
dtype: float64

## 데이터프레임 객체에 함수 매핑

DataFrame객체.pipe(매핑 함수)

- 데이터프레임 객체를 함수에 매핑하려면 pipe() 메소드를 활용한다.
- 이때 사용하는 함수가 반환하는 리턴값에 따라 pipe() 메소드가 반환하는 객체의 종류가 결정된다.
- 데이터프레임을 반환하는 경우, 시리즈를 반환하는 경우, 개별 값을 반환하는 경우가 있다.

In [253]:
df3 =titanic.loc[:,["age","fare"]]
df3

Unnamed: 0,age,fare
0,22.0,7.2500
1,38.0,71.2833
2,26.0,7.9250
3,35.0,53.1000
4,35.0,8.0500
...,...,...
886,27.0,13.0000
887,19.0,30.0000
888,,23.4500
889,26.0,30.0000


In [258]:
# 각 열의 NaN 찾기 - 데이터프레임을 전달하면 데이터프레임 반환

def missing_value(df):
    return df.isnull()

In [260]:
# 데이터프레임에 함수 매핑

df3.apply(missing_value) # => 2번 수행
df3.apply(missing_value, axis=1) #=> 891번 수행

Unnamed: 0,age,fare
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
...,...,...
886,False,False
887,False,False
888,True,False
889,False,False


In [261]:
# 각 열의 NaN 개수 반환 - 데이터프레임을 전달하면 시리즈 반환

def missing_count(df):
    return missing_value(df).sum()

In [263]:
df3.pipe(missing_count) #통째로 1번수행

age     177
fare      0
dtype: int64

In [270]:
# 데이터프레임의 총 NaN 개수 - 데이터프레임을 전달하면 값 반환

def total_number_missing(df):
    return missing_count(df).sum()

In [271]:
df3.pipe(total_number_missing)

177

In [273]:
df3.apply(total_number_missing)

age     177
fare      0
dtype: int64

* **`applymap`** : 각각 원소만큼 수행시도
* **`apply( )`** ( = apply(axis=0) ) : column 수만큼 수행시도
* **`apply( axis= 1)`** : row 수만큼 수행시도
* **`pipe( )`** : 통쨰로 1번 수행시도