In [1]:
import numpy as np # NumPy
import pandas as pd # Pandas

# IPython( jupyter notebook ) 디스플레이 설정 변경
# 출력할 열의 개수 한도 설정
pd.set_option( 'display.max_columns', 20 )
# 출력할 열의 너비 설정
pd.set_option( 'display.max_colwidth', 20 )
# 유니코드 사용 너비 조정
pd.set_option( 'display.unicode.east_asian_width', True )

# 경고( warnings ) 메시지 출력 방지
import warnings
warnings.filterwarnings( 'ignore' )

In [3]:
titanic_df = pd.read_csv('data/titanic.csv')
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen...",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. Jo...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss....",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. J...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. Willi...",male,35.0,0,0,373450,8.05,,S


# 함수 매핑(function mapping)
## 개별 원소에 함수 매핑
### 시리즈 객체의 원소에 함수 매핑

In [4]:
df = titanic_df.loc[:, ['Age','Fare']]
df['ten'] = 10
df.head()

Unnamed: 0,Age,Fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [5]:
# 함수 매핑에 사용할 사용자 정의 함수
def add_10(x):
    return x + 10

def add_two_obj(x,y):
    return x+y

In [6]:
# 'Age' 변수에 add_10() 함수 매핑
#       - return -> add_10() 리턴값을 각 원소에 적용
sr1 = df['Age'].apply(add_10)
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: Age, dtype: float64

In [8]:
# 'Age' 변수에 add_two_obj() 함수와 y인수 매핑
#       - return -> add_two_obj() 리턴값을 각 원소에 적용
sr1 = df['Age'].apply(add_two_obj, y = 20)
sr1.head()

0    42.0
1    58.0
2    46.0
3    55.0
4    55.0
Name: Age, dtype: float64

### 데이터프레임 객체의 원소에 함수 매핑

In [9]:
df_map = df.applymap(add_10)
df_map.head()

Unnamed: 0,Age,Fare,ten
0,32.0,17.25,20
1,48.0,81.2833,20
2,36.0,17.925,20
3,45.0,63.1,20
4,45.0,18.05,20


## 시리즈 객체에 함수 매핑
### 데이터프레임 각 열( 변수, 시리즈 객체 ) 에 함수 매핑

In [10]:
df = titanic_df.loc[:,['Age','Fare']]
df.head()

Unnamed: 0,Age,Fare
0,22.0,7.25
1,38.0,71.2833
2,26.0,7.925
3,35.0,53.1
4,35.0,8.05


In [14]:
# 함수 매핑에 사용할 사용자 정의 함수
def missing_value(series): # 인수 : series 객체
    return series.isnull() # series 객체에 대한 처리 결과

In [12]:
result = df.apply(missing_value)
result.head()

Unnamed: 0,Age,Fare
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False


In [15]:
type(result)

pandas.core.frame.DataFrame

In [16]:
result.sum()

Age     177
Fare      0
dtype: int64

In [17]:
def min_max(x):
    return x.max() - x.min()

In [18]:
result = df.apply(min_max)
result.head()

Age      79.5800
Fare    512.3292
dtype: float64

### 데이터프레임 각 행(데이터)에 함수 매핑

In [19]:
df['ten'] = 10
df.head()

Unnamed: 0,Age,Fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [21]:
df['add'] = df.apply(lambda x : add_two_obj(x['Age'], x['ten']), axis = 1)
df.head()
# add 에 Age + ten

Unnamed: 0,Age,Fare,ten,add
0,22.0,7.25,10,32.0
1,38.0,71.2833,10,48.0
2,26.0,7.925,10,36.0
3,35.0,53.1,10,45.0
4,35.0,8.05,10,45.0
