# 함수 매핑

- 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정
    - 사용자가 직접 만든 함수를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 적용하는 것이 가능

## 개별 원소에 함수 매핑

### 시리즈 원소에 함수 매핑

- 시리즈에 map() 을 적용하면 인자로 전달받는 매핑 함수에 시리즈의 모든 원소를 하나씩 입력하고 리턴값을 받음
    - 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
titanic = sns.load_dataset("titanic")
df = titanic.loc[:, ["age", "fare"]]
df["ten"] = 10

In [4]:
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [5]:
def add_10(n): # 10을 더하는 함수
    return n + 10

In [6]:
sr1 = df["age"].map(add_10)
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [7]:
sr2 = df["age"].map(lambda x: x + 10)
sr2.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

### 데이터프레임 원소에 함수 매핑

- applymap()
    - 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 돌려받음

In [8]:
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [9]:
df_map = df.applymap(lambda x: x + 10)
df_map.head()

Unnamed: 0,age,fare,ten
0,32.0,17.25,20
1,48.0,81.2833,20
2,36.0,17.925,20
3,45.0,63.1,20
4,45.0,18.05,20


### 데이터프레임 객체에 함수 매핑

In [10]:
df.apply(lambda x: x["age"] + x["fare"], axis = 1)

0       29.2500
1      109.2833
2       33.9250
3       88.1000
4       43.0500
         ...   
886     40.0000
887     49.0000
888         NaN
889     56.0000
890     39.7500
Length: 891, dtype: float64

# 열 분리

- 하나의 열이 여러 가지 정보를 담고 있으면 정보를 분리해야함
    - 예) 어떤 열에 연월일 정보가 있을 때, 연, 월, 일을 구분하여 3개의 열로 분리

In [12]:
df = pd.read_excel("./data/주가데이터.xlsx")

In [13]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [14]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object

In [16]:
df["연월일"] = df["연월일"].astype("str") # 문자열 메소드 사용을 위해 자료형 변경

In [17]:
df.dtypes

연월일     object
당일종가     int64
전일종가     int64
시가       int64
고가       int64
저가       int64
거래량      int64
dtype: object

In [19]:
dates = df["연월일"].str.split("-") # 문자열을 split() 메서드로 분리

In [20]:
dates.head()

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object

In [21]:
df["연"] = dates.str.get(0) # dates 변수의 원소 리스트의 0번째 인덱스 값
df["월"] = dates.str.get(1) # dates 변수의 원소 리스트의 1번째 인덱스 값
df["일"] = dates.str.get(2) # dates 변수의 원소 리스트의 2번째 인덱스 값

In [22]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


# 필터링

- 시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출

## 불리언 인덱싱

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불리언 값으로 구성된 시리즈를 반환
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있음

In [23]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [29]:
# age가 10이상이면서 20 미만인 데이터
titanic.loc[(titanic["age"] >= 10) & (titanic["age"] < 20), :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [30]:
titanic.loc[(titanic["age"] < 10) & (titanic["sex"] == "female"), :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


In [32]:
titanic.loc[(titanic["age"] < 10) | (titanic["age"] >= 60), ["age", "sex", "alone"]]

Unnamed: 0,age,sex,alone
7,2.00,male,False
10,4.00,female,False
16,2.00,male,False
24,8.00,female,False
33,66.00,male,True
...,...,...,...
831,0.83,male,False
850,4.00,male,False
851,74.00,male,True
852,9.00,female,False


## isin() 메소드 활용

- 데이터프레임의 열에 isin() 메소드를 적용하면 특정 값을 가진 행들을 추출할 수 있음

In [35]:
titanic[titanic["sibsp"].isin([3, 4, 5])]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
71,0,3,female,16.0,5,2,46.9,S,Third,woman,False,,Southampton,no,False
85,1,3,female,33.0,3,0,15.85,S,Third,woman,False,,Southampton,yes,False
