# 함수 매핑

- 시리즈 또는 데이터프레임의 개별 원소를 특정 함수에 일대일 대응시키는 과정
    - 사용자가 직접 만든 함수를 적용할 수 있기 때문에 판다스 기본 함수로 처리하기 어려운 복잡한 연산을 적용하는 것이 가능

## 개별 원소에 함수 매핑

### 시리즈 원소에 함수 매핑

- 시리즈에 map() 을 적용하면 인자로 전달받는 매핑함수에 시리즈의 모든 원소를 하나씩 입력하고 리턴값을 받음
    - 시리즈 원소의 개수만큼 리턴값을 받아서 같은 크기의 시리즈 객체로 반환

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
titanic = sns.load_dataset("titanic")
df = titanic.loc[:, ["age", "fare"]]
df["ten"] = 10

In [3]:
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [4]:
def add_10(n): # 10을 더하는 함수
    return n + 10

In [5]:
sr1 = df["age"].map(add_10)

In [6]:
sr1.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

In [7]:
sr2 = df["age"].map(lambda x: x + 10)
sr2.head()

0    32.0
1    48.0
2    36.0
3    45.0
4    45.0
Name: age, dtype: float64

### 데이터프레임 원소에 함수 매핑

- applymap()
    - 데이터프레임의 각 원소를 하나씩 넣어서 리턴값으로 돌려받음

In [8]:
df.head()

Unnamed: 0,age,fare,ten
0,22.0,7.25,10
1,38.0,71.2833,10
2,26.0,7.925,10
3,35.0,53.1,10
4,35.0,8.05,10


In [9]:
df_map = df.applymap(lambda x: x + 10)
df_map.head()

Unnamed: 0,age,fare,ten
0,32.0,17.25,20
1,48.0,81.2833,20
2,36.0,17.925,20
3,45.0,63.1,20
4,45.0,18.05,20


### 데이터프레임 객체에 함수 매핑

In [10]:
df.apply(lambda x: x["age"] + x["fare"], axis = 1)

0       29.2500
1      109.2833
2       33.9250
3       88.1000
4       43.0500
         ...   
886     40.0000
887     49.0000
888         NaN
889     56.0000
890     39.7500
Length: 891, dtype: float64

# 열 분리

- 하나의 열이 여러 가지 정보를 담고 있으면 정보를 분리해야함
    - 예 어떤 열에 연월일 정보가 있을 때, 연, 월, 일을 구분하여 3개의 열로 분리

In [11]:
df = pd.read_excel("./data/주가데이터.xlsx")

In [12]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량
0,2018-07-02,10100,600,10850,10900,10000,137977
1,2018-06-29,10700,300,10550,10900,9990,170253
2,2018-06-28,10400,500,10900,10950,10150,155769
3,2018-06-27,10900,100,10800,11050,10500,133548
4,2018-06-26,10800,350,10900,11000,10700,63039


In [13]:
df.dtypes

연월일     datetime64[ns]
당일종가             int64
전일종가             int64
시가               int64
고가               int64
저가               int64
거래량              int64
dtype: object

In [14]:
df["연월일"] = df["연월일"].astype("str") # 문자열 메소드 사용을 위해 자료형 변경

In [15]:
df.dtypes

연월일     object
당일종가     int64
전일종가     int64
시가       int64
고가       int64
저가       int64
거래량      int64
dtype: object

In [16]:
dates = df["연월일"].str.split("-") # 문자열을 split() 메서드로 분리

In [17]:
dates.head()

0    [2018, 07, 02]
1    [2018, 06, 29]
2    [2018, 06, 28]
3    [2018, 06, 27]
4    [2018, 06, 26]
Name: 연월일, dtype: object

In [18]:
df["연"] = dates.str.get(0) # dates 변수의 원소 리스트의 0번째 인덱스 값
df["월"] = dates.str.get(1) # dates 변수의 원소 리스트의 1번째 인덱스 값
df["일"] = dates.str.get(2) # dates 변수의 원소 리스트의 2번째 인덱스 값

In [19]:
df.head()

Unnamed: 0,연월일,당일종가,전일종가,시가,고가,저가,거래량,연,월,일
0,2018-07-02,10100,600,10850,10900,10000,137977,2018,7,2
1,2018-06-29,10700,300,10550,10900,9990,170253,2018,6,29
2,2018-06-28,10400,500,10900,10950,10150,155769,2018,6,28
3,2018-06-27,10900,100,10800,11050,10500,133548,2018,6,27
4,2018-06-26,10800,350,10900,11000,10700,63039,2018,6,26


# 필터링

- 시리즈 또는 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출

## 불리언 인덱싱

- 시리즈 객체에 어떤 조건식을 적용하면 각 원소에 대해 참/거짓을 판별하여 불리언 값으로 구성된 시리즈를 반환
- 이때 참에 해당하는 데이터 값을 따로 선택할 수 있음

In [20]:
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [21]:
# age가 10 이상이면서 20미만인 행들을 추출
titanic.loc[(titanic["age"] >= 10) & (titanic["age"] < 20), :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
22,1,3,female,15.0,0,0,8.0292,Q,Third,child,False,,Queenstown,yes,True
27,0,1,male,19.0,3,2,263.0000,S,First,man,True,C,Southampton,no,False
38,0,3,female,18.0,2,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
853,1,1,female,16.0,0,1,39.4000,S,First,woman,False,D,Southampton,yes,False
855,1,3,female,18.0,0,1,9.3500,S,Third,woman,False,,Southampton,yes,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
877,0,3,male,19.0,0,0,7.8958,S,Third,man,True,,Southampton,no,True


In [22]:
titanic.loc[(titanic["age"] < 10) & (titanic["sex"] == "female"), :]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
43,1,2,female,3.0,1,2,41.5792,C,Second,child,False,,Cherbourg,yes,False
58,1,2,female,5.0,1,2,27.75,S,Second,child,False,,Southampton,yes,False
119,0,3,female,2.0,4,2,31.275,S,Third,child,False,,Southampton,no,False
147,0,3,female,9.0,2,2,34.375,S,Third,child,False,,Southampton,no,False
172,1,3,female,1.0,1,1,11.1333,S,Third,child,False,,Southampton,yes,False
184,1,3,female,4.0,0,2,22.025,S,Third,child,False,,Southampton,yes,False
205,0,3,female,2.0,0,1,10.4625,S,Third,child,False,G,Southampton,no,False
233,1,3,female,5.0,4,2,31.3875,S,Third,child,False,,Southampton,yes,False


In [23]:
titanic.loc[(titanic["age"]) < 10 | (titanic["age"] >= 60), ["age", "sex", "alone"]]

Unnamed: 0,age,sex,alone
78,0.83,male,False
305,0.92,male,False
469,0.75,female,False
644,0.75,female,False
755,0.67,male,False
803,0.42,male,False
831,0.83,male,False


## isin() 메소드 활용

- 데이터프레임의 열에 isin() 메소드를 적용하면 특정 값을 가진 행들을 추출할 수 있음

In [24]:
titanic[titanic["sibsp"].isin([3, 4, 5])]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
16,0,3,male,2.0,4,1,29.125,Q,Third,child,False,,Queenstown,no,False
24,0,3,female,8.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
27,0,1,male,19.0,3,2,263.0,S,First,man,True,C,Southampton,no,False
50,0,3,male,7.0,4,1,39.6875,S,Third,child,False,,Southampton,no,False
59,0,3,male,11.0,5,2,46.9,S,Third,child,False,,Southampton,no,False
63,0,3,male,4.0,3,2,27.9,S,Third,child,False,,Southampton,no,False
68,1,3,female,17.0,4,2,7.925,S,Third,woman,False,,Southampton,yes,False
71,0,3,female,16.0,5,2,46.9,S,Third,woman,False,,Southampton,no,False
85,1,3,female,33.0,3,0,15.85,S,Third,woman,False,,Southampton,yes,False


# 데이터프레임 합치기

## 데이터프레임 연결

- 서로 다른 데이터프레임들의 구성 형태와 속성이 균일하다면 데이터프레임을 이어 붙여도 데이터의 일관성을 유지할 수 있음
- 기존 데이터프레임의 형태를 유지하면서 이어 붙일때는 concat() 함수를 활용

In [25]:
# 데이터연결
df1 = pd.DataFrame({"a" : ["a0", "a1", "a2", "a3"],
                    "b" : ["b0", "b1", "b2", "b3"],
                    "c" : ["c0", "c1", "c2", "c3"]},
                  index = [0, 1, 2, 3])

df2 = pd.DataFrame({"a" : ["a2", "a3", "a4", "a5"],
                    "b" : ["b2", "b3", "b4", "b5"],
                    "c" : ["c2", "c3", "c4", "c5"]},
                  index = [2, 3, 4, 5])

In [27]:
# 2개의 데이터 프레임을 위 아래 행 방향으로 연결
result1 = pd.concat([df1, df2], axis = 0)
result1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


In [28]:
# 기존 행 인덱스를 무시하고 새로운 행 인덱스를 설정
result2 = pd.concat([df1, df2], ignore_index = True)
result2

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
4,a2,b2,c2
5,a3,b3,c3
6,a4,b4,c4
7,a5,b5,c5


In [29]:
# 좌우 열 방향으로 정렬
result3 = pd.concat([df1, df2], axis = 1)
result3

Unnamed: 0,a,b,c,a.1,b.1,c.1
0,a0,b0,c0,,,
1,a1,b1,c1,,,
2,a2,b2,c2,a2,b2,c2
3,a3,b3,c3,a3,b3,c3
4,,,,a4,b4,c4
5,,,,a5,b5,c5


In [30]:
# 연결할 데이터프레임의 교집합을 기준으로 연결
result3_in = pd.concat([df1, df2], axis = 1, join = "inner")
result3_in

Unnamed: 0,a,b,c,a.1,b.1,c.1
2,a2,b2,c2,a2,b2,c2
3,a3,b3,c3,a3,b3,c3


In [31]:
sr1 = pd.Series(["e0", "e1", "e2", "e3"], name = "e")
sr2 = pd.Series(["f0", "f1", "f2"], name = "f", index = [3, 4, 5])
sr3 = pd.Series(["g0", "g1", "g2", "g3"], name = "g")

In [32]:
# df1과 sr1을 좌우 열 방향으로 연결하기
result4 = pd.concat([df1, sr1], axis = 1)

In [33]:
result4

Unnamed: 0,a,b,c,e
0,a0,b0,c0,e0
1,a1,b1,c1,e1
2,a2,b2,c2,e2
3,a3,b3,c3,e3


In [34]:
result5 = pd.concat([df2, sr2], axis = 1)
result5

Unnamed: 0,a,b,c,f
2,a2,b2,c2,
3,a3,b3,c3,f0
4,a4,b4,c4,f1
5,a5,b5,c5,f2


In [35]:
# sr1과 sr3를 연결
sr1

0    e0
1    e1
2    e2
3    e3
Name: e, dtype: object

In [36]:
sr3

0    g0
1    g1
2    g2
3    g3
Name: g, dtype: object

In [38]:
result6 = pd.concat([sr1, sr3], axis = 1)
result6

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


In [39]:
result7 = pd.concat([sr1, sr3], axis = 0)
result7

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object

## 데이터프레임 병합

- merge()
    - SQL 의 join 명령어와 비슷한 방식으로 어떤 기준에 의해 두 데이터프레임을 병합하는 개념
        - 병합의 기준이 되는 열이나 인덱스를 키(key)라고 부름
        - 키가 되는 열이나 인덱스는 반드시 양쪽 데이터프레임에 모두 존재해야함

In [40]:
df1 = pd.read_excel("./data/stock price.xlsx")
df2 = pd.read_excel("./data/stock valuation.xlsx")

In [41]:
df1.head()

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200


In [42]:
df2.head()

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627


In [43]:
# 데이터프레임 합치기 - 교집합
# on = None : 두 데이터프레임에 공통으로 속하는 모든 열을 기준으로 병합
# how = "inner" : 기준이 되는 열의 데이터가 양쪽 데이터프레임에 공통으로 존재하는 교집합일 경우에만 추출
merge_inner = pd.merge(df1, df2, on = None, how = "inner")
merge_inner

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


In [44]:
# 데이터프레임 합치기 - 합집합
# on = "id" : id 열을 키로 병합
# how = "outer" : 기준이 되는 id 열의 데이터가 어느 한쪽에만 속하더라도 포함
merge_outer = pd.merge(df1, df2, how = "outer", on = "id")
merge_outer

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200.0,,,,,
5,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
8,199800,툴젠,-2514.333333,115400.0,,,,,
9,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [45]:
merge_left = pd.merge(df1, df2, how = "left", left_on = "stock_name", right_on = "name")
merge_left

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


In [46]:
merge_right = pd.merge(df1, df2, how = "right", left_on = "stock_name", right_on = "name")
merge_right

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,,,,,136480,하림,274.166667,3551,11.489362,0.887074
2,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
5,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


## 데이터프레임 결합

- join()
    - merge() 함수를 기반으로 만들어져 기본 작동 방식이 비슷하지만 두 데이터프레임의 행 인덱스를 기준으로 결합하는 점이 차이점

In [47]:
df1 = df1.set_index("id")
df1.head()

Unnamed: 0_level_0,stock_name,value,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
128940,한미약품,59385.666667,421000
130960,CJ E&M,58540.666667,98900
138250,엔에스쇼핑,14558.666667,13200
139480,이마트,239230.833333,254500
142280,녹십자엠에스,468.833333,10200


In [48]:
df2 = df2.set_index("id")
df2.head()

Unnamed: 0_level_0,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
130960,CJ E&M,6301.333333,54068,15.695091,1.829178
136480,하림,274.166667,3551,11.489362,0.887074
138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
139480,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,5741.0,108090,14.283226,0.758627


In [49]:
df3 = df1.join(df2)
df3.head()

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,


In [50]:
df4 = df1.join(df2, how = "inner")
df4.head()

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 그룹 연산

- 데이터를 특정 기준에 따라 몇 개의 그룹으로 분할하여 처리하는 것
- 데이터를 집계, 변환, 필터링 하는데 효율적

- groupby()
    - groupby() 메소드의 처리 과정
        1. 분할 : 데이터를 특정 조건에 의해 분할
        2. 적용 : 데이터를 집계, 변환, 필터링 하는데 필요한 메소드 적용
        3. 결합 : 2단계의 처리 결과를 하나로 결합

## 그룹 객체 만들기

### 1개 열을 기준으로 그룹화

In [53]:
df = titanic.loc[:, ["age", "sex", "class", "fare", "survived"]]
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [54]:
# class 열을 기준으로 분할
grouped = df.groupby(["class"])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B4F1DCFC50>

In [55]:
# 그룹 객체를 iteration으로 출력
for key, group in grouped:
    print("* key :", key)
    print("* number :", len(group))
    print(group.head())
    print()

* key : ('First',)
* number : 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1

* key : ('Second',)
* number : 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1

* key : ('Third',)
* number : 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0



In [56]:
# 연산 메소드 적용
average = grouped.mean(numeric_only = True)
average

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


In [57]:
# 개별 그룹 선택하기
group3 = grouped.get_group("Third")
group3.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
2,26.0,female,Third,7.925,1
4,35.0,male,Third,8.05,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.075,0


### 여러 열을 기준으로 그룹화

In [58]:
# class열, sex 열을 기준으로 분할
grouped_two = df.groupby(["class", "sex"])

In [60]:
# grouped_two 그룹 객체를 iteration으로 출력
for key, group in grouped_two:
    print("* key :", key)
    print("* number :", len(group))
    print(group.head())
    print()

* key : ('First', 'female')
* number : 94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1

* key : ('First', 'male')
* number : 122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0

* key : ('Second', 'female')
* number : 76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1

* key : ('Second', 'male')
* number : 108
     age   sex   class  fare  survived
17   NaN  

In [61]:
# grouped_two 그룹 객체에 연산 메소드 적용
average_two = grouped_two.mean()
average_two

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [63]:
# grouped_two 그룹 객체에서 개별 그룹 선택하기
group3f = grouped_two.get_group(("Third", "female"))
group3f.head()

Unnamed: 0,age,sex,class,fare,survived
2,26.0,female,Third,7.925,1
8,27.0,female,Third,11.1333,1
10,4.0,female,Third,16.7,1
14,14.0,female,Third,7.8542,0
18,31.0,female,Third,18.0,0


## 그룹 연산 메소드

### 데이터 집계

- 그룹 객체에 다양한 연산을 적용하는 과정
- 집계 기능을 내장하고 있는 판다스 기본 함수
    - mean()
    - max()
    - min()
    - sum()
    - count()
    - size()
    - var()
    - std()
    - describe()
    - info()
    - first()
    - last()

In [64]:
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [65]:
grouped = df.groupby(["class"])

In [66]:
# 각 그룹에 대한 모든 열의 표준편차를 집계하여 데이터프레임으로 반환
std_all = grouped.std(numeric_only = True)
std_all

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,14.802856,78.380373,0.484026
Second,14.001077,13.417399,0.500623
Third,12.495398,11.778142,0.428949


In [67]:
# 각 그룹에 대한 fare열의 표준편차를 집계하여 시리즈로 반환
std_fare = grouped["fare"].std()
std_fare

class
First     78.380373
Second    13.417399
Third     11.778142
Name: fare, dtype: float64

In [68]:
# 그룹 객체에 agg() 메소드 적용 - 사용자 정의 함수를 인수로 전달
def min_max(x): # 최대값 - 최솟값
    return x.max() - x.min()

- 집계 연산을 처리하는 사용자 정의 함수를 그룹 객체에 적용하기 위해서는 agg() 메서드를 사용

In [69]:
# 각 그룹의 최댓값과 최솟값의 차이를 계산하여 그룹별로 집계
agg_minmax = grouped[["age", "fare", "survived"]].agg(min_max)
agg_minmax

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,79.08,512.3292,1
Second,69.33,73.5,1
Third,73.58,69.55,1


- 동시에 여러 개의 함수를 사용하여 각 그룹별 데이터에 대한 집계 연산을 처리
    - 각각의 열에 여러 개의 함수를 일괄 적용할 때는 리스트 형태로 인수를 전달
    - 열마다 다른 종류의 함수를 전달하려면 {열 : 함수} 형태의 딕셔너리를 전달

In [70]:
# 여러 함수를 각 열에 동일하게 적용하여 집계
agg_all = grouped.agg(["min", "max"])
agg_all

Unnamed: 0_level_0,age,age,sex,sex,fare,fare,survived,survived
Unnamed: 0_level_1,min,max,min,max,min,max,min,max
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
First,0.92,80.0,female,male,0.0,512.3292,0,1
Second,0.67,70.0,female,male,0.0,73.5,0,1
Third,0.42,74.0,female,male,0.0,69.55,0,1


In [71]:
# 각 열마다 다름 함수를 적용하여 집계
agg_sep = grouped.agg({"fare" : ["min", "max"], "age" : "mean"})
agg_sep

Unnamed: 0_level_0,fare,fare,age
Unnamed: 0_level_1,min,max,mean
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
First,0.0,512.3292,38.233441
Second,0.0,73.5,29.87763
Third,0.0,69.55,25.14062


### 그룹 객체 필터링

- 그룹 객체에 filter() 메소드를 적용할 때 조건식을 가진 함수를 전달하여 조건이 참인 그룹만을 필터링

In [72]:
# 데이터 개수가 200개 이상인 그룹만을 필터링하여 데이터프레임으로 변환
grouped_filter = grouped.filter(lambda x: len(x) >= 200)

In [73]:
grouped_filter

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.2500,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.9250,1
3,35.0,female,First,53.1000,1
4,35.0,male,Third,8.0500,0
...,...,...,...,...,...
885,39.0,female,Third,29.1250,0
887,19.0,female,First,30.0000,1
888,,female,Third,23.4500,0
889,26.0,male,First,30.0000,1


In [75]:
# second 클래스가 삭제되었음
grouped.count()

Unnamed: 0_level_0,age,sex,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,186,216,216,216
Second,173,184,184,184
Third,355,491,491,491


In [76]:
# age 열의 평균이 30보다 작은 그룹만을 필터링하여 데이터프레임으로 반환
age_filter = grouped.filter(lambda x: x["age"].mean() < 30)

In [77]:
age_filter

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.2500,0
2,26.0,female,Third,7.9250,1
4,35.0,male,Third,8.0500,0
5,,male,Third,8.4583,0
7,2.0,male,Third,21.0750,0
...,...,...,...,...,...
884,25.0,male,Third,7.0500,0
885,39.0,female,Third,29.1250,0
886,27.0,male,Second,13.0000,0
888,,female,Third,23.4500,0


In [78]:
grouped["age"].mean()

class
First     38.233441
Second    29.877630
Third     25.140620
Name: age, dtype: float64

### 그룹 객체에 함수 매핑

- apply() 메소드는 판다스 객체의 개별 원소를 특정 함수에 일대일로 매핑

In [79]:
agg_grouped = grouped.apply(lambda x: x.describe())
agg_grouped

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,count,186.0,216.0,216.0
First,mean,38.233441,84.154687,0.62963
First,std,14.802856,78.380373,0.484026
First,min,0.92,0.0,0.0
First,25%,27.0,30.92395,0.0
First,50%,37.0,60.2875,1.0
First,75%,49.0,93.5,1.0
First,max,80.0,512.3292,1.0
Second,count,173.0,184.0,184.0
Second,mean,29.87763,20.662183,0.472826


In [80]:
# 표준점수를 계산하는 사용자 함수 정의
def z_score(x):
    return(x - x.mean()) / x.std()

In [81]:
age_zscore = grouped["age"].apply(z_score)
age_zscore

class     
First  1     -0.015770
       3     -0.218434
       6      1.065103
       11     1.335321
       23    -0.691315
                ...   
Third  882   -0.251342
       884   -0.011254
       885    1.109159
       888         NaN
       890    0.548953
Name: age, Length: 891, dtype: float64

# 멀티 인덱스
- 행 인덱스를 여러 레벨로 구현하는 것

In [83]:
# class 열, sex열을 기준으로 분할
grouped = df.groupby(["class", "sex"])

In [84]:
# 그룹 객체에 연산 메서드 적용
gdf = grouped.mean()
gdf

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


In [85]:
gdf.index

MultiIndex([( 'First', 'female'),
            ( 'First',   'male'),
            ('Second', 'female'),
            ('Second',   'male'),
            ( 'Third', 'female'),
            ( 'Third',   'male')],
           names=['class', 'sex'])

In [86]:
# class 값이 First 인 행을 선택하여 출력
gdf.loc["First"]

Unnamed: 0_level_0,age,fare,survived
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,34.611765,106.125798,0.968085
male,41.281386,67.226127,0.368852


In [87]:
# class 값이 First이고, sex 값이 female 인 행을 선택하여 출력
gdf.loc[("First", "female")]

age          34.611765
fare        106.125798
survived      0.968085
Name: (First, female), dtype: float64

In [90]:
# sex 값이 male 인 행을 선택하여 출력
gdf.xs("male", level = "sex")

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,41.281386,67.226127,0.368852
Second,30.740707,19.741782,0.157407
Third,26.507589,12.661633,0.135447


# 피벗

- pivot_table()
- 엑셀에서 사용하는 피벗테이블과 비슷한 기능
    - 커다란 표의 데이터를 요악하는 통게표

In [91]:
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


In [93]:
# 행, 열, 값, 집계에 사용할 열을 1개씩 지정 - 평균 집계
pdf1 = pd.pivot_table(df, # 피벗할 데이터프레임
                     index = "class", # 행 위치에 들어갈 열
                     columns = "sex", # 열 위치에 들어갈 열
                     values = "age", # 데이터로 사용할 열
                     aggfunc = "mean") # 데이터 집계 함수
pdf1

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,34.611765,41.281386
Second,28.722973,30.740707
Third,21.75,26.507589


In [95]:
# 값에 적용하는 집계함수를 2개 이상 지정 가능 - 생존율, 생존자 수 집계
pdf2 = pd.pivot_table(df,
                     index = "class",
                     columns = "sex",
                     values = "survived",
                     aggfunc = ["mean", "sum"])
pdf2

Unnamed: 0_level_0,mean,mean,sum,sum
sex,female,male,female,male
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
First,0.968085,0.368852,91,45
Second,0.921053,0.157407,70,17
Third,0.5,0.135447,72,47


In [96]:
# 행, 열, 값에 사용할 열을 2개 이상 지정 가능 - 평균 나이, 최대 요금 집계
pdf3 = pd.pivot_table(df,
                     index = ["class", "sex"],
                     columns = "survived",
                     values = ["age", "fare"],
                     aggfunc = ["mean", "max"])
pdf3

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,mean,mean,max,max,max,max
Unnamed: 0_level_1,Unnamed: 1_level_1,age,age,fare,fare,age,age,fare,fare
Unnamed: 0_level_2,survived,0,1,0,1,0,1,0,1
class,sex,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
First,female,25.666667,34.939024,110.604167,105.978159,50.0,63.0,151.55,512.3292
First,male,44.581967,36.248,62.89491,74.63732,71.0,80.0,263.0,512.3292
Second,female,36.0,28.080882,18.25,22.288989,57.0,55.0,26.0,65.0
Second,male,33.369048,16.022,19.488965,21.0951,70.0,62.0,73.5,39.0
Third,female,23.818182,19.329787,19.773093,12.464526,48.0,63.0,69.55,31.3875
Third,male,27.255814,22.274211,12.204469,15.579696,74.0,45.0,69.55,56.4958
