# 예제 6-11 데이터프레임 연결

In [1]:
import pandas as pd

### 데이터프레임 만들기 

In [2]:
df1 = pd.DataFrame({'a': ['a0', 'a1', 'a2', 'a3'],
                   'b': ['b0', 'b1', 'b2', 'b3'],
                   'c': ['c0', 'c1', 'c2', 'c3']},
                  index=[0, 1, 2, 3])
df2 = pd.DataFrame({'a': ['a2', 'a3', 'a4', 'a5'],
                   'b': ['b2', 'b3', 'b4', 'b5'],
                   'c': ['c2', 'c3', 'c4', 'c5'],
                   'd': ['d2', 'd3', 'd4', 'd5']},
                  index=[2, 3, 4, 5])

In [3]:
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [4]:
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


### 2개의 데이터프레임을 위 아래 행 방향으로 이어 붙이듯 연결 

In [6]:
result1 = pd.concat([df1, df2])
result1

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


디폴트는 합집합으로 연결된다.

### ignore_index=True 옵션 설정하기

In [8]:
result2 = pd.concat([df1, df2], ignore_index=True)
result2

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


기존 행 인덱스를 무시하고 새로운 행 인덱스를 설정한다.

### 2개의 데이터프레임을 좌우 열 방향으로 이어 붙이듯 연결 

In [9]:
result3 = pd.concat([df1, df2], axis=1)
result3

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


### join='inner' 옵션 적용하기(교집합) 

In [11]:
result3_in = pd.concat([df1, df2], axis=1, join='inner')
result3_in

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


양쪽에 공통으로 존재하는 2-3행 데이터만 반환한다.

### 시리즈 만들기 

In [12]:
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name='e')
sr2 = pd.Series(['f0', 'f1', 'f2'], name='f', index=[3, 4, 5])
sr3 = pd.Series(['g0', 'g1', 'g2', 'g3'], name='g')

### df1과 sr1을 좌우 열 방향으로 연결하기 

In [13]:
result4 = pd.concat([df1, sr1], axis=1)
result4

Unnamed: 0,a,b,c,e
0,a0,b0,c0,e0
1,a1,b1,c1,e1
2,a2,b2,c2,e2
3,a3,b3,c3,e3


### df2와 sr2을 좌우 열 방향으로 연결하기 

In [14]:
result5 = pd.concat([df2, sr2], axis=1, sort=True)
result5

Unnamed: 0,a,b,c,d,f
2,a2,b2,c2,d2,
3,a3,b3,c3,d3,f0
4,a4,b4,c4,d4,f1
5,a5,b5,c5,d5,f2


### sr1과 sr3을 좌우 열 방향으로 연결하기 

In [15]:
result6 = pd.concat([sr1, sr3], axis=1)
result6

Unnamed: 0,e,g
0,e0,g0
1,e1,g1
2,e2,g2
3,e3,g3


### sr1과 sr3을 행 방향으로 연결하기 

In [17]:
result7 = pd.concat([sr1, sr3], axis=0)
result7

0    e0
1    e1
2    e2
3    e3
0    g0
1    g1
2    g2
3    g3
dtype: object

# 예제 6-12 데이터프레임 합치기(merge) 

### 주식 데이터를 가져와서 데이터프레임 만들기 

In [18]:
df1 = pd.read_excel('./stock price.xlsx')
df2 = pd.read_excel('./stock valuation.xlsx')

In [19]:
df1

Unnamed: 0,id,stock_name,value,price
0,128940,한미약품,59385.666667,421000
1,130960,CJ E&M,58540.666667,98900
2,138250,엔에스쇼핑,14558.666667,13200
3,139480,이마트,239230.833333,254500
4,142280,녹십자엠에스,468.833333,10200
5,145990,삼양사,82750.0,82000
6,185750,종근당,40293.666667,100500
7,192400,쿠쿠홀딩스,179204.666667,177500
8,199800,툴젠,-2514.333333,115400
9,204210,모두투어리츠,3093.333333,3475


In [20]:
df2

Unnamed: 0,id,name,eps,bps,per,pbr
0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,136480,하림,274.166667,3551,11.489362,0.887074
2,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
3,139480,이마트,18268.166667,295780,13.931338,0.860437
4,145990,삼양사,5741.0,108090,14.283226,0.758627
5,161390,한국타이어,5648.5,51341,7.453306,0.820007
6,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
7,185750,종근당,3990.333333,40684,25.185866,2.470259
8,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
9,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


### 데이터프레임 합치기 - 교집합 

In [21]:
merge_inner = pd.merge(df1, df2)
merge_inner

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
2,145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
3,185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
4,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


기본적으로 on=None 옵션과 how='inner' 옵션이 적용된다.

on=None 옵션은 두 df에 공통으로 속하는 모든 열을 기준으로 병합한다.

how='inner' 옵션은 기준이 되는 열의 데이터가 공통으로 존재할때만 추출한다.

### 데이터프레임 합치기 - 합집합

In [22]:
merge_outer = pd.merge(df1, df2, how='outer', on='id')
merge_outer

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000.0,,,,,
1,130960,CJ E&M,58540.666667,98900.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200.0,,,,,
3,139480,이마트,239230.833333,254500.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200.0,,,,,
5,145990,삼양사,82750.0,82000.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500.0,,,,,
8,199800,툴젠,-2514.333333,115400.0,,,,,
9,204210,모두투어리츠,3093.333333,3475.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


on='id' 옵션은 df의 공통 열 중에서 'id'열을 키로 병합한다는 뜻이다.

how='outer' 옵션은 기준이 되는 'id' 열의 데이터가 df중 한쪽에만 속해도 포함.

어느 한 쪽이라도 데이터가 없는 열에는 NaN값이 지정.

### 데이터프레임 합치기 - 왼쪽 데이터프레임 기준, 키 값 분리

In [24]:
merge_left = pd.merge(df1, df2, how='left', left_on='stock_name',
                     right_on='name')
merge_left

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,128940,한미약품,59385.666667,421000,,,,,,
1,130960,CJ E&M,58540.666667,98900,130960.0,CJ E&M,6301.333333,54068.0,15.695091,1.829178
2,138250,엔에스쇼핑,14558.666667,13200,,,,,,
3,139480,이마트,239230.833333,254500,139480.0,이마트,18268.166667,295780.0,13.931338,0.860437
4,142280,녹십자엠에스,468.833333,10200,,,,,,
5,145990,삼양사,82750.0,82000,145990.0,삼양사,5741.0,108090.0,14.283226,0.758627
6,185750,종근당,40293.666667,100500,185750.0,종근당,3990.333333,40684.0,25.185866,2.470259
7,192400,쿠쿠홀딩스,179204.666667,177500,,,,,,
8,199800,툴젠,-2514.333333,115400,,,,,,
9,204210,모두투어리츠,3093.333333,3475,204210.0,모두투어리츠,85.166667,5335.0,40.802348,0.651359


how='left' 옵션을 설정하면 왼쪽 데이터프레임의 키 열에 속하는 데이터 값을 기준으로 병합한다. 기준열이 아닌 'id'열의 경우 양쪽 데이터프레임에 모두 존재하기 때문에 'id_x', 'id_y'와 같이 구분하여 표시

### 데이터프레임 합치기 - 오른쪽 데이터프레임 기준, 키 값 분리 

In [25]:
merge_right = pd.merge(df1, df2, how='right', left_on = 'stock_name',
                       right_on = 'name')
merge_right

Unnamed: 0,id_x,stock_name,value,price,id_y,name,eps,bps,per,pbr
0,130960.0,CJ E&M,58540.666667,98900.0,130960,CJ E&M,6301.333333,54068,15.695091,1.829178
1,139480.0,이마트,239230.833333,254500.0,139480,이마트,18268.166667,295780,13.931338,0.860437
2,145990.0,삼양사,82750.0,82000.0,145990,삼양사,5741.0,108090,14.283226,0.758627
3,185750.0,종근당,40293.666667,100500.0,185750,종근당,3990.333333,40684,25.185866,2.470259
4,204210.0,모두투어리츠,3093.333333,3475.0,204210,모두투어리츠,85.166667,5335,40.802348,0.651359
5,,,,,136480,하림,274.166667,3551,11.489362,0.887074
6,,,,,138040,메리츠금융지주,2122.333333,14894,6.313806,0.899691
7,,,,,161390,한국타이어,5648.5,51341,7.453306,0.820007
8,,,,,181710,NHN엔터테인먼트,2110.166667,78434,30.755864,0.827447
9,,,,,207940,삼성바이오로직스,4644.166667,60099,89.790059,6.938551


### 불린 인덱싱과 결합하여 원하는 데이터 찾기 

In [27]:
price = df1[df1['price'] < 50000]
price.head()

Unnamed: 0,id,stock_name,value,price
2,138250,엔에스쇼핑,14558.666667,13200
4,142280,녹십자엠에스,468.833333,10200
9,204210,모두투어리츠,3093.333333,3475


In [28]:
value = pd.merge(price, df2)
value

Unnamed: 0,id,stock_name,value,price,name,eps,bps,per,pbr
0,204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 예제 6-13 데이터프레임 합치기(join) 

In [35]:
df1 = pd.read_excel('./stock price.xlsx', index_col='id')
df2 = pd.read_excel('./stock valuation.xlsx', index_col='id')

In [37]:
df3 = df1.join(df2)
df3

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
128940,한미약품,59385.666667,421000,,,,,
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068.0,15.695091,1.829178
138250,엔에스쇼핑,14558.666667,13200,,,,,
139480,이마트,239230.833333,254500,이마트,18268.166667,295780.0,13.931338,0.860437
142280,녹십자엠에스,468.833333,10200,,,,,
145990,삼양사,82750.0,82000,삼양사,5741.0,108090.0,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684.0,25.185866,2.470259
192400,쿠쿠홀딩스,179204.666667,177500,,,,,
199800,툴젠,-2514.333333,115400,,,,,
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335.0,40.802348,0.651359


df1의 행 인덱스에 해당하는 id을 기준으로 결합되어 df3가 반환된다.

### 데이터프레임 결합(join) - 교집합 

In [38]:
df4 = df1.join(df2, how='inner')
df4

Unnamed: 0_level_0,stock_name,value,price,name,eps,bps,per,pbr
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
130960,CJ E&M,58540.666667,98900,CJ E&M,6301.333333,54068,15.695091,1.829178
139480,이마트,239230.833333,254500,이마트,18268.166667,295780,13.931338,0.860437
145990,삼양사,82750.0,82000,삼양사,5741.0,108090,14.283226,0.758627
185750,종근당,40293.666667,100500,종근당,3990.333333,40684,25.185866,2.470259
204210,모두투어리츠,3093.333333,3475,모두투어리츠,85.166667,5335,40.802348,0.651359


# 예제 6-14 그룹 연산 - 분할 

In [39]:
import pandas as pd
import seaborn as sns

### titanic 데이터셋에서 age, sex 등 5개 열을 선택하여 데이터프레임 만들기

In [40]:
titanic = sns.load_dataset('titanic')
df = titanic.loc[:, ['age', 'sex', 'class', 'fare', 'survived']]

In [41]:
print('승객 수:', len(df))

승객 수: 891


In [42]:
df.head()

Unnamed: 0,age,sex,class,fare,survived
0,22.0,male,Third,7.25,0
1,38.0,female,First,71.2833,1
2,26.0,female,Third,7.925,1
3,35.0,female,First,53.1,1
4,35.0,male,Third,8.05,0


### class 열을 기준으로 분할 

In [43]:
grouped = df.groupby(['class'])
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0A769F70>

### 그룹 객체를 반복문으로 출력: head() 메소드로 첫 5행만 출력 

In [45]:
for key, group in grouped:
    print('* key', key)
    print('* number', len(group))
    print(group.head())

* key First
* number 216
     age     sex  class     fare  survived
1   38.0  female  First  71.2833         1
3   35.0  female  First  53.1000         1
6   54.0    male  First  51.8625         0
11  58.0  female  First  26.5500         1
23  28.0    male  First  35.5000         1
* key Second
* number 184
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
17   NaN    male  Second  13.0000         1
20  35.0    male  Second  26.0000         0
21  34.0    male  Second  13.0000         1
* key Third
* number 491
    age     sex  class     fare  survived
0  22.0    male  Third   7.2500         0
2  26.0  female  Third   7.9250         1
4  35.0    male  Third   8.0500         0
5   NaN    male  Third   8.4583         0
7   2.0    male  Third  21.0750         0


### 연산 메소드 적용

In [46]:
average = grouped.mean()
average

Unnamed: 0_level_0,age,fare,survived
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,38.233441,84.154687,0.62963
Second,29.87763,20.662183,0.472826
Third,25.14062,13.67555,0.242363


### 개별 그룹 선택하기 

In [47]:
group3 = grouped.get_group('Third')
group3.head()

Unnamed: 0,age,sex,fare,survived
0,22.0,male,7.25,0
2,26.0,female,7.925,1
4,35.0,male,8.05,0
5,,male,8.4583,0
7,2.0,male,21.075,0


### class 열, sex 열을 기준으로 분할 

In [48]:
grouped_two = df.groupby(['class', 'sex'])

### grouped_two 그룹 객체를 iteration 출력 

In [50]:
for key, group in grouped_two:
    print('* key:', key)
    print('* number', len(group))
    print(group.head())
    print('\n')

* key: ('First', 'female')
* number 94
     age     sex  class      fare  survived
1   38.0  female  First   71.2833         1
3   35.0  female  First   53.1000         1
11  58.0  female  First   26.5500         1
31   NaN  female  First  146.5208         1
52  49.0  female  First   76.7292         1


* key: ('First', 'male')
* number 122
     age   sex  class      fare  survived
6   54.0  male  First   51.8625         0
23  28.0  male  First   35.5000         1
27  19.0  male  First  263.0000         0
30  40.0  male  First   27.7208         0
34  28.0  male  First   82.1708         0


* key: ('Second', 'female')
* number 76
     age     sex   class     fare  survived
9   14.0  female  Second  30.0708         1
15  55.0  female  Second  16.0000         1
41  27.0  female  Second  21.0000         0
43   3.0  female  Second  41.5792         1
53  29.0  female  Second  26.0000         1


* key: ('Second', 'male')
* number 108
     age   sex   class  fare  survived
17   NaN  male  Sec

### grouped_two 그룹 객체에 연산 메소드 적용 

In [52]:
average_two = grouped_two.mean()
average_two

Unnamed: 0_level_0,Unnamed: 1_level_0,age,fare,survived
class,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
First,female,34.611765,106.125798,0.968085
First,male,41.281386,67.226127,0.368852
Second,female,28.722973,21.970121,0.921053
Second,male,30.740707,19.741782,0.157407
Third,female,21.75,16.11881,0.5
Third,male,26.507589,12.661633,0.135447


### grouped_two 그룹 객체에서 개별 그룹 선택하기 

In [53]:
group3f = grouped_two.get_group(('Third', 'female'))
group3f.head()

Unnamed: 0,age,fare,survived
2,26.0,7.925,1
8,27.0,11.1333,1
10,4.0,16.7,1
14,14.0,7.8542,0
18,31.0,18.0,0


### 

### 

### 

### 