# 05. 데이터프레임 합치기: 여러 데이터프레임 연결/병합/결합

## 1. 여러 데이터프레임 연결

### 1-1. 구성 형태와 속성이 같은 데이터 프레임 연결

concat()함수  
기존 데이터프레임의 형태를 유지하면서 이어 붙이는 명령  

> concat(데이터프레임의 리스트, ignore_index=False/True, axis=0/1, join='outer'/'inner')


In [1]:
import pandas as pd

In [2]:
df1_dict = {'a':['a0', 'a1', 'a2', 'a3'],
            'b':['b0', 'b1', 'b2', 'b3'],
            'c':['c0', 'c1', 'c2', 'c3']}
df1 = pd.DataFrame(df1_dict)
df1

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3


In [3]:
df2_dict = {'a':['a2', 'a3', 'a4', 'a5'],
            'b':['b2', 'b3', 'b4', 'b5'],
            'c':['c2', 'c3', 'c4', 'c5'],
            'd':['d2', 'd3', 'd4', 'd5']}
df2 = pd.DataFrame(df2_dict, index = [2, 3, 4, 5])
df2

Unnamed: 0,a,b,c,d
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [4]:
result1 = pd.concat([df1, df2]) # default: axis=0, ignore_index=False, join='outer'
result1

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
2,a2,b2,c2,d2
3,a3,b3,c3,d3
4,a4,b4,c4,d4
5,a5,b5,c5,d5


In [5]:
result1c = pd.concat([df1, df2], axis=1) # axis=1, 열방향으로 데이터프레임 결합 
result1c

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
0,a0,b0,c0,,,,
1,a1,b1,c1,,,,
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3
4,,,,a4,b4,c4,d4
5,,,,a5,b5,c5,d5


In [6]:
result2 = pd.concat([df1, df2], join='inner') # 공통 열이름(a, b, c)을 기준으로 행방향(axis=0) 연결, d열 삭제됨. 
result2

Unnamed: 0,a,b,c
0,a0,b0,c0
1,a1,b1,c1
2,a2,b2,c2
3,a3,b3,c3
2,a2,b2,c2
3,a3,b3,c3
4,a4,b4,c4
5,a5,b5,c5


In [7]:
result2c = pd.concat([df1, df2], axis=1, join='inner') # 공통 열이름(a, b, c)을 기준으로 열방향(axis=1) 연결
result2c

Unnamed: 0,a,b,c,a.1,b.1,c.1,d
2,a2,b2,c2,a2,b2,c2,d2
3,a3,b3,c3,a3,b3,c3,d3


In [8]:
result3 = pd.concat([df1, df2], ignore_index=True) # 기존 행 index를 삭제하고 새롭게 부여
result3

Unnamed: 0,a,b,c,d
0,a0,b0,c0,
1,a1,b1,c1,
2,a2,b2,c2,
3,a3,b3,c3,
4,a2,b2,c2,d2
5,a3,b3,c3,d3
6,a4,b4,c4,d4
7,a5,b5,c5,d5


## 2. 여러 데이터프레임 병합

### 2-1.  여러 데이터프레임 병합
merge(): 키(key)가 되는 열 또는 행을 기준으로 데이터를 병합

> merge(첫번째 데이터프레임, 두번째 데이터프레임, on=기준변수, how='inner'/'outer'/'left'/'right',left_on=,right_on=)

In [9]:
df1 = pd.read_excel('./05/price.xlsx')
df1

Unnamed: 0,id,stock_name,price
0,145990,삼양사,82000
1,185750,종근당,100500
2,192400,쿠쿠홀딩스,177500
3,199800,툴젠,115400
4,204210,모두투어리츠,3475


In [10]:
df2 = pd.read_excel('./05/valuation.xlsx')
df2

Unnamed: 0,id,name,eps,per
0,145990,삼양사,5741.0,14.283226
1,161390,한국타이어,5648.5,7.453306
2,185750,종근당,3990.333333,25.185866
3,204210,모두투어리츠,85.166667,40.802348
4,207940,삼성바이오로직스,4644.166667,89.790059


In [11]:
merge_inner = pd.merge(df1, df2, on='id') # default: how='inner' 이므로 두 데이터프레임에 모두 있는 id에 해당되는 데이터만 결합
merge_inner

Unnamed: 0,id,stock_name,price,name,eps,per
0,145990,삼양사,82000,삼양사,5741.0,14.283226
1,185750,종근당,100500,종근당,3990.333333,25.185866
2,204210,모두투어리츠,3475,모두투어리츠,85.166667,40.802348


In [12]:
merge_outer = pd.merge(df1, df2, how='outer', on='id') # how='outer' 모든 데이터프레임 결합
merge_outer

Unnamed: 0,id,stock_name,price,name,eps,per
0,145990,삼양사,82000.0,삼양사,5741.0,14.283226
1,185750,종근당,100500.0,종근당,3990.333333,25.185866
2,192400,쿠쿠홀딩스,177500.0,,,
3,199800,툴젠,115400.0,,,
4,204210,모두투어리츠,3475.0,모두투어리츠,85.166667,40.802348
5,161390,,,한국타이어,5648.5,7.453306
6,207940,,,삼성바이오로직스,4644.166667,89.790059


In [13]:
merge_left = pd.merge(df1, df2, how='left', on='id') # left_join과 동일
merge_left

Unnamed: 0,id,stock_name,price,name,eps,per
0,145990,삼양사,82000,삼양사,5741.0,14.283226
1,185750,종근당,100500,종근당,3990.333333,25.185866
2,192400,쿠쿠홀딩스,177500,,,
3,199800,툴젠,115400,,,
4,204210,모두투어리츠,3475,모두투어리츠,85.166667,40.802348


In [14]:
merge_right = pd.merge(df1, df2, how='right', on='id') # left_join과 동일
merge_right

Unnamed: 0,id,stock_name,price,name,eps,per
0,145990,삼양사,82000.0,삼양사,5741.0,14.283226
1,161390,,,한국타이어,5648.5,7.453306
2,185750,종근당,100500.0,종근당,3990.333333,25.185866
3,204210,모두투어리츠,3475.0,모두투어리츠,85.166667,40.802348
4,207940,,,삼성바이오로직스,4644.166667,89.790059


### 2-2. Key가 되는 변수명이 서로 다른 경우의 병합

In [15]:
df1.drop('id', axis=1, inplace=True)
df1

Unnamed: 0,stock_name,price
0,삼양사,82000
1,종근당,100500
2,쿠쿠홀딩스,177500
3,툴젠,115400
4,모두투어리츠,3475


In [16]:
df2.drop('id', axis=1, inplace=True)
df2

Unnamed: 0,name,eps,per
0,삼양사,5741.0,14.283226
1,한국타이어,5648.5,7.453306
2,종근당,3990.333333,25.185866
3,모두투어리츠,85.166667,40.802348
4,삼성바이오로직스,4644.166667,89.790059


In [17]:
merge1 = pd.merge(df1, df2, left_on='stock_name', right_on='name')
merge1

Unnamed: 0,stock_name,price,name,eps,per
0,삼양사,82000,삼양사,5741.0,14.283226
1,종근당,100500,종근당,3990.333333,25.185866
2,모두투어리츠,3475,모두투어리츠,85.166667,40.802348


## 3. 여러 데이터프레임 결합

### 3-1. 여러 데이터프레임 결합

join(): 하나의 데이터프레임에 또 다른 데이터프레임을 결합시키는 명령 = merge()와 동일

> 첫번째 데이터프레임.join(두번째 데이터프레임, how='left'/'right'/'inner'/'outer',on=기준변수

In [18]:
df1 = pd.read_excel('./05/price.xlsx', index_col='id')
df1

Unnamed: 0_level_0,stock_name,price
id,Unnamed: 1_level_1,Unnamed: 2_level_1
145990,삼양사,82000
185750,종근당,100500
192400,쿠쿠홀딩스,177500
199800,툴젠,115400
204210,모두투어리츠,3475


In [19]:
df2 = pd.read_excel('./05/valuation.xlsx', index_col='id')
df2

Unnamed: 0_level_0,name,eps,per
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
145990,삼양사,5741.0,14.283226
161390,한국타이어,5648.5,7.453306
185750,종근당,3990.333333,25.185866
204210,모두투어리츠,85.166667,40.802348
207940,삼성바이오로직스,4644.166667,89.790059


In [20]:
df3 = df1.join(df2) # defalut: how='left'
df3

Unnamed: 0_level_0,stock_name,price,name,eps,per
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
145990,삼양사,82000,삼양사,5741.0,14.283226
185750,종근당,100500,종근당,3990.333333,25.185866
192400,쿠쿠홀딩스,177500,,,
199800,툴젠,115400,,,
204210,모두투어리츠,3475,모두투어리츠,85.166667,40.802348


In [21]:
df4 = df1.join(df2, how='right')
df4

Unnamed: 0_level_0,stock_name,price,name,eps,per
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
145990,삼양사,82000.0,삼양사,5741.0,14.283226
161390,,,한국타이어,5648.5,7.453306
185750,종근당,100500.0,종근당,3990.333333,25.185866
204210,모두투어리츠,3475.0,모두투어리츠,85.166667,40.802348
207940,,,삼성바이오로직스,4644.166667,89.790059


In [22]:
df5 = df1.join(df2, how='inner')
df5

Unnamed: 0_level_0,stock_name,price,name,eps,per
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
145990,삼양사,82000,삼양사,5741.0,14.283226
185750,종근당,100500,종근당,3990.333333,25.185866
204210,모두투어리츠,3475,모두투어리츠,85.166667,40.802348


In [23]:
df6 = df1.join(df2, how='outer')
df6

Unnamed: 0_level_0,stock_name,price,name,eps,per
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
145990,삼양사,82000.0,삼양사,5741.0,14.283226
161390,,,한국타이어,5648.5,7.453306
185750,종근당,100500.0,종근당,3990.333333,25.185866
192400,쿠쿠홀딩스,177500.0,,,
199800,툴젠,115400.0,,,
204210,모두투어리츠,3475.0,모두투어리츠,85.166667,40.802348
207940,,,삼성바이오로직스,4644.166667,89.790059


## 실습

### 전국 아파트 월별 매매가격지수
#### [과제 5-1] 지역별(수도권, 비수도권) 자료를 불러와 병합
1. 21년 1월 ~ 8월 수도권 아파트 매매가격 자료와 비수도권 아파트 매매가격 자료 각각 불러오기
2. 두 개의 데이터를 연결해 전체 지역에 대한 데이터로 병합

In [24]:
apt1 = pd.read_csv('./05/월간_매매가격지수_아파트_20년_전체.csv', index_col='id')
apt2 = pd.read_csv('./05/월간_매매가격지수_아파트_21년_수도권.csv', index_col='id')
apt3 = pd.read_csv('./05/월간_매매가격지수_아파트_21년_수도권외.csv', index_col='id')

In [25]:
apt2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 92 entries, 10001 to 10092
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   지 역        92 non-null     object 
 1   지역구분       92 non-null     object 
 2   세분류        92 non-null     object 
 3   세세분류       92 non-null     object 
 4   2021년 01월  92 non-null     float64
 5   2021년 02월  92 non-null     float64
 6   2021년 03월  92 non-null     float64
 7   2021년 04월  92 non-null     float64
 8   2021년 05월  92 non-null     float64
 9   2021년 06월  92 non-null     int64  
 10  2021년 07월  92 non-null     float64
 11  2021년 08월  92 non-null     float64
dtypes: float64(7), int64(1), object(4)
memory usage: 9.3+ KB


In [26]:
apt3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 125 entries, 10093 to 10217
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   지 역        125 non-null    object 
 1   지역구분       125 non-null    object 
 2   세분류        125 non-null    object 
 3   세세분류       125 non-null    object 
 4   2021년 01월  125 non-null    float64
 5   2021년 02월  125 non-null    float64
 6   2021년 03월  125 non-null    float64
 7   2021년 04월  125 non-null    float64
 8   2021년 05월  125 non-null    float64
 9   2021년 06월  125 non-null    int64  
 10  2021년 07월  125 non-null    float64
 11  2021년 08월  125 non-null    float64
dtypes: float64(7), int64(1), object(4)
memory usage: 12.7+ KB


In [27]:
apt_21 = pd.concat([apt2, apt3]) # ignore_index=True를 설정하지 않으면 행번호가 중복되어버림. 난 id를 인덱스로 써서 괜찮음.
apt_21.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 217 entries, 10001 to 10217
Data columns (total 12 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   지 역        217 non-null    object 
 1   지역구분       217 non-null    object 
 2   세분류        217 non-null    object 
 3   세세분류       217 non-null    object 
 4   2021년 01월  217 non-null    float64
 5   2021년 02월  217 non-null    float64
 6   2021년 03월  217 non-null    float64
 7   2021년 04월  217 non-null    float64
 8   2021년 05월  217 non-null    float64
 9   2021년 06월  217 non-null    int64  
 10  2021년 07월  217 non-null    float64
 11  2021년 08월  217 non-null    float64
dtypes: float64(7), int64(1), object(4)
memory usage: 22.0+ KB


In [28]:
apt_21

Unnamed: 0_level_0,지 역,지역구분,세분류,세세분류,2021년 01월,2021년 02월,2021년 03월,2021년 04월,2021년 05월,2021년 06월,2021년 07월,2021년 08월
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
10001,서울,강북지역,도심권,종로구,99.181,99.529,99.646,99.768,99.834,100,100.390,101.182
10002,서울,강북지역,도심권,중구,98.379,98.963,99.210,99.376,99.506,100,100.377,101.003
10003,서울,강북지역,도심권,용산구,98.163,98.704,98.990,99.234,99.522,100,100.636,101.598
10004,서울,강북지역,동북권,용산구,96.867,97.598,98.110,98.569,99.037,100,100.924,101.931
10005,서울,강북지역,동북권,성동구,98.063,98.737,99.107,99.312,99.537,100,100.464,101.011
...,...,...,...,...,...,...,...,...,...,...,...,...
10213,경남,거제시,진해구,일산서구,97.360,97.895,98.910,99.437,99.641,100,100.674,101.686
10214,경남,양산시,진해구,일산서구,93.818,94.981,96.197,97.332,98.592,100,100.873,102.134
10215,제주,양산시,진해구,일산서구,92.246,92.824,93.240,93.796,95.687,100,101.898,104.234
10216,제주,제주시,진해구,일산서구,90.647,91.327,91.819,92.478,94.844,100,102.147,104.944


#### [5-2] 20년 데이터와 병합해 최근 1년간(20.9 ~ 21.8) 자료 생성
1. 20년 1월 ~ 12월 자료 중 9월 ~ 12월 데이터만 따로 데이터프레임으로 저장
2. 과제5-1에서 만든 21년 1월 ~ 8월 자료와 병합

In [29]:
apt1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 217 entries, 10001 to 10217
Data columns (total 16 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   지 역        217 non-null    object 
 1   지역구분       217 non-null    object 
 2   세분류        217 non-null    object 
 3   세세분류       217 non-null    object 
 4   2020년 01월  217 non-null    float64
 5   2020년 02월  217 non-null    float64
 6   2020년 03월  217 non-null    float64
 7   2020년 04월  217 non-null    float64
 8   2020년 05월  217 non-null    float64
 9   2020년 06월  217 non-null    float64
 10  2020년 07월  217 non-null    float64
 11  2020년 08월  217 non-null    float64
 12  2020년 09월  217 non-null    float64
 13  2020년 10월  217 non-null    float64
 14  2020년 11월  217 non-null    float64
 15  2020년 12월  217 non-null    float64
dtypes: float64(12), object(4)
memory usage: 28.8+ KB


In [30]:
apt1_1 = apt1.iloc[:,:4]
apt1_1

Unnamed: 0_level_0,지 역,지역구분,세분류,세세분류
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10001,서울,강북지역,도심권,종로구
10002,서울,강북지역,도심권,중구
10003,서울,강북지역,도심권,용산구
10004,서울,강북지역,동북권,용산구
10005,서울,강북지역,동북권,성동구
...,...,...,...,...
10213,경남,거제시,진해구,일산서구
10214,경남,양산시,진해구,일산서구
10215,제주,양산시,진해구,일산서구
10216,제주,제주시,진해구,일산서구


In [31]:
apt1_2 = apt1.iloc[:,12:]
apt1_2

Unnamed: 0_level_0,2020년 09월,2020년 10월,2020년 11월,2020년 12월
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10001,98.687928,98.718393,98.811818,98.992003
10002,97.671273,97.771991,97.895926,98.128137
10003,97.441412,97.534614,97.625234,97.847062
10004,95.904796,96.059524,96.210805,96.504432
10005,97.227200,97.345761,97.444082,97.699648
...,...,...,...,...
10213,97.446629,97.531313,97.242369,96.880210
10214,89.099734,89.254266,89.436632,91.704744
10215,91.824582,91.737129,91.713167,91.826780
10216,90.057495,90.013738,90.002234,90.147477


In [32]:
apt_20 = pd.concat([apt1_1, apt1_2], axis=1)
apt_20

Unnamed: 0_level_0,지 역,지역구분,세분류,세세분류,2020년 09월,2020년 10월,2020년 11월,2020년 12월
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
10001,서울,강북지역,도심권,종로구,98.687928,98.718393,98.811818,98.992003
10002,서울,강북지역,도심권,중구,97.671273,97.771991,97.895926,98.128137
10003,서울,강북지역,도심권,용산구,97.441412,97.534614,97.625234,97.847062
10004,서울,강북지역,동북권,용산구,95.904796,96.059524,96.210805,96.504432
10005,서울,강북지역,동북권,성동구,97.227200,97.345761,97.444082,97.699648
...,...,...,...,...,...,...,...,...
10213,경남,거제시,진해구,일산서구,97.446629,97.531313,97.242369,96.880210
10214,경남,양산시,진해구,일산서구,89.099734,89.254266,89.436632,91.704744
10215,제주,양산시,진해구,일산서구,91.824582,91.737129,91.713167,91.826780
10216,제주,제주시,진해구,일산서구,90.057495,90.013738,90.002234,90.147477


In [33]:
apt_20.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 217 entries, 10001 to 10217
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   지 역        217 non-null    object 
 1   지역구분       217 non-null    object 
 2   세분류        217 non-null    object 
 3   세세분류       217 non-null    object 
 4   2020년 09월  217 non-null    float64
 5   2020년 10월  217 non-null    float64
 6   2020년 11월  217 non-null    float64
 7   2020년 12월  217 non-null    float64
dtypes: float64(4), object(4)
memory usage: 15.3+ KB


In [34]:
apt = pd.merge(apt_20, apt_21)
apt

Unnamed: 0,지 역,지역구분,세분류,세세분류,2020년 09월,2020년 10월,2020년 11월,2020년 12월,2021년 01월,2021년 02월,2021년 03월,2021년 04월,2021년 05월,2021년 06월,2021년 07월,2021년 08월
0,서울,강북지역,도심권,종로구,98.687928,98.718393,98.811818,98.992003,99.181,99.529,99.646,99.768,99.834,100,100.390,101.182
1,서울,강북지역,도심권,중구,97.671273,97.771991,97.895926,98.128137,98.379,98.963,99.210,99.376,99.506,100,100.377,101.003
2,서울,강북지역,도심권,용산구,97.441412,97.534614,97.625234,97.847062,98.163,98.704,98.990,99.234,99.522,100,100.636,101.598
3,서울,강북지역,동북권,용산구,95.904796,96.059524,96.210805,96.504432,96.867,97.598,98.110,98.569,99.037,100,100.924,101.931
4,서울,강북지역,동북권,성동구,97.227200,97.345761,97.444082,97.699648,98.063,98.737,99.107,99.312,99.537,100,100.464,101.011
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
212,경남,거제시,진해구,일산서구,97.446629,97.531313,97.242369,96.880210,97.360,97.895,98.910,99.437,99.641,100,100.674,101.686
213,경남,양산시,진해구,일산서구,89.099734,89.254266,89.436632,91.704744,93.818,94.981,96.197,97.332,98.592,100,100.873,102.134
214,제주,양산시,진해구,일산서구,91.824582,91.737129,91.713167,91.826780,92.246,92.824,93.240,93.796,95.687,100,101.898,104.234
215,제주,제주시,진해구,일산서구,90.057495,90.013738,90.002234,90.147477,90.647,91.327,91.819,92.478,94.844,100,102.147,104.944


In [35]:
apt.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 217 entries, 0 to 216
Data columns (total 16 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   지 역        217 non-null    object 
 1   지역구분       217 non-null    object 
 2   세분류        217 non-null    object 
 3   세세분류       217 non-null    object 
 4   2020년 09월  217 non-null    float64
 5   2020년 10월  217 non-null    float64
 6   2020년 11월  217 non-null    float64
 7   2020년 12월  217 non-null    float64
 8   2021년 01월  217 non-null    float64
 9   2021년 02월  217 non-null    float64
 10  2021년 03월  217 non-null    float64
 11  2021년 04월  217 non-null    float64
 12  2021년 05월  217 non-null    float64
 13  2021년 06월  217 non-null    int64  
 14  2021년 07월  217 non-null    float64
 15  2021년 08월  217 non-null    float64
dtypes: float64(11), int64(1), object(4)
memory usage: 28.8+ KB


### [5-3] '수도권'과 '수도권 외 지역'에 대한 최근 1년간 매매지수 평균값 산출
1. 전체 자료 중 수도권(서울, 인천, 경기) 데이터만 추출한 뒤 최근 1년 평균 매매지수 산출
2. 수도권 외 지역에 대한 최근 1년 평균 매매지수 산출
3. 앞에서 구한 자료값을 하나의 데이터프레임으로 저장해 출력

In [36]:
apt_a = apt.loc[(apt.iloc[:,0] == '서울') | (apt.iloc[:,0] == '인천') | (apt.iloc[:,0] == '경기'), :]
apt_a

Unnamed: 0,지 역,지역구분,세분류,세세분류,2020년 09월,2020년 10월,2020년 11월,2020년 12월,2021년 01월,2021년 02월,2021년 03월,2021년 04월,2021년 05월,2021년 06월,2021년 07월,2021년 08월
0,서울,강북지역,도심권,종로구,98.687928,98.718393,98.811818,98.992003,99.181,99.529,99.646,99.768,99.834,100,100.390,101.182
1,서울,강북지역,도심권,중구,97.671273,97.771991,97.895926,98.128137,98.379,98.963,99.210,99.376,99.506,100,100.377,101.003
2,서울,강북지역,도심권,용산구,97.441412,97.534614,97.625234,97.847062,98.163,98.704,98.990,99.234,99.522,100,100.636,101.598
3,서울,강북지역,동북권,용산구,95.904796,96.059524,96.210805,96.504432,96.867,97.598,98.110,98.569,99.037,100,100.924,101.931
4,서울,강북지역,동북권,성동구,97.227200,97.345761,97.444082,97.699648,98.063,98.737,99.107,99.312,99.537,100,100.464,101.011
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
87,인천,연수구,의정부시,일산서구,80.366050,80.429924,80.873051,81.767377,83.808,86.510,89.436,93.093,96.080,100,102.309,105.454
88,인천,남동구,의정부시,일산서구,87.869795,87.914924,88.296359,89.266180,90.370,91.850,93.687,95.301,97.135,100,101.818,103.130
89,인천,부평구,의정부시,일산서구,87.667532,88.137745,88.751747,89.300006,89.950,91.084,92.886,94.597,96.666,100,102.168,104.278
90,인천,계양구,의정부시,일산서구,89.158724,89.394399,89.822406,90.494106,91.380,92.598,93.487,95.035,96.939,100,102.210,104.472


In [37]:
apt_b = apt.loc[(apt.iloc[:,0] != '서울') & (apt.iloc[:,0] != '인천') & (apt.iloc[:,0] != '경기'), :]
apt_b

Unnamed: 0,지 역,지역구분,세분류,세세분류,2020년 09월,2020년 10월,2020년 11월,2020년 12월,2021년 01월,2021년 02월,2021년 03월,2021년 04월,2021년 05월,2021년 06월,2021년 07월,2021년 08월
92,부산,서구,의정부시,일산서구,87.570807,88.115364,89.696207,92.407789,94.186,95.453,96.267,96.970,97.966,100,101.086,102.281
93,부산,중부산권,의정부시,일산서구,88.616312,89.176192,91.002942,93.661976,95.284,96.612,97.322,97.858,98.570,100,100.799,101.656
94,부산,중부산권,중구,일산서구,98.013573,97.765222,97.641458,97.808985,98.374,98.240,98.420,98.501,98.900,100,100.628,101.229
95,부산,중부산권,서구,일산서구,94.601283,95.216960,95.705645,96.721253,97.517,98.187,98.446,98.759,99.253,100,100.378,100.804
96,부산,중부산권,동구,일산서구,94.060267,94.237125,94.685862,95.896799,96.827,97.219,97.621,98.107,98.611,100,100.734,101.909
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
212,경남,거제시,진해구,일산서구,97.446629,97.531313,97.242369,96.880210,97.360,97.895,98.910,99.437,99.641,100,100.674,101.686
213,경남,양산시,진해구,일산서구,89.099734,89.254266,89.436632,91.704744,93.818,94.981,96.197,97.332,98.592,100,100.873,102.134
214,제주,양산시,진해구,일산서구,91.824582,91.737129,91.713167,91.826780,92.246,92.824,93.240,93.796,95.687,100,101.898,104.234
215,제주,제주시,진해구,일산서구,90.057495,90.013738,90.002234,90.147477,90.647,91.327,91.819,92.478,94.844,100,102.147,104.944


In [38]:
M1 = apt_a.mean()
M1

  M1 = apt_a.mean()


2020년 09월     90.514177
2020년 10월     90.793784
2020년 11월     91.294719
2020년 12월     92.036672
2021년 01월     92.984033
2021년 02월     94.505598
2021년 03월     95.728663
2021년 04월     96.884696
2021년 05월     97.963348
2021년 06월    100.000000
2021년 07월    101.566946
2021년 08월    103.274848
dtype: float64

In [39]:
M2 = apt_b.mean()
M2

  M2 = apt_b.mean()


2020년 09월     92.863988
2020년 10월     93.178800
2020년 11월     93.800788
2020년 12월     95.151410
2021년 01월     96.121376
2021년 02월     96.899872
2021년 03월     97.520784
2021년 04월     98.153288
2021년 05월     98.850016
2021년 06월    100.000000
2021년 07월    100.785080
2021년 08월    101.695040
dtype: float64

In [40]:
M = pd.DataFrame([M1, M2], index=['수도권','비수도권'])
M

Unnamed: 0,2020년 09월,2020년 10월,2020년 11월,2020년 12월,2021년 01월,2021년 02월,2021년 03월,2021년 04월,2021년 05월,2021년 06월,2021년 07월,2021년 08월
수도권,90.514177,90.793784,91.294719,92.036672,92.984033,94.505598,95.728663,96.884696,97.963348,100.0,101.566946,103.274848
비수도권,92.863988,93.1788,93.800788,95.15141,96.121376,96.899872,97.520784,98.153288,98.850016,100.0,100.78508,101.69504
