# <span style="color:royalblue"> [2주차] 데이터 Reshape 기초</span> <img src="./data/logo.png" style="width: 120px;" align="right">
# 2023 merge, melt 함수의 활용

--- 

<div style="text-align: right"> Final Edition : 2023.06.28<br>
    copyrightⓒ 2022 All rights reserved by Data Lover Pablo </div>

# 1. Merge 함수

## pd.merge: 2개의 dataframe을 key를 활용해 병합하는 방법
pd.merge의 'how' argument로 inner, outer, right, left를 활용 가능
- inner(교집합): use intersection of keys from both frames
- outer(합집합): use union of keys from both frames
- right(오른쪽 기준): use keys from right frame only
- left(왼쪽 기준): use keys from left frame only

inner             |outer                 |right                 |left                     |
:------------------:|:-----------------------:|:-----------------------:|:-----------------------:|
![inner](./data/inner.gif)|![outer](./data/outer.gif)|![right](./data/right.gif)|![left](./data/left.gif)|

In [1]:
import pandas as pd
import numpy as np

## merge 메서드 사용하기

아래 주어진 2개의 dataframe을 pd.merge를 활용해 병합하시오.

In [2]:
df1 = pd.DataFrame({'매매가': [19, 31, 42, 30, 45, 35, 36, 43, 28, 27],
                    '동이름': ['압구정동', '신사동', '청담동', '논현동', '개포동', '역삼동', '대치동', '개포동', '역삼동', '대치동']})

df2 = pd.DataFrame({'전세가': [15, 10, 15, 30, 25, 15, 10, 15],
                    '동이름': ['압구정동', '논현동', '대치동', '논현동', '역삼동','개포동', '역삼동', '대치동']})

In [5]:
df1

Unnamed: 0,매매가,동이름
0,19,압구정동
1,31,신사동
2,42,청담동
3,30,논현동
4,45,개포동
5,35,역삼동
6,36,대치동
7,43,개포동
8,28,역삼동
9,27,대치동


In [6]:
df2

Unnamed: 0,전세가,동이름
0,15,압구정동
1,10,논현동
2,15,대치동
3,30,논현동
4,25,역삼동
5,15,개포동
6,10,역삼동
7,15,대치동


In [4]:
pd.merge(df1, df2, how='inner')

Unnamed: 0,매매가,동이름,전세가
0,19,압구정동,15
1,30,논현동,10
2,30,논현동,30
3,45,개포동,15
4,43,개포동,15
5,35,역삼동,25
6,35,역삼동,10
7,28,역삼동,25
8,28,역삼동,10
9,36,대치동,15


In [4]:
pd.merge(df1, df2, on='동이름')

Unnamed: 0,매매가,동이름,전세가
0,19,압구정동,15
1,30,논현동,10
2,30,논현동,30
3,45,개포동,15
4,43,개포동,15
5,35,역삼동,25
6,35,역삼동,10
7,28,역삼동,25
8,28,역삼동,10
9,36,대치동,15


## 2가지 이상 key값 : 동이름과 평형대

In [5]:
df1 = pd.DataFrame({'매매가': [19, 31, 42, 30, 45, 35, 36, 43, 28, 27],
                    '동이름': ['압구정동', '신사동', '청담동', '논현동', '개포동', '역삼동', '대치동', '개포동', '역삼동', '대치동'],
                    '평형대': ['30평', '40평', '50평', '30평', '40평', '50평', '30평', '30평', '40평', '50평']
                   })

df2 = pd.DataFrame({'전세가': [15, 10, 15, 30, 25, 15, 10, 15],
                    '동이름': ['압구정동', '논현동', '대치동', '논현동', '역삼동','개포동', '역삼동', '대치동'],
                    '평형대': ['30평', '40평', '50평', '30평', '40평','30평', '40평', '50평']
                   })

In [6]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,매매가,동이름,평형대,전세가
0,19.0,압구정동,30평,15.0
1,31.0,신사동,40평,
2,42.0,청담동,50평,
3,30.0,논현동,30평,30.0
4,45.0,개포동,40평,
5,35.0,역삼동,50평,
6,36.0,대치동,30평,
7,43.0,개포동,30평,15.0
8,28.0,역삼동,40평,25.0
9,28.0,역삼동,40평,10.0


# 연습문제(Exercise) 1 - Just Do It Now !

아래 주어진 2개의 dataframe을 key1(동이름)과 key2(평형대)를 함께 고려하여 병합하시오. 또한, how argument 4가지를 변경하며 결과를 비교하시오.

In [7]:
print('------------left------------')
print(pd.merge(df1, df2, how='left'))
print('-----------right------------')
print(pd.merge(df1, df2, how='right'))
print('-----------outer------------')
print(pd.merge(df1, df2, how='outer'))
print('-----------inner------------')
print(pd.merge(df1, df2, how='inner'))

------------left------------
    매매가   동이름  평형대   전세가
0    19  압구정동  30평  15.0
1    31   신사동  40평   NaN
2    42   청담동  50평   NaN
3    30   논현동  30평  30.0
4    45   개포동  40평   NaN
5    35   역삼동  50평   NaN
6    36   대치동  30평   NaN
7    43   개포동  30평  15.0
8    28   역삼동  40평  25.0
9    28   역삼동  40평  10.0
10   27   대치동  50평  15.0
11   27   대치동  50평  15.0
-----------right------------
    매매가   동이름  평형대  전세가
0  19.0  압구정동  30평   15
1   NaN   논현동  40평   10
2  27.0   대치동  50평   15
3  30.0   논현동  30평   30
4  28.0   역삼동  40평   25
5  43.0   개포동  30평   15
6  28.0   역삼동  40평   10
7  27.0   대치동  50평   15
-----------outer------------
     매매가   동이름  평형대   전세가
0   19.0  압구정동  30평  15.0
1   31.0   신사동  40평   NaN
2   42.0   청담동  50평   NaN
3   30.0   논현동  30평  30.0
4   45.0   개포동  40평   NaN
5   35.0   역삼동  50평   NaN
6   36.0   대치동  30평   NaN
7   43.0   개포동  30평  15.0
8   28.0   역삼동  40평  25.0
9   28.0   역삼동  40평  10.0
10  27.0   대치동  50평  15.0
11  27.0   대치동  50평  15.0
12   NaN   논현동  40평  10.0
--------

# 연습문제(Exercise) 2 - Just Do It Now !

각 동별, 평형별 데이터를 병합한 후, 매매가에서 전세가를 뺀 파생변수(갭 차이)를 생성하고, 오름차순(투자우선순위)으로 정렬하시오

In [8]:
df_merge = pd.merge(df1, df2, how='outer')
df_merge['갭차이'] = df_merge['매매가'] - df_merge['전세가']

In [9]:
df_merge

Unnamed: 0,매매가,동이름,평형대,전세가,갭차이
0,19.0,압구정동,30평,15.0,4.0
1,31.0,신사동,40평,,
2,42.0,청담동,50평,,
3,30.0,논현동,30평,30.0,0.0
4,45.0,개포동,40평,,
5,35.0,역삼동,50평,,
6,36.0,대치동,30평,,
7,43.0,개포동,30평,15.0,28.0
8,28.0,역삼동,40평,25.0,3.0
9,28.0,역삼동,40평,10.0,18.0


In [10]:
df_merge.sort_values(by = '갭차이') # ascending=False

Unnamed: 0,매매가,동이름,평형대,전세가,갭차이
3,30.0,논현동,30평,30.0,0.0
8,28.0,역삼동,40평,25.0,3.0
0,19.0,압구정동,30평,15.0,4.0
10,27.0,대치동,50평,15.0,12.0
11,27.0,대치동,50평,15.0,12.0
9,28.0,역삼동,40평,10.0,18.0
7,43.0,개포동,30평,15.0,28.0
1,31.0,신사동,40평,,
2,42.0,청담동,50평,,
4,45.0,개포동,40평,,


# 2. melt 메서드 사용하기

## 2.1  1개의 열만 고정하고 나머지 열을 행으로 바꾸기

In [11]:
import pandas as pd
df_price = pd.read_csv("data/주택매매가격지수_시도_시_군_구__20220103222346.csv", encoding="cp949")
print(df_price.head())

   행정구역별 2003. 11 2003. 12 2004. 01 2004. 02 2004. 03 2004. 04 2004. 05  \
0     전국     61.5     61.0     60.7     60.7     60.8     60.9     60.9   
1  서울특별시     55.6     55.2     55.1     55.3     55.5     55.7     55.7   
2  부산광역시     66.4     65.7     65.2     65.1     65.1     65.1     65.0   
3  대구광역시     58.2     57.5     57.0     57.0     57.1     57.1     57.0   
4  인천광역시     55.9     55.4     55.0     55.0     54.9     54.9     54.8   

  2004. 06 2004. 07  ... 2021. 02 2021. 03 2021. 04 2021. 05 2021. 06  \
0     60.8     60.6  ...     96.8     97.5     98.2     98.9    100.0   
1     55.6     55.4  ...     98.2     98.5     98.9     99.3    100.0   
2     64.7     64.3  ...     96.6     97.2     97.8     98.6    100.0   
3     56.9     56.8  ...     96.5     97.6     98.4     99.2    100.0   
4     54.6     54.6  ...     93.9     95.2     96.5     97.9    100.0   

  2021. 07 2021. 08 2021. 09 2021. 10 2021. 11  
0    100.9    101.8    102.8    103.7    104.3  
1    100.6  

In [12]:
df_price

Unnamed: 0,행정구역별,2003. 11,2003. 12,2004. 01,2004. 02,2004. 03,2004. 04,2004. 05,2004. 06,2004. 07,...,2021. 02,2021. 03,2021. 04,2021. 05,2021. 06,2021. 07,2021. 08,2021. 09,2021. 10,2021. 11
0,전국,61.5,61.0,60.7,60.7,60.8,60.9,60.9,60.8,60.6,...,96.8,97.5,98.2,98.9,100.0,100.9,101.8,102.8,103.7,104.3
1,서울특별시,55.6,55.2,55.1,55.3,55.5,55.7,55.7,55.6,55.4,...,98.2,98.5,98.9,99.3,100.0,100.6,101.3,102.0,102.7,103.3
2,부산광역시,66.4,65.7,65.2,65.1,65.1,65.1,65.0,64.7,64.3,...,96.6,97.2,97.8,98.6,100.0,100.9,101.9,102.7,103.7,104.3
3,대구광역시,58.2,57.5,57.0,57.0,57.1,57.1,57.0,56.9,56.8,...,96.5,97.6,98.4,99.2,100.0,100.3,100.6,100.8,100.8,100.8
4,인천광역시,55.9,55.4,55.0,55.0,54.9,54.9,54.8,54.6,54.6,...,93.9,95.2,96.5,97.9,100.0,101.3,102.7,104.2,105.8,106.8
5,광주광역시,61.9,61.5,61.3,61.2,61.3,61.4,61.3,61.3,61.4,...,97.8,98.1,98.6,99.0,100.0,100.7,101.6,102.4,103.4,104.2
6,대전광역시,59.6,58.7,58.7,59.1,59.3,59.5,60.0,60.2,60.4,...,95.8,97.0,98.0,98.9,100.0,100.8,101.9,102.7,103.6,104.2
7,울산광역시,56.7,56.3,55.9,56.1,56.3,56.3,56.7,56.7,56.8,...,98.2,98.6,99.0,99.3,100.0,100.7,101.5,102.2,102.9,103.4
8,세종특별자치시,-,-,-,-,-,-,-,-,-,...,98.7,99.4,99.8,100.1,100.0,99.9,99.7,99.6,99.5,98.8
9,경기도,56.4,56.0,55.7,55.7,55.9,56.0,55.9,55.6,55.3,...,94.8,96.0,97.1,98.1,100.0,101.5,103.2,104.8,106.2,107.1


In [13]:
print(df_price.iloc[:, 0:5])

      행정구역별 2003. 11 2003. 12 2004. 01 2004. 02
0        전국     61.5     61.0     60.7     60.7
1     서울특별시     55.6     55.2     55.1     55.3
2     부산광역시     66.4     65.7     65.2     65.1
3     대구광역시     58.2     57.5     57.0     57.0
4     인천광역시     55.9     55.4     55.0     55.0
5     광주광역시     61.9     61.5     61.3     61.2
6     대전광역시     59.6     58.7     58.7     59.1
7     울산광역시     56.7     56.3     55.9     56.1
8   세종특별자치시        -        -        -        -
9       경기도     56.4     56.0     55.7     55.7
10      강원도     73.4     73.4     73.4     73.8
11     충청북도     69.2     68.3     68.1     68.2
12     충청남도     80.3     79.1     78.9     79.5
13     전라북도     70.3     70.0     69.8     70.1
14     전라남도     70.5     69.6     69.4     69.2
15     경상북도     77.9     77.6     77.2     77.0
16     경상남도     70.2     69.9     69.7     69.9
17  제주특별자치도     99.9     99.8     95.1     93.1


# 연습문제(Exercise) - Just Do It Now !

행정구역별 고정시키고, 나머지 변수와 값에 대해 정리해보세요. 이때 variable name은 '기간 value는 '주택매매가격지수'로 표기해보세요

In [19]:
df_price_long = pd.melt(df_price, id_vars='행정구역별')
print(df_price_long.head())

   행정구역별  variable value
0     전국  2003. 11  61.5
1  서울특별시  2003. 11  55.6
2  부산광역시  2003. 11  66.4
3  대구광역시  2003. 11  58.2
4  인천광역시  2003. 11  55.9


In [20]:
df_price_long

Unnamed: 0,행정구역별,variable,value
0,전국,2003. 11,61.5
1,서울특별시,2003. 11,55.6
2,부산광역시,2003. 11,66.4
3,대구광역시,2003. 11,58.2
4,인천광역시,2003. 11,55.9
...,...,...,...
3901,전라북도,2021. 11,103.1
3902,전라남도,2021. 11,101.6
3903,경상북도,2021. 11,102.2
3904,경상남도,2021. 11,103.2


In [21]:
df_price_long = pd.melt(df_price, id_vars='행정구역별', var_name='기간', value_name='주택매매가격지수')
print(df_price_long.head())

   행정구역별        기간 주택매매가격지수
0     전국  2003. 11     61.5
1  서울특별시  2003. 11     55.6
2  부산광역시  2003. 11     66.4
3  대구광역시  2003. 11     58.2
4  인천광역시  2003. 11     55.9


In [22]:
df_price_long 

Unnamed: 0,행정구역별,기간,주택매매가격지수
0,전국,2003. 11,61.5
1,서울특별시,2003. 11,55.6
2,부산광역시,2003. 11,66.4
3,대구광역시,2003. 11,58.2
4,인천광역시,2003. 11,55.9
...,...,...,...
3901,전라북도,2021. 11,103.1
3902,전라남도,2021. 11,101.6
3903,경상북도,2021. 11,102.2
3904,경상남도,2021. 11,103.2


# 수고많으셨습니다. 이제 2주차 데이터 분석을 시작해보겠습니다.