#### 아파트 실거래가를 알고 싶다고 생각해보자. 
- 반영요소?
    - 학교?
    - 번화가와의 근접성?
    - CCTV의 수?
    - 사설학원의 수?
<br><br>

#### 그러나 내가 갖고 있는 파일 / 테이블에 해당 요소들이 반영되지 않았다면? 

- 합쳐야 한다!
    - **concat! (상 - 하)** 
        - keys option
        - how='outer'  (default)
        - ignore_index = False (default)
            - if true, it ignores its original index, creating a new order.
        <br><br>
    - **merge! (좌 - 우)**
        - keyword parameter 'on'  (ex,  on=foobar)
        - how='inner'  (default)

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import matplotlib.pyplot as plt

### Concatenate
- 단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법
- 이 경우에는 두 DataFrame이 **서로 동일한 인덱스, 컬럼을 가질 수 있다.**
- 위, 아래로 연결되는 방식이 기본이지만 좌,우 연결도 가능하다.
- outer join이 기본으로 동작
- key를 이용한 concat을 활용해 사용한다.

In [2]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3'],    
})
df1


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [3]:
df2 = pd.DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df2


Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [4]:
'''
df1, df2를 볼때, 어떻게 병합하는게 좋을까? 
--> 상하연결
'''
result1 = pd.concat([df1,df2])

In [5]:
result1 #인덱스의 문제가 있다! 

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [6]:
result1 = pd.concat([df1,df2],ignore_index= True)
result1 #기존의 테이블이 갖고 있는 index를 무시하고 새로운 정렬을 만든다 하여 ignore_index. 

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [7]:
result2 = pd.concat([df1,df2],axis=1) #축변환
result2

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [8]:
#만약 ignore_index를 추가하면?
result2 = pd.concat([df1,df2],axis=1,ignore_index=True)
result2 #기존의 칼럼이 사라지는 결과.

Unnamed: 0,0,1,2,3,4,5,6,7
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


#### KEYS

In [9]:
result1 = pd.concat([df1,df2],keys=['X','Y']) #합친 테이블을 X,Y로 나누어 관리
result1 



Unnamed: 0,Unnamed: 1,A,B,C,D
X,0,A0,B0,C0,D0
X,1,A1,B1,C1,D1
X,2,A2,B2,C2,D2
X,3,A3,B3,C3,D3
Y,0,A4,B4,C4,D4
Y,1,A5,B5,C5,D5
Y,2,A6,B6,C6,D6
Y,3,A7,B7,C7,D7


#### 키를 기준으로 접근하는 방법?
- loc!

In [10]:
result1 
result1.loc['X']

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [11]:
#키 접근 후 인덱싱! -> [[C5 D5] , [C6 D6]] 을 얻고싶다면?
result1.loc['Y'].iloc[1:3,2:]

Unnamed: 0,C,D
1,C5,D5
2,C6,D6


In [12]:
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']      
})
df3


Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [13]:
df4 = pd.DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df4


Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


#### join

In [14]:
'''
feature의 갯수가 다른 df3,df4 concat으로 합치면? (df4가 더 많은 피쳐를 가진다.)
'''

res2 = pd.concat([df3,df4],ignore_index=True) #join='outer' (default) 
res2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


즉, outer join은 확장성을 가지고, 다른 테이블에 존재하지 않는 경우 null로 채워버리는 방식의 조인이다.


In [15]:
res3 = pd.concat([df4,df3],ignore_index=True,join='inner')
res3

Unnamed: 0,A,B,C
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7
4,A0,B0,C0
5,A1,B1,C1
6,A2,B2,C2
7,A3,B3,C3


inner join 은 그와 반대로 교집합적인 성격을 가진다. 

---

### Merge

In [16]:
'''
df1, df2는 인덱스만 다를 뿐 모든 값을 동일하게 가지고 있다.
df3는 Color_num 컬럼이 다르다.
'''

df1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('1234'))
df1

df2 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('5678'))
df2

df3 = DataFrame({ 'Year':[2001,2003,2004,2005],
                  'Product_Code':[11,22,33,44],
                  'Color_num':[33,44,55,99]},
                   index=list('1234'))



In [17]:
#df1, df2를 merge
meg1 = pd.merge(df1,df2)
meg1

#1. 표현법이 concat과 다르다 
#2. 인덱스와 상관없이 병합되고, 같은 값들은 중복표기되지 않는다.

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [18]:
df1_1 =  DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[1,2,3,4]},
                   index=list('1234'))

#df1_1와 df1을 merge하면?

meg1_1 =  pd.merge(df1,df1_1) 

#결과 값이 없다! 
#두가지 이유. 
#1)how='inner' 로 되어있어 겹쳐지는 값이 필요. 
#2)on=none이기에 어떤 것을 기준으로 조인할지 설정되어 있지 않음
'''
These must be found in both DataFrames. 
If `on` is None and not merging on indexes then this defaults
to the "intersection" of the columns in both DataFrames.
'''
meg1_1

Unnamed: 0,Year,Product_Code,Price


In [19]:
meg1_2 = pd.merge(df1,df1_1, on=['Year','Product_Code'])
meg1_2

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,10000,1
1,2002,22,20000,2
2,2003,33,30000,3
3,2004,44,40000,4


#### set_index()
- 특정 칼럼을 인덱스로 지정함으로써 데이터프레임을 좀더 깔끔하고 직관적으로 디스플레이.

In [20]:
meg1_2.set_index(['Year'],inplace=True) #컬럼명이 들어가, 해당 컬럼이 인덱스화 된다.
meg1_2

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,1
2002,22,20000,2
2003,33,30000,3
2004,44,40000,4


#### 값과 컬럼이 다른 테이블, 병합

In [25]:
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [26]:
df1

Unnamed: 0,Year,Product_Code,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,30000
4,2004,44,40000


In [28]:
meg2 = pd.merge(df1,df3)
meg2

Unnamed: 0,Year,Product_Code,Price,Color_num
0,2001,11,10000,33


In [33]:
meg2_1 = pd.merge(df1,df3,on=['Year']) #default on = 'Year'
meg2_1

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,33
1,2003,33,30000,22,44
2,2004,44,40000,33,55


In [37]:
meg3 = pd.merge(df1,df3,on='Year',how='outer')
meg3.set_index('Year')

Unnamed: 0_level_0,Product_Code_x,Price,Product_Code_y,Color_num
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2001,11.0,10000.0,11.0,33.0
2002,22.0,20000.0,,
2003,33.0,30000.0,22.0,44.0
2004,44.0,40000.0,33.0,55.0
2005,,,44.0,99.0


In [38]:
meg4 = pd.merge(df1,df3,on='Year',how='left')
meg4
#left조인은 left outer join. 


Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11.0,33.0
1,2002,22,20000,,
2,2003,33,30000,22.0,44.0
3,2004,44,40000,33.0,55.0


In [41]:
meg5 = pd.merge(df1,df3,on='Year',how='right')
meg5

#right 조인은 right outer join. 

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11,33
1,2003,33.0,30000.0,22,44
2,2004,44.0,40000.0,33,55
3,2005,,,44,99
