In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

# 데이터 병합
- concat()
- merge()


## 1. concat()
- 단순히 하나의 DataFrame에 다른 DataFrame을 붙이는 방법(default=상하)
- 이 경우, DataFrame이 서로 동일한 인덱스, 컬럼을 가지고 있는 경우가 대부분
- 상하로 붙이는게 기본이지만 좌우로 붙이는 것도 가능
- outer join 방식
- keys를 이용해 concat을 사용한다.

In [2]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3'],  
})

df2 = DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']      
})
df4 = DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})

**index 차이점 살펴보기**

In [3]:
pd.concat([df1, df2]) # index는 상관없이 합쳐진다.

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [4]:
# ignore_index=True를 주면 기존 index는 무시하고 다시 index를 만든다.
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


**좌우 병합 살펴보기**

In [5]:
# A, B, C, D, A, B, C, D 가 반복
pd.concat([df1, df2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [6]:
# ignore_index할 경우 새로운 컬럼 인덱스(columns)를 만들어 넣는다.(정수로?)
pd.concat([df1, df2], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


**keys 옵션 살펴보기**
- keys를 주는 건 보통 병합 전 데이터 구분을 보여주기 위해서이다.
- 그룹화 할 수 있다.

In [7]:
pd.concat([df1, df2], keys=['FeMale', 'Male'])

Unnamed: 0,Unnamed: 1,A,B,C,D
FeMale,0,A0,B0,C0,D0
FeMale,1,A1,B1,C1,D1
FeMale,2,A2,B2,C2,D2
FeMale,3,A3,B3,C3,D3
Male,0,A4,B4,C4,D4
Male,1,A5,B5,C5,D5
Male,2,A6,B6,C6,D6
Male,3,A7,B7,C7,D7


In [8]:
# ignore_index 줄경우 keys옵션은 무시된다.
pd.concat([df1, df2], keys=['FeMale', 'Male'], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [9]:
print(df1)
print(df2)
print(df3)
print(df4)

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3
    A   B   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7
    A   B   C
0  A0  B0  C0
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3
    A   B   C   D
0  A4  B4  C4  D4
1  A5  B5  C5  D5
2  A6  B6  C6  D6
3  A7  B7  C7  D7


In [10]:
# 상하로 합칠 때 컬럼값이 매칭이 안되는 경우 NaN으로 채운다.
res1= pd.concat([df3, df4], ignore_index=True) # outer join인 경우 합집합이니 NaN, default=outer join
res1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [11]:
# inner 조인이니 교집합인 부분만 합친다.
res2 = pd.concat([df3, df4], ignore_index=True, join='inner')
res2

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7


## 2. merge()
- 표현법이 concat과 다르다... [ ]이 들어가지 않는다. 
- 인덱스와 상관없이 병합(좌우)되고 값들이 중복 표기되지 않는다. (동일하다면 중복표기 x)

In [12]:
df1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('1234'))

df2 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('5678'))

df3 = DataFrame({ 'Year':[2001,2003,2004,2005],
                  'Product_Code':[11,22,33,44],
                  'Color_num':[33,44,55,99]},
                   index=list('1234'))
print(df1,'\n\n', df2,'\n\n', df3)
df1_1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[1,2,3,4]},
                   index=list('1234'))

   Year  Product_Code  Price
1  2001            11  10000
2  2002            22  20000
3  2003            33  30000
4  2004            44  40000 

    Year  Product_Code  Price
5  2001            11  10000
6  2002            22  20000
7  2003            33  30000
8  2004            44  40000 

    Year  Product_Code  Color_num
1  2001            11         33
2  2003            22         44
3  2004            33         55
4  2005            44         99


In [13]:
res3 = df1.merge(df3, on='Year')
res3

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,33
1,2003,33,30000,22,44
2,2004,44,40000,33,55


In [14]:
pd.merge(df1, df3, on='Product_Code')

Unnamed: 0,Year_x,Product_Code,Price,Year_y,Color_num
0,2001,11,10000,2001,33
1,2002,22,20000,2003,44
2,2003,33,30000,2004,55
3,2004,44,40000,2005,99


In [15]:
# df1_1와 df1을 merge
res4 = pd.merge(df1, df1_1)
res4
# 아무것도 안나옴. 왜냐면 df1, df1_1이 다르기에 출력이 안된다. -> on을 써줘야한다. on은 모든 경우에 쓴다고 생각하자.

Unnamed: 0,Year,Product_Code,Price


In [16]:
res5 = pd.merge(df1,df1_1, on='Year') # Year를 기준으로 좌우병합.
res5
# merge할때는 주로 특정한 컬럼을 기준으로 병합을 한다.. on사용
# 기준이 되는 컬럼 외에는 다 중복으로 데이터가 표기된다.

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,10000,11,1
1,2002,22,20000,22,2
2,2003,33,30000,33,3
3,2004,44,40000,44,4


In [17]:
# on는 list로 여러개 기준으로 묶을 수도 있다.
res6 = pd.merge(df1, df1_1, on=['Year', 'Product_Code'])
res6

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,10000,1
1,2002,22,20000,2
2,2003,33,30000,3
3,2004,44,40000,4


**set_index()**
- 컬럼을 인덱스로 사용하게 해주는 것

In [18]:
res6.set_index('Year', inplace=True)
res6

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,1
2002,22,20000,2
2003,33,30000,3
2004,44,40000,4


In [19]:
res7 = pd.merge(df1, df3, on='Year')
res7

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,33
1,2003,33,30000,22,44
2,2004,44,40000,33,55


**merge의 how 옵션**\
concat의 join과 동일한 옵션\
default는 inner\
how : {'left', 'right', 'outer', 'inner', 'cross'}, default 'inner'
    Type of merge to be performed.

    * left: use only keys from left frame, similar to a SQL left outer join;
      preserve key order.
    * right: use only keys from right frame, similar to a SQL right outer join;
      preserve key order.
    * outer: use union of keys from both frames, similar to a SQL full outer
      join; sort keys lexicographically.
    * inner: use intersection of keys from both frames, similar to a SQL inner
      join; preserve the order of the left keys.
    * cross: creates the cartesian product from both frames, preserves the order
      of the left keys.


In [20]:
res8 = pd.merge(df1, df3, on='Year', how='outer')
res8

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11.0,33.0
1,2002,22.0,20000.0,,
2,2003,33.0,30000.0,22.0,44.0
3,2004,44.0,40000.0,33.0,55.0
4,2005,,,44.0,99.0


In [21]:
# how='left' : 왼쪽 데이터프레임(또는 시리즈, 여기선 df1)를 기준(on='Year')으로 병합한다.
pd.merge(df1, df3, on='Year', how='left')

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11.0,33.0
1,2002,22,20000,,
2,2003,33,30000,22.0,44.0
3,2004,44,40000,33.0,55.0


In [22]:
# how='rigth' : 오른쪽 데이터프레임(또는 시리즈, 여기선 df3)를 기준(on='Year')으로 병합한다.
pd.merge(df1, df3, on='Year', how='right')

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11,33
1,2003,33.0,30000.0,22,44
2,2004,44.0,40000.0,33,55
3,2005,,,44,99


### 참고 : Join
A와 B를 Innter-Join하면 A와 B의 교집합을 얻을 수 있다.\
A와 B를 Outer-Join하면 A와 B의 합집합을 얻을 수 있다.