In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

### 데이타 병합  -  Concat, Merge
    서로 다른 데이타프레임을 하나로 합치는 작업
    1)Concatenate
      단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법
      이 경우에는 두 DataFrame이 서로 동일한 인덱스,컬럼을 가지고 있는 경우가 대부분
      위+아래로 연결되는 방식이 기본이지만 좌,우로도 연결 가능하다.
      outer join이 기본방식이다.
      key를 이용한 concat도 가능하다.
    2)Merge
      두개의 DataFrame에 공통적으로 포함되어 있는 하나의 컬럼을 기준으로 삼아
      합치는 방식
      inner join이 기본방식이다.
      on 속성뒤에 공통의 컬럼명
      how 속성되에 조인기법을 입력함  

### Concat

In [3]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3'],
    
})
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [4]:
df2 = pd.DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [5]:
# df1, df2는 컬럼 수가 같아 상하로 병합하기 좋은 데이터

pd.concat([df1, df2])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [6]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [7]:
# 좌우병합

pd.concat([df1, df2], axis=1, ignore_index=True)

Unnamed: 0,0,1,2,3,4,5,6,7
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [8]:
# keys 속성이 왜 필요한지 반드시 정리한다.
# 데이터의 출처를 구분
# 데이터를 직관적으로 세분화(그룹핑)

pd.concat([df1, df2], keys=['F', 'M'])

Unnamed: 0,Unnamed: 1,A,B,C,D
F,0,A0,B0,C0,D0
F,1,A1,B1,C1,D1
F,2,A2,B2,C2,D2
F,3,A3,B3,C3,D3
M,0,A4,B4,C4,D4
M,1,A5,B5,C5,D5
M,2,A6,B6,C6,D6
M,3,A7,B7,C7,D7


In [9]:
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']      
})
df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [10]:
df4 = pd.DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [11]:
# df3, df4는 열 인덱스가 일치하지 않는다.
# concat은 axis=0이 기본으로 작동하기 때문에 상하로 합쳐질 것이고
# 지금처럼 열 인덱스가 일치하지 않을 때 문제가 발생할 수 있다.

pd.concat([df3, df4], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [12]:
pd.concat([df3, df4], ignore_index=True, join='inner')

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7


### Merge

In [13]:
df1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('1234'))
df1

df2 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('5678'))
df2

df3 = DataFrame({ 'Year':[2001,2003,2004,2005],
                  'Product_Code':[11,22,33,44],
                  'Color_num':[33,44,55,99]},
                   index=list('1234'))
df3

Unnamed: 0,Year,Product_Code,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,30000
4,2004,44,40000


Unnamed: 0,Year,Product_Code,Price
5,2001,11,10000
6,2002,22,20000
7,2003,33,30000
8,2004,44,40000


Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [14]:
# 인덱스와 상관 없이 병합되고 값들은 중복표기되지 않는다.
# 문법적인 표현이 concat과 다르다. [ ] 사용하지 않는다.

pd.merge(df1, df2)

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [15]:
# df1과 df2의 데이터가 똑같으니 바꿔준다.

df1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[1,2,3,4]},
                   index=list('1234'))
df1

Unnamed: 0,Year,Product_Code,Price
1,2001,11,1
2,2002,22,2
3,2003,33,3
4,2004,44,4


In [16]:
pd.merge(df1, df2) # on 속성을 사용하지 않으면 아무것도 안 나온다.

pd.merge(df1, df2, on='Year')

Unnamed: 0,Year,Product_Code,Price


Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,1,11,10000
1,2002,22,2,22,20000
2,2003,33,3,33,30000
3,2004,44,4,44,40000


In [17]:
# 2개 이상의 컬럼을 기준으로 병합 가능하다.
pd.merge(df1, df2, on=['Year', 'Product_Code'])

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,1,10000
1,2002,22,2,20000
2,2003,33,3,30000
3,2004,44,4,40000


#### set_index()
    병합한 결과에서 특정한 컬럼 값을 새롭게 인덱스로 지정함으로써
    분석 문서의 가독력과 직관성을 높일 수 있다.
    아울러 데이터프레임 형식이 좀 더 깔끔해질 수 있다.

In [18]:
pd.merge(df1, df2, on=['Year', 'Product_Code']).set_index('Year')

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,1,10000
2002,22,2,20000
2003,33,3,30000
2004,44,4,40000


In [19]:
df1
df3

Unnamed: 0,Year,Product_Code,Price
1,2001,11,1
2,2002,22,2
3,2003,33,3
4,2004,44,4


Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [20]:
pd.merge(df1, df3)

Unnamed: 0,Year,Product_Code,Price,Color_num
0,2001,11,1,33


In [21]:
pd.merge(df1, df3, on='Year')

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,1,11,33
1,2003,33,3,22,44
2,2004,44,4,33,55


In [22]:
pd.merge(df1, df3, on='Year', how='outer') # default inner

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,1.0,11.0,33.0
1,2002,22.0,2.0,,
2,2003,33.0,3.0,22.0,44.0
3,2004,44.0,4.0,33.0,55.0
4,2005,,,44.0,99.0


In [23]:
pd.merge(df1, df3, on='Year', how='left')

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,1,11.0,33.0
1,2002,22,2,,
2,2003,33,3,22.0,44.0
3,2004,44,4,33.0,55.0
