In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

### 데이타 병합  -  Concat, Merge
    서로 다른 데이타프레임을 하나로 합치는 작업
    1)Concatenate
      단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법
      이 경우에는 두 DataFrame이 서로 동일한 인덱스,컬럼을 가지고 있는 경우가 대부분
      위+아래로 연결되는 방식이 기본이지만 좌,우로도 연결 가능하다.
      outer join이 기본방식이다.
      key를 이용한 concat도 가능하다.
    2)Merge
      두개의 DataFrame에 공통적으로 포함되어 있는 하나의 컬럼을 기준으로 삼아
      합치는 방식
      inner join이 기본방식이다.
      on 속성뒤에 공통의 컬럼명
      how 속성되에 조인기법을 입력함  

### Concat

In [10]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3'],
    
})
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [11]:
df2 = pd.DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [4]:
# df1, df2의 데이터를 보면, 상하로 병합하면 딱 좋을모양의 데이터이다.
# 상하로 병합을 기본으로 제공하는 concat()

In [12]:
result = pd.concat([df1, df2], ignore_index=True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [13]:
# 좌우병합
result = pd.concat([df1, df2], axis=1) #행이 아닌 열로 병합됨
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [14]:
# keys속성이 왜 필요한지 반드시 정리한다.
result = pd.concat([df1, df2], keys=['F','M'])
result
#데이터를 합칠때 데이터를 어느 부류에서 받아왔는지 출처를 구분하는 용도
#그룹핑, 세분화

Unnamed: 0,Unnamed: 1,A,B,C,D
F,0,A0,B0,C0,D0
F,1,A1,B1,C1,D1
F,2,A2,B2,C2,D2
F,3,A3,B3,C3,D3
M,0,A4,B4,C4,D4
M,1,A5,B5,C5,D5
M,2,A6,B6,C6,D6
M,3,A7,B7,C7,D7


In [15]:
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']      
})
df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [16]:
df4 = pd.DataFrame({
    'A':['A4', 'A5', 'A6', 'A7'],
    'B':['B4', 'B5', 'B6', 'B7'],
    'C':['C4', 'C5', 'C6', 'C7'],
    'D':['D4', 'D5', 'D6', 'D7'],
})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [None]:
# df3, df4는 열 인덱스가 일치하지 않는다.
# concat은 axis가 0이 기본으로 작동하기 때문에 상하로 합쳐질 것이고
# 지금처럼 열 인덱스가 일치하지 않을때 문제가 발생할 수 있다.

In [19]:
# df3에는 df4에 있는 D열이 없기 때문에 NaN으로 채워지는데
# 이런 방법은 join = 'outer'가 디폴트로 잡혀있기 때문이다.
result2 = pd.concat([df3, df4], ignore_index=True)
result2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [20]:
# join ='inner' 두 데이터에 모두 존재하는 컬럼의 행 인덱스만 가져온다 
result3 = pd.concat([df3, df4], join='inner')
result3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


### Merge

In [29]:
df1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('1234'))
df1

df2 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('5678'))
df2

df3 = DataFrame({ 'Year':[2001,2003,2004,2005],
                  'Product_Code':[11,22,33,44],
                  'Color_num':[33,44,55,99]},
                   index=list('1234'))
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [30]:
# df1, df2를 병합...merge사용
# 인덱스와 상관없이 병합되고 값들은 중복표기 되지 않는다
# 문법적인 표현이 concat과 다르다. [ ] 사용하지 않는다. left,right
result = pd.merge(df1,df2)
result

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [32]:
df1_1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[100,200,300,400]},
                   index=list('1234'))
# on 속성을 사용하지 않으면 아무것도 안나온다
# 2개의 데이터가 동일한 값을 가지는 경우 말고는...
'''
merge를 할때는 특정한 컬럼을 기준으로 병합한다.
그때 사용되는 옵션이 on 이다.
Year 컬럼을 기준으로 데이터를 병합
Year 컬럼을 제외한 나머지 데이터들은 중복으로 표기된다.
'''
result1 = pd.merge(df1_1,df2, on='Year') 
result1

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,100,11,10000
1,2002,22,200,22,20000
2,2003,33,300,33,30000
3,2004,44,400,44,40000


In [33]:
# 2개 이상의 컬럼을 기준으로 병합가능하다
result2 = pd.merge(df1,df2,on=['Year','Product_Code'])
result2

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,10000,10000
1,2002,22,20000,20000
2,2003,33,30000,30000
3,2004,44,40000,40000


#### set_index()
    병합한 결과에서 특정한 컬럼값을 새롭게 인덱스로 지정함으로써
    분석문서의 가독력과 직관성을 높일 수 있다.
    아울러 데이터프레임 형식이 조금 더 깔끔해질 수 있다.

In [34]:
result2.set_index('Year', inplace=True)
result2

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,10000
2002,22,20000,20000
2003,33,30000,30000
2004,44,40000,40000


In [35]:
df1

Unnamed: 0,Year,Product_Code,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,30000
4,2004,44,40000


In [36]:
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [39]:
result3 = pd.merge(df1,df3)
result3

Unnamed: 0,Year,Product_Code,Price,Color_num
0,2001,11,10000,33


In [41]:
# Year 기준으로 df1, df3를 병함
# 어떻게 merge 할것인가? how 속성...디폴트가 inner(중복되는 Year에 대해서만 merge)
# outer는 기준이 되는 컬럼 Year의 값에 상관없이 데이터 다 보여줌
result4 = pd.merge(df1,df3,on='Year',how='outer')
result4

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11.0,33.0
1,2002,22.0,20000.0,,
2,2003,33.0,30000.0,22.0,44.0
3,2004,44.0,40000.0,33.0,55.0
4,2005,,,44.0,99.0


In [42]:
result5 = pd.merge(df1,df3,on='Year',how='left') # 여기서 left는 df1을 의미, df1의 연도를 중심으로 outer join을 했다.
result5

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11.0,33.0
1,2002,22,20000,,
2,2003,33,30000,22.0,44.0
3,2004,44,40000,33.0,55.0


In [43]:
result6 = pd.merge(df1,df3,on='Year',how='right') # 여기서 left는 df3을 의미, df3의 연도를 중심으로 outer join을 했다.
result6

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11,33
1,2003,33.0,30000.0,22,44
2,2004,44.0,40000.0,33,55
3,2005,,,44,99
