In [None]:
'''
서로 다른 DataFrame을 하나로 합치는 방법

1)Concatenate
 단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법
 이 경에 동일한 인덱스와 컬럼을 가지는 것이 합치기 수월하다.
 위 + 아래로 연결되는 방식이 기본
 좌, 우로도 연결 가능하다.
 
 outer join이 기본 방식이다.
 keys를 이용한 concat이 가능하다.
 
2)Merge
 두개의 DataFrame에 공통적으로 포함되어져 있는 하나의 칼럼을 기준으로 삼아
 서 합치는 방식을 말한다.
 on='컬럼명'
 
 Inner join이 기본이다.
 on 속성뒤에 공동의 컬럼명을 명시한다.
 how 속성뒤에 조인기법을 명시한다.
 
'''

In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib as plt

#### 1.concat

In [8]:

df1 = DataFrame({
    'A' : ['A0', 'A1', 'A2', 'A3'],
    'B' : ['B0', 'B1', 'B2', 'B3'],
    'C' : ['C0', 'C1', 'C2', 'C3'],
    'D' : ['D0', 'D1', 'D2', 'D3']
})
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [9]:
df2 = DataFrame({
    'A' : ['A4', 'A5', 'A6', 'A7'],
    'B' : ['B4', 'B5', 'B6', 'B7'],
    'C' : ['C4', 'C5', 'C6', 'C7'],
    'D' : ['D4', 'D5', 'D6', 'D7']
})
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [12]:
'''
df1, df2의 데티터를 유심히 들여다 보면
서로 다른 DataFrame이 상하로 연결되면 좋을듯 하다.


'''
result = pd.concat([df1, df2], ignore_index=True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [13]:
# 상하로 연결말고... 좌우로는 연결 안될까?
result = pd.concat([df1, df2], axis=1) 
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


#### 1-1. Concat - keys 

In [17]:
'''
keys 속성이 왜 필요한지는 먼저 코드를 해본 다음에 여러분에게 질문을 드립니다.

- 합쳐진 데이타들이 어느 출처(그룹)에서 왔는지 구분하기 위한 용도
- 합쳐진 데이터를 세분화 하기 위한 옵션

'''

result = pd.concat([df1, df2], keys=['F', 'M'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
F,0,A0,B0,C0,D0
F,1,A1,B1,C1,D1
F,2,A2,B2,C2,D2
F,3,A3,B3,C3,D3
M,0,A4,B4,C4,D4
M,1,A5,B5,C5,D5
M,2,A6,B6,C6,D6
M,3,A7,B7,C7,D7


In [18]:
df3 = DataFrame({
    'A' : ['A0', 'A1', 'A2', 'A3'],
    'B' : ['B0', 'B1', 'B2', 'B3'],
    'C' : ['C0', 'C1', 'C2', 'C3']
})

df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [19]:
df4 = DataFrame({
    'A' : ['A4', 'A5', 'A6', 'A7'],
    'B' : ['B4', 'B5', 'B6', 'B7'],
    'C' : ['C4', 'C5', 'C6', 'C7'],
    'D' : ['D4', 'D5', 'D6', 'D7']
})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [20]:
'''
df3와 df4는 행과 열이 일치하지 않는다.
이 상태에서 df3, df4를 병합
axit의 기본축이 0으로 동작하기 때문에
데이타가 상하(행 중심으로)로 합쳐질 것이다.

df3에는 df4에 있는 D컬럽이 없기 때문에 그 부분은 NaN으로 채워진다.

'''

result2 = pd.concat([df3, df4], ignore_index=True)
result2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [24]:
# result3 = pd.concat([df3, df4], axis=0, join='outer')

# inner옵션을 살펴보자
# 두 DataFrame에 공통적으로 존재하는 컬럼의 값들만 보여준다
# 두 DataFrame에 모두 존재하는 행인덱스만 가져오는 방식

result3 = pd.concat([df3, df4], axis=0, join='inner')
result3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


#### 2. Merge

In [28]:
'''
df1, df2는 index만 다를뿐 모든 값이 동일한 데이타
반면에 df3는 다른 컬럼을 가지고 있다.
price 대신에 Color_num이라는 항목을 가진다.
'''

df1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('1234'))
df1

df2 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('5678'))
df2

df3 = DataFrame({ 'Year':[2001,2003,2004,2005],
                  'Product_Code':[11,22,33,44],
                  'Color_num':[33,44,55,99]},
                   index=list('1234'))
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [32]:
# result = pd.concat([df1, df2])
# result

'''
df1, df2를 merge로 병합
1. 인덱스와 상관없이 병합
2. 값들은 중복 표기되지 않는다.
3. 병합시 표기법이 concat과 다르다... []를 사용하지 않는다.

'''
result = pd.merge(df1, df2)
result

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [33]:
df1_1 = DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[1,2,3,4]},
                   index=list('1234'))

result = pd.merge(df1, df1_1) #merge는 on 속성과 함께 사용된다.
result

Unnamed: 0,Year,Product_Code,Price


In [34]:
'''
merge할때는 주로 특정한 컬럼을 기준으로 병합하고
이때 on 속성을 사용한다.
ex) on='Year'
이렇게 병합하면 기준이 되는 컬럼을 제외하고는
나머지 컬럼값들이 중복표기되어 진다.

'''

result = pd.merge(df1, df1_1, on='Year')
result

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,10000,11,1
1,2002,22,20000,22,2
2,2003,33,30000,33,3
3,2004,44,40000,44,4


In [38]:
# 2개의 컬럼을 기준으로 병합, Year, Product_code
result2 = pd.merge(df1, df2, on=['Year', 'Product_Code'])
result2

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,10000,10000
1,2002,22,20000,20000
2,2003,33,30000,30000
3,2004,44,40000,40000


#### set_Index()

In [42]:
result2.set_index('Year', inplace=True)

In [43]:
result2

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,10000
2002,22,20000,20000
2003,33,30000,30000
2004,44,40000,40000


In [44]:
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,33
2,2003,22,44
3,2004,33,55
4,2005,44,99


In [45]:
# 결과를 확인하면 Year, Produect_code의 데이터가 같은 행만 병합된 것을 확인할 수 있다
# Inner Join의 특징.
# 아래 cell에서 on 속성을 사용해서 제대로 병합
result3 = pd.merge(df1, df3)
result3

Unnamed: 0,Year,Product_Code,Price,Color_num
0,2001,11,10000,33


In [47]:
# Year 컬럼을 기준으로 df1, df3를 병합
# Year에 있는 값중 공통의 값으로 합쳐진다, 이 방법이 Inner join 방법이다.


result3 = pd.merge(df1, df3, how='inner', on='Year')
result3

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,33
1,2003,33,30000,22,44
2,2004,44,40000,33,55


In [48]:
# outer를 사용할 경우 모든 값으로 합쳐지되, 누락된 데이터는 NaN으로 표시

result4 = pd.merge(df1, df3, how='outer', on='Year')
result4

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11.0,33.0
1,2002,22.0,20000.0,,
2,2003,33.0,30000.0,22.0,44.0
3,2004,44.0,40000.0,33.0,55.0
4,2005,,,44.0,99.0


#### merge - left, right

In [49]:
result5 = pd.merge(df1, df3, how='inner', on='Year')
result5

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,33
1,2003,33,30000,22,44
2,2004,44,40000,33,55


In [50]:
'''
merge병합방법에서는 how 속성의 값들을 다르게 설정할 수 있다.
inner / outer / left / right --> 총 4가지, Default는 inner이다.

how='inner' : on에 지정된 컬럼값이 공통적인 값들만 병합
how='outer' : on에 지정된 컬럼값 전부 병합
how='left' : on에 지정된 컬럽값 중에서 왼쪽에 병합데이터를 기준으로 병합, 2001, 2002, 2003, 2004
how='right' : on에 지정된 컬럼값 중에서 오른쪽에 병합데이털르 기준으로 병합, 2001, 2003, 2004, 2005
'''
result6 = pd.merge(df1, df3, how='left', on='Year')
result6

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11.0,33.0
1,2002,22,20000,,
2,2003,33,30000,22.0,44.0
3,2004,44,40000,33.0,55.0


In [51]:
result7 = pd.merge(df1, df3, how='right', on='Year')
result7

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11,33
1,2003,33.0,30000.0,22,44
2,2004,44.0,40000.0,33,55
3,2005,,,44,99
