In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

In [None]:
'''
서로다른 데이타프레임을 하나로 합치는 작업
1)Concat
    단순히 하나의 데이타프레임에 다른 데이타프레임을 연속적으로 붙이는 방법
    이 경우에는 두개의 데이타프레임의 인덱스와 컬럼이 서로 동일한 경우가 대부분
    기본이 위.아래로 연결
    Axis를 수정하면 좌우연결도 가능
    
    outer join이 기본방식이다.
    key를 이용한 concat이 가능하다
2)Merge
'''

## Concat

In [2]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']
})
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [3]:
df2 = DataFrame({
    'A':['A4','A5','A6','A7'],
    'B':['B4','B5','B6','B7'],
    'C':['C4','C5','C6','C7'],
    'D':['D4','D5','D6','D7']
})
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [9]:
'''
    df1.df2의 데이타를 가만히보면 상하로 병합해야되는 데이타란걸 알 수 있다.
    인덱스가 0,1,2,3    0,1,2,3
    동일한값이 반복되어져 있다.
'''

result = pd.concat([df1,df2], ignore_index=True)
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [8]:
#좌우연결도 가능하다
# result = pd.concat([df1, df2], axis=1)
# result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [12]:
'''
keys 속성이 왜 필요한지 결과를 보고서 이해

데이타들을 합칠때 어느 그룹에서 가져왔는지에 대한 구분이 가능
또한 keys 속성을 통해서 데이타의 그룹핑이 된다.
'''
result = pd.concat([df1,df2], keys=['ClassA','ClassB'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
ClassA,0,A0,B0,C0,D0
ClassA,1,A1,B1,C1,D1
ClassA,2,A2,B2,C2,D2
ClassA,3,A3,B3,C3,D3
ClassB,0,A4,B4,C4,D4
ClassB,1,A5,B5,C5,D5
ClassB,2,A6,B6,C6,D6
ClassB,3,A7,B7,C7,D7


In [13]:
#4행 3열
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']
})
df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [14]:
#4행4열
df4 = DataFrame({
    'A':['A4','A5','A6','A7'],
    'B':['B4','B5','B6','B7'],
    'C':['C4','C5','C6','C7'],
    'D':['D4','D5','D6','D7']
})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [26]:
# df3, df4는 행과열이 동시에 일치하지 않는다...이것들은 병합할 때 어떤문제....
# df3에는 D열이 없기 때문에 NaN으로 채워진다.
result2 = pd.concat([df3,df4], ignore_index=True)
result2

result2.fillna('A')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,A
1,A1,B1,C1,A
2,A2,B2,C2,A
3,A3,B3,C3,A
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [30]:
result3 = pd.concat([df3,df4], join='outer')
result3


Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [31]:
'''
join='inner' 방식으로 데이타프레임들을 연결하면
두 데이타에 모두 존재하는 컬럼값만 가져온다.
'''
result3 = pd.concat([df3,df4], join='inner')
result3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


In [67]:
df1 = DataFrame({
    'Year' : [2001,2002,2003,2004],
    'Product_Code' : [11,22,33,44],
    'Price' : [10000,20000,30000,40000]},
    index=list('1234'))
df1
df2 = DataFrame({
    'Year' : [2001,2002,2003,2004],
    'Product_Code' : [11,22,33,44],
    'Price' : [10000,20000,30000,40000]},
    index=list('5678'))
df2
df3 = DataFrame({
    'Year':[2001,2003,2004,2006],
    'Product_Code':[11,22,33,44],
    'Color_num':[3,4,5,9]},
    index=list('1234')
)
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,3
2,2003,22,4
3,2004,33,5
4,2006,44,9


In [68]:
result = pd.concat([df1,df2])
result



Unnamed: 0,Year,Product_Code,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,30000
4,2004,44,40000
5,2001,11,10000
6,2002,22,20000
7,2003,33,30000
8,2004,44,40000


In [69]:
'''
df1, df2를 병합....merge
인덱스 상관없이 좌우로 병합되고 중복된 값은 표시하지 않는다
표현법이 다르다 [ ]   사용하지 않는다
'''
result = pd.merge(df1,df2)
result

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [70]:
df1_1 = DataFrame({
    'Year' : [2001,2002,2003,2004],
    'Product_Code' : [11,22,33,44],
    'Price' : [110,120,130,140]},
    index=list('1234'))
result = pd.merge(df1,df1_1, on='Year')
result

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,10000,11,110
1,2002,22,20000,22,120
2,2003,33,30000,33,130
3,2004,44,40000,44,140


In [None]:
# merge할때는 특정한 컬럼을 기준으로 병합한다... on사용
# on='Year' Year컬럼외에는 데이타가 다 중복으로 표기된다.
# df1 df2를 Year컬럼 기준으로 병합

In [71]:
result1 = pd.merge(df1,df2, on='Year')
result1

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,10000,11,10000
1,2002,22,20000,22,20000
2,2003,33,30000,33,30000
3,2004,44,40000,44,40000


In [72]:
#2개의 컬럼으로 병합.... Year, Product_Code
result2 = pd.merge(df1,df2, on=['Year','Product_Code'])
result2

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,10000,10000
1,2002,22,20000,20000
2,2003,33,30000,30000
3,2004,44,40000,40000


In [73]:
# Year를 인덱스로 지정해서 데이터프레임을 좀더 깔끔하게 표현해 보겠다.
# set_index() 함수를 사용한다.
result2.set_index('Year', inplace=True)
result2

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,10000
2002,22,20000,20000
2003,33,30000,30000
2004,44,40000,40000


In [74]:
df1

Unnamed: 0,Year,Product_Code,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,30000
4,2004,44,40000


In [75]:
df3

Unnamed: 0,Year,Product_Code,Color_num
1,2001,11,3
2,2003,22,4
3,2004,33,5
4,2006,44,9


In [83]:
# Product_Code, Year의 데이타가 같은 행만 병합된 것을 확인
result3 = pd.merge(df1,df3)
result3

Unnamed: 0,Year,Product_Code,Price,Color_num
0,2001,11,10000,3


In [82]:
result3 = pd.merge(df1,df3, on='Year')    #Year 라는 컬럼을 기준으로 병합   how='inner' 는 기본값이다. 
result3

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,3
1,2003,33,30000,22,4
2,2004,44,40000,33,5


In [80]:
result4 = pd.merge(df1,df3, on='Year', how='outer')
result4

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11.0,3.0
1,2002,22.0,20000.0,,
2,2003,33.0,30000.0,22.0,4.0
3,2004,44.0,40000.0,33.0,5.0
4,2006,,,44.0,9.0


In [81]:
result5 = pd.merge(df1,df3, on='Year', how='inner')
result5

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,3
1,2003,33,30000,22,4
2,2004,44,40000,33,5


In [84]:
result6 = pd.merge(df1,df3, on='Year', how='left')
result6

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11.0,3.0
1,2002,22,20000,,
2,2003,33,30000,22.0,4.0
3,2004,44,40000,33.0,5.0


In [85]:
result6 = pd.merge(df1,df3, on='Year', how='right')
result6

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11,3
1,2003,33.0,30000.0,22,4
2,2004,44.0,40000.0,33,5
3,2006,,,44,9
