In [2]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

In [None]:
'''
서로다른 데이터 프레임을 하나로 합치는 작업
1) Concat
    단순히 하나의 데이터프레임에 다른 데이터 프레임을 연속적으로 붙이는 방법
    이 경우 두개의 데이터프레임의 인덱스와 컬럼이 서로 동일한 경우가 대부분
    기본이 위,아래로 연결
    Axis를 수정하면 좌우 연결도 가능
    
    outerjoin과 동일한 방식.
    key를 이용한 concat이 가능
2) Merge
    
'''

### Concat

In [6]:
df1 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']
})

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [7]:
df2 = DataFrame({
    'A':['A4','A5','A6','A7'],
    'B':['B4','B5','B6','B7'],
    'C':['C4','C5','C6','C7'],
    'D':['D4','D5','D6','D7']
})

df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [10]:
'''
index가 0,1,2,3 동일한 값 반복되고 있음.
'''
result = pd.concat([df1,df2],ignore_index=True) #원본 안바뀜
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [16]:
#좌우 연결도 가능한지? - 가능
'''
keys는 합쳐진 데이터를 구분할 수 있도록 함 (어디서 왔는지 Grouping가능)
'''
result = pd.concat([df1,df2],keys=['ClassA','ClassB'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
ClassA,0,A0,B0,C0,D0
ClassA,1,A1,B1,C1,D1
ClassA,2,A2,B2,C2,D2
ClassA,3,A3,B3,C3,D3
ClassB,0,A4,B4,C4,D4
ClassB,1,A5,B5,C5,D5
ClassB,2,A6,B6,C6,D6
ClassB,3,A7,B7,C7,D7


In [17]:
#4행 3열
df3 = DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']
})

df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [18]:
#4행 4열
df4 = DataFrame({
    'A':['A4','A5','A6','A7'],
    'B':['B4','B5','B6','B7'],
    'C':['C4','C5','C6','C7'],
    'D':['D4','D5','D6','D7']
})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [28]:
#df3, df4는 행과 열이 동시에 일치하지 않는다. 이걸 병합할때 어떤 문제가 생기는지?
#해당 인덱스 혹은 해당 컬럼이 존재하지 않는 곳에는 NaN으로 채워진다.

result2 = pd.concat([df3,df4],ignore_index=True)
result2

#result2.fillna(method='ffill') 안되는 이유? 첫번째 컬럼의 값을 따라가는데 첫번째 컬럼 값이 없음.
result2.fillna(value='A')

Unnamed: 0,A,B,C,D
0,A0,B0,C0,A
1,A1,B1,C1,A
2,A2,B2,C2,A
3,A3,B3,C3,A
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [29]:
'''
outer join하면 존재하는 값 모두 가져옴
'''
result3 = pd.concat([df3,df4],join='outer')
result3

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [30]:
'''
inner join하면 두 프레임에 공통적으로 존재하는 컬럼만 가져오고 나머지는 버려버림.
'''
result3 = pd.concat([df3,df4],join='inner')
result3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
0,A4,B4,C4
1,A5,B5,C5
2,A6,B6,C6
3,A7,B7,C7


### Merge
- Merge할때는 특정한 컬럼을 기준으로 병합함.(on 변수에 컬럼값을 집어넣어서)
- 특정 컬럼을 기준으로 하면 해당 컬럼 외에는 모든 데이터가 다 중복으로 표기됨

In [53]:
df1 = DataFrame({
    'Year':[2001,2002,2003,2004],
    'ProductCode':[11,22,33,44],
    'Price':[10000,20000,3000,4000]},
    index=list('1234'))
print(df1)

df2 = DataFrame({
    'Year':[2001,2002,2003,2004],
    'ProductCode':[11,22,33,44],
    'Price':[10000,20000,3000,4000]},
    index=list('5678'))
print(df2)

df3 = DataFrame({
    'Year':[2001,2003,2004,2005],
    'ProductCode':[11,22,33,44],
    'Color_num':[1,2,3,4]},
    index=list('1234'))
print(df3)

   Year  ProductCode  Price
1  2001           11  10000
2  2002           22  20000
3  2003           33   3000
4  2004           44   4000
   Year  ProductCode  Price
5  2001           11  10000
6  2002           22  20000
7  2003           33   3000
8  2004           44   4000
   Year  ProductCode  Color_num
1  2001           11          1
2  2003           22          2
3  2004           33          3
4  2005           44          4


In [35]:
res = pd.concat([df1,df2])
res

#Concat과 달리 값을 list로 받아오지 않으며, JOIN이라는 변수도 없음
'''
df1,df2를 Merge로 병합 (동일 Culmns, 다른 Index)
좌우로 병합되고, 중복값은 표시하지 않는다.
'''
res = pd.merge(df1,df2)
res

Unnamed: 0,Year,ProductCode,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,3000
3,2004,44,4000


In [41]:
df1_1 = DataFrame({
    'Year':[2001,2002,2003,2004],
    'ProductCode':[11,22,33,44],
    'Price':[23000,32400,432000,125000]},
    index=list('1234'))

# res1 = pd.merge(df1,df1_1) 아무것도 안뜸
res1 = pd.merge(df1,df1_1,on='Year')
res1

#res2 는 price를 제외한 컬럼을 기준으로 병합
res2 = pd.merge(df1,df1_1,on=['Year','ProductCode'])
res2

Unnamed: 0,Year,ProductCode,Price_x,Price_y
0,2001,11,10000,23000
1,2002,22,20000,32400
2,2003,33,3000,432000
3,2004,44,4000,125000


In [47]:
#Year를 인덱스로 지정해서 데이타프레임을 좀 더 깔끔하게 표현
#Set_index() 사용
#res2.set_index('Year',inplace=True)
res2

Unnamed: 0_level_0,ProductCode,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,23000
2002,22,20000,32400
2003,33,3000,432000
2004,44,4000,125000


In [55]:
df1

Unnamed: 0,Year,ProductCode,Price
1,2001,11,10000
2,2002,22,20000
3,2003,33,3000
4,2004,44,4000


In [56]:
df3

Unnamed: 0,Year,ProductCode,Color_num
1,2001,11,1
2,2003,22,2
3,2004,33,3
4,2005,44,4


In [61]:
#ProductCode, Year의 데이터가 같은 행만 병합
res3= pd.merge(df1,df3)
res3

#두 데이터 다 가지고 있는 Year값들만 출력
res3= pd.merge(df1,df3,on='Year')
res3
#outer 기준이 되는 컬럼 YEAR의 데이터 중복과 상관없이 모두 출력
res4= pd.merge(df1,df3,on='Year',how='outer')
res4

#inner 기준이 되는 컬럼 YEAR의 데이터 중복과 상관없이 모두 출력
res5= pd.merge(df1,df3,on='Year',how='inner')
res5

Unnamed: 0,Year,ProductCode_x,Price,ProductCode_y,Color_num
0,2001,11,10000,11,1
1,2003,33,3000,22,2
2,2004,44,4000,33,3


In [63]:
res6 = pd.merge(df1,df3,on='Year',how='left')
res6

Unnamed: 0,Year,ProductCode_x,Price,ProductCode_y,Color_num
0,2001,11,10000,11.0,1.0
1,2002,22,20000,,
2,2003,33,3000,22.0,2.0
3,2004,44,4000,33.0,3.0


In [64]:
res6 = pd.merge(df1,df3,on='Year',how='right')
res6

Unnamed: 0,Year,ProductCode_x,Price,ProductCode_y,Color_num
0,2001,11.0,10000.0,11,1
1,2003,33.0,3000.0,22,2
2,2004,44.0,4000.0,33,3
3,2005,,,44,4
