In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings('ignore')

## 데이터 병합 - concat, merge

In [5]:
'''
서로 다른 DataFrame을 하나로 합치는 작업
1) Concatenate
    단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법
    두개의 DF가 동일한 컬럼을 가질때 합치기 수월하다.
    위+아래로 연결되는 방식이 기본
    좌,우로도 연결 가능하다
    
    outer join 기본 방식이다.
    keys를 이용한 concat이 가능하다.
    
2) Merge
    두개의 DataFrame에 공통적으로 포함되어져 있는 하나의 컬럼을 기준으로 삼아서 합치는 방식을 말한다.
    
    inner join이 기본.
    on 속성뒤에 공통의 컬럼명을 명시한다.
    how 속성뒤에 join기법을 명시한다.  
    
'''

'\n서로 다른 DataFrame을 하나로 합치는 작업\n1) Concatenate\n    단순히 하나의 DataFrame에 다른 DataFrame을 연속적으로 붙이는 방법\n    두개의 DF가 동일한 컬럼을 가질때 합치기 수월하다.\n    위+아래로 연결되는 방식이 기본\n    좌,우로도 연결 가능하다\n    \n    outer join 기본 방식이다.\n    key를 이용한 concat이 가능하다.\n    \n2) Merge\n    두개의 DataFrame에 공통적으로 포함되어져 있는 하나의 컬럼을 기준으로 삼아서 합치는 방식을 말한다.\n    \n    inner join이 기본.\n    on 속성뒤에 공통의 컬럼명을 명시한다.\n    \n    \n    \n    \n    \n'

### 1.Concat

In [9]:
df = pd.DataFrame({'A':['A0','A1','A2','A3'],
                'B':['B0','B1','B2','B3'],
                'C':['C0','C1','C2','C3'],
                'D':['D0','D1','D2','D3'],               
               })
df

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [10]:
df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                'B':['B4','B5','B6','B7'],
                'C':['C4','C5','C6','C7'],
                'D':['D4','D5','D6','D7'],               
               })
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [25]:
result = pd.concat([df,df2], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


In [20]:
pd.concat(df,df2)

TypeError: first argument must be an iterable of pandas objects, you passed an object of type "DataFrame"

In [21]:
pd.concat

<function pandas.core.reshape.concat.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=None, copy=True)>

#### 1-1. Concat - keys

In [27]:
'''
합쳐진 데이터들이 어느 출처(그룹)에서 왔는지 구분하기 위한 용도
합쳐진 데이터들을 세분화하기 위한 용도
'''

result = pd.concat([df,df2], keys=['X','Y'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
X,0,A0,B0,C0,D0
X,1,A1,B1,C1,D1
X,2,A2,B2,C2,D2
X,3,A3,B3,C3,D3
Y,0,A4,B4,C4,D4
Y,1,A5,B5,C5,D5
Y,2,A6,B6,C6,D6
Y,3,A7,B7,C7,D7


#### 1-1. Concat - join

In [33]:
df3 = pd.DataFrame({
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3'],
    'C':['C0','C1','C2','C3']})
df3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3


In [34]:
df4 = pd.DataFrame({'A':['A4','A5','A6','A7'],
                'B':['B4','B5','B6','B7'],
                'C':['C4','C5','C6','C7'],
                'D':['D4','D5','D6','D7']})
df4

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [51]:
# outer : 두 데이터의 모든 컬럼을 합친다.
result2 = pd.concat([df3,df4],axis=0, join='outer', ignore_index=True)
result2

Unnamed: 0,A,B,C,D
0,A0,B0,C0,
1,A1,B1,C1,
2,A2,B2,C2,
3,A3,B3,C3,
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [52]:
# inner : 두 데이터 프레임의 공통적인 컬럼만 합친다.
result3 = pd.concat([df3,df4], join='inner', ignore_index=True)
result3

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2
3,A3,B3,C3
4,A4,B4,C4
5,A5,B5,C5
6,A6,B6,C6
7,A7,B7,C7


### 2. Merge

In [56]:
df1 = pd.DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('1234'))
print(df1)
print('-'*40)
df2 = pd.DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[10000,20000,30000,40000]},
                   index=list('5678'))
print(df2)
print('-'*40)

df3 = pd.DataFrame({ 'Year':[2001,2003,2004,2005],
                  'Product_Code':[11,22,33,44],
                  'Color_num':[33,44,55,99]},
                   index=list('1234'))
print(df3)
print('-'*40)

   Year  Product_Code  Price
1  2001            11  10000
2  2002            22  20000
3  2003            33  30000
4  2004            44  40000
----------------------------------------
   Year  Product_Code  Price
5  2001            11  10000
6  2002            22  20000
7  2003            33  30000
8  2004            44  40000
----------------------------------------
   Year  Product_Code  Color_num
1  2001            11         33
2  2003            22         44
3  2004            33         55
4  2005            44         99
----------------------------------------


In [61]:
# pd.concat([df1,df2])
'''
df1, df2를 merge로 병합
1. 인덱스와 상관없이 병합 -> 좌우병합을 의미
2. 값들은 중복 표기되지 않는다.
3. 병합시 표기법이 concat과 다르다. []사용하지 않음
'''

result = pd.merge(df1,df2)
result

Unnamed: 0,Year,Product_Code,Price
0,2001,11,10000
1,2002,22,20000
2,2003,33,30000
3,2004,44,40000


In [63]:
df1_1 = pd.DataFrame({ 'Year':[2001,2002,2003,2004],
                  'Product_Code':[11,22,33,44],
                  'Price':[1,2,3,4]},
                   index=list('1234'))
df1_1

Unnamed: 0,Year,Product_Code,Price
1,2001,11,1
2,2002,22,2
3,2003,33,3
4,2004,44,4


In [65]:
pd.merge(df1,df1_1) # merge는 on 속성과 함께 사용된다.

Unnamed: 0,Year,Product_Code,Price


In [84]:
'''
merge할때는 특정한 컬럼을 기준으로 병합하고 이때 on 속성을 사용한다.
이렇게 병합하면 기준이 되는 컬럼을 제외하고는 나머지 컬럼값들이 중복 표기되어진다.
'''
pd.merge(df1,df2,on='Year')

Unnamed: 0,Year,Product_Code_x,Price_x,Product_Code_y,Price_y
0,2001,11,10000,11,10000
1,2002,22,20000,22,20000
2,2003,33,30000,33,30000
3,2004,44,40000,44,40000


In [85]:
result2 = pd.merge(df1,df2, on=['Year','Product_Code'])
result2

Unnamed: 0,Year,Product_Code,Price_x,Price_y
0,2001,11,10000,10000
1,2002,22,20000,20000
2,2003,33,30000,30000
3,2004,44,40000,40000


In [86]:
result2.set_index('Year',inplace=True)

In [87]:
result2

Unnamed: 0_level_0,Product_Code,Price_x,Price_y
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2001,11,10000,10000
2002,22,20000,20000
2003,33,30000,30000
2004,44,40000,40000


In [88]:
result2.index

Int64Index([2001, 2002, 2003, 2004], dtype='int64', name='Year')

In [100]:
print(df1)
print(df3)

   Year  Product_Code  Price
1  2001            11  10000
2  2002            22  20000
3  2003            33  30000
4  2004            44  40000
   Year  Product_Code  Color_num
1  2001            11         33
2  2003            22         44
3  2004            33         55
4  2005            44         99


In [101]:
# on을 안쓰면 두 데이터프레임의 중복된 컬럼에 있는 값들이 모두 같은 행만 나옴
result3 = df1.merge(df3 )
result3

Unnamed: 0,Year,Product_Code,Price,Color_num
0,2001,11,10000,33


In [105]:
# 두 데이터 프레임의 'Year' 컬럼의 값이 두 DF에 모두 있는것만 나옴 how = 'inner'
df1.merge(df3, on='Year',how = 'inner')

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11,33
1,2003,33,30000,22,44
2,2004,44,40000,33,55


In [107]:
a = df1.merge(df3, on='Year',how='outer').fillna(a.mean(axis=))

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11.0,33.0
1,2002,22.0,20000.0,,
2,2003,33.0,30000.0,22.0,44.0
3,2004,44.0,40000.0,33.0,55.0
4,2005,,,44.0,99.0


In [110]:
a.fillna(a.mean(axis=))

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11.0,10000.0,11.0,33.0
1,2002,22.0,20000.0,27.5,57.75
2,2003,33.0,30000.0,22.0,44.0
3,2004,44.0,40000.0,33.0,55.0
4,2005,27.5,25000.0,44.0,99.0


### merge- left, right

In [112]:
# left를 쓰면 on컬럼 기준으로 왼쪽 데이터프레임의 정보는 다가져오고 오른쪽 데이터는 그에 맞게 적용
result6 = pd.merge(df1,df3, how='left',on='Year')
result6

Unnamed: 0,Year,Product_Code_x,Price,Product_Code_y,Color_num
0,2001,11,10000,11.0,33.0
1,2002,22,20000,,
2,2003,33,30000,22.0,44.0
3,2004,44,40000,33.0,55.0
