##### DataFrame 병합

##### Concat 함수

In [1]:
import pandas as pd
import numpy as np
import random

In [2]:
df1 = pd.DataFrame({'A' : ['A0', 'A1', 'A2', 'A3']
                    , 'B' : ['B0', 'B1', 'B2', 'B3']
                    , 'C' : ['C0', 'C1', 'C2', 'C3']
                    , 'D' : ['D0', 'D1', 'D2', 'D3']}
                    , index = [0, 1, 2, 3])
df2 = pd.DataFrame({'A' : ['A4', 'A5', 'A6', 'A7']
                    , 'B' : ['B4', 'B5', 'B6', 'B7']
                    , 'C' : ['C4', 'C5', 'C6', 'C7']
                    , 'D' : ['D4', 'D5', 'D6', 'D7']}
                    , index = [4, 5, 6, 7])

df3 = pd.DataFrame({"A" : ["A8", "A9", "A10", "A11"],
                    "B" : ["B8", "B9", "B10", "B11"],
                    "C" : ["C8", "C9", "C10", "C11"],
                    "D" : ["D8", "D9", "D10", "D11"]}
                    , index = [8, 9, 10, 11])

In [3]:
result = pd.concat([df1, df2, df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


##### Keys 속성 부여 시 다중 index가 된다.

In [4]:
result = pd.concat([df1, df2, df3], keys = ['x', 'y', 'z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


##### 다중 Index 확인

In [5]:
#방법 1
result.index

MultiIndex([('x',  0),
            ('x',  1),
            ('x',  2),
            ('x',  3),
            ('y',  4),
            ('y',  5),
            ('y',  6),
            ('y',  7),
            ('z',  8),
            ('z',  9),
            ('z', 10),
            ('z', 11)],
           )

In [6]:
#방법 2
#상황: 인덱스가 2개인 상황 - x, y, z / 0~111
#인덱스0번째에 있는 values값들을 가져와줘
result.index.get_level_values(0)

Index(['x', 'x', 'x', 'x', 'y', 'y', 'y', 'y', 'z', 'z', 'z', 'z'], dtype='object')

##### 행 방향으로 병합하기

##### 행 방향으로 df1과 df4를 병합하기

In [7]:
df4 = pd.DataFrame({"B" : ["B2", "B3", "B6", "B7"],
                    "D" : ["D2", "D3", "D6", "D7"],
                    "F" : ["F2", "F3", "F6", "F7"]},
                   index = [2,3,6,7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [8]:
#outer join
result = pd.concat([df1, df4], axis = 1)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


##### 열 방향으로 df1과 df4를 병합하기

In [9]:
#default 값: axis=0
result = pd.concat([df1, df4], axis = 0)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


##### Concat함수의 join 속성
- inner join: 겹치는 부분만 조인
- outer(full) join: 안겹치는 부분도 조인

In [10]:
#inner join
#행 방향으로 병합
result = pd.concat([df1, df4], axis = 1, join = 'inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [11]:
#inner join
#열 방향으로 병합
result = pd.concat([df1, df4], axis = 0, join = 'inner')
result

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
2,B2,D2
3,B3,D3
6,B6,D6
7,B7,D7


##### igonre_index 속성
- 기존 인덱스를 무시하고 새로운 인덱스 부여하는 기능

In [12]:
#기존의 중복되는 인덱스인 2, 3을 무시하고 새로운 인덱스 값인  4, 5를 부여함
result = pd.concat([df1, df4], ignore_index = True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


##### Concat vs Merge

In [13]:
employee = [{'empno':1, 'ename':'kim', 'dept':1},
            {'empno':2, 'ename':'lee', 'dept':2},
            {'empno':3, 'ename':'park', 'dept':1},
            {'empno':4, 'ename':'song', 'dept':3},
            {'empno':5, 'ename':'min', 'dept':2}
           ]
dept=[{'dept':1, 'deptname':'관리직'},
      {'dept':2, 'deptname':'영업직'},
      {'dept':3, 'deptname':'개발직'}
     ]
info =[{'empno':1, 'addr':'서울시','phone':'010-1111-1111'},
       {'empno':3, 'addr':'부산시','phone':'010-2222-2222'},
       {'empno':2, 'addr':'광주시','phone':'010-3333-3333'},
       {'empno':5, 'addr':'광주시','phone':'010-4444-4444'},
       {'empno':4, 'addr':'광주시','phone':'010-5555-5555'}
      ]


In [14]:
emp = pd.DataFrame(employee)
dept = pd.DataFrame(dept)
info = pd.DataFrame(info)

In [15]:
emp

Unnamed: 0,empno,ename,dept
0,1,kim,1
1,2,lee,2
2,3,park,1
3,4,song,3
4,5,min,2


In [16]:
dept

Unnamed: 0,dept,deptname
0,1,관리직
1,2,영업직
2,3,개발직


In [17]:
info

Unnamed: 0,empno,addr,phone
0,1,서울시,010-1111-1111
1,3,부산시,010-2222-2222
2,2,광주시,010-3333-3333
3,5,광주시,010-4444-4444
4,4,광주시,010-5555-5555


##### Merge
- merge: 공통 칼럼이 존재해야하며, 그 공통 칼럼을 기준으로 데이터프레임들을 병합시켜줌

In [18]:
pd.merge(emp, dept)


Unnamed: 0,empno,ename,dept,deptname
0,1,kim,1,관리직
1,3,park,1,관리직
2,2,lee,2,영업직
3,5,min,2,영업직
4,4,song,3,개발직


In [19]:
#      먼저옴 
#                   무엇을 기준으로 묶을지 지정
pd.merge(emp, dept, on = 'dept')

Unnamed: 0,empno,ename,dept,deptname
0,1,kim,1,관리직
1,3,park,1,관리직
2,2,lee,2,영업직
3,5,min,2,영업직
4,4,song,3,개발직


In [20]:
pd.merge(dept, emp, on = 'dept')

Unnamed: 0,dept,deptname,empno,ename
0,1,관리직,1,kim
1,1,관리직,3,park
2,2,영업직,2,lee
3,2,영업직,5,min
4,3,개발직,4,song


In [21]:
#inplace=True 데이터프레임이 실제로 바뀜 -> 새로운 변수에 저장 안해줘도 됨
mg = pd.merge(emp, dept, on = 'dept')
mg.drop(columns =['dept'], inplace=True)
mg

Unnamed: 0,empno,ename,deptname
0,1,kim,관리직
1,3,park,관리직
2,2,lee,영업직
3,5,min,영업직
4,4,song,개발직


In [22]:
mg1 = pd.merge(mg, info, on='empno')
mg1.drop(columns = ['empno'], inplace = True)
mg1

Unnamed: 0,ename,deptname,addr,phone
0,kim,관리직,서울시,010-1111-1111
1,park,관리직,부산시,010-2222-2222
2,lee,영업직,광주시,010-3333-3333
3,min,영업직,광주시,010-4444-4444
4,song,개발직,광주시,010-5555-5555


##### Concat

In [23]:
pd.concat([emp, dept])

Unnamed: 0,empno,ename,dept,deptname
0,1.0,kim,1,
1,2.0,lee,2,
2,3.0,park,1,
3,4.0,song,3,
4,5.0,min,2,
0,,,1,관리직
1,,,2,영업직
2,,,3,개발직


In [24]:
pd.concat([emp, dept], axis = 1)

Unnamed: 0,empno,ename,dept,dept.1,deptname
0,1,kim,1,1.0,관리직
1,2,lee,2,2.0,영업직
2,3,park,1,3.0,개발직
3,4,song,3,,
4,5,min,2,,
