In [2]:
import pandas as pd
import numpy as np

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## merge 명령을 사용한 데이터 프레임 병합 
- 2개 의 DataFrame의 공통 열 이나 인덱스를 기준으로 데이터프레임을 합치는 것
- 이때 기준이되는 열 데이터를 key라고 함
- 인덱스가 서로 달라야 merge 타입마다 구별됨

##### 형식
- df.merge(df1) : 두 df를 병합시켜 준다.
- 기본은 inner join : 양쪽에 동일하게 존재하는 키만 표시
- key : 기준열을 의미
    -  실제 데이터 필드거나 행 인덱스 일 수 있다.
- 병합방식
    - inner join :  양쪽 df에서 모두 키가 존재하는 data만표시
    - left join : 왼쪽 df에 존재하는 키 데이터는 모두 표시, 오른쪽 df는 키가 중복되면 표시
    - right join : 오른쪽 df에 존재하는 키 데이터는 모두 표시, 왼쪽 df는 키가 중복되면 표시
    - outer join :  한쪽에만 키가 존재하면 data를 표시
    - 병합방식을 설정 : how=inner(생략가능), how=outer


![](join_all.png)

![](../picture/join_all.png)


In [72]:
#예시 df 생성 - 고객 정보를 담고 있는 df
df1 =pd.DataFrame({
    '고객번호' : [1001,1002,1003,1004,1005,1006,1007],
    '이름' : ['둘리','도우너','또치','길동','희동','마이콜','영희']
        },
    columns=['고객번호','이름'])
df1


Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [71]:
#예제 df 생성 - 예금 정보 df
df2 = pd.DataFrame({
    '고객번호':[1001,1001,1005,1006,1008,1001],
    '금액' : [10000,20000,15000,5000,100000,30000]
},columns=['고객번호','금액'])
df2


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


- merge 명령으로 두 df를 병합하는 문법
    - 모든 인수 생략(병합 df를 제외한) 공통 이름을 갖고 있는 열
    - '고객번호'가 키가 됨
    - 양쪽에 모두 존재하는 키의 data만 보여주는 inner join 방식을 사용


In [73]:
df1
df2

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [74]:
#inner join
# 방법 0 : df1.merge(df2) 기준 df :df
# 방법 1 : pd.merge(df1, df2) 기준 df : 왼쪽

df1.merge(df2) # inner join과 양쪽 데이터프레임에서 열이름이 같은 열은 키로 설정
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


- outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여 줌
    - pd.merge(df1,df2, how = 'outer')
    - 어느 한 df에 데이터가 존재하지 않으면 NaN으로 표시됨


In [75]:
df1
df2

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [76]:
#outer join
pd.merge(df1, df2, how='outer')
df1.merge(df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


- how = inner/outer/left/right
    - how=left : 왼쪽 df에 있는 모든 키의 데이터는 표시
    - how=right : 오른쪽 df 에 있는 모든 키의 데이터는 표시


In [77]:
df1
df2

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [78]:
pd.merge(df1,df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [81]:
pd.merge(df1,df2, how='right')


Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


## 동일한 키 값이 있는 경우
    - 키값이 같은 데이터가 여러개 있는 경우에는 있을 수 있는 모든 경우의 수를 따져서 조합을 만들어 냄


In [12]:
#예제 df 생성 
#열: 품종, 꽃잎길이
df1 = pd.DataFrame({
    '품종':['setosa','setosa','virginica','virginica'],
    '꽃잎길이':[1.4,1.3,1.5,1.3]
}, columns=['품종','꽃잎길이'])
df1


Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [13]:
#열 : 품종, 꽃잎너비
df2 = pd.DataFrame({
    '품종': ['setosa','virginica','virginica','ersicolor'],
    '꽃잎너비':[0.4,0.3,0.5,0.3]
},columns=['품종','꽃잎너비'])
df2


Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,ersicolor,0.3


- df1과 df2 를 병합


    - 위 데이터에서 키 값 setosa에 대해
        - df1에는 '1.4'와 '1.3' 총 2개의 데이터가 있고
        - df2에는 '0.4'라는 1개의 데이터가 있으므로
        - 병합 데이터에는 setosa가 (1.4,0.4)(1.3,0.4)의 2 경우가 표현된다.
        

    - 키값 virginica의 경우에는 df1에 2개 df2에 2개의 데이터가 있으므로
        - 2개와 2개의 조합에 의해 4개의 데이터가 표현된다.


In [14]:
df1
df2

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,ersicolor,0.3


In [15]:
pd.merge(df1,df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


## 동일한 key(column) 있을 때  on 파라미터로 merge
- 동일한 key(column) 이름이 존재할 경우 merge하면 에러 발생 
- 두 데이터 프레임에서 열이름(컬럼명)이 같은 모든 컬럼은 키가 될 수 있음
- 이름이 같아도 키가 되면 안되는 열이 있으면 기준열 명시 : on 파라미터의 인수를 설정


- 기준열을 직접 지정 : on=기준열 이름
    - 반환 결과 키가아닌 열에 동일 필드명이 있을경우에는 필드명_x, 필드명_y로 필드명을 변경해서 표현한다


In [35]:
# 예제 df
df1 = pd.DataFrame({
    '고객명':['춘향','춘향','몽룡'],
    '날짜' : ['2018-01-01','2018-01-02','2018-01-01'],
    '데이터':[20000,30000,100000]
})
df1

df2 = pd.DataFrame({
    '고객명':['춘향','몽룡'],
    '데이터':['여자','남자']
})
df2

# df1과 df2에 동일 컬럼명이 존재('고객명') -키로 사용 x(데이터 컬럼은 원소의 의미가 다름)
# 병합시 직접 key(기준) 열을 명시


Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [36]:
pd.merge(df1,df2,on='고객명')
# 동일한 컬럼의 명칭이 있을 경우 구별해서 생성해줌

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


- 키가 되는 기준열이 두 데이터 프레임에서 다르게 나타나면
    - left_on, right_on 인수를 사용해서 기준열을 명시해야 함


In [37]:
df1=pd.DataFrame({
    '이름' :['영희','철수','철수'],
    '성적' :[90,80,80]
})
df2 = pd.DataFrame({
    '성명' :['영희','영희','철수'],
    '성적2':[100,80,90]
})
df1
df2


Unnamed: 0,이름,성적
0,영희,90
1,철수,80
2,철수,80


Unnamed: 0,성명,성적2
0,영희,100
1,영희,80
2,철수,90


In [39]:
pd.merge(df1,df2,left_on='이름',right_on='성명')

#양쪽에서 기준이되는 열의 이름이 다르기 때문에 on인수를 두번사용
#출력결과는 양쪽 필드 명이 다르기 때문에 기준열이 모두나타난다.


Unnamed: 0,이름,성적,성명,성적2
0,영희,90,영희,100
1,영희,90,영희,80
2,철수,80,철수,90
3,철수,80,철수,90


- 일반 데이터 열이 아닌 인덱스를 기준으로 merge 할 수 도 있음
    - 인덱스를 기준열로 사용하려면
        - left_index = True 또는
        - right_index = True 설정을 하게 됨


In [41]:
df1 = pd.DataFrame({
    '도시': ['서울','서울','서울','부산','부산'],
    '연도': [2000,2005,2010,2000,2005],
    '인구':[9853972,9762546,9631482,3655437,3512547]    
})

df2=pd.DataFrame(
    np.arange(12).reshape((6,2)),
    index=[['부산','부산','서울','서울','서울','서울'],
          [2000,2005,2000,2005,2010,2015]],
    columns=['데이터1','데이터2']
)
df1 # 연도가 열로
df2 # 연도가 인덱스 
## 이 2개의 차이를 고려해야 함


Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [48]:
pd.merge(df1,df2,left_on=['도시','연도'],right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


## 양쪽 DataFrame의 key(기준열)가 모두 인덱스인 경우
- left_index-True/right_index=True

In [50]:
df1 = pd.DataFrame(
[[1.,2.],[3.,4.],[5.,6.]],
index=['a','c','e'],
columns=['서울','부산'])
df1


df2=pd.DataFrame(
[[7.,8.],[9.,10.],[11.,12.],[13.,14.]],
    index=['b','c','d','e'],
columns=['대구','광주'])

df2

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [51]:
pd.merge(df1, df2, how='outer', left_index=True, right_index=True)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


## merge 함수 대신 join 사용 가능

In [57]:
df1
df2

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [66]:
df1.join(df2)
df2.join(df1)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
c,3.0,4.0,9.0,10.0
e,5.0,6.0,13.0,14.0


Unnamed: 0,대구,광주,서울,부산
b,7.0,8.0,,
c,9.0,10.0,3.0,4.0
d,11.0,12.0,,
e,13.0,14.0,5.0,6.0


In [73]:
### 결합

## concat 명령을 사용한 데이터 연결

     pd.concat(objs,  # Series, DataFrame, Panel object  
        axis=0,  # 0: 위+아래로 합치기, 1: 왼쪽+오른쪽으로 합치기   
        join='outer', # 'outer': 합집합(union), 'inner': 교집합(intersection)  
        ignore_index=False,  # False: 기존 index 유지, True: 기존 index 무시  
        keys=None, # 계층적 index 사용하려면 keys 튜플 입력) 
        


- concat 명령을 사용하면 기준열 없이 데이터를 연결한다.
- 기본은 위 아래로 데이터 행 결합(row bind)  axis 속성을 1로 설정하면 열 결합(column bind)을 수행한다

- 단순히 두 시리즈나 데이터프레임을 연결하기 때문에 인덱스 값이 중복될 수 있다.


## pd.concat([df1,df2], axis=0)
![](../picture/join_inout_row.png)

## pd.concat([df1,df2], axis=1)
![](../picture/concat_column.png)

## pd.concat([df1],[df2], axis=1)
![](../picture/concat_column.png)

In [82]:
#두 시리즈 데이터 연결
s1=pd.Series([0,1],index=['A','B'])
s2=pd.Series([2,3,4],index=['A','B','C'])
s1
s2


A    0
B    1
dtype: int64

A    2
B    3
C    4
dtype: int64

In [86]:
pd.concat([s1,s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

## DataFrame 결합

In [87]:
# concat 연결 예제 df
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'E': ['C4', 'C5', 'C6', 'C7'],
                    'F': ['D4', 'D5', 'D6', 'D7']},
                   index=[0, 1, 2, 3])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'O': ['D8', 'D9', 'D10', 'D11']},
                   index=[1,2,3,4])
df1
df2
df3


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


Unnamed: 0,A,B,E,F
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


Unnamed: 0,A,B,C,O
1,A8,B8,C8,D8
2,A9,B9,C9,D9
3,A10,B10,C10,D10
4,A11,B11,C11,D11


In [88]:
# concat() :  # join 인수 생략은 outer와 같음

result = pd.concat([df1,df2])
result ## 인덱스가 중복되어서 나타남

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
0,A4,B4,,,C4,D4
1,A5,B5,,,C5,D5
2,A6,B6,,,C6,D6
3,A7,B7,,,C7,D7


In [81]:
result = pd.concat([df1,df2], axis=0, join = 'outer')
result

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
0,A4,B4,,,C4,D4
1,A5,B5,,,C5,D5
2,A6,B6,,,C6,D6
3,A7,B7,,,C7,D7


In [82]:
# result df의 인덱스가 중복 되어 있음 : 행 인덱싱을 수행하면?
result.loc[0] # 인덱스가 0인 뭔든 행을 가져옴

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,,
0,A4,B4,,,C4,D4


In [84]:
# 인덱스가 중복되므로 기본 인덱스로 재설정
# reset_index(drop=True) - 기존 인덱스 제거
result = result.reset_index(drop=True)
result

Unnamed: 0,A,B,C,D,E,F
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
4,A4,B4,,,C4,D4
5,A5,B5,,,C5,D5
6,A6,B6,,,C6,D6
7,A7,B7,,,C7,D7


## join = 'inner'
- 공통 열만 표현

In [88]:
result0 = pd.concat([df1, df2], join='inner')
result0

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,A4,B4
1,A5,B5
2,A6,B6
3,A7,B7


## ingnore_index=TRUE
- 기존 인덱스 제거 후 제로베이스 인덱스 설정

In [90]:
result0 = pd.concat([df1, df2], join='inner', ignore_index=True)
result0

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4
5,A5,B5
6,A6,B6
7,A7,B7


In [None]:
## key[상위인덱스1, 상위인덱스2, ...]
- 상위 인덱스 설정

In [94]:
result1 = pd.concat([df1,df2,df3], keys=['df1','df2','df3']) 
##keys로 중복되는 인덱스를 구별하기 위해 상위 계층 인덱스 추가
result1

Unnamed: 0,Unnamed: 1,A,B,C,D,E,F,O
df1,0,A0,B0,C0,D0,,,
df1,1,A1,B1,C1,D1,,,
df1,2,A2,B2,C2,D2,,,
df1,3,A3,B3,C3,D3,,,
df2,0,A4,B4,,,C4,D4,
df2,1,A5,B5,,,C5,D5,
df2,2,A6,B6,,,C6,D6,
df2,3,A7,B7,,,C7,D7,
df3,1,A8,B8,C8,,,,D8
df3,2,A9,B9,C9,,,,D9


## 다중 인덱스 인 경우 데이터 접근
- 연산자를 이용한 체인 인덱싱

In [97]:
result1.loc['df1']

Unnamed: 0,A,B,C,D,E,F,O
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,,,
3,A3,B3,C3,D3,,,


In [98]:
result1.loc['df1'].loc[1:2]

Unnamed: 0,A,B,C,D,E,F,O
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,,,


## concat를 이용한 열 결합
    - axis=1 설정
    - pd.concat([df1,df2],axis=1,join='inner/outer')
    - 데이터프레임들의 열을 결합한다
    - 모든행을 표시하고 해당 행의 데이터가 없는 열의 원소는 NaN으로 표시된다 : 기본설정(join='outer')
    - 병합하는 데이터프레임에 중복되는 인덱스의 행만 표시한다 : join='inner'


In [89]:
# 예제 df 생성

df1=pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a','b','c'],
    columns=['데이터1','데이터2']
)
df1
df2=pd.DataFrame(
    5+np.arange(4).reshape(2,2),
    index=['a','c'],
    columns=['데이터2','데이터4']
)
df2


Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


Unnamed: 0,데이터2,데이터4
a,5,6
c,7,8


In [90]:
pd.concat([df1,df2], axis=1, join='outer')

Unnamed: 0,데이터1,데이터2,데이터2.1,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [91]:
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,데이터1,데이터2,데이터2.1,데이터4
a,0,1,5,6
c,4,5,7,8


In [92]:
pd.concat([df1,df2], axis=1, join='outer', keys=['df1','df2'])

Unnamed: 0_level_0,df1,df1,df2,df2
Unnamed: 0_level_1,데이터1,데이터2,데이터2,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0
