## 데이터 병합
- concat 

In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame({'A':[1,2,3],
                   'B':[4,5,6]})
df2 = pd.DataFrame({'A':[7,8,9],
                   'B':[10,11,12]})

In [3]:
df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [4]:
df2

Unnamed: 0,A,B
0,7,10
1,8,11
2,9,12


In [5]:
pd.concat([df1,df2],axis = 0) #0 행 1열
# 인덱스가 짤려져 있다.

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,7,10
1,8,11
2,9,12


In [6]:
pd.concat([df1,df2],axis = 1) 

Unnamed: 0,A,B,A.1,B.1
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [7]:
## 인덱스를 재정렬할 경우
pd.concat([df1,df2],axis = 0, ignore_index=True) #0 행 1열
# 인덱스가 짤려져 있다.

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
3,7,10
4,8,11
5,9,12


#### 차원이 다른 경우

In [8]:
df1 = pd.DataFrame({'A':[1,2,3],
                   'B':[4,5,6]})
df2 = pd.DataFrame({'A':[7,8],
                   'B':[10,11]})

In [9]:
df1

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [10]:
df2

Unnamed: 0,A,B
0,7,10
1,8,11


In [12]:
pd.concat([df1,df2],axis = 1) #0 행 1열
# 인덱스가 짤려져 있다.

Unnamed: 0,A,B,A.1,B.1
0,1,4,7.0,10.0
1,2,5,8.0,11.0
2,3,6,,


In [14]:
df1.shape

(3, 2)

- Concat도 NA값이 생길 수 있으니 병합시 주의하세요!!

### merge 함수

- left : 병합할 첫 번째 데이터 프레임, 왼쪽 df
- right: 병합할 두 번쨰 데이터 프레임, 오른쪽 df
- on : 조인 키로 사용할 컬럼 목록, 여기에 입력된 컬럼은 꼭 두 데이터프레임에 모두 공통으로 포함 되어야 함!
- left_on : 왼쪽 데이터프레임에서 조인 키로 사용할 컬럼 목록
- right_on : 오른쪽 데이터프레임에서 조인 키로 사용할 컬럼 목록
- left_index : 왼쪽 데이터프레임에서 조인 기준으로 인덱스를 사용할지 
- right_index: 오른쪽 데이터프레임에서 조인 기준으로 인덱스 사용할지
- how: 조인 방법을 결정 ( 디폴트는 inner)

In [15]:
df1 = pd.DataFrame({'A':[1,2,3,4],
                   'B':[5,6,7,8]})

df2 = pd.DataFrame({'A':[1,2,3,4],
                   'C':[10,11,12,13]})

In [16]:
display(df1)
display(df2)

Unnamed: 0,A,B
0,1,5
1,2,6
2,3,7
3,4,8


Unnamed: 0,A,C
0,1,10
1,2,11
2,3,12
3,4,13


### on 인자 사용하기

In [18]:
pd.merge(df1, df2, on='A')

Unnamed: 0,A,B,C
0,1,5,10
1,2,6,11
2,3,7,12
3,4,8,13


In [19]:
pd.merge(df1, df2, on='B')

KeyError: 'B'

### 조인키를 사용할 컬럼을 한 개 이상으로 하게 되는 경우?
- 조인키를 고객데이터로 예시를 들면 고객 ID 유니크함이라는 건 고유함, 중복이 없음 ex)주민등록번호

- 만약 주문 테이블에서 고객 ID가 없다.
- 두 개의 컬럼을 사용해야 한다. 
- 주문날짜와, 주문제품번호 

In [20]:
df1 = pd.DataFrame({'A':[1,2,3,4],
                   'B':[5,6,7,8],
                   'D':[0,0,0,3]})

df2 = pd.DataFrame({'A':[1,2,3,4],
                   'B':[5,6,7,8],
                   'E':[1,1,1,0]})

In [21]:
display(df1)
display(df2)

Unnamed: 0,A,B,D
0,1,5,0
1,2,6,0
2,3,7,0
3,4,8,3


Unnamed: 0,A,B,E
0,1,5,1
1,2,6,1
2,3,7,1
3,4,8,0


In [22]:
pd.merge(df1, df2, on=['A','B'])

Unnamed: 0,A,B,D,E
0,1,5,0,1
1,2,6,0,1
2,3,7,0,1
3,4,8,3,0


## 만약 공통 컬럼의 값이 다르면?

In [23]:
df1 = pd.DataFrame({'A':[1,2,3,4],
                   'B':[5,6,7,8],
                   'D':[0,0,0,3]})

df2 = pd.DataFrame({'A':[1,2,30,40],
                   'B':[5,6,7,8],
                   'E':[1,1,1,0]})

In [24]:
pd.merge(df1, df2, on=['A','B']) # 컬럼의 값도 동일해야지만 가져올 수 있다.

Unnamed: 0,A,B,D,E
0,1,5,0,1
1,2,6,0,1


In [28]:
df1 = pd.DataFrame({'A':[5,2,3,4],
                   'B':[1,6,7,8],
                   'D':[0,0,0,3]})

df2 = pd.DataFrame({'A':[1,2,30,40],
                   'B':[5,6,7,8],
                   'E':[1,1,1,0]})

In [29]:
pd.merge(df1, df2, on=['A','B']) # 컬럼의 값도 동일해야지만 가져올 수 있다.

Unnamed: 0,A,B,D,E
0,2,6,0,1


In [27]:
display(df1)
display(df2)

Unnamed: 0,A,B,D
0,5,1,0
1,2,6,0
2,3,7,0
3,4,8,3


Unnamed: 0,A,B,E
0,1,5,1
1,2,6,1
2,30,7,1
3,40,8,0


### left_on , right_on 

In [31]:
df1 = pd.DataFrame({'A':[1,2,3,4],
                   'B':[5,6,7,8],
                   'D':[0,0,0,3]})

df2 = pd.DataFrame({'a':[1,2,3,4],
                   'B':[5,6,7,8],
                   'E':[1,1,1,0]})

In [33]:
pd.merge(df1, df2, left_on=['A'],right_on=['a'])

Unnamed: 0,A,B_x,D,a,B_y,E
0,1,5,0,1,5,1
1,2,6,0,2,6,1
2,3,7,0,3,7,1
3,4,8,3,4,8,0


In [34]:
pd.merge(df1, df2, left_on=['A','B'],right_on=['a','B'])

Unnamed: 0,A,B,D,a,E
0,1,5,0,1,1
1,2,6,0,2,1
2,3,7,0,3,1
3,4,8,3,4,0


### left_index, right_index 

In [35]:
df1 = pd.DataFrame({'A':[1,2,3,4],
                   'D':[0,0,0,3]})

df2 = pd.DataFrame({'A':[1,2,3,4],
                   'E':[1,1,1,0]})

In [39]:
#인덱스 설정할 수 있음
#인덱스를 설정하는 방법은 컬럼.set_index('컬럼', inplace=True)
#인덱스를 리셋하는 방법은 컬럼.reset_index('컬럼', inplace=True)

df1.set_index('A',inplace=True)

In [40]:
df1

Unnamed: 0_level_0,D
A,Unnamed: 1_level_1
1,0
2,0
3,0
4,3


In [41]:
pd.merge(df1, df2, left_index = True, right_on='A')

Unnamed: 0,D,A,E
0,0,1,1
1,0,2,1
2,0,3,1
3,3,4,0


In [45]:
pd.merge(df1, df2, left_index = True ,right_on='E')

Unnamed: 0,D,A,E
0,0,1,1
1,0,2,1
2,0,3,1


### How

- 디폴트 inner  : 교집합
- right : 오른쪽 데이터프레임 조인 키 병합
- left : 왼쪽 데이터프레임을 조인 키 병합
- outer : 합집합 

In [52]:
df1 = pd.DataFrame({'A':[1,2,3,4],
                   'D':[0,0,0,3]})

df2 = pd.DataFrame({'A':[1,2,7,4],
                   'E':[1,1,1,0]})

In [53]:
pd.merge(df1,df2, on='A', how='inner') #교집합 개념

Unnamed: 0,A,D,E
0,1,0,1
1,2,0,1
2,4,3,0


In [54]:
pd.merge(df1,df2, on='A')

Unnamed: 0,A,D,E
0,1,0,1
1,2,0,1
2,4,3,0


In [55]:
pd.merge(df1,df2, on='A', how='left')

Unnamed: 0,A,D,E
0,1,0,1.0
1,2,0,1.0
2,3,0,
3,4,3,0.0


In [57]:
pd.merge(df1,df2, on='A', how='right')

Unnamed: 0,A,D,E
0,1,0.0,1
1,2,0.0,1
2,4,3.0,0
3,7,,1


In [58]:
pd.merge(df1,df2, on='A', how='outer')

Unnamed: 0,A,D,E
0,1,0.0,1.0
1,2,0.0,1.0
2,3,0.0,
3,4,3.0,0.0
4,7,,1.0


### 필수과제
- bank 데이터 공유 

- bank 데이터와 bank_추가 데이터 
- 이 두 가지 데이터를 병합을 해주시면 됩니다.
- 병합하실 때 어떤 컬럼을 사용했는지와 병합이 잘 되었는지 체크까지 해주세요!
- merge how를  통해서 어떤식으로 붙여지는지 원리를 다 보여주세요 ( inner, right, left, outer) 