# Chapter 9. Pandas 데이터 조인과 병합

- 여러 테이블로부터 정보를 결합하고자 할 때 사용
    - 데이터베이스 언어인 SQL의 조인과 작동 원리가 동일
    - 예를 들어 학생의 국어 점수와 수학 점수가 각기 다른 테이블에 있을 때 이를 하나의 테이블로 결합하기 위해 사용

- merge()와 join() 사용
    - 두 함수의 기능은 거의 유사하나, join은 index에 대해서만 작동한다는 점이 차이

```
pd.merge(left, right,      # merge할 DataFrame, 각각 좌 우         
    how='inner',           # 조인 방법, {left, rigth, inner (default), outer} 중 하나
    on=None,               # merge의 기준 즉 조인 Key로 사용할 컬럼명 (양쪽의 컬럼명이 같은 경우)
    left_on=None,          # 조인 키로 사용할 왼쪽 DataFrame의 컬럼명 
    right_on=None,         # 조인 키로 사용할 오른쪽 DataFrame의 컬럼명
    left_index=False,      # True이면 왼쪽 DataFrame의 index를 조인 키로 사용
    right_index=False,     # True이면 오른쪽 DataFrame의 index를 조인 키로 사용
    sort=True,             # merge 후의 DataFrame을 join Key 기준으로 정렬             
    suffixes=('_x', '_y'), # 중복되는 변수 이름에 대해 접두사 부여
    indicator=False)       # left_only, right_only, both 등 컬럼의 출처를 알 수 있는 부가 정보 추가
```

## Database의 join에 대한 기본적인 이해

https://en.wikipedia.org/wiki/Join_(SQL)

- 예제 환경<br>
![image.png](attachment:image.png)
<br>

- 조인(Join): 두 개의 테이블에 있는 정보를 결합하여 새로은 테이블을 생성하는 SQL 구문<br>
관계형 대수(relational algebra)로부터 정의되었으며, Pandas에서도 동일한 개념으로 실행됨<br>

- 크로스 조인(Cross join): 두 테이블에 대해 Cartesian product(데카르트 곱)를 반환. 즉 모든 가능한 조합을 반환<br>
![image-2.png](attachment:image-2.png)
<br>
- 등가조인(Equi-join): Cartesian product에 대해 동등(=) 조건을 줘서 한 테이블의 키와 다른 케이블의 키가 동일한 행만 반환
<br>
- 자연조인(Natural join): 등가조인은 두 테이블의 키가 모두 출력되는 반면 자연조인은 한 키만 출력<br>
두 키가 동일하다는 조건을 줬기 때문에 굳이 둘 다 표시할 필요가 없음<br>
Pandas는 자연조인이 기본값<br>
![image-3.png](attachment:image-3.png)
<br>
- 외부조인(Outer join): 등가조인을 하게 되면 양쪽 테이블 모두에 동일한 키가 있는 레코드만 출력<br>
외부조인은 둘 중 한 테이블을 기본적으로 모두 출력하고, 나머지 테이블에서 동일한 키가 있으면 출력, 없으면 NaN으로 출력<br>
둘 중 어느 테이블을 기준으로 할 것인가에 따라 left outer join과 right outer join이 있음<br>
![image-4.png](attachment:image-4.png)


In [1]:
import pandas as pd

In [2]:
df_left = pd.DataFrame({'학번': [101, 102, 103, 104],
                        '국어': [40, 50, 70, 60]})
df_left

Unnamed: 0,학번,국어
0,101,40
1,102,50
2,103,70
3,104,60


In [3]:
df_right = pd.DataFrame({'학번': [103, 104, 105, 106],
                         '수학': [90, 80, 70, 60]})
df_right

Unnamed: 0,학번,수학
0,103,90
1,104,80
2,105,70
3,106,60


#### 1.1 크로스 조인 (Cross Join)

- 두 테이블에 대해 Cartesian product(데카르트 곱)를 반환. 즉 모든 가능한 조합을 반환

In [4]:
df_merge_cross = pd.merge(df_left, df_right,
                          how='cross')

df_merge_cross

Unnamed: 0,학번_x,국어,학번_y,수학
0,101,40,103,90
1,101,40,104,80
2,101,40,105,70
3,101,40,106,60
4,102,50,103,90
5,102,50,104,80
6,102,50,105,70
7,102,50,106,60
8,103,70,103,90
9,103,70,104,80


#### 1.2 자연 조인 (Natural Join)

- Cartesian product에 대해 동등(=) 조건을 줘서 한 테이블의 키와 다른 케이블의 키가 동일한 행만 반환

In [5]:
df_merge_inner = pd.merge(df_left, df_right,
                          how='inner', # how를 생략하면 inner가 기본으로 사용됨
                          on='학번')

df_merge_inner

Unnamed: 0,학번,국어,수학
0,103,70,90
1,104,60,80


#### 1.3 left outer join

- 외부조인(outer join): 둘 중 한 테이블을 기본적으로 모두 출력하고, 나머지 테이블에서 동일한 키가 있으면 출력, 없으면 NaN으로 출력
- left outer join: 왼쪽 테이블을 기준으로 함

In [6]:
df_merge_how_left = pd.merge(df_left, df_right,
                             how='left', 
                             on='학번')
df_merge_how_left

Unnamed: 0,학번,국어,수학
0,101,40,
1,102,50,
2,103,70,90.0
3,104,60,80.0


#### 1.4 right outer join

- 오른쪽 테이블을 기준으로 외부조인을 실행

In [7]:
df_merge_right = pd.merge(df_left, df_right,
                          how='right', 
                          on='학번')

df_merge_right

Unnamed: 0,학번,국어,수학
0,103,70.0,90
1,104,60.0,80
2,105,,70
3,106,,60


#### 1.5 full outer join

- 왼쪽 테이블과 오른쪽 테이블에 있는 모든 행이 다 출력되도록 외부조인을 수행

In [8]:
df_merge_full = pd.merge(df_left, df_right,
                         how='outer', 
                         on='학번')

df_merge_full

Unnamed: 0,학번,국어,수학
0,101,40.0,
1,102,50.0,
2,103,70.0,90.0
3,104,60.0,80.0
4,105,,70.0
5,106,,60.0


#### 1.6 indicater 활용

- 사용법: 'indicator = True'
- 병합된 이후의 DataFrame에 left_only, right_only, both 등 출처(테이블)를 알 수 있는 부가정보를 추가

In [9]:
pd.merge(df_left, df_right, how='outer', on='학번', indicator=True)

Unnamed: 0,학번,국어,수학,_merge
0,101,40.0,,left_only
1,102,50.0,,left_only
2,103,70.0,90.0,both
3,104,60.0,80.0,both
4,105,,70.0,right_only
5,106,,60.0,right_only


- indicator='변수명'으로 설정해서 원하는 변수명 지정 가능

In [10]:
pd.merge(df_left, df_right, how='outer', on='학번', 
        indicator='조인정보')

Unnamed: 0,학번,국어,수학,조인정보
0,101,40.0,,left_only
1,102,50.0,,left_only
2,103,70.0,90.0,both
3,104,60.0,80.0,both
4,105,,70.0,right_only
5,106,,60.0,right_only


#### 1.7 suffixes 활용
- 중복되는 컬럼명이 있는 경우, 어느 테이블에 속하는지가 자동으로 출력됨
- 기본 출력값: `suffixes = ('_x', '_y')`
- suffixes는 중복되는 컬럼명을 지정하고 싶을 때 사용
- 사용법: `suffixes = ('왼쪽 컬럼명 접미사', '오른쪽 컬럼명 접미사')`

In [11]:
df_right = pd.DataFrame({'학번': [103, 104, 105, 106],
                       '국어': [90, 80, 70, 60]})
df_right

Unnamed: 0,학번,국어
0,103,90
1,104,80
2,105,70
3,106,60


In [12]:
# suffixes defaults to ('_x', '_y') 
pd.merge(df_left, df_right, how='inner', on='학번') 

Unnamed: 0,학번,국어_x,국어_y
0,103,70,90
1,104,60,80


In [13]:
# adding string suffixes to apply to overlapping columns
pd.merge(df_left, df_right, how='inner', 
         on='학번', suffixes=('_중간', '_기말')) 

Unnamed: 0,학번,국어_중간,국어_기말
0,103,70,90
1,104,60,80


#### 1.8 인덱스를 조인 키로 사용할 경우

- `key=key_column` 대신 `left_index=True, right_index=True` 사용

In [14]:
df_left = pd.DataFrame({'국어': [40, 50, 70, 60]},
                       index=[101, 102, 103, 104])
df_left

Unnamed: 0,국어
101,40
102,50
103,70
104,60


In [15]:
df_right = pd.DataFrame({'수학': [90, 80, 70, 60]},
                       index=[103, 104, 105, 106])
df_right

Unnamed: 0,수학
103,90
104,80
105,70
106,60


In [16]:
pd.merge(df_left, df_right,
         #how='inner', # default 즉 생략 가능
         left_index=True, right_index=True)

Unnamed: 0,국어,수학
103,70,90
104,60,80


#### 1.9 pd.merge 대신 df_name.merge 사용하기

- 데이터프레임의 메서드 형태로 사용이 가능함

In [17]:
df_left.merge(df_right, left_index=True, right_index=True)

Unnamed: 0,국어,수학
103,70,90
104,60,80


#### 1.10 join()

- merge는 일반 열과 index 모두 키로 사용 가능
- 반면 join은 index만 키로 사용할 수 있음
- 또한 join은 pd.join()의 형태로 사용할 수 없음
- join의 나머지 사용법은 merge와 유사
- index를 기본으로 사용하기 때문에 `left_index=True, right_index=True`를 쓰지 않아도 되므로 코드가 단순

In [18]:
df_left.join(df_right)

Unnamed: 0,국어,수학
101,40,
102,50,
103,70,90.0
104,60,80.0


In [19]:
df_left.join(df_right, how='left')

Unnamed: 0,국어,수학
101,40,
102,50,
103,70,90.0
104,60,80.0


### 2. 테이블(데이터프레임) 이어붙이기

- numpy의 vstack(), hstack(), concatenate()와 유사
- 두 개의 테이블을 종 혹은 횡으로 이어 붙임

In [20]:
import numpy as np

x = np.array([[1,2,3],
              [4,5,6]])
y = np.array([[7,8,9]])
z = np.array([[11],
              [12]])

# vstack과 hstack
print('vstack 결과\n', np.vstack((x, y)))
print('hstack 결과\n', np.hstack((x, z)))
# concatenate()
print('concatenate(axis=0) 결과\n', np.concatenate((x, y), axis=0)) #vstack과 동일
print('concatenate(axis=1) 결과\n', np.concatenate((x, z), axis=1)) #hstack과 동일

vstack 결과
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
hstack 결과
 [[ 1  2  3 11]
 [ 4  5  6 12]]
concatenate(axis=0) 결과
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
concatenate(axis=1) 결과
 [[ 1  2  3 11]
 [ 4  5  6 12]]


- pd.concat() 함수 인수
    - objs: 이어 붙일 pandas 객체(시리즈, 데이터프레임)의 리스트
    - axis: 이어 붙일 축 방향, {0, 1} 혹은 {'index', 'columns'}
    - ignore_index: True이면 index를 새로 작성, False이면 기존 index 사용
    - join: index를 기준으로 한 조인 방식 {'inner', 'outer'}

In [21]:
df1 = pd.DataFrame({'학번': [101, 102, 103, 104],
                    '국어': [40, 50, 70, 60]})

df2 = pd.DataFrame({'학번': [105, 106, 107, 108],
                    '국어': [90, 80, 70, 60]})

pd.concat([df1, df2]) # axis는 0이 기본값

Unnamed: 0,학번,국어
0,101,40
1,102,50
2,103,70
3,104,60
0,105,90
1,106,80
2,107,70
3,108,60


In [22]:
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,학번,국어
0,101,40
1,102,50
2,103,70
3,104,60
4,105,90
5,106,80
6,107,70
7,108,60


In [23]:
df1 = pd.DataFrame({'학번': [101, 102, 103, 104],
                    '국어': [40, 50, 70, 60]})

df2 = pd.DataFrame({'영어': [70, 60, 90, 80],
                    '수학': [90, 80, 70, 60]})

pd.concat([df1, df2], axis='columns') 

Unnamed: 0,학번,국어,영어,수학
0,101,40,70,90
1,102,50,60,80
2,103,70,90,70
3,104,60,80,60


### 3. One hot encoding

- 범주형 변수의 표현 방식
    - multi-class의 경우, 각 클래스를 숫자로 인코딩하면 거리 문제가 발생. 
    - 예를 들어 혈액형 A, B, O, AB를 0, 1, 2, 3으로 인코딩하면 A와 AB의 거리는 A와 B의 거리의 세 배가 되며, 본래 범주의 의미와 다르게 인코딩됨
    - softmax를 돌이켜 보면 각 범주에 대해 모두 0 혹은 1의 값을 가지는 형태로 인코딩되는 것이 바람직
    - 즉 A, B, O, AB는 각각 (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)로 인코딩
- one hot encoding
    - 위 예와 같이 범주형 변수를 인코딩하는 방법
    - one hot의 의미: 변수 중 하나만 1이고 나머지는 0
    - binarize(이진화)와 혼동하면 안 됨

In [24]:
df_blood = pd.DataFrame({'이름': ['홍길동', '이몽룡', '성춘향', '변사또', '흥부'],
                       '혈액형': ['A', 'B', 'AB', 'O', 'B']})
df_blood

Unnamed: 0,이름,혈액형
0,홍길동,A
1,이몽룡,B
2,성춘향,AB
3,변사또,O
4,흥부,B


In [25]:
# 별도로 지정하지 않으면 True/False로 표현
pd.get_dummies(df_blood['혈액형'])

Unnamed: 0,A,AB,B,O
0,1,0,0,0
1,0,0,1,0
2,0,1,0,0
3,0,0,0,1
4,0,0,1,0


In [26]:
# 머신러닝에서는 일반적으로 0/1로 표현
pd.get_dummies(df_blood['혈액형'], dtype=int)

Unnamed: 0,A,AB,B,O
0,1,0,0,0
1,0,0,1,0
2,0,1,0,0
3,0,0,0,1
4,0,0,1,0


- 원래 테이블 혹은 다른 테이블과 결합하고 싶으면 join을 이용해서 결합
- 일반적으로 이와 같은 방식으로 많이 사용함

In [27]:
dummies = pd.get_dummies(df_blood['혈액형'], prefix='혈액형', dtype=int)
df_with_dummy = df_blood.join(dummies)
df_with_dummy

Unnamed: 0,이름,혈액형,혈액형_A,혈액형_AB,혈액형_B,혈액형_O
0,홍길동,A,1,0,0,0
1,이몽룡,B,0,0,1,0
2,성춘향,AB,0,1,0,0
3,변사또,O,0,0,0,1
4,흥부,B,0,0,1,0
