# 내부 조인

- 내부 조인(inner join)
  - 가장 기본적인 조인
  - 집합으로 보면 양쪽의 교집합 데이터를 통합


In [1]:
import pandas as pd

In [3]:
raw_data = {
    "subject_id": ["1", "2", "3", "4", "5", "7", "8", "9", "10", "11"],
    "test_score": [51, 15, 15, 61, 16, 14, 15, 1, 61, 16],
}
df_left = pd.DataFrame(raw_data, columns=["subject_id", "test_score"])
df_left

Unnamed: 0,subject_id,test_score
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


In [4]:
raw_data = {
    "subject_id": ["4", "5", "6", "7", "8"],
    "first_name": ["Billy", "Brian", "Bran", "Bryce", "Betty"],
    "last_name": ["Bonder", "Black", "Balwner", "Brice", "Btisan"],
}
df_right = pd.DataFrame(raw_data, columns=["subject_id", "first_name", "last_name"])
df_right

Unnamed: 0,subject_id,first_name,last_name
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner
3,7,Bryce,Brice
4,8,Betty,Btisan


- subject_id를 기준으로 내부 조인을 수행
  - 키 값 subject_id 열의 값이 두 테이블 모두 존재해야 병합됨
  - left, right 매개변수에 각 위치에 해당하는 데이터프레임 객체를 입력
  - how에 조인 방법 "inner"를 문자열 타입으로 입력
  - on에 병합의 기주이 되는 열 이름을 입력


In [5]:
pd.merge(left=df_left, right=df_right, how="inner", on="subject_id")

Unnamed: 0,subject_id,test_score,first_name,last_name
0,4,61,Billy,Bonder
1,5,16,Brian,Black
2,7,14,Bryce,Brice
3,8,15,Betty,Btisan


# left_on과 right_on 매개변수

- left_on과 right_on 매개 변수
  - 왼쪽 테이블과 오른쪽 테이블의 키 값이 다른 경우
  - left_on과 right_on 매개변수를 사용하여 각 테이블 키 값을 입력

```python
pd.merge(left=df_left, right=df_right, left_on="subject_id", right_on="id")
```


# 왼쪽 조인, 오른쪽 조인

- 왼쪽 조인
  - 왼쪽 테이블을 기준으로 데이터 병합
  - 오른쪽 테이블에 왼쪽 테이블에 있는 키 값이 존재하지 않는다면 NaN으로 출력


In [6]:
pd.merge(df_left, df_right, on="subject_id", how="left")

Unnamed: 0,subject_id,test_score,first_name,last_name
0,1,51,,
1,2,15,,
2,3,15,,
3,4,61,Billy,Bonder
4,5,16,Brian,Black
5,7,14,Bryce,Brice
6,8,15,Betty,Btisan
7,9,1,,
8,10,61,,
9,11,16,,


- 오른쪽 조인
  - 오른쪽 테이블 기준으로 데이터를 병합
  - 왼쪽 테이블에 오른쪽 테이블에 있는 키 값이 존재하지 않는다면 NaN으로 출력


In [7]:
pd.merge(df_left, df_right, on="subject_id", how="right")

Unnamed: 0,subject_id,test_score,first_name,last_name
0,4,61.0,Billy,Bonder
1,5,16.0,Brian,Black
2,6,,Bran,Balwner
3,7,14.0,Bryce,Brice
4,8,15.0,Betty,Btisan


# 완전 조인

- 완전 조인
  - 두 테이블의 합집합을 의미
  - 양쪽에 같은 키 값이 있는 데이터는 합치고 나머지는 NaN


In [8]:
pd.merge(df_left, df_right, on="subject_id", how="outer")

Unnamed: 0,subject_id,test_score,first_name,last_name
0,1,51.0,,
1,10,61.0,,
2,11,16.0,,
3,2,15.0,,
4,3,15.0,,
5,4,61.0,Billy,Bonder
6,5,16.0,Brian,Black
7,6,,Bran,Balwner
8,7,14.0,Bryce,Brice
9,8,15.0,Betty,Btisan


# 인덱스에 의한 병합

- 인덱스에 의한 병합
  - 인덱스 값을 키 값으로 하여 두 테이블을 병합할 수 있음
  - 인덱스가 의미 있는 열로 지정되어 있거나, 두 데이터가 모두 순서대로 들어가 있는 경우 사용
  - right_index나 left_index 매개 변수


In [9]:
df_left.index = df_left.subject_id
del df_left["subject_id"]
df_right.index = df_right.subject_id
del df_right["subject_id"]
pd.merge(df_left, df_right, on="subject_id", how="inner")

Unnamed: 0_level_0,test_score,first_name,last_name
subject_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,61,Billy,Bonder
5,16,Brian,Black
7,14,Bryce,Brice
8,15,Betty,Btisan


# 연결

- 연결(concatenate)
  - 두 테이블을 그대로 붙임
  - 데이터의 스키마가 동일할 때 그대로 연결
  - 주로 세로로 데이터를 연결
- concat 함수
  - 두 개의 서로 다른 테이블을 하나로 합침


In [11]:
import os

filenames = [
    os.path.join("./", filename) for filename in os.listdir("./") if "sales" in filename
]
print(filenames)

['./sales-feb-2014.xlsx', './sales-jan-2014.xlsx', './sales-mar-2014.xlsx']


In [13]:
df_list = [pd.read_excel(filename, engine="openpyxl") for filename in filenames]

for df in df_list:
    print(type(df), len(df))

<class 'pandas.core.frame.DataFrame'> 108
<class 'pandas.core.frame.DataFrame'> 134
<class 'pandas.core.frame.DataFrame'> 142


- axis=0으로 세로로 연결
- reset_index(drop=True) 함수 사용하여 중복된 인덱스를 제거


In [18]:
df = pd.concat(df_list, axis=0)
print(len(df))
df.reset_index(drop=True)

384


Unnamed: 0,account number,name,sku,quantity,unit price,ext price,date
0,383080,Will LLC,B1-20000,7,33.69,235.83,2014-02-01 09:04:59
1,412290,Jerde-Hilpert,S1-27722,11,21.12,232.32,2014-02-01 11:51:46
2,412290,Jerde-Hilpert,B1-86481,3,35.99,107.97,2014-02-01 17:24:32
3,412290,Jerde-Hilpert,B1-20000,23,78.90,1814.70,2014-02-01 19:56:48
4,672390,Kuhn-Gusikowski,S1-06532,48,55.82,2679.36,2014-02-02 03:45:20
...,...,...,...,...,...,...,...
379,737550,"Fritsch, Russel and Anderson",B1-65551,12,56.24,674.88,2014-03-31 08:43:24
380,642753,Pollich LLC,S1-93683,21,92.57,1943.97,2014-03-31 11:37:34
381,412290,Jerde-Hilpert,B1-20000,30,22.38,671.40,2014-03-31 21:41:31
382,307599,"Kassulke, Ondricka and Metz",S2-16558,46,56.04,2577.84,2014-03-31 22:11:22
