# 조인 연산
- 공통으로 들어있는 값(Key)을 기준으로, 데이터 합치기
    1. **Inner Join**
    2. Outer Join : Full Outer
    3. Right Join : Right Outer
    4. **Left Join** : Left Outer
    - (* 강조한 건, 실무에서 자주 사용하는 join)
- 이 모든 걸 merge로 한다

### 1. 인트로

-	개념: `pandas의 merge() 함수`는 두 개의 DataFrame을 `키 값을 기준으로 조인`할 수 있는 함수입니다.

In [3]:
import pandas as pd

# 두 개의 데이터를 불러오기
employee_df = pd.read_csv('../data/employee.csv')
survey_df = pd.read_csv('../data/survey.csv')

In [4]:
employee_df.head(3)

Unnamed: 0,id,department,location,role,resign
0,101929,HR,China,Staff,Y
1,101625,Finance,US,Senior Director,N
2,100298,HR,China,Manager,N


In [5]:
survey_df.head(3)

Unnamed: 0,id,department,career,teamwork,reward,environment
0,101355,HR,5,4,5,4
1,100077,Sales,2,2,4,3
2,101844,Finance,2,3,1,5


-	키 포인트: 두 데이터의 공통된 컬럼을 기준으로 데이터를 합칠 수 있으며, `컬럼 이름이 다를 경우엔 left_on, right_on을 사용하여 지정`할 수 있습니다.

### 2. on 옵션과 기본 merge

-	개념: `merge()의 on 옵션`은 `키 값`으로 사용할 컬럼을 지정하는 역할을 합니다.

In [4]:
pd.merge(employee_df,survey_df,on='id')

Unnamed: 0,id,department_x,location,role,resign,department_y,career,teamwork,reward,environment
0,101929,HR,China,Staff,Y,HR,2,3,2,3
1,101625,Finance,US,Senior Director,N,Finance,2,2,3,1
2,101318,IT,Japan,Senior Staff,N,IT,2,3,5,5
3,100936,HR,Japan,Manager,Y,HR,3,2,2,4
4,100125,HR,Korea,Senior Staff,N,HR,3,4,4,4
...,...,...,...,...,...,...,...,...,...,...
71,102031,IT,Colombia,Senior Manager,Y,IT,1,3,3,1
72,100476,HR,Colombia,Senior Manager,Y,HR,1,2,3,5
73,100226,HR,UK,Senior Manager,N,HR,2,2,3,4
74,101331,IT,Korea,Manager,N,IT,3,5,4,4


### 3. how 옵션 (join 방법 지정)

-	개념: `how` 옵션은 `어떤 방식으로 조인을 할지` 결정합니다. `기본값은 inner`입니다.
-	inner join: `양쪽 데이터에 모두 존재`하는 키 값만 포함.

In [5]:
# 기본 inner join
pd.merge(employee_df, survey_df, on='id', how='inner')

Unnamed: 0,id,department_x,location,role,resign,department_y,career,teamwork,reward,environment
0,101929,HR,China,Staff,Y,HR,2,3,2,3
1,101625,Finance,US,Senior Director,N,Finance,2,2,3,1
2,101318,IT,Japan,Senior Staff,N,IT,2,3,5,5
3,100936,HR,Japan,Manager,Y,HR,3,2,2,4
4,100125,HR,Korea,Senior Staff,N,HR,3,4,4,4
...,...,...,...,...,...,...,...,...,...,...
71,102031,IT,Colombia,Senior Manager,Y,IT,1,3,3,1
72,100476,HR,Colombia,Senior Manager,Y,HR,1,2,3,5
73,100226,HR,UK,Senior Manager,N,HR,2,2,3,4
74,101331,IT,Korea,Manager,N,IT,3,5,4,4


-	`left join`: 왼쪽 데이터의 모든 값을 포함, `오른쪽 데이터에 없는 값은 결측값`으로 처리.

In [8]:
pd.merge(employee_df, survey_df, on='id', how='left')

Unnamed: 0,id,department_x,location,role,resign,department_y,career,teamwork,reward,environment
0,101929,HR,China,Staff,Y,HR,2.0,3.0,2.0,3.0
1,101625,Finance,US,Senior Director,N,Finance,2.0,2.0,3.0,1.0
2,100298,HR,China,Manager,N,,,,,
3,101870,Finance,Colombia,Manager,N,,,,,
4,101318,IT,Japan,Senior Staff,N,IT,2.0,3.0,5.0,5.0
...,...,...,...,...,...,...,...,...,...,...
95,100476,HR,Colombia,Senior Manager,Y,HR,1.0,2.0,3.0,5.0
96,100226,HR,UK,Senior Manager,N,HR,2.0,2.0,3.0,4.0
97,101331,IT,Korea,Manager,N,IT,3.0,5.0,4.0,4.0
98,100036,HR,UK,Manager,N,,,,,


In [9]:
pd.merge(employee_df, survey_df, on='id', how='left').isna().sum()

# 아래 결측이 0이 아닌 열들은 오른쪽 데이터셋에는 없는 열들.

id               0
department_x     0
location         0
role             0
resign           0
department_y    24
career          24
teamwork        24
reward          24
environment     24
dtype: int64

-	`right join`: 오른쪽 데이터의 모든 값을 포함.

In [10]:
pd.merge(employee_df, survey_df, on='id', how='right')

Unnamed: 0,id,department_x,location,role,resign,department_y,career,teamwork,reward,environment
0,101355,HR,US,Director,N,HR,5,4,5,4
1,100077,Sales,Australia,Staff,Y,Sales,2,2,4,3
2,101844,Finance,UK,Senior Manager,N,Finance,2,3,1,5
3,101929,HR,China,Staff,Y,HR,2,3,2,3
4,101888,HR,Australia,Senior Staff,N,HR,4,4,3,3
...,...,...,...,...,...,...,...,...,...,...
71,101449,HR,Korea,Manager,N,HR,4,3,3,5
72,101423,Finance,US,Manager,Y,Finance,1,2,1,4
73,101098,IT,France,Senior Staff,Y,IT,1,3,4,4
74,100618,IT,Turkey,Senior Staff,N,IT,5,2,1,2


In [11]:
pd.merge(employee_df, survey_df, on='id', how='right').isna().sum()

id              0
department_x    0
location        0
role            0
resign          0
department_y    0
career          0
teamwork        0
reward          0
environment     0
dtype: int64

-	`outer join`: 양쪽 데이터의 모든 값을 포함.

In [12]:
# outer join
pd.merge(employee_df, survey_df, on='id', how='outer')

Unnamed: 0,id,department_x,location,role,resign,department_y,career,teamwork,reward,environment
0,101929,HR,China,Staff,Y,HR,2.0,3.0,2.0,3.0
1,101625,Finance,US,Senior Director,N,Finance,2.0,2.0,3.0,1.0
2,100298,HR,China,Manager,N,,,,,
3,101870,Finance,Colombia,Manager,N,,,,,
4,101318,IT,Japan,Senior Staff,N,IT,2.0,3.0,5.0,5.0
...,...,...,...,...,...,...,...,...,...,...
95,100476,HR,Colombia,Senior Manager,Y,HR,1.0,2.0,3.0,5.0
96,100226,HR,UK,Senior Manager,N,HR,2.0,2.0,3.0,4.0
97,101331,IT,Korea,Manager,N,IT,3.0,5.0,4.0,4.0
98,100036,HR,UK,Manager,N,,,,,


In [13]:
# outer join
pd.merge(employee_df, survey_df, on='id', how='outer').isna().sum()

id               0
department_x     0
location         0
role             0
resign           0
department_y    24
career          24
teamwork        24
reward          24
environment     24
dtype: int64

### 4. suffixes 옵션

-	개념: `동일한 컬럼명`이 있는 경우, `suffixes를 사용해 각 DataFrame의 컬럼에 접미사`를 붙여서 구분할 수 있습니다.

In [14]:
# suffixes를 사용해 접미사 설정
# department_x, department_y => department_emp, department_survey
pd.merge(employee_df, survey_df, on='id', how='left', suffixes=('_emp', '_survey'))

Unnamed: 0,id,department_emp,location,role,resign,department_survey,career,teamwork,reward,environment
0,101929,HR,China,Staff,Y,HR,2.0,3.0,2.0,3.0
1,101625,Finance,US,Senior Director,N,Finance,2.0,2.0,3.0,1.0
2,100298,HR,China,Manager,N,,,,,
3,101870,Finance,Colombia,Manager,N,,,,,
4,101318,IT,Japan,Senior Staff,N,IT,2.0,3.0,5.0,5.0
...,...,...,...,...,...,...,...,...,...,...
95,100476,HR,Colombia,Senior Manager,Y,HR,1.0,2.0,3.0,5.0
96,100226,HR,UK,Senior Manager,N,HR,2.0,2.0,3.0,4.0
97,101331,IT,Korea,Manager,N,IT,3.0,5.0,4.0,4.0
98,100036,HR,UK,Manager,N,,,,,


### 5. left_on, right_on 옵션

-	개념: 두 DataFrame의 `키 컬럼명이 다를 때` left_on과 right_on을 사용해 각각의 키 값을 지정할 수 있습니다.

In [23]:
survey_df = survey_df.rename(columns={'id':'employee_id'})

In [24]:
pd.merge(survey_df, employee_df, left_on='employee_id', right_on='id')

Unnamed: 0,employee_id,department_x,career,teamwork,reward,environment,id,department_y,location,role,resign
0,101355,HR,5,4,5,4,101355,HR,US,Director,N
1,100077,Sales,2,2,4,3,100077,Sales,Australia,Staff,Y
2,101844,Finance,2,3,1,5,101844,Finance,UK,Senior Manager,N
3,101929,HR,2,3,2,3,101929,HR,China,Staff,Y
4,101888,HR,4,4,3,3,101888,HR,Australia,Senior Staff,N
...,...,...,...,...,...,...,...,...,...,...,...
71,101449,HR,4,3,3,5,101449,HR,Korea,Manager,N
72,101423,Finance,1,2,1,4,101423,Finance,US,Manager,Y
73,101098,IT,1,3,4,4,101098,IT,France,Senior Staff,Y
74,100618,IT,5,2,1,2,100618,IT,Turkey,Senior Staff,N


### join() 함수로 데이터 합치기
- `join()` 함수는 `'인덱스'를 키 값으로 사용(전제)`하는 조인 연산에 유용합니다.  
코드를 통해 사원 번호를 인덱스로 설정한 뒤 데이터를 합치는 방법을 알아보겠습니다.
- merge()가 join을 포함한다!
    - 즉, `merge()`를 사용한다.


In [25]:
survey_df = survey_df.set_index('employee_id')
employee_df = employee_df.set_index('id')

- 이제 join() 함수를 사용하여 두 개의 DataFrame을 결합해 봅시다.

In [26]:
employee_df.join(survey_df)

ValueError: columns overlap but no suffix specified: Index(['department'], dtype='object')

- 오류 발생! 결치는 컬럼명이 있을 경우 (에러 해결은 다음 챕터에서 계속)

### 2. lsuffix, rsuffix 옵션

join() 함수는 겹치는 컬럼명이 있을 경우 오류가 발생할 수 있습니다.
이때 `lsuffix(left)와 rsuffix(right)를 사용`하여 중복 컬럼명을 해결합니다.

In [28]:
# lsuffix와 rsuffix로 겹치는 컬럼명 해결
employee_df.join(survey_df, lsuffix='_x', rsuffix='_y')

# 한쪽 컬럼에만 suffix를 붙일 수도 있습니다.
# 구분만 되면 된다!
employee_df.join(survey_df, rsuffix='_x')

Unnamed: 0_level_0,department,location,role,resign,department_x,career,teamwork,reward,environment
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
101929,HR,China,Staff,Y,HR,2.0,3.0,2.0,3.0
101625,Finance,US,Senior Director,N,Finance,2.0,2.0,3.0,1.0
100298,HR,China,Manager,N,,,,,
101870,Finance,Colombia,Manager,N,,,,,
101318,IT,Japan,Senior Staff,N,IT,2.0,3.0,5.0,5.0
...,...,...,...,...,...,...,...,...,...
100476,HR,Colombia,Senior Manager,Y,HR,1.0,2.0,3.0,5.0
100226,HR,UK,Senior Manager,N,HR,2.0,2.0,3.0,4.0
101331,IT,Korea,Manager,N,IT,3.0,5.0,4.0,4.0
100036,HR,UK,Manager,N,,,,,


### 3. how 옵션

join() 함수는 `기본적으로 left_outer_join`을 수행합니다.
다른 조인 방식이 필요할 경우, how 옵션을 사용합니다.

In [29]:
# inner join으로 변경하여 설문조사에 참여한 직원만 가져오기
employee_df.join(survey_df, rsuffix='_x', how='inner')

Unnamed: 0,department,location,role,resign,department_x,career,teamwork,reward,environment
101929,HR,China,Staff,Y,HR,2,3,2,3
101625,Finance,US,Senior Director,N,Finance,2,2,3,1
101318,IT,Japan,Senior Staff,N,IT,2,3,5,5
100936,HR,Japan,Manager,Y,HR,3,2,2,4
100125,HR,Korea,Senior Staff,N,HR,3,4,4,4
...,...,...,...,...,...,...,...,...,...
102031,IT,Colombia,Senior Manager,Y,IT,1,3,3,1
100476,HR,Colombia,Senior Manager,Y,HR,1,2,3,5
100226,HR,UK,Senior Manager,N,HR,2,2,3,4
101331,IT,Korea,Manager,N,IT,3,5,4,4


### 4. DataFrame에 저장

조인 결과를 변수에 저장하여 이후 사용이 가능합니다.

In [30]:
# 결합된 DataFrame을 변수에 저장
company_df = employee_df.join(survey_df, rsuffix='_x', how='inner')

company_df

### `merge()`와 `join()` 함수 심화 활용

1. `merge()`에서 인덱스를 키 값으로 사용하기

일반적으로 `merge()` 함수는 컬럼을 기준으로 데이터를 합치지만, 인덱스를 키 값으로 사용할 수도 있습니다.

- **`left_index=True`, `right_index=True`**: 왼쪽과 오른쪽 데이터 모두 인덱스를 키 값으로 사용 (선택적으로 left_on, right_on과 섞어서도 사용 가능!)

In [32]:
pd.merge(employee_df, survey_df, left_index=True, right_index=True)

Unnamed: 0,department_x,location,role,resign,department_y,career,teamwork,reward,environment
101929,HR,China,Staff,Y,HR,2,3,2,3
101625,Finance,US,Senior Director,N,Finance,2,2,3,1
101318,IT,Japan,Senior Staff,N,IT,2,3,5,5
100936,HR,Japan,Manager,Y,HR,3,2,2,4
100125,HR,Korea,Senior Staff,N,HR,3,4,4,4
...,...,...,...,...,...,...,...,...,...
102031,IT,Colombia,Senior Manager,Y,IT,1,3,3,1
100476,HR,Colombia,Senior Manager,Y,HR,1,2,3,5
100226,HR,UK,Senior Manager,N,HR,2,2,3,4
101331,IT,Korea,Manager,N,IT,3,5,4,4


-	`left_index=True, right_on='컬럼명'`: 왼쪽 데이터는 인덱스를, 오른쪽 데이터는 특정 컬럼을 키 값으로 사용

In [34]:
survey_df = survey_df.reset_index()

In [35]:
pd.merge(employee_df, survey_df, left_index=True, right_on='employee_id')

Unnamed: 0,department_x,location,role,resign,employee_id,department_y,career,teamwork,reward,environment
3,HR,China,Staff,Y,101929,HR,2,3,2,3
43,Finance,US,Senior Director,N,101625,Finance,2,2,3,1
37,IT,Japan,Senior Staff,N,101318,IT,2,3,5,5
56,HR,Japan,Manager,Y,100936,HR,3,2,2,4
28,HR,Korea,Senior Staff,N,100125,HR,3,4,4,4
...,...,...,...,...,...,...,...,...,...,...
13,IT,Colombia,Senior Manager,Y,102031,IT,1,3,3,1
69,HR,Colombia,Senior Manager,Y,100476,HR,1,2,3,5
23,HR,UK,Senior Manager,N,100226,HR,2,2,3,4
47,IT,Korea,Manager,N,101331,IT,3,5,4,4


-	`right_index=True, left_on='컬럼명'`: 오른쪽 데이터는 인덱스를, 왼쪽 데이터는 특정 컬럼을 키 값으로 사용

#### 2. join()에서 컬럼을 키 값으로 사용하기

- join() 함수는 기본적으로 인덱스를 키 값으로 사용하지만, `컬럼을 기준으로 조인`할 수도 있습니다.
    - 단, 왼쪽 데이터셋에 대해서만!

In [37]:
survey_df.head(3)

Unnamed: 0,employee_id,department,career,teamwork,reward,environment
0,101355,HR,5,4,5,4
1,100077,Sales,2,2,4,3
2,101844,Finance,2,3,1,5


- `on` 옵션 사용: 인덱스가 아닌 특정 컬럼을 키 값으로 설정하기 (`단, 왼쪽 데이터셋만`)

In [40]:
company_df = survey_df.join(employee_df, on='employee_id', lsuffix='_x', how='inner')
company_df

Unnamed: 0,employee_id,department_x,career,teamwork,reward,environment,department,location,role,resign
0,101355,HR,5,4,5,4,HR,US,Director,N
1,100077,Sales,2,2,4,3,Sales,Australia,Staff,Y
2,101844,Finance,2,3,1,5,Finance,UK,Senior Manager,N
3,101929,HR,2,3,2,3,HR,China,Staff,Y
4,101888,HR,4,4,3,3,HR,Australia,Senior Staff,N
...,...,...,...,...,...,...,...,...,...,...
71,101449,HR,4,3,3,5,HR,Korea,Manager,N
72,101423,Finance,1,2,1,4,Finance,US,Manager,Y
73,101098,IT,1,3,4,4,IT,France,Senior Staff,Y
74,100618,IT,5,2,1,2,IT,Turkey,Senior Staff,N


-	왼쪽 데이터는 인덱스와 컬럼 중 키 값을 자유롭게 선택할 수 있지만, `오른쪽 데이터는 반드시 인덱스를 키 값`으로 사용합니다.

### 3. merge()와 join() 차이 정리

-	`merge()` 장점: 다양한 옵션을 사용해 `유연하게` 데이터를 합칠 수 있다.
-	join() 장점: 인덱스가 키 값으로 설정되어 있을 때, `더 간결한 코드`로 데이터를 합칠 수 있다.

따라서 상황에 따라 더 적합한 함수를 선택해서 사용하면 됩니다.

## (참고) 조인한 데이터로 새로운 인사이트 얻기 

### 조인 연산을 통한 데이터 분석

이번에는 `company_df` 데이터를 사용하여 조인 연산 후, 새로운 인사이트를 얻는 과정을 알아보겠습니다. `company_df`는 직원 정보와 설문 조사 결과를 `inner join`하여 만든 데이터입니다.

#### 1. 퇴사한 직원 데이터 추출

먼저, 퇴사한 직원들의 정보를 추출해 보겠습니다. 퇴사 여부를 나타내는 `resign` 컬럼이 `Y`인 데이터를 조건식으로 작성하고, 이를 이용해 불린 인덱싱을 합니다.

In [41]:
condition = company_df['resign'] == 'Y'
company_df[condition]

Unnamed: 0,employee_id,department_x,career,teamwork,reward,environment,department,location,role,resign
1,100077,Sales,2,2,4,3,Sales,Australia,Staff,Y
3,101929,HR,2,3,2,3,HR,China,Staff,Y
7,101849,HR,3,2,1,2,HR,Colombia,Senior Staff,Y
10,101718,Sales,4,1,4,4,Sales,Colombia,Manager,Y
13,102031,IT,1,3,3,1,IT,Colombia,Senior Manager,Y
19,100199,IT,1,4,5,3,IT,France,Senior Staff,Y
22,101758,Sales,2,3,4,1,Sales,Korea,Staff,Y
27,100238,IT,2,1,1,5,IT,US,Staff,Y
35,101780,HR,2,5,4,1,HR,Turkey,Senior Director,Y
36,101639,Sales,3,3,5,5,Sales,China,Senior Staff,Y


- 통계 정보를 요약해서 보려면, .describe() 함수를 사용합니다.

In [42]:
company_df[condition].describe()

Unnamed: 0,employee_id,career,teamwork,reward,environment
count,19.0,19.0,19.0,19.0,19.0
mean,101094.0,2.210526,2.736842,3.052632,3.210526
std,655.859318,1.134262,1.240166,1.393385,1.512134
min,100077.0,1.0,1.0,1.0,1.0
25%,100541.5,1.0,2.0,2.0,2.0
50%,101098.0,2.0,3.0,3.0,3.0
75%,101738.0,3.0,3.5,4.0,4.5
max,102031.0,5.0,5.0,5.0,5.0


#### 2. 퇴사하지 않은 직원 데이터 추출

이번에는 `퇴사하지 않은 직원들의 정보를 확인`하기 위해 조건식을 반대로 작성합니다. 물결 기호 `~`를 사용하여 조건식을 반전시킵니다.

In [43]:
company_df[~condition].describe()

Unnamed: 0,employee_id,career,teamwork,reward,environment
count,57.0,57.0,57.0,57.0,57.0
mean,101106.385965,3.22807,2.964912,3.140351,3.315789
std,575.185677,1.267978,1.335837,1.444677,1.489941
min,100083.0,1.0,1.0,1.0,1.0
25%,100682.0,2.0,2.0,2.0,2.0
50%,101113.0,3.0,3.0,3.0,3.0
75%,101556.0,4.0,4.0,5.0,5.0
max,101975.0,5.0,5.0,5.0,5.0


#### 3. 결과 비교

두 데이터를 비교하여, 어떤 항목에서 차이가 나는지 확인할 수 있습니다. 특히 커리어 만족도 항목에서 퇴사한 직원과 퇴사하지 않은 직원 간에 큰 차이가 있다는 것을 발견할 수 있습니다.

-	`퇴사자 커리어 만족도: 평균 2.21`
-	`퇴사하지 않은 직원의 커리어 만족도: 평균 약 3.23`

이 차이를 통해 퇴사한 직원들은 커리어 개발에 대한 만족도가 낮았다는 결론을 도출할 수 있습니다.

#### 4. 인사이트 도출

이 결과를 바탕으로, **인사팀에서는 커리어 개발을 위한 교육 프로그램을 운영**하는 등의 개선책을 마련할 수 있습니다. 두 데이터를 조인해서 분석한 덕분에, 이런 인사이트를 얻게 된 것이죠.