In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

# 실습 환경 셋팅

- 아래와 같이 실습용 테이블 생성
```PYTHON
CREATE TABLE EMPLOYEE 
(
EMPLOYEE_ID INT PRIMARY KEY
, FIRST_NAME VARCHAR (255) NOT NULL
, LAST_NAME VARCHAR (255) NOT NULL
, MANAGER_ID INT
, FOREIGN KEY (MANAGER_ID) -- EMPLOYEE_ID를 참조해서 MANAGER_ID 컬럼을 만들겠다.
REFERENCES EMPLOYEE (EMPLOYEE_ID) 
ON DELETE CASCADE
);
```

- 생성한 테이블에 데이터 입력
```PYTHON
CREATE TABLE EMPLOYEE 
(
EMPLOYEE_ID INT PRIMARY KEY
, FIRST_NAME VARCHAR (255) NOT NULL
, LAST_NAME VARCHAR (255) NOT NULL
, MANAGER_ID INT
, FOREIGN KEY (MANAGER_ID) 
REFERENCES EMPLOYEE (EMPLOYEE_ID) 
ON DELETE CASCADE
);
```

In [2]:
%%sql

SELECT *
    FROM employee;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
8 rows affected.


employee_id,first_name,last_name,manager_id
1,Windy,Hays,
2,Ava,Christensen,1.0
3,Hassan,Conner,1.0
4,Anna,Reeves,2.0
5,Sau,Norman,2.0
6,Kelsie,Hays,3.0
7,Tory,Goff,3.0
8,Salley,Lester,3.0


- employee_id는 직원 번호, manager_id는 관리해야 할 employee_id의 번호(담당 직원)을 뜻한다.
- 즉, Ava Christensen은 employee_id가 1번인 사원에 의해 관리 받는다. (= 직속 부하 직원)
- Anna Reeves는 employee_id가 2번인 사원들(Ava Christensen, Hassan Conner)에 의해 관리 받는다.
- 이를 통해 아래와 같은 조직도를 그릴 수 있다.

----

![image](https://user-images.githubusercontent.com/74717033/131218814-fecf472b-9cd8-4b2e-aedc-55d1540c25f4.png)

# 예제 1. SELF JOIN

- 같은 테이블 끼리 JOIN을 할때 사용하는 조인 방식
- 같은 테이블에서 특정 컬럼을 기준으로 매칭이 되는 컬럼을 출력하는 조인이다.
- 즉, 같은 테이블의 데이터를 각각의 집합으로 분류한 뒤 조인 한다.
---
- SELF JOIN은 특별한 SQL이 있는 것이 아니라 기본적인 JOIN문을 사용하되, N개의 테이블이 모두 '동일한' 테이블이면 된다.
    - 이때, alias 를 다르게 구분해서 서로 다른 테이블인 것처럼 인지하도록 한다.

In [3]:
%%sql

SELECT
  E.FIRST_NAME || ' ' || E.LAST_NAME EMPLOYEE
, M.FIRST_NAME || ' ' || M .LAST_NAME MANAGER
FROM
     EMPLOYEE E -- EMPLOYEE 테이블과 EMPLOYEE 테이블을 SELF JOIN
INNER JOIN EMPLOYEE M 
ON M .EMPLOYEE_ID = E.MANAGER_ID -- employee_id와 manager_id 을 조인
ORDER BY E.EMPLOYEE_ID;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
7 rows affected.


employee,manager
Ava Christensen,Windy Hays
Hassan Conner,Windy Hays
Anna Reeves,Ava Christensen
Sau Norman,Ava Christensen
Kelsie Hays,Hassan Conner
Tory Goff,Hassan Conner
Salley Lester,Hassan Conner


- 각 직원의 상위 관리자들이 출력되었다.
- (실제로는) 각 employee_id에 매칭되는 manager_id가 있는 데이터의 집합만 출력이 되었다.

![image](https://user-images.githubusercontent.com/74717033/131219038-495496bb-5d80-4eb8-aca9-769f818ca8f3.png)

# 예제 2. SELF LEFT OUTER 조인

- 위와 같이 일반적인 SELF JOIN을 하게 되면 최고관리자가 조건에 부합하지 않아 생략되어 출력된다.
- 하지만 manager_id가 있든 없든 모든 직원에 대한 정보를 보고 싶다면?
- LEFT OUTER JOIN을 통해 해결이 가능하다.

In [4]:
%%sql

SELECT
  E.FIRST_NAME || ' ' || E.LAST_NAME EMPLOYEE
, M.FIRST_NAME || ' ' || M .LAST_NAME MANAGER
FROM
     EMPLOYEE E
LEFT OUTER JOIN EMPLOYEE M -- EMPLOYEE 테이블과 EMPLOYEE 테이블을 SELF JOIN
ON M .EMPLOYEE_ID = E.MANAGER_ID
ORDER BY E.EMPLOYEE_ID;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
8 rows affected.


employee,manager
Windy Hays,
Ava Christensen,Windy Hays
Hassan Conner,Windy Hays
Anna Reeves,Ava Christensen
Sau Norman,Ava Christensen
Kelsie Hays,Hassan Conner
Tory Goff,Hassan Conner
Salley Lester,Hassan Conner


- LEFT OUTER JOIN은 "LEFT의 테이블 데이터는 모두 출력, RIGHT TABLE의 테이터는 LEFT 테이블과 일치하는 것만 출력" 이 기본 원리이다.
- 이를 동일 테이블끼리 JOIN하는 SELF JOIN에 응용하였을 뿐이다.

# 예제 3. SELF JOIN - 부정형 조건 적용하기

- FILM 테이블에서 영화 상영시간(length)는 동일하지만, 서로 다른 영화인 데이터의 집합을 출력하고 싶다면?

In [5]:
%%sql

SELECT
       F1.TITLE
     , F2.TITLE
     , F1.LENGTH
  FROM
       FILM F1
INNER JOIN FILM F2 -- FILM 테이블과 FILM 테이블을 SELF JOIN
ON F1.FILM_ID <> F2.FILM_ID -- F1의 FILM_ID와 F2의 FILM_ID가 다른 (= 서로 다른 영화)
AND F1. LENGTH = F2.LENGTH -- 영화의 상영시간은 동일
limit 20; -- 6972개를 20개로 limit

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
20 rows affected.


title,title_1,length
Chamber Italian,Affair Prejudice,117
Chamber Italian,Graffiti Love,117
Chamber Italian,Magic Mallrats,117
Chamber Italian,Resurrection Silverado,117
Grosse Wonderful,Doors President,49
Grosse Wonderful,Heavenly Gun,49
Grosse Wonderful,Hook Chariots,49
Grosse Wonderful,Hurricane Affair,49
Airport Pollock,Go Purple,54
Airport Pollock,Juggler Hardly,54
