In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

# 조인이란?

- 2개이상(여러개의) 테이블에 있는 정보 중 사용자가 필요한 집합(=정보)에 맞게 일종의 가상 테이블을 만들어 결과를 보여주는 것
- 여러개의 테이블에서 원하는 컬럼만 조건을 부여해서 추출하여 하나의 테이블로 만드는 방식

![image](https://user-images.githubusercontent.com/74717033/130976495-05f2fabd-748e-4345-8719-0b9407e4980e.png)

![image](https://user-images.githubusercontent.com/74717033/130976185-3a41352f-22c1-42c9-8faa-e2b8e41aca2a.png)

- 배송 테이블의 '주문번호' 를 중심으로 해서 주문테이블과 조인을 하고, 해당 테이블을 다시 고객 id를 기준으로 고객 테이블을 조인하여 가상의 테이블을 만들 수 있을 것이다.

- 애초에 하나의 테이블에 모든 데이터가 들어 있다면 조회가 수월할 것 같지만, 데이터 정규화가 되어있지 않고 복잡한 구조를 갖고 있는 것이다. 
- 쿼리적으로도 데이터 크기가 크다면 하나의 테이블에 모든 데이터가 모여있는 방식은 매우 비효율적 (메모리 손실이 매우 클 것)

# INNER JOIN

- 2개 이상의 테이블에서 특정 컬럼을 기준으로 '정확하게 매칭이 된' 데이터의 집합을 출력한다.
- 가장 대표적인 조인의 종류이다.
- INNER 조인은 '교집합' 을 구하는 조인 방식이다.

![image](https://user-images.githubusercontent.com/74717033/130979661-6bcd6d0c-59f6-4384-ab7d-0c72151685e5.png)

![image](https://user-images.githubusercontent.com/74717033/130982632-561ac4f8-d245-4c06-a53f-8bb3154d74ca.png)

- BASKET_A와 BASKET_B 사이에 매칭이 되는 Apple과 Orange 를 제외한 나머지 값은 제외 된다.

In [2]:
%%sql

SELECT
	A.ID ID_A,
	A.FRUIT FRUIT_A,
	B.ID ID_B,
	B.FRUIT FRUIT_B -- 지정한 컬럼을 조회
FROM
	BASKET_A A -- BASKET_A 테이블 (alias 는 A 로!)
INNER JOIN BASKET_B B 
   ON
	A.FRUIT = B.FRUIT; -- FRUIT 컬럼을 기준으로 두 테이블에 정확하게 일치하는 값이 있는지

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
2 rows affected.


id_a,fruit_a,id_b,fruit_b
1,Apple,2,Apple
2,Orange,1,Orange


# 예제 1. INNER JOIN

- dvdrental DB에서 customer 테이블과 payment테이블을 customer_id 기준으로 inner조인 하기

In [3]:
%%sql

SELECT
	A.CUSTOMER_ID,
	A.FIRST_NAME,
	A.LAST_NAME,
	A.EMAIL,
	B.AMOUNT,
	B.PAYMENT_DATE
FROM
	CUSTOMER A -- CUSTOMER 테이블과
INNER JOIN PAYMENT B -- PAYMENT 테이블을 조인한다.
ON
	A.CUSTOMER_ID = B.CUSTOMER_ID -- CUSTOMER_ID 컬럼을 기준으로! 
    limit 20; -- 14000여개여서 20개로 줄임

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
20 rows affected.


customer_id,first_name,last_name,email,amount,payment_date
524,Jared,Ely,jared.ely@sakilacustomer.org,1.99,2007-02-15 08:27:50.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,4.99,2007-02-16 07:53:04.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-02-21 19:40:39.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-03-20 05:23:50.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,4.99,2007-03-20 20:21:47.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-03-21 01:42:11.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-03-21 08:00:05.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,1.99,2007-03-21 18:48:18.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,6.99,2007-03-22 15:02:05.996577
524,Jared,Ely,jared.ely@sakilacustomer.org,5.99,2007-04-07 18:17:02.996577


# 예제 2. INNER JOIN에 조건을 부여하기

In [4]:
%%sql

SELECT
	A.CUSTOMER_ID,
	A.FIRST_NAME,
	A.LAST_NAME,
	A.EMAIL,
	B.AMOUNT,
	B.PAYMENT_DATE
FROM
	CUSTOMER A -- CUSTOMER 테이블과
INNER JOIN PAYMENT B -- PAYMENT 테이블을 조인한다.
ON
	A.CUSTOMER_ID = B.CUSTOMER_ID -- CUSTOMER_ID 컬럼을 기준으로! 
WHERE
	A.CUSTOMER_ID = 4 -- 그중 CUSTOMER_ID가 4인 데이터만 추출
	limit 20;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
20 rows affected.


customer_id,first_name,last_name,email,amount,payment_date
4,Barbara,Jones,barbara.jones@sakilacustomer.org,4.99,2007-02-15 07:59:54.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,0.99,2007-02-16 06:37:06.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,2.99,2007-02-16 12:29:53.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,0.99,2007-02-16 14:20:18.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,0.99,2007-02-17 12:59:38.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,5.99,2007-02-19 08:07:27.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,0.99,2007-03-02 05:38:00.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,2.99,2007-03-02 06:48:57.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,4.99,2007-03-16 22:56:27.996577
4,Barbara,Jones,barbara.jones@sakilacustomer.org,2.99,2007-03-17 22:42:29.996577


# 예제 3. 3개의 테이블을 INNER JOIN 하기

- 2개의 테이블을 INNER JOIN한뒤에 다시 한번 3번째 테이블을 INNER JOIN 해주면 된다.
- 물론 선행된 INNER JOIN에서 출력되는 테이블의 컬럼이 3번째 테이블의 컬럼과 일치하는 것이 있어야 제대로 된 조인이 된다.

In [5]:
%%sql

SELECT
	A.CUSTOMER_ID,
	A.FIRST_NAME,
	A.LAST_NAME,
	A.EMAIL,
	B.AMOUNT,
	B.PAYMENT_DATE,
	C.FIRST_NAME AS S_FIRST_NAME,
	C.LAST_NAME AS S_LAST_NAME
FROM
	CUSTOMER A -- CUSTOMER 테이블과
INNER JOIN PAYMENT B -- PAYMENT 테이블을 
ON
	A.CUSTOMER_ID = B.CUSTOMER_ID -- CUSTOMER_ID 기준으로 조인
INNER JOIN STAFF C -- + STAFF 테이블과
ON
	B.STAFF_ID = C.STAFF_ID -- STAFF_ID 컬럼을 기준으로 조인
	limit 20;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
20 rows affected.


customer_id,first_name,last_name,email,amount,payment_date,s_first_name,s_last_name
524,Jared,Ely,jared.ely@sakilacustomer.org,1.99,2007-02-15 08:27:50.996577,Mike,Hillyer
524,Jared,Ely,jared.ely@sakilacustomer.org,4.99,2007-02-16 07:53:04.996577,Jon,Stephens
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-02-21 19:40:39.996577,Jon,Stephens
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-03-20 05:23:50.996577,Jon,Stephens
524,Jared,Ely,jared.ely@sakilacustomer.org,4.99,2007-03-20 20:21:47.996577,Jon,Stephens
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-03-21 01:42:11.996577,Mike,Hillyer
524,Jared,Ely,jared.ely@sakilacustomer.org,2.99,2007-03-21 08:00:05.996577,Mike,Hillyer
524,Jared,Ely,jared.ely@sakilacustomer.org,1.99,2007-03-21 18:48:18.996577,Jon,Stephens
524,Jared,Ely,jared.ely@sakilacustomer.org,6.99,2007-03-22 15:02:05.996577,Jon,Stephens
524,Jared,Ely,jared.ely@sakilacustomer.org,5.99,2007-04-07 18:17:02.996577,Mike,Hillyer
