In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

# NATURAL JOIN

- 두개의 테이블에서 '같은 이름을 가진 컬럼' 간의 INNER JOIN 을 하는 JOIN방식
- SQL 문이 간소해진다는 장점이 있다.
- 단, 컬럼명만 같으면 INNER JOIN을 자동으로 해버리기 때문에 실무에선 잘 사용하지 않는다.

실습용 테이블 생성
```PYTHON
CREATE TABLE CATEGORIES 
(
  CATEGORY_ID SERIAL PRIMARY KEY
, CATEGORY_NAME VARCHAR (255) NOT NULL
);

CREATE TABLE PRODUCTS 
(
  PRODUCT_ID SERIAL PRIMARY KEY
, PRODUCT_NAME VARCHAR (255) NOT NULL
, CATEGORY_ID INT NOT NULL
, FOREIGN KEY (CATEGORY_ID) 
  REFERENCES CATEGORIES (CATEGORY_ID) --참조한다. 즉 특정 제품은 특정 카테고리를 가지고 있어야 한다. 라는 참조 무결성 제약조건
);

INSERT INTO CATEGORIES 
(CATEGORY_NAME)
VALUES
  ('Smart Phone')
, ('Laptop')
, ('Tablet')
;
COMMIT; 


INSERT INTO PRODUCTS 
(PRODUCT_NAME, CATEGORY_ID)
VALUES
  ('iPhone', 1)
, ('Samsung Galaxy', 1)
, ('HP Elite', 2)
, ('Lenovo Thinkpad', 2)
, ('iPad', 3)
, ('Kindle Fire', 3)
;

COMMIT; 
```

In [2]:
%%sql

select * from categories;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
3 rows affected.


category_id,category_name
1,Smart Phone
2,Laptop
3,Tablet


In [3]:
%%sql

select * from products;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
6 rows affected.


product_id,product_name,category_id
1,iPhone,1
2,Samsung Galaxy,1
3,HP Elite,2
4,Lenovo Thinkpad,2
5,iPad,3
6,Kindle Fire,3


# 예제 1. NATURAL JOIN

- 두 테이블간 공통으로 존재하는 컬럼(CATEGORY_ID)를 기준으로 INNER JOIN한다.

In [4]:
%%sql

SELECT
      *
 FROM
      PRODUCTS A -- PRODUCTS 테이블과
NATURAL JOIN 
      CATEGORIES B -- CATEGORIES 테이블을 NATURAL JOIN한다.
;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
6 rows affected.


category_id,product_id,product_name,category_name
1,1,iPhone,Smart Phone
1,2,Samsung Galaxy,Smart Phone
2,3,HP Elite,Laptop
2,4,Lenovo Thinkpad,Laptop
3,5,iPad,Tablet
3,6,Kindle Fire,Tablet


## 예제 1-1.  위의 NATURAL JOIN을 INNER JOIN으로 구현한다면?

In [5]:
%%sql

SELECT 
    A.CATEGORY_ID, A.PRODUCT_ID,
    A.PRODUCT_NAME, B.CATEGORY_NAME
FROM PRODUCTS A
INNER JOIN
    CATEGORIES B
ON (A.CATEGORY_ID = B.CATEGORY_ID)
;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
6 rows affected.


category_id,product_id,product_name,category_name
1,1,iPhone,Smart Phone
1,2,Samsung Galaxy,Smart Phone
2,3,HP Elite,Laptop
2,4,Lenovo Thinkpad,Laptop
3,5,iPad,Tablet
3,6,Kindle Fire,Tablet


In [6]:
%%sql

SELECT
     A.CATEGORY_ID, A.PRODUCT_ID,
    A.PRODUCT_NAME, B.CATEGORY_NAME
  FROM
       PRODUCTS A 
     , CATEGORIES B 
WHERE A.CATEGORY_ID = B.CATEGORY_ID 
;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
6 rows affected.


category_id,product_id,product_name,category_name
1,1,iPhone,Smart Phone
1,2,Samsung Galaxy,Smart Phone
2,3,HP Elite,Laptop
2,4,Lenovo Thinkpad,Laptop
3,5,iPad,Tablet
3,6,Kindle Fire,Tablet


- 결과는 동일하지만 기본적인 INNER JOIN에 비해 NATURAL JOIN이 코드가 훨씬 간결하다.
- 그러나 코드 구현의 안정성 문제로 인해 NATURAL JOIN은 실무적으로 신뢰 받지 못한다.
    - 컴퓨터가 자동으로 매칭하여 JOIN하는 것에 대한 신뢰가 아직은 부족하기 때문


# 예제 2. DVDRENTAL로 NATURAL JOIN하기

> DVDRENTAL에서 CITY 와 COUNTRY를 NATURAL JOIN 하시오.

In [7]:
%%sql

SELECT * FROM CITY
LIMIT 5;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
5 rows affected.


city_id,city,country_id,last_update
1,A Corua (La Corua),87,2006-02-15 09:45:25
2,Abha,82,2006-02-15 09:45:25
3,Abu Dhabi,101,2006-02-15 09:45:25
4,Acua,60,2006-02-15 09:45:25
5,Adana,97,2006-02-15 09:45:25


In [8]:
%%sql

SELECT * FROM COUNTRY
LIMIT 5;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
5 rows affected.


country_id,country,last_update
1,Afghanistan,2006-02-15 09:44:00
2,Algeria,2006-02-15 09:44:00
3,American Samoa,2006-02-15 09:44:00
4,Angola,2006-02-15 09:44:00
5,Anguilla,2006-02-15 09:44:00


In [9]:
%%sql

SELECT *
FROM
    CITY A
NATURAL JOIN
    COUNTRY B
    ;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
0 rows affected.


country_id,last_update,city_id,city,country


- 두 테이블 사이에 일치하는 컬럼명은 2개이다. (COUNTRY_ID, LAST_UPDATE)
- 두 테이블이 NATURAL JOIN이 되려면 COUTRY_ID의 컬럼값들은 물론, LAST_UPDATE의 컬럼값들이 동일해야 한다. (AND 조건)'
- 하지만 LAST_UPDATE의 경우 TIMESTAMP형식으로 두 테이블의 데이터가 동일할 가능성은 매우 낮아 보인다.
- 즉, COUNTRY_ID의 컬럼값이 동일하면서, LAST_UPDATE의 컬럼값이 동일한 ROWS가 1건도 없기 때문에 NATURAL JOIN의 결과가 0 ROWS 인 것이다.


- 이런 경우는 NATURAL JOIN이 아닌 INNER JOIN으로 두 테이블을 JOIN해야 한다.

In [10]:
%%sql

SELECT *
FROM 
    CITY A
INNER JOIN
    COUNTRY B
ON (A.COUNTRY_ID = B.COUNTRY_ID)
-- WHERE A.COUNTRY_ID = B.COUNTRY_ID
LIMIT 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


city_id,city,country_id,last_update,country_id_1,country,last_update_1
251,Kabul,1,2006-02-15 09:45:25,1,Afghanistan,2006-02-15 09:44:00
59,Batna,2,2006-02-15 09:45:25,2,Algeria,2006-02-15 09:44:00
63,Bchar,2,2006-02-15 09:45:25,2,Algeria,2006-02-15 09:44:00
483,Skikda,2,2006-02-15 09:45:25,2,Algeria,2006-02-15 09:44:00
516,Tafuna,3,2006-02-15 09:45:25,3,American Samoa,2006-02-15 09:44:00
67,Benguela,4,2006-02-15 09:45:25,4,Angola,2006-02-15 09:44:00
360,Namibe,4,2006-02-15 09:45:25,4,Angola,2006-02-15 09:44:00
493,South Hill,5,2006-02-15 09:45:25,5,Anguilla,2006-02-15 09:44:00
20,Almirante Brown,6,2006-02-15 09:45:25,6,Argentina,2006-02-15 09:44:00
43,Avellaneda,6,2006-02-15 09:45:25,6,Argentina,2006-02-15 09:44:00


즉, NATURAL JOIN은 자동으로 테이블간의 INNER JOIN을 해준 다는 점에서 유용해 보이지만 의도와 다르게 데이터가 출력되지 않는 경우가 발생하여 실무에서 잘 사용되지 않는다.