In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

# BETWEEN 연산자

- 특정 집합에서 선택한 컬럼의 값이 특정 범위안에 들어가는 집합을 출력하는 연산자
- BETWEEN으로 지정한 기간 혹은 범위내에 속하는 경우(BETWEEN)과 지정한 기간 혹은 범위내에 속하지 않는 경우(NOT BETWEEN)으로 나눠서 사용가능하다.
- 즉, 기간과 범위 =  숫자형 데이터 혹은 시간(TIME)형 혹은 날짜형 데이터를 조회할때 활용 가능한 연산자 이다.

[BETWEEN]
```python
select *
from TABLE_NAME
where COLUMN_NAME -- COLUMN_NAME의 컬럼값이 VALUE_A와 VALUE_B 사이에 있는 데이터의 집합을 출력
between VALUE_A AND VALUE_B; -- VALUE_A <= 출력되는 COLUMN_NAME <=  VALUE_B 의 값이다.
```

[NOT BETWEEN]
```python
select *
from TABLE_NAME
where COLUMN_NAME -- COLUMN_NAME의 컬럼값이 VALUE_A와 VALUE_B 사이에 있는 데이터의 집합을 출력
not between VALUE_A AND VALUE_B; -- 출력되는 COLUMN_NAME < VALUE_A or 출력되는 COLUMN_NAME > VALUE_B 인 값이다.
```

# 예제 1. BETWEEN
---

지불금액의 값이 8~9사이인 고객ID, 지불ID, 지불금액을 출력하시오.

In [2]:
%%sql

select 
	CUSTOMER_ID,
	PAYMENT_ID,
	AMOUNT
	from payment
	where AMOUNT between 8 and 9 -- AMOUNT가 8부터 9사이인 데이터의 집합을 출력
	limit 10; -- 결과값이 많아 10개만 출력

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,payment_id,amount
343,17517,8.99
347,17529,8.99
347,17532,8.99
348,17535,8.99
349,17540,8.99
379,17648,8.99
403,17747,8.99
409,17775,8.99
423,17817,8.99
431,17853,8.99


## where와 and로 동일한 결과 출력하기

In [3]:
%%sql

select 
	CUSTOMER_ID,
	PAYMENT_ID,
	AMOUNT
from
	payment
where
	AMOUNT >= 8
	and amount <= 9
limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,payment_id,amount
343,17517,8.99
347,17529,8.99
347,17532,8.99
348,17535,8.99
349,17540,8.99
379,17648,8.99
403,17747,8.99
409,17775,8.99
423,17817,8.99
431,17853,8.99


- 동일한 결과를 내기는 하지만, 비효율적이다. 
- SQL 은 집합의 개념으로 출력된다. 실무적으로 보면 각각의 테이블에서 조건에 맞는 데이터의 '집합'을 출력해서 연결하는 개념이다.
- 그러므로, 지금과 같은 간단한 실습보다 데이터의 조건이나 테이블이 더 복잡해지면 쿼리 자체는 더 비효율적으로 변한다.
- 따라서 결과가 같다고 모두 같은 퀄리티의 쿼리가 아니라, 각 목적에 맞는 효율적인 쿼리를 쓰는 것이 중요하다.

### between으로 시간 데이터를 조회하기

In [4]:
%%sql

SELECT
	RENTAL_ID,
	RENTAL_DATE
FROM
	RENTAL
WHERE
	RENTAL_DATE BETWEEN '2005-05-25 00:00:00' AND '2005-05-25 06:00:00';

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
37 rows affected.


rental_id,rental_date
9,2005-05-25 00:00:40
10,2005-05-25 00:02:21
11,2005-05-25 00:09:02
12,2005-05-25 00:19:27
13,2005-05-25 00:22:55
14,2005-05-25 00:31:15
15,2005-05-25 00:39:22
16,2005-05-25 00:43:11
17,2005-05-25 01:06:36
18,2005-05-25 01:10:47


# 예제 2. NOT BETWEEN

지불금액의 값을 모두 출력하는데, 그중 지불금액이 8~9사이인 고객ID, 지불ID, 지불금액을 제외하고 출력하시오.

In [5]:
%%sql

select 
	CUSTOMER_ID,
	PAYMENT_ID,
	AMOUNT
	from payment
	where AMOUNT not between 8 and 9 -- AMOUNT가 8부터 9사이인 데이터의 집합 이외의 모든 값 출력
	limit 10; -- 결과값이 많아 10개만 출력

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,payment_id,amount
341,17503,7.99
341,17504,1.99
341,17505,7.99
341,17506,2.99
341,17507,7.99
341,17508,5.99
342,17509,5.99
342,17510,5.99
342,17511,2.99
343,17512,4.99


## where 절과 or로 동일한 결과 출력하기

In [6]:
%%sql

select 
	CUSTOMER_ID,
	PAYMENT_ID,
	AMOUNT
from
	payment
where
	AMOUNT > 8
	or amount < 9
limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,payment_id,amount
341,17503,7.99
341,17504,1.99
341,17505,7.99
341,17506,2.99
341,17507,7.99
341,17508,5.99
342,17509,5.99
342,17510,5.99
342,17511,2.99
343,17512,4.99


# 예제 3. BETWEEN  연산자로 DATE 비교하기

- between 연산자를 가장 많이 활용하는 데이터 형태
- 지불일이 '2007-02-07' 부터 '2007-02-15'사이인 데이터의 고객ID, 지불ID, 지불액, 지불일을 출력하시오.

In [7]:
%%sql

select 
	customer_id,
	payment_id, 
	amount,
	payment_date
from
	payment
where
	cast(payment_date as date) -- payment_date가 시/분/초 단위(timestamp)이므로 cast하여 date타입으로 변경
	between '2007-02-07' and '2007-02-15'
limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,payment_id,amount,payment_date
341,17503,7.99,2007-02-15 22:25:46.996577
344,17519,3.99,2007-02-15 10:54:44.996577
344,17520,4.99,2007-02-15 19:36:27.996577
345,17522,0.99,2007-02-15 01:26:17.996577
345,17523,4.99,2007-02-15 18:34:15.996577
349,17537,2.99,2007-02-15 00:11:12.996577
349,17538,0.99,2007-02-15 22:47:06.996577
352,17548,0.99,2007-02-15 20:26:26.996577
353,17553,2.99,2007-02-15 11:58:56.996577
354,17556,0.99,2007-02-15 20:16:44.996577


## cast없이 문자열로서 검색하기

In [8]:
%%sql

select 
	customer_id,
	payment_id, 
	amount,
	payment_date
from
	payment
where
	to_char(payment_date, 'yyyy-mm-dd') -- timestamp형태인 데이터를 'yyyy-mm-dd' 만 잘라서 문자형으로 변경
	between '2007-02-07' and '2007-02-15'
limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,payment_id,amount,payment_date
341,17503,7.99,2007-02-15 22:25:46.996577
344,17519,3.99,2007-02-15 10:54:44.996577
344,17520,4.99,2007-02-15 19:36:27.996577
345,17522,0.99,2007-02-15 01:26:17.996577
345,17523,4.99,2007-02-15 18:34:15.996577
349,17537,2.99,2007-02-15 00:11:12.996577
349,17538,0.99,2007-02-15 22:47:06.996577
352,17548,0.99,2007-02-15 20:26:26.996577
353,17553,2.99,2007-02-15 11:58:56.996577
354,17556,0.99,2007-02-15 20:16:44.996577


- to_char 명령어를 통해 지정한 컬럼의 데이터를 문자형 데이터로 변경할 수 있다.
- 기존 payment_date 컬럼은 timestamp(시/분/초가 모두 있는 date) 을 , 이후의 지정된 형태로 형변환할 수 있다.