In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

# IN연산자
---

- 특정 집합(컬럼 혹은 리스트) 에서 특정 집합 혹은 리스트가 존재하는지 판단할때 사용되는 연산자 이다.
- where 절 뒤에 사용된다. 

```python

select *
from TABLE_NAME
where COLUMN_NAME IN (VALUE1, VALUE2,....)
;

```

와 같은 방식으로 쓰인다. 

이는 COLUNM_NAME 이 갖고 이쓴 데이터 집합에서 VALUE1, VALUE2등의 값이 존재하는지 확인하는 쿼리이다.

---

IN 연산자는 SUBQUERY와 함께 사용될수도 있는데, 말 그대로 일반적으로 데이터를 불러오는 SQL QUERY에 또 다른 SQL QUERY를 SUB로 사용한다는 것이다.

```PYTHON
select 
    *
from 
    TABLE_NAME
WHERE 
    COLUMN_NAME IN
(select COLUMN_NAME FROM TABLE_NAME2) 

-- COLUMN_NAME이 갖고 있는 데이터 집합에서 TABLE_NAME2 테이블의 COLUNM_NAME2 집합이 존재하는지 확인하는 QUERY
```
와 같이 서로 다른 테이블에서 각각 데이터를 추출하고자 할때 사용된다.

# 예제 1. IN  연산자 with or(,)

- in 연산자로 찾는 값의 ()안에 ,로 구분되는 입력은 or의 의미를 갖는다.

RENTAL 테이블에서 CUSTOMER_ID가 1또는 2의 값을 가진 데이터의 CUSTOME_ID, RENTAL_ID, FETURN_DATE를 출력하는데 RETURN_DATE 컬럼 기준 내림차순으로 추출하시오.

In [5]:
%%sql


select 
	CUSTOMER_ID,
	RENTAL_ID,
	RETURN_DATE
from rental
where 
	CUSTOMER_ID in (1,2) -- customer_id 가 1 혹은 2인 행을 출력
order by return_date desc -- 그 결과를 RETURN_DATE 컬럼 내림차순으로 출력
limit 10; # 원래 결과는 59개, 10개만 출력

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,rental_id,return_date
2,15145,2005-08-31 15:51:04
1,15315,2005-08-30 01:51:46
2,14743,2005-08-29 00:18:56
1,15298,2005-08-28 22:49:37
2,14475,2005-08-27 08:59:32
1,14825,2005-08-27 07:01:57
2,15907,2005-08-25 23:23:35
2,12963,2005-08-23 11:37:04
1,13176,2005-08-23 08:50:54
1,14762,2005-08-23 01:30:57


# 예제 2. IN 연산자 with 'or'

- IN 연산자와 or을 써서 예제 1과 같은 동일한 query를 작성할 수 도 있다.

In [6]:
%%sql


select 
	CUSTOMER_ID,
	RENTAL_ID,
	RETURN_DATE
from
	rental
where 
	CUSTOMER_ID = 1
	or customer_id = 2 	-- customer_id 가 1 혹은 2인 행을 출력
order by
	return_date desc -- 그 결과를 RETURN_DATE 컬럼 내림차순으로 출력
    limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,rental_id,return_date
2,15145,2005-08-31 15:51:04
1,15315,2005-08-30 01:51:46
2,14743,2005-08-29 00:18:56
1,15298,2005-08-28 22:49:37
2,14475,2005-08-27 08:59:32
1,14825,2005-08-27 07:01:57
2,15907,2005-08-25 23:23:35
2,12963,2005-08-23 11:37:04
1,13176,2005-08-23 08:50:54
1,14762,2005-08-23 01:30:57


## 가급적이면 or연산자보다는 IN연산자를 확용하는 것이 좋다.

- 가독성이 더 좋다 == 알아보기 쉽다.

- DBMS의 최적화기, SQL최적화) 옵티마이저의 특성상 IN조건이 성능상 유리할 때가 많다.

# 예제 3. NOT IN 연산자

- CUSTOMER_ID가 1도 아니고 2도 아닌 행을 출력한다.
- 즉, 1과 2를 제외한 모든 데이터

In [7]:
%%sql

select
	customer_id ,
	rental_id ,
	return_date
from
	rental
where
	customer_id not in (1, 2)
order by
	return_date desc
    limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,rental_id,return_date
597,11652,
219,11577,
99,11593,
11,11646,
335,11541,
479,12101,
155,11496,
83,11563,
192,11611,
53,11657,


기본적으로 sql은 NULL(NONE)을 가장 큰 값으로 판단하기 때문에 DESC기준일때 NONE값들이 먼저 출력된다.

# 예제 4. NOT IN with AND 연산자

- NOT IN 연산자는 <> AND <> 연산자와 같다. ('<>' 는 아니다. '!='의 의미)

In [10]:
%%sql

select
	customer_id ,
	rental_id ,
	return_date
from
	rental
where
	customer_id <> 1 -- 1이 아니고
	and customer_id <> 2 -- 2도 아닌 값
order by
	return_date desc
    limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,rental_id,return_date
597,11652,
219,11577,
99,11593,
11,11646,
335,11541,
479,12101,
155,11496,
83,11563,
192,11611,
53,11657,


# 예제 5. IN 연산자 with 서브쿼리

In [11]:
%%sql

select
	customer_id
from
	rental
where
	cast (return_date as date) = '2005-05-27'; -- return_date가 2005년 5월 27일인 customer_id 출력

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
49 rows affected.
(psycopg2.ProgrammingError) can't execute an empty query
[SQL: -- return_date가 2005년 5월 27일인 customer_id 출력]
(Background on this error at: http://sqlalche.me/e/13/f405)


위 쿼리는 rental 테이블에서 'cast(데이터 형변환)' 을 통해 return_date를 date형식으로 변환한 뒤, 
그중 return_date의 값이 2005년 5월 27일인 데이터의 customer_id를 출력하는 것

즉, 2005년 5월 27일에 rental을 한 customer_id가 출력된다.

## 그렇다면 2005년 5월 27일에 rental을 한 고객의 이름을 보고 싶다면 어떻게 해야 할까?

- rental_date는 rental 테이블에 있는 데이터 이고, 고객명인 first_name과 last_name은 customer 테이블에 있는 데이터이다.

- rental테이블과 customer테이블에는 공통적으로 customer_id라는 컬럼이 있다.

- 그러므로, rental테이블에서 출력한 값이 customer 테이블의 customer_id 에도 있는지 IN연산자로 확인할 수 있다.

- return_date가 2005-05-27인 customer_id의 first_name과 last_name을 출력.
- 역시서 customer테이

In [12]:
%%sql

select 
	first_name,
	last_name
from
	customer
where
	customer_id in(
	select
		customer_id
	from
		rental
	where
		cast (return_date as date) = '2005-05-27')
    limit 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


first_name,last_name
Pamela,Baker
Frances,Parker
Ann,Evans
Rose,Howard
Beverly,Brooks
Tammy,Sanders
Phyllis,Foster
Grace,Ellis
Sherry,Marshall
Monica,Hicks


### rental 테이블에 컬럼을 추가해서 first_name, last_name을 추가하면 쿼리가 더 간단하지 않을까?

- 가능하긴하다. 그리고 쿼리도 더욱 간단해진다.
- 하지만 이는 DB상에 중복된 데이터를 불필요하게 늘리는 일이다.
- 이 경우 데이터의 유지보수 및 관리에도 불필요한 작업이 추가된다. (당장 조금 편하자고 일 크게 만드는 것)