# SELECT DISTINCE 문
---

- 중복값을 제외한 결과값이 출력된다.
- 같은 결과의 행이라면 중복을 제거할 수 있다.

![image](https://user-images.githubusercontent.com/74717033/127763155-f2fdffd0-5fb6-4e92-9db5-788d80b6b7c9.png)

In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

## 중복 제거 실습용 파일 확인해보기
- NONE은 값이 없다는 의미

In [2]:
%%sql

select *
    from t1;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
24 rows affected.


id,bcolor,fcolor
1,red,red
2,red,red
3,red,
4,,red
5,red,green
6,red,blue
7,green,red
8,green,blue
9,green,green
10,blue,red


## 실습 1. 특정 컬럼의 값을 중복 제거하여 출력하기

In [3]:
%%sql

select distinct bcolor
    from t1
    order by bcolor;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
7 rows affected.


bcolor
blue
BLUE
green
GREEN
red
RED
""


## 실습 2. 2개의 컬럼에 각각 중복제거를 하여 출력하기
---

- distinct 뒤에 컬럼이 2개 입력되었으므로, bcolor + fcolor한 값 중에서 중복을 제거한다.
- 즉, 동일한 행에 bcolor에 있는 값이 fcolor에도 있으면 그 값을 제거한다.

In [4]:
%%sql

select distinct bcolor, fcolor
    from t1
    order by bcolor, fcolor;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
23 rows affected.


bcolor,fcolor
blue,blue
blue,green
blue,red
BLUE,BLUE
BLUE,GREEN
BLUE,RED
green,blue
green,green
green,red
GREEN,BLUE


## 실습 3. on절을 추가하여 특정 컬럼 기준으로 두개의 컬럼값 중복제거하기
---
- distinct on() 에 입력되는 컬럼을 기준으로 중복제거를 한다.(그 결과가 기준 집합이 된다.)
- 2번째로 입력되는 컬럼은 앞에서 on절로 기준이된 컬럼의 중복제거 기준과 동일한 행의 값만 추출된다.
- bcoor  기준 중복 제거된 값이 `기준 집합` 이 된다.

---

![image](https://user-images.githubusercontent.com/74717033/127763416-cf9b5ac0-0c26-4147-9729-a65dceaca730.png)

<bcolor 컬럼 기준>


"bcoor  기준 중복 제거된 값이 `기준 집합` 이 된다."는 말은 결과가 출력될때의 얘기

- order by가 asc이므로, 알파뱃 순으로 큰값(blue, green, red순) 으로 정렬되어 return된다.
---
제거 과정
- RED 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 RED와 동일한 행의 fcolor값중에서 asc로 order by 한 값 = blue<br>
- GREEN 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 GREEN와 동일한 행의 fcolor값중에서 asc로 order by 한 값 = blue<br>
- BLUE 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 BLUE와 동일한 행의 fcolor값중에서 asc로 order by 한 값 = blue<br>
- NULL 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 NULL과 동일한 행의 fcolor값중에서 asc로 order by 한 값 = blue<br>

In [5]:
%%sql

select distinct on(bcolor)bcolor, fcolor -- on절 뒤의 bcolr은 alias이다.
	from t1 
	order by bcolor, fcolor;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
7 rows affected.


bcolor,fcolor
blue,blue
BLUE,BLUE
green,blue
GREEN,BLUE
red,blue
RED,actor
,red


## 실습 4. on절을 추가하여 특정 컬럼 기준으로 두개의 컬럼값 중복제거하기 + DESC
---

- bcolor 컬럼값을 기준으로 중복을 제거한다.
- fcolor 컬럼값은 단 한개 값만을 보여준다.
- fcolor 컬럼값을 보여줄 때 내림차순 정렬을 한다.
---
![image](https://user-images.githubusercontent.com/74717033/127764728-064fd6b0-6385-4fec-b87b-8e4279a29277.png)

---

제거 과정
- RED 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 RED와 동일한 행의 fcolor값중에서 desc로 order by 한 값 = null<br>
- GREEN 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 GREEN와 동일한 행의 fcolor값중에서 desc로 order by 한 값 = red<br>
- BLUE 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 BLUE와 동일한 행의 fcolor값중에서 desc로 order by 한 값 = red<br>
- NULL 중 중복을 제거해야 한다. -> 판단 기준은 bcolor의 NULL과 동일한 행의 fcolor값중에서 desc로 order by 한 값 = red<br>

In [6]:
%%sql

select distinct on(bcolor)bcolor, fcolor
	from t1 
	order by bcolor, fcolor desc;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
7 rows affected.


bcolor,fcolor
blue,red
BLUE,RED
green,red
GREEN,RED
red,
RED,
,RED
