In [1]:
%load_ext sql

# put a folder and DB credential files at HOME directory

import os
homedir = os.getcwd()
cred_path = os.path.join(homedir, 'db_cred')



# add a 'cred_path' for interpreter to search
import sys
sys.path.append(cred_path)



# import DB credentials from 'gpdb_credentials.py' dictionary file.
from gpdb_credentials import dvdrental_db



# parsing DB credentials and connect to Greenplum using %sql $connection_string

username = dvdrental_db['Username']
password = dvdrental_db['Password']
host = dvdrental_db['Host']
port = dvdrental_db['Port']
database = dvdrental_db['Database']

connection_string = 'postgresql://{user}:{password}@{host}:{port}/{db}'.format(
user=username,
password=password,
host=host,
port=port,
db=database)

%sql $connection_string

'Connected: myuser@dvdrental'

# GROUP BY절

- FROM절에서 선택한 테이블의 데이터를 특정 컬럼을 기준으로 그룹화 하는 기능
    - SQL문 실행순서 (FROM > WHERE > GROUP BY > HAVING > SELECT > ORDER BY)
- 각 그룹에 대한 합계, 평균, 카운트 등의 연산 작업을 할 수 있다.

<GROUP BY 문법 예시>
```PYTHON
SELECT
    COLUMN_1,
    집계함수(COLUMN_2) -- SUM, AVG, STD 등
FROM
    TABLE_NAME
GROUP BY COLUMN_1; -- COLUMN_1 컬럼 기준으로 GROUP BY 
```

- N개의 컬럼을 GROUP BY 하고자 할 경우 `','` 로 구분하여 입력한다.
- GROUP BY절은 FROM 절 바로 뒤(WHERE절도 있을 경우 WHERE절 바로뒤)에 와야 한다.

# 예제 1. GROUP BY절 기본

- PAYMENT 테이블 활용

![dvdrental_payment](https://user-images.githubusercontent.com/74717033/131995794-3762e80b-603c-43ea-95fb-a9653ce4c2a9.png)

> PAYMENT 테이블에서 CUSTOMER_ID의 중복값을 제거한 결과를 출력하시오.

In [2]:
%%sql

SELECT
      CUSTOMER_ID
  FROM
      PAYMENT
GROUP BY CUSTOMER_ID
LIMIT 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id
1
2
3
4
5
6
7
8
9
10


- PAYMENT 테이블에서 PAYMENT_ID는 UNIQUE한 값이다. 
    - GROUP BY를 해도 기존 테이블과 달라질 것이 없다.


- 하지만 CUSTOMER_ID는 동일 값이 여러건 있을 수 있다.
    - GROUP BY의 기준절과 출력하는 SELECT절에 할당된 컬럼이 같으면 해당 컬럼의 중복값이 제거되어 출력된다.
    - 즉 DISTINCT 를 한 것과 결과가 같다.

In [3]:
%%sql

SELECT
      DISTINCT CUSTOMER_ID
  FROM
      PAYMENT
LIMIT 10;      

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id
1
2
3
4
5
6
7
8
9
10


# 예제 2. GRUOP BY - 합계 연산 + 정렬

- 합계 명령어는 SUM(COLUMN_NAME) 이다.

> PAYMENT 테이블에서 CUSTOMER_ID를 기준으로 각 CUSTOMER_ID 당 거래액이 가장 많은 고객순으로 출력하시오.

In [4]:
%%sql

SELECT
       CUSTOMER_ID -- GROUP BY 컬럼 명시
     , SUM(AMOUNT) AS AMOUNT_SUM -- CUSTOMER_ID 기준 AMOUNT의 합계
  FROM
       PAYMENT
GROUP BY CUSTOMER_ID -- GROUP BY할 기준 컬럼 명시
ORDER BY SUM(AMOUNT) DESC -- AMOUNT(주문금액)이 큰 순서대로 내림차순 정렬
LIMIT 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,amount_sum
148,211.55
526,208.58
178,194.61
137,191.62
144,189.6
459,183.63
181,167.67
410,167.62
236,166.61
403,162.67


ORDER BY절에 들어갈 정렬 기준 컬럼은 ALIAS 나 입력된 컬럼명 순서를 입력해도 동일 결과가 출력된다.

In [5]:
%%sql

SELECT
       CUSTOMER_ID 
     , SUM(AMOUNT) AS AMOUNT_SUM -- ALIAS 지정
  FROM
       PAYMENT
GROUP BY CUSTOMER_ID
ORDER BY AMOUNT_SUM DESC -- 또는 ORDER BY 2
LIMIT 10;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
10 rows affected.


customer_id,amount_sum
148,211.55
526,208.58
178,194.61
137,191.62
144,189.6
459,183.63
181,167.67
410,167.62
236,166.61
403,162.67


- 보통은 ALIAS를 입력하는 것을 선호한다.
- 숫자는 가장 지양한다 
    - 추후 쿼리 수정과정을 할때 컬럼입력순서가 바뀔 가능성이 얼마든지 있기 때문

# 예제 3. GROP BY절 - COUNT 

> 전체 PAYMENT 테이블에서 결제 건수가 많은 STAFF순으로 정렬하여 출력하시오.

- PAYMENT_ID 기준으로 결제 건수를 COUNT 한다.
- STAFF_ID 를 기준으로 해당 데이터를 GROUP화 한다.
- COUNT한 컬럼 기준으로 ORDER BY한다.

In [6]:
%%sql

SELECT
    STAFF_ID,
    COUNT(PAYMENT_ID) AS PAYMENT_COUNT
FROM
    PAYMENT
GROUP BY 
    STAFF_ID
ORDER BY PAYMENT_COUNT DESC;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
2 rows affected.


staff_id,payment_count
2,7304
1,7292


- 판매에 관여한 STAFF이 2명뿐이다.

## 예제 3-1. 두 직원중 매출을더 많이 올린 직원은 누구일까?

- 결제 건수가 높다고 무조건 매출값이 가장 높지 않을 가능성이 있다.
- 위의 쿼리에, AMOUNT를 SUM하여 직원당 총 결제 AMOUNT를 구한다.
- 총 AMOUNT 기준으로 정렬한다.

In [7]:
%%sql

SELECT
    STAFF_ID,
    COUNT(PAYMENT_ID) AS PAYMENT_COUNT,
    SUM(AMOUNT) AS TOTAL_AMOUNT
FROM
    PAYMENT
GROUP BY 
    STAFF_ID
ORDER BY TOTAL_AMOUNT DESC;

 * postgresql://myuser:***@206.189.155.123:5433/dvdrental
2 rows affected.


staff_id,payment_count,total_amount
2,7304,31059.92
1,7292,30252.12


- 결제 건수는 직원 1이 더 많았지만, 매출액은 직원2 가 더 많았다.