출처 : 오라클 SQL과 PL/SQL을 다루는 기술

# 7장 복잡한 연산 결과를 추출해 내는 고급 쿼리 다루기

In [1]:
%load_ext sql

In [2]:
%sql oracle://ora_user:sirin@127.0.0.1:1521/myoracle

# 분석 함수와 window 함수

- 분석 함수란 테이블에 있는 로우에 대해 특정 그룹별로 집계 값을 산출할 때 사용하는 함수이다

```
분석 함수(매개변수) OVER
    (PARTITION BY expr1, expr2, ...
         ORDER BY expr3, expr4, ...
     window 절)
```

- 분석 함수 : 분석 함수 역시 특정 그룹별 집계를 담당하므로 집계 함수에 속한다
- PARTITION BY 절 : 분석 함수로 계산될 대상 로우의 그룹(파티션)을 지정한다
- ORDER BY 절 : 파티션 안에서 순서를 지정한다
- WINDOW 절 : 파티션으로 분할된 그룹에 대해서 더 상세한 그룹으로 분할할 때 사용된다

## 분석함수

### ROW_NUMBER()

- 파티션으로 분할된 그룹별로 각 로우에 대한 순번을 반환하는 함수

In [4]:
%%sql

SELECT
    department_id
    , emp_name
    , ROW_NUMBER() OVER(PARTITION BY department_id
                        ORDER BY department_id, emp_name) dep_rows
FROM employees
WHERE rownum <= 10

 * oracle://ora_user:***@127.0.0.1:1521/myoracle
0 rows affected.


department_id,emp_name,dep_rows
10,Jennifer Whalen,1
20,Michael Hartstein,1
20,Pat Fay,2
40,Susan Mavris,1
50,Donald OConnell,1
50,Douglas Grant,2
70,Hermann Baer,1
90,Steven King,1
110,Shelley Higgins,1
110,William Gietz,2


### RANK(), DENSE_RANK()

- RANK는 파티션별 순위를 반환하고, DENSE_RANK는 같은 순위가 나오면 다음 순위가 한 번 건너뛰지 않고 매겨진다

In [13]:
%%sql

SELECT
    department_id
    , emp_name
    , salary
    , RANK() OVER (PARTITION BY department_id
                   ORDER BY salary) dep_rank
    , DENSE_RANK() OVER (PARTITION BY department_id
                         ORDER BY salary) dep_denserank
FROM employees
WHERE department_id <= 40

 * oracle://ora_user:***@127.0.0.1:1521/myoracle
0 rows affected.


department_id,emp_name,salary,dep_rank,dep_denserank
10,Jennifer Whalen,4400,1,1
20,Pat Fay,6000,1,1
20,Michael Hartstein,13000,2,2
30,Karen Colmenares,2500,1,1
30,Guy Himuro,2600,2,2
30,Sigal Tobias,2800,3,3
30,Shelli Baida,2900,4,4
30,Alexander Khoo,3100,5,5
30,Den Raphaely,11000,6,6
40,Susan Mavris,6500,1,1


### CUME_DIST(), PERCENT_RANK()

- CUME_DIST 함수는 주어진 그룹에 대한 상대전인 누적분포도 값을 반환한다
    + 값의 범위는 0초과 1이하
- PERCENT_RANK 함수는 해당 그룹 내의 백분위 순위를 반환한다
    + 값의 범위는 0이상 1미만이다

In [15]:
%%sql

SELECT
    department_id
    , emp_name
    , CUME_DIST() over(PARTITION BY department_id
                       ORDER BY salary) dep_dist
FROM employees
WHERE department_id <= 40

 * oracle://ora_user:***@127.0.0.1:1521/myoracle
0 rows affected.


department_id,emp_name,dep_dist
10,Jennifer Whalen,1.0
20,Pat Fay,0.5
20,Michael Hartstein,1.0
30,Karen Colmenares,0.1666666666666666
30,Guy Himuro,0.3333333333333333
30,Sigal Tobias,0.5
30,Shelli Baida,0.6666666666666666
30,Alexander Khoo,0.8333333333333333
30,Den Raphaely,1.0
40,Susan Mavris,1.0


In [17]:
%%sql

SELECT
    department_id
    , emp_name
    , salary
    , rank() OVER (PARTITION BY department_id
                   ORDER BY salary) ranking
    , CUME_DIST() OVER (PARTITION BY department_id
                        ORDER BY salary) cume_dist_value
    , PERCENT_RANK() OVER (PARTITION BY department_id
                           ORDER BY salary) percentile
FROM employees
WHERE department_id = 60

 * oracle://ora_user:***@127.0.0.1:1521/myoracle
0 rows affected.


department_id,emp_name,salary,ranking,cume_dist_value,percentile
60,Diana Lorentz,4200,1,0.2,0.0
60,David Austin,4800,2,0.6,0.25
60,Valli Pataballa,4800,2,0.6,0.25
60,Bruce Ernst,6000,4,0.8,0.75
60,Alexander Hunold,9000,5,1.0,1.0


### NTITLE(expr)

- 파티션별로 expr에 명시된 값 만큼 분할한 결과를 반환한다
- 예를들어 expr이 4일경우 4등분 한다

In [19]:
%%sql

SELECT
    department_id
    , emp_name
    , salary
    , NTILE(5) OVER (PARTITION BY department_id
                      ORDER BY salary) NTILES
FROM employees
WHERE department_id IN (30, 60)

 * oracle://ora_user:***@127.0.0.1:1521/myoracle
0 rows affected.


department_id,emp_name,salary,ntiles
30,Karen Colmenares,2500,1
30,Guy Himuro,2600,1
30,Sigal Tobias,2800,2
30,Shelli Baida,2900,3
30,Alexander Khoo,3100,4
30,Den Raphaely,11000,5
60,Diana Lorentz,4200,1
60,Valli Pataballa,4800,2
60,David Austin,4800,3
60,Bruce Ernst,6000,4


### LAG(expr, offset, default_value), LEAD(expr, offset, default_value)

- LAG와 LEAD 함수는 주어진 그룹과 순서에 따라 다른 로우에 있는 값을 참조할 때 사용한다
- LAG는 선행 로우의 값을 참조하고 LEAD는 후행 로우의 값을 참조한다

In [20]:
%%sql

SELECT
    emp_name
    , hire_date
    , salary
    , LAG(salary, 1, 0) OVER (ORDER BY hire_date) AS prev_sal
    , LEAD(salary, 1, 0) OVER (ORDER BY hire_date) AS next_sal
FROM employees
WHERE department_id = 30

 * oracle://ora_user:***@127.0.0.1:1521/myoracle
0 rows affected.


emp_name,hire_date,salary,prev_sal,next_sal
Den Raphaely,2002-12-07 00:00:00,11000,0,3100
Alexander Khoo,2003-05-18 00:00:00,3100,11000,2800
Sigal Tobias,2005-07-24 00:00:00,2800,3100,2900
Shelli Baida,2005-12-24 00:00:00,2900,2800,2600
Guy Himuro,2006-11-15 00:00:00,2600,2900,2500
Karen Colmenares,2007-08-10 00:00:00,2500,2600,0
