## 데이터 분석을 위한 SQL 레시피

Data soruce : https://hanbit.co.kr/support/supplement_survey.html?pcode=B8585882565

System : PostgreSQL

In [1]:
import pandas as pd
import psycopg2 as pg2
from sqlalchemy import create_engine

engine = create_engine('postgresql://testuser:testpass@localhost:5432/postgresql_analysis')

con = pg2.connect(host='localhost',
                  user='testuser',
                  password='testpass',
                  database='postgresql_analysis')
con.autocommit = True
cur = con.cursor()

In [2]:
def select(query):
    return pd.read_sql(query, con)

In [3]:
pd.options.display.max_rows = 10

## 7. 하나의 테이블에 대한 조작

### [7-1] 집약 함수를 사용해서 테이블 전체의 특징량을 계산하는 쿼리

In [7]:
select('SELECT * FROM review;')

Unnamed: 0,user_id,product_id,score
0,U001,A001,4.0
1,U001,A002,5.0
2,U001,A003,5.0
3,U002,A001,3.0
4,U002,A002,3.0
5,U002,A003,4.0
6,U003,A001,5.0
7,U003,A002,4.0
8,U003,A003,4.0


In [8]:
query_71 = """
        SELECT 
           COUNT(*) AS total_count
         , COUNT(DISTINCT user_id) AS user_count
         , COUNT(DISTINCT product_id) AS product_count
         , SUM(score) AS sum
         , AVG(score) AS avg
         , MAX(score) AS max
         , MIN(score) AS min
        FROM
         review
        ;
        """

select(query_71)

Unnamed: 0,total_count,user_count,product_count,sum,avg,max,min
0,9,3,3,37.0,4.111111,5.0,3.0


### [7-2] 사용자 기반으로 데이터를 분할하고 집약 함수를 적용하는 쿼리

In [9]:
query_72 = """
        SELECT
           user_id
         , COUNT(*) AS total_count
         , COUNT(DISTINCT product_id) AS product_count
         , SUM(score) AS sum
         , AVG(score) AS avg
         , MAX(score) AS max
         , MIN(score) AS min
        FROM
         review
        GROUP BY
         user_id
        ;
        """

select(query_72)

Unnamed: 0,user_id,total_count,product_count,sum,avg,max,min
0,U001,3,3,14.0,4.666667,5.0,4.0
1,U002,3,3,10.0,3.333333,4.0,3.0
2,U003,3,3,13.0,4.333333,5.0,4.0


### [7-3] 윈도 함수를 사용해 집약 함수의 결고와 원래 값을 동시에 다루는 쿼리

- OVER 구문에 매개 변수를 지정하지 않으면 테이블 전체에 집약 함수를 적용한 값이 리턴됩니다.
- 매개 변수에 PARTITION BY <컬러 이름>을 지정하면 해당 컬럼 값을 기반으로 그룹화하고 집약 함수를 적용합니다.

In [10]:
query_73 = """
        SELECT
           user_id
         , product_id
         , score
         -- 전체 평균 리뷰 점수
         , AVG(score) OVER() AS avg_score
         -- 사용자의 평균 리뷰 점수
         , AVG(score) OVER(PARTITION BY user_id) AS user_avg_score
         , score - AVG(score) OVER(PARTITION BY user_id) AS user_avg_score_diff
        FROM
         review
        ;
        """

select(query_73)

Unnamed: 0,user_id,product_id,score,avg_score,user_avg_score,user_avg_score_diff
0,U001,A001,4.0,4.111111,4.666667,-0.666667
1,U001,A002,5.0,4.111111,4.666667,0.333333
2,U001,A003,5.0,4.111111,4.666667,0.333333
3,U002,A001,3.0,4.111111,3.333333,-0.333333
4,U002,A002,3.0,4.111111,3.333333,-0.333333
5,U002,A003,4.0,4.111111,3.333333,0.666667
6,U003,A001,5.0,4.111111,4.333333,0.666667
7,U003,A002,4.0,4.111111,4.333333,-0.333333
8,U003,A003,4.0,4.111111,4.333333,-0.333333


### [7-4] 윈도 함수의 ORDER BY 구문을 사용해 테이블 내부의 순서를 다루는 쿼리

In [11]:
select('SELECT * FROM popular_products;')

Unnamed: 0,product_id,category,score
0,A001,action,94.0
1,A002,action,81.0
2,A003,action,78.0
3,A004,action,64.0
4,D001,drama,90.0
5,D002,drama,82.0
6,D003,drama,78.0
7,D004,drama,58.0


- ROW_NUMBER() : 점수 순서로 유일한 순위를 붙임
- RANK() : 같은 순위를 허용해서 순위를 붙임
- DENSE_RANK() : 같은 순위가 있을 때 같은 순위 다음에 있는 순위를 건너 뛰고 순위를 붙임
- LAG(): 현재 행보다 앞에 있는 행의 값 추출하기
- LEAD() : 현재 행보다 뒤에 있는 행의 값 추출하기

In [14]:
query_74 = """
        SELECT
           product_id
         , score
         , ROW_NUMBER()         OVER(ORDER BY score DESC) AS row
         , RANK()               OVER(ORDER BY score DESC) AS rank
         , DENSE_RANK()         OVER(ORDER BY score DESC) AS dense_rank
         , LAG(product_id)      OVER(ORDER BY score DESC) AS lag1
         , LAG(product_id, 2)   OVER(ORDER BY score DESC) AS lag2         
         , LEAD(product_id)     OVER(ORDER BY score DESC) AS lead1
         , LEAD(product_id, 2)  OVER(ORDER BY score DESC) AS lead2         
        FROM
         popular_products
        ORDER BY
         row
        ;
        """

select(query_74)

Unnamed: 0,product_id,score,row,rank,dense_rank,lag1,lag2,lead1,lead2
0,A001,94.0,1,1,1,,,D001,D002
1,D001,90.0,2,2,2,A001,,D002,A002
2,D002,82.0,3,3,3,D001,A001,A002,A003
3,A002,81.0,4,4,4,D002,D001,A003,D003
4,A003,78.0,5,5,5,A002,D002,D003,A004
5,D003,78.0,6,5,5,A003,A002,A004,D004
6,A004,64.0,7,7,6,D003,A003,D004,
7,D004,58.0,8,8,7,A004,D003,,


#### | 윈도 프레임 지정에 대해서 |

ROWS BETWEEN 'start' AND 'end'

'start' / 'end'

- CURRENT ROW : 현재의 행
- n PRECEDING : n행의 앞
- n FOLLOWING : n행의 뒤
- UNBOUNDED PRECEDING : 이전 행의 전부
- UNBOUNDED FOLLOWING : 이후 행의 전부

### [7-5] ORDER BY 구문과 집약 함수를 조합해서 계산하는 쿼리

In [17]:
query_75 = """
        SELECT
           product_id
         , score
         -- 점수 순서로 유일한 순서를 붙임
         , ROW_NUMBER() OVER(ORDER BY score DESC) AS row
         -- 순위 상위부터의 누계 점수 계산하기
         , SUM(score)
            OVER(ORDER BY score DESC
             ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
           AS cum_score
         -- 현재 행과 앞 뒤의 행이 가진 값을 기반으로 평균 점수 계산하기
         , AVG(score)
            OVER(ORDER BY score DESC
             ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING)
           AS local_avg
         , FIRST_VALUE(product_id)
            OVER(ORDER BY score DESC
             ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
           AS first_value
         , LAST_VALUE(product_id)
            OVER(ORDER BY score DESC
             ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
           AS last_value
        FROM
         popular_products
        ORDER BY
         row
        ;
        """

select(query_75)

Unnamed: 0,product_id,score,row,cum_score,local_avg,first_value,last_value
0,A001,94.0,1,94.0,92.0,A001,D004
1,D001,90.0,2,184.0,88.666667,A001,D004
2,D002,82.0,3,266.0,84.333333,A001,D004
3,A002,81.0,4,347.0,80.333333,A001,D004
4,A003,78.0,5,425.0,79.0,A001,D004
5,D003,78.0,6,503.0,73.333333,A001,D004
6,A004,64.0,7,567.0,66.666667,A001,D004
7,D004,58.0,8,625.0,61.0,A001,D004


### [7-6] 윈도 프레임 지정별 상품 ID를 집약하는 쿼리

In [19]:
query_76 = """
        SELECT
           product_id
         -- 점수 순서로 유일한 순서를 붙임
         , ROW_NUMBER() OVER(ORDER BY score DESC) AS row
         -- 가장 앞 순위부터 가장 뒷 순위까지의 범위를 대상으로 상품 ID 집약하기
         , array_agg(product_id)
            OVER(ORDER BY score DESC
             ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
           AS whole_agg
         -- 가장 앞 순위부터 현재 순위까지의 범위를 대상으로 상품 ID 집약하기
         , array_agg(product_id)
            OVER(ORDER BY score DESC
             ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
           AS cum_agg
         -- 순위 하나 앞과 하나 뒤까지의 범위를 대상으로 상품 ID 집약하기
         , array_agg(product_id)
            OVER(ORDER BY score DESC
             ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING)
           AS local_agg
        FROM
         popular_products
        WHERE
         category = 'action'
        ORDER BY
         row
        ;
        """

select(query_76)

Unnamed: 0,product_id,row,whole_agg,cum_agg,local_agg
0,A001,1,"[A001, A002, A003, A004]",[A001],"[A001, A002]"
1,A002,2,"[A001, A002, A003, A004]","[A001, A002]","[A001, A002, A003]"
2,A003,3,"[A001, A002, A003, A004]","[A001, A002, A003]","[A002, A003, A004]"
3,A004,4,"[A001, A002, A003, A004]","[A001, A002, A003, A004]","[A003, A004]"


### [7-7] 윈도 함수를 사용해 카테고리들의 순위를 계산하는 쿼리

In [20]:
query_77 = """
        SELECT
           category
         , product_id
         -- 카테고리별로 점수 순서로 정렬하고 유일한 순서를 붙임
         , ROW_NUMBER()
            OVER(PARTITION BY category ORDER BY score DESC)
           AS row
         -- 카테고리별로 같은 순위를 허가하고 순위를 붙임
         , RANK()
            OVER(PARTITION BY category ORDER BY score DESC)            
           AS rank
         -- 카테고리별로 같은 순위가 있을 때
         -- 같은 순위 다음에 있는 순위를 건너 뛰고 순위를 붙임
         , DENSE_RANK()
            OVER(PARTITION BY category ORDER BY score DESC)            
           AS dense_rank       
        FROM
         popular_products
        ORDER BY
         category, row
        ;
        """

select(query_77)

Unnamed: 0,category,product_id,row,rank,dense_rank
0,action,A001,1,1,1
1,action,A002,2,2,2
2,action,A003,3,3,3
3,action,A004,4,4,4
4,drama,D001,1,1,1
5,drama,D002,2,2,2
6,drama,D003,3,3,3
7,drama,D004,4,4,4


### [7-8] 카테고리들의 순위 상위 2개까지의 상품을 추출하는 쿼리

윈도 함수를 WHERE 구문에 작성할 수 없으므로, SELECT 구문에서 윈도 함수를 사용한 결과를 서브 쿼리로 만들고 외부에서 WHERE 구문을 적용해야 합니다.

In [23]:
query_78 = """
        SELECT *
        FROM
         -- 서브 쿼리 내부에서 순위 계산하기
         (
          SELECT
              category
            , product_id
            , score
            , ROW_NUMBER()
               OVER(PARTITION BY category ORDER BY score DESC)            
              AS rank
           FROM
              popular_products
          ) AS popular_products_with_rank
        -- 외부 쿼리에서 순위 활요해 압축하기
        WHERE
         rank <=2
        ORDER BY
         category, rank
        ;
        """

select(query_78)

Unnamed: 0,category,product_id,score,rank
0,action,A001,94.0,1
1,action,A002,81.0,2
2,drama,D001,90.0,1
3,drama,D002,82.0,2


### [7-9] 카테고리별 순위 최상위 상품을 추출하는 쿼리

In [24]:
query_79 = """
        -- DISTINCT 구문을 사용해 중복 제거하기
        SELECT DISTINCT
           category
           -- 카테고리별로 순위 최상위 상품 ID 추출하기
         , FIRST_VALUE(product_id)
            OVER(PARTITION BY category ORDER BY score DESC
             ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
           AS product_id
        FROM
           popular_products
        ;
        """

select(query_79)

Unnamed: 0,category,product_id
0,drama,D001
1,action,A001
