Set up Configuration

In [None]:
!pip install sqlalchemy==1.3.2

In [None]:
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


In [None]:
# ID와 PW를 자신의 환경에 맞게 수정
%sql postgresql://keeyong:KeeyongHam!1@ssde.cnqux5xggmn5.us-east-2.redshift.amazonaws.com:5439/dev

'Connected: keeyong@dev'

이후 아래 SQL에서 "keeyong"는 자신의 스키마로 변경

## EXCEPT, UNION, INTERSECT

### EXCEPT 사용해보기 - 두 개의 SELECT 문의 결과 혹은 두 개의 테이블을 비교하는데 사용.
* 기존 요약 테이블의 로직을 수정하는 경우 수정 전후를 비교하거나 하는데 많이 사용됨. QA용으로 아주 유용함
* 각 SELECT문의 필드들의 수와 타입이 동일해야함
* EXCEPT 대신 MINUS를 사용해도 됨

In [None]:
%%sql

SELECT 
    first.userid, first.channel, TO_CHAR(first.ts, 'YYYY-MM-DD') AS f_visit,
    last.channel, TO_CHAR(last.ts, 'YYYY-MM-DD') AS l_visit
FROM (
    SELECT *, ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts) AS rn_first
    FROM raw_data.user_session_channel usc
    JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid
) first
JOIN (
    SELECT *, ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts DESC) AS rn_last
    FROM raw_data.user_session_channel usc
    JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid
) AS last ON first.userid = last.userid and rn_last = 1
WHERE rn_first = 1

EXCEPT

SELECT 
    userid, 
    MAX(CASE WHEN rn_first = 1 THEN channel END) AS first,
    MAX(CASE WHEN rn_first = 1 THEN TO_CHAR(ts, 'YYYY-MM-DD') END) AS f_date,
    MAX(CASE WHEN rn_last = 1 THEN channel END) AS last,
    MAX(CASE WHEN rn_last = 1 THEN TO_CHAR(ts, 'YYYY-MM-DD') END) AS l_date
FROM (
    SELECT 
        *, 
        ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts) AS rn_first,
        ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts DESC) AS rn_last
    FROM raw_data.user_session_channel usc
    JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid
    )
GROUP BY 1;

### UNION: 여러 SELECT 문을 합쳐서 하나의 SELECT를 생성 (합집합)

* 각 SELECT문의 필드들의 수와 타입이 동일해야함
* UNION과 UNION ALL의 차이점은?
  * UNION은 중복되는 레코드를 제거함
* 다른 소스에서 생긴 레코드들을 묶어서 새로운 테이블들을 만들 때 아주 유용
  * 예를 들면 물건 판매를 Shopify와 Amazon에 동시에 한다면 각 사이트에서 판매 레코드들을 UNION으로 묶어서 새로운 테이블을 생성가능 (CTAS)

In [None]:
%%sql

SELECT 'keeyong' as first_name, 'han' as last_name

UNION

SELECT 'elon', 'musk'

In [None]:
%%sql

SELECT 'keeyong' as first_name, 'han' as last_name

UNION

SELECT 'elon', 'musk'

UNION

SELECT 'keeyong', 'han'

In [None]:
%%sql

SELECT 'keeyong' as first_name, 'han' as last_name

UNION ALL

SELECT 'elon', 'musk'

UNION ALL

SELECT 'keeyong', 'han'

### INTERSECT: SELECT 문들에서 공통적인 레코드를 돌려줌 (교집합)
*   이 역시 QA를  할때 유용한 SQL



## String 함수

* LEFT(str, N)
* SUBSTRING
* REPLACE(str, exp1, exp2)
* UPPER(str)
* LOWER(str)
* LEN(str)
* LPAD, RPAD
* CONCAT

In [None]:
%%sql

SELECT LEFT(ts, 10) date
FROM raw_data.session_timestamp
LIMIT 10;

In [None]:
%%sql

SELECT ts, SUBSTRING(ts, 6, 2) "month"
FROM raw_data.session_timestamp
LIMIT 10;

In [None]:
%%sql

SELECT UPPER(name), LOWER(name), REPLACE(name, ' ', '_'), LEN(name)
FROM (
    SELECT 'Keeyong Han' name
    UNION
    SELECT 'Benjamin Han'   -- not "Benjamin Han"
)

In [None]:
%%sql

SELECT channelname, LPAD(channelname, 20)
FROM raw_data.channel

In [None]:
%%sql

SELECT LPAD(channelname, 20, '0')
FROM raw_data.channel

In [None]:
%%sql

SELECT CONCAT(userid, channel)
FROM raw_data.user_session_channel
LIMIT 10;

In [None]:
%%sql

SELECT userid||channel
FROM raw_data.user_session_channel
LIMIT 10;

In [None]:
%%sql

SELECT userid || '   ' || channel
FROM raw_data.user_session_channel
LIMIT 10;

## LISTAGG - GROUP BY Aggregate 함수 중의 하나

In [None]:
%%sql

SELECT userid, LISTAGG(channel) WITHIN GROUP (ORDER BY ts) channels
FROM raw_data.user_session_channel usc
JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid
GROUP BY 1
LIMIT 10;

In [None]:
%%sql

SELECT userid, LISTAGG(channel, '->') WITHIN GROUP (ORDER BY ts) channels
FROM raw_data.user_session_channel usc
JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid
GROUP BY 1
LIMIT 10;

## JOIN:

An SQL JOIN clause is used to combine rows from two or more tables, based on a common field between them.

왼쪽 테이블을 LEFT라고 하고 오른쪽 테이블을 RIGHT이라고 하자. JOIN의 결과는 방식에 상관없이 양쪽의 필드를 모두 가진 새로운 테이블을 만들어내게 됨. 조인의 방식에 따라 다음 두 가지가 달라짐:

1. 어떤 레코드들이 선택되는지?
2. 어떤 필드들이 채워지는지?

In [None]:
%%sql

DROP TABLE IF EXISTS keeyong.vital;
CREATE TABLE keeyong.vital (
    UserID int,
    VitalID	int,
    Date date,
    Weight int
);
INSERT INTO keeyong.vital VALUES
(100,	1, '2020-01-01', 75),
(100, 3, '2020-01-02', 78),
(101, 2, '2020-01-01', 90),
(101, 4, '2020-01-02', 95); 

In [None]:
%%sql

DROP TABLE IF EXISTS keeyong.alert;
CREATE TABLE keeyong.alert (
    AlertID int,
    VitalID	int,
    AlertType varchar(32),
    Date date,
    UserID int
);
INSERT INTO keeyong.alert VALUES
 (1,	4, 'WeightIncrease', '2020-01-01', 101),
 (2, NULL, 'MissingVital', '2020-01-04', 100),
 (3, NULL, 'MissingVital', '2020-01-04', 101);

* INNER JOIN
1. 양쪽 테이블에서 매치가 되는 레코드들만 리턴함
2. 양쪽 테이블의 필드가 모두 채워진 상태로 리턴됨

In [None]:
%%sql

SELECT * FROM keeyong.Vital v
JOIN keeyong.Alert a ON v.vitalID = a.vitalID;

 
* LEFT JOIN: 왼쪽 테이블의 레코드는 모두 리턴되며 오른쪽 테이블과 매칭이 되는 레코드들의 경우에는 오른쪽 테이블 레코드들의 컬럼들이 채워진 상태로 리턴됨. 매칭이 안되는 왼쪽 테이블 레코드들은 오른쪽 테이블에서 들어오는 필드들은 NULL로 채워짐

In [None]:
%%sql

SELECT * FROM keeyong.Vital v
LEFT JOIN keeyong.Alert a ON v.vitalID = a.vitalID;

* FULL JOIN (OUTER JOIN):
1. 왼쪽 테이블과 오른쪽 테이블의 모든 레코드들을 리턴함
2. 매칭되는 경우에만 양쪽 테이블들의 모든 필드들이 채워진 상태로 리턴됨

In [None]:
%%sql

SELECT * FROM keeyong.Vital v
FULL JOIN keeyong.Alert a ON v.vitalID = a.vitalID;

* CARTESIAN JOIN (CROSS JOIN): 조인 조건 없이 두 개 테이블의 내용을 모두 조합한 결과 레코드들을 생성

In [None]:
%%sql

SELECT *
FROM (
    SELECT vitalid  -- 1,2,3,4
    FROM keeyong.vital
)
CROSS JOIN (
    SELECT alertid   -- 1,2,3
    FROM keeyong.alert
);

## User Cohort Pivoting

In [None]:
result = %sql SELECT cohort_month, \
DATEDIFF(month, cohort_month, visited_month)+1 month_N, \
COUNT(DISTINCT cohort.userid) unique_users \
FROM ( \
  SELECT userid, MIN(DATE_TRUNC('month', ts)) cohort_month \
  FROM raw_data.user_session_channel usc \
  JOIN raw_data.session_timestamp t ON t.sessionid = usc.sessionid \
  GROUP BY 1 \
) cohort \
JOIN ( \
  SELECT DISTINCT userid, DATE_TRUNC('month', ts) visited_month \
  FROM raw_data.user_session_channel usc \
  JOIN raw_data.session_timestamp t ON t.sessionid = usc.sessionid \
) visit ON cohort.cohort_month <= visit.visited_month and cohort.userid = visit.userid \
GROUP BY 1, 2 \
ORDER BY 1, 2
df = result.DataFrame()

 * postgresql://keeyong:***@ssde.cnqux5xggmn5.us-east-2.redshift.amazonaws.com:5439/dev
28 rows affected.


In [None]:
df.head()

Unnamed: 0,cohort_month,month_n,unique_users
0,2019-05-01,1,281
1,2019-05-01,2,262
2,2019-05-01,3,237
3,2019-05-01,4,229
4,2019-05-01,5,224


In [None]:
df.pivot_table(index='cohort_month', values="unique_users", columns="month_n")

month_n,1,2,3,4,5,6,7
cohort_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2019-05-01,281.0,262.0,237.0,229.0,224.0,213.0,206.0
2019-06-01,197.0,175.0,160.0,150.0,148.0,145.0,
2019-07-01,211.0,189.0,175.0,167.0,155.0,,
2019-08-01,84.0,73.0,71.0,69.0,,,
2019-09-01,17.0,14.0,13.0,,,,
2019-10-01,150.0,124.0,,,,,
2019-11-01,9.0,,,,,,


In [None]:
%%sql

SELECT *
FROM raw_data.order
WHERE order_id < '1';

 * postgresql://keeyong:***@ssde.cnqux5xggmn5.us-east-2.redshift.amazonaws.com:5439/dev
3 rows affected.


order_id,ordered_at,refunded_at
,2019-08-02 14:19:37,
,2019-11-26 10:26:29,
,2019-12-28 11:37:14,


In [None]:
%%sql

SELECT ' ' < '1';

 * postgresql://keeyong:***@ssde.cnqux5xggmn5.us-east-2.redshift.amazonaws.com:5439/dev
1 rows affected.


?column?
True
