In [2]:
# 데이터베이스 연결
import sqlalchemy
import configparser

### psycopg2 install 에러 핸들링
#### env LDFLAGS="-I/usr/local/opt/openssl/include -L/usr/local/opt/openssl/lib" pip --no-cache install psycopg2
import psycopg2

config = configparser.ConfigParser()
config.read('../config.ini')

user = config['REDSHIFT']['USER']
password = config['REDSHIFT']['PASSWORD']

sql_conn_str = 'postgresql://{user}:{password}@grepp-data.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev'.format(
  user=user,
  password=password
)

sqlalchemy.create_engine(sql_conn_str)

%load_ext sql
%sql $sql_conn_str

In [3]:
# 데이터베이스 연결 테스트
%%sql
SELECT * FROM raw_data.session_timestamp LIMIT 10

SyntaxError: invalid syntax (<ipython-input-3-53ba9513e336>, line 3)

### 실습 과제 1
#### 오늘 살펴본 SQL 실습 및 요약
```sql
-- DDL: CREATE
-- 테이블 생성
create table ADHOC.MINGYU_CHANNEL
(
    CHANNEL VARCHAR(32) primary key
);

-- DML: INSERT
-- 데이터 입력
insert into ADHOC.MINGYU_CHANNEL
values ('FACEBOOK')
     , ('GOOGLE');

-- DDL: DROP
-- 테이블 삭제
drop table ADHOC.MINGYU_CHANNEL;

-- CTAS 기법
-- 셀렉트 조회 내용 스키마대로 TABLE을 만들며 셀렉트 내용을 입력
create table ADHOC.MINGYU_CHANNEL as
select distinct
    CHANNEL
from RAW_DATA.USER_SESSION_CHANNEL
;

-- DDL: 테이블 수정
-- MINGYU_CHANNEL 테이블의 CHANNEL 컬럼 이름을 CHANNELNAME으로 변경
alter table ADHOC.MINGYU_CHANNEL
    rename CHANNEL to CHANNELNAME;

-- TIKTOK 채널 데이터 추가
insert into ADHOC.MINGYU_CHANNEL values ('TIKTOK');

-- Google 또는 Facebook 채널로 접속한 사용자 세션수 조회
select
    COUNT(1)
from RAW_DATA.USER_SESSION_CHANNEL
where CHANNEL in ('Google', 'Facebook');

-- 대소문자 구분 없는 Google 또는 Facebook 채널로 접속한 사용자 세션수 조회
select
    COUNT(1)
from RAW_DATA.USER_SESSION_CHANNEL
where CHANNEL ilike 'Google'
   or CHANNEL like 'Facebook';

-- 대소문자 구분 없이 o가 포함된 채널 종류 구하기
select distinct
    CHANNEL
from RAW_DATA.USER_SESSION_CHANNEL
where CHANNEL ilike '%o%';

-- 대소문자 구분 없이 o가 포함되지 않은 채널 종류 구하기
select distinct
    CHANNEL
from RAW_DATA.USER_SESSION_CHANNEL
where CHANNEL not ilike '%o%';

-- 채널이름 관련 String 함수 처리
-- LEN: 문자열 길이 조회
-- UPPER: 대문자로 변환
-- LOWER: 소문자로 변환
-- LEFT(str, N): 문자열 왼쪽부터 N개를 잘라 반환
-- REPLACE(str, expr1, expr2): 문자열의 expr1 부분을 expr2로 변환
select
    LEN(CHANNELNAME)
  , UPPER(CHANNELNAME)
  , LOWER(CHANNELNAME)
  , LEFT(CHANNELNAME, 4)
  , REPLACE(UPPER(LEFT(CHANNELNAME, 4)), 'OO', 'XX')
from ADHOC.MINGYU_CHANNEL
;

-- 세션이 가장 많이 생기는 시간대 구하기
select
    EXTRACT(hour from TS)
  , count(1) as HOUR_COUNT
from RAW_DATA.SESSION_TIMESTAMP
group by 1
order by 2 desc
limit 1
;

-- 사용자가 가장 많이 생기는 시간대 구하기
select
    EXTRACT(hour from ST.TS)
  , COUNT(distinct (USC.USERID))
from RAW_DATA.USER_SESSION_CHANNEL   USC
     join RAW_DATA.SESSION_TIMESTAMP ST on USC.SESSIONID = ST.SESSIONID
group by 1
order by 2 desc
limit 1;

-- 세션이 가장 많이 생기는 요일 구하기
select
    EXTRACT(dow from TS)
  , count(1) as DOW_COUNT
from RAW_DATA.SESSION_TIMESTAMP
group by 1
order by 2 desc
limit 1
;

-- raw_data.channel 채널별 사용자수 세기
select
    CHANNELNAME
  , count(distinct (USERID)) as USER_COUNT_PER_CHANNEL
from RAW_DATA.CHANNEL                        CA
     left join RAW_DATA.USER_SESSION_CHANNEL USC on CA.CHANNELNAME = USC.CHANNEL
group by 1

-- 251번 사용자의 처음 채널과 마지막 채널 알아내기
-- 정답: Facebook 첫번째, Google 마지막
select
    USERID
  , ROW_NUMBER() over (partition by USERID order by ST.TS) as R
  , MAX() over (partition by USERID order by ST.TS) as MAX_R
from RAW_DATA.USER_SESSION_CHANNEL         USC
     inner join RAW_DATA.SESSION_TIMESTAMP ST on USC.SESSIONID = ST.SESSIONID
where USERID = 251
;
```

## 실습 과제 2
### Gross Revenue 가장 큰 UserID 10개 찾기
* refund 포함

In [4]:
%%sql
select
    USERID
  , TOTAL_REVENUE
from (
     select
         USERID
       , SUM(case when REFUNDED is true then AMOUNT * -1 else AMOUNT end) as TOTAL_REVENUE
     from RAW_DATA.SESSION_TRANSACTION       ST
          join RAW_DATA.USER_SESSION_CHANNEL USC on USC.SESSIONID = ST.SESSIONID
     group by 1
     ) TOP_USER_REVENUE
order by 2 desc
limit 10


 * postgresql://leemingyu05:***@grepp-data.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com:5439/dev
10 rows affected.


userid,total_revenue
989,743
772,556
1615,506
654,488
1651,463
973,438
262,422
2682,414
891,412
1085,411
