In [3]:
!pip install SQLAlchemy==1.4.47

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting SQLAlchemy==1.4.47
  Downloading SQLAlchemy-1.4.47-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m17.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: SQLAlchemy
  Attempting uninstall: SQLAlchemy
    Found existing installation: SQLAlchemy 2.0.10
    Uninstalling SQLAlchemy-2.0.10:
      Successfully uninstalled SQLAlchemy-2.0.10
Successfully installed SQLAlchemy-1.4.47


In [None]:
! kill -9 $(ps -A | grep python | awk '{print $1}')

In [1]:
%load_ext sql

In [2]:
%sql postgresql://admin:xxxxxxxx@song-practice.xxxxxxx.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev

## 📌 AWS REDSHIFT 초기 설정

### 1. 스키마 생성
![](https://velog.velcdn.com/images/ssongji/post/b26c4895-9f98-41d8-8416-fb067b7e4b50/image.png)
- 먼저 `DEV`라는 `Redshift`의 `데이터베이스` 안에 네 개의 스키마를 생성한다. (스키마의 목적은 내부에 있는 테이블의 목적이 무엇인지를 속한 스키마만 보고도 파악할 수 있도록 해 주는 것)
    - `RAW_DATA`는 **`ETL`의 결과가 들어가는 스키마**	
    - `ANALYTICS`는 **`ELT`의 결과가 들어가는 스키마**	
    - `ADHOC`은 **테스트용 테이블이 들어가는 스키마**	
    - `PII`는 **개인 정보가 들어가는 스키마**


In [3]:
%%sql

CREATE SCHEMA RAW_DATA;
CREATE SCHEMA ALALYTICS;
CREATE SCHEMA ADHOC;
CREATE SCHEMA PII;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.
Done.
Done.
Done.


[]

In [6]:
%%sql

SELECT *
  FROM PG_NAMESPACE;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
12 rows affected.


nspname,nspowner,nspacl
pg_toast,1,
pg_internal,1,
catalog_history,1,
pg_automv,1,
pg_temp_1,1,
pg_catalog,1,"{rdsdb=UC/rdsdb,=U/rdsdb}"
public,1,"{rdsdb=UC/rdsdb,=UC/rdsdb}"
information_schema,1,"{rdsdb=UC/rdsdb,=U/rdsdb}"
raw_data,100,
alalytics,100,


### 2. 사용자 생성

- 테이블에 접근 권한을 부여해 줄 **사용자를 생성**한다.
- **사용자를 생성할 때는 `CREATE USER`를 통해 생성**할 수 있다.

> 제약 조건에 어긋나는 비밀번호를 입력하면 `(psycopg2.errors.SyntaxError)`오류를 겪게 된다. 
<br>대부분 글자 수 제한, 대문자, 특수문자, 소문자의 조합으로 이루어져야 한다는 제약 조건에서 걸리는 것 같다.

In [8]:
%%sql 

CREATE USER song PASSWORD 'SSongji_10';

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.


[]

In [9]:
%%sql
SELECT *
  FROM PG_USER;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
4 rows affected.


usename,usesysid,usecreatedb,usesuper,usecatupd,passwd,valuntil,useconfig
rdsdb,1,True,True,True,********,inf,
admin,100,True,True,False,********,,
IAM:RootIdentity,101,True,True,False,********,,
song,102,False,False,False,********,,


### 3. 그룹 생성
- 사용자에게는 테이블 접근 권한을 주어야 하는데 사용자가 많아지게 되면 **개개인에게 일일이 권한을 부여하기가 어려워진다.**
- 이를 해결하는 방법은 테이블별로 접근 권한을 정하는 것이 아니라 **스키마 권한을 정하고**, 사용자들도 사용자별로 권한을 정하는 것이 아니라 **그룹으로 권한을 정하는 것**이다.

- 다음과 같은 그룹을 생성해 보자.
    - 데이터 활용을 하는 개인을 위한 `analytics_users` 
    - 데이터 분석가를 위한 `analytics_authors` 
    - 개인 정보 스키마까지 접근할 수 있는 `pii_users`

In [10]:
%%sql

CREATE GROUP analytics_users;
CREATE GROUP analytics_authors;
CREATE GROUP pii_users;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.
Done.
Done.


[]

- 사용자를 각 그룹에 넣어 주자.

In [11]:
%%sql

ALTER GROUP analytics_users ADD USER song;
ALTER GROUP analytics_authors ADD USER song;
ALTER GROUP pii_users ADD USER song;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.
Done.
Done.


[]

In [12]:
%%sql

SELECT *
  FROM PG_GROUP;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
3 rows affected.


groname,grosysid,grolist
analytics_users,110237,[102]
analytics_authors,110238,[102]
pii_users,110239,[102]


### 4. 역할 생성

- 그룹과 거의 동일하나 계승 구조를 만들 수 있다.
- 역할은 사용자에게 부여될 수 있고 다른 역할에 부여할 수도 있다.
- 한 사용자는 그룹과 동일하게 다수의 역할에 소속 가능하다.

In [13]:
%%sql

CREATE ROLE staff;
CREATE ROLE manager;
CREATE ROLE external;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.
Done.
Done.


[]

In [14]:
%%sql

-- staff 역할을 song이라는 사용자에게 부여한다.
GRANT ROLE staff TO song;
-- staff 역할을 manager 역할에게 부여한다
GRANT ROLE staff TO ROLE manager;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.
Done.


[]

In [15]:
%%sql 

SELECT *
  FROM SVV_ROLES;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
8 rows affected.


role_id,role_name,role_owner,external_id
105245,sys:operator,rdsdb,
105246,sys:monitor,rdsdb,
105247,sys:dba,rdsdb,
105248,sys:secadmin,rdsdb,
105249,sys:superuser,rdsdb,
110240,staff,admin,
110241,manager,admin,
110242,external,admin,


## 📌 벌크 업데이트 구현

### 1. raw_data 스키마 밑 테이블 생성
- `raw_data`의 목적은 **ETL을 통해 외부에서 읽어온 데이터를 저장한 스키마**이다.
![](https://velog.velcdn.com/images/ssongji/post/1125cfc6-87b1-45a6-b9cf-a888b986bb9f/image.png)

- 위의 raw_data 스키마를 참고하여 다음과 같이 총 세 개의 테이블을 생성해 준다.	
    - user_session_channel
    - session_timestamp
    - session_transaction

In [16]:
%%sql

CREATE TABLE raw_data.user_session_channel(
	  USERID INTEGER
    , SESSIONID VARCHAR(32) PRIMARY KEY
    , CHANNEL VARCHAR(32)
);

CREATE TABLE raw_data.session_timestamp(
	  SESSIONID VARCHAR(32) PRIMARY KEY
    , TS TIMESTAMP
);

CREATE TABLE raw_data.session_transaction(
	  SESSIONID VARCHAR(32) PRIMARY KEY
    , REFUNDED BOOLEAN
    , AMOUNT INT
);

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.
Done.
Done.


[]

In [22]:
%%sql

SELECT *
  FROM PG_TABLES
 WHERE SCHEMANAME = 'raw_data';

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
3 rows affected.


schemaname,tablename,tableowner,tablespace,hasindexes,hasrules,hastriggers
raw_data,user_session_channel,admin,,True,False,False
raw_data,session_timestamp,admin,,True,False,False
raw_data,session_transaction,admin,,True,False,False


### 2. S3 bucket에 접근해 csv 데이터 COPY
- S3로 로딩한 파일들을 **`벌크 업데이트`를 수행해 테이블에 적재**하는 과정이다.
- `COPY SQL` 사용한다. COPY SQL 레퍼런스
- csv 파일이기 때문에 delimiter(구분 문자)로는 콤마(,)를 사용해 준다.
- 문자열이 따옴표로 둘러싸인 경우 제거하기 위해 `removequotes`를 지정해 준다.
- csv 파일의 헤더를 무시하기 위해 `IGNOREHEADER 1`을 지정해 준다.
- `CREDENTIALS`에 앞서 `Redshift`에서 지정한 `역할(Role)`을 사용해 주는데 이때 역할의 `ARN`을 읽어와야 함.

In [27]:
%%sql

COPY raw_data.user_session_channel
FROM 's3://songji-test-bucket/test_data_20230523/user_session_channel.csv'
 CREDENTIALS 'aws_iam_role=arn:aws:iam::xxxxxxxx:role/redshift.read.s3'
   DELIMITER ','
  DATEFORMAT 'auto'
  TIMEFORMAT 'auto'
IGNOREHEADER 1
REMOVEQUOTES;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
Done.


[]

In [28]:
%%sql

SELECT *
  FROM raw_data.user_session_channel
 LIMIT 10;

 * postgresql://admin:***@song-practice.420811126582.ap-northeast-2.redshift-serverless.amazonaws.com:5439/dev
10 rows affected.


userid,sessionid,channel
231,e6a4f65e7355bb8b7671c3a18003b146,Organic
243,ac1ae6a547bf25a11284c7595eff6df7,Naver
80,495360cbf18a7d5004ff72f49254e069,Organic
266,220787ad7829c9cbc7e9953cb1c36fb3,Google
113,889fbd1aec443cef389ea10c93b498d8,Naver
117,3ba716f4a7265eef381f7cef9e271f27,Instagram
230,cfa3a0bc94975cb9c346a585ccb3ad9e,Facebook
710,9f16b57bdd4400066a83cd8eaa151c41,Google
27,ab49ef78e2877bfd2c2bfa738e459bf0,Facebook
203,f10f2da9a238b746d2bac55759915f0d,Google
