# SQL의 중요성

🔸 데이터 관련 3개의 직군 

● 데이터 엔지니어:
- 파이썬, 자바/스칼라
-  **SQL**, 데이터베이스 
-  ETL/ELT (Airflow, DBT)
-  Spark, Hadoop

● 데이터 분석가
-  SQL, 비지니스 도메인에 대한 지식
-  통계 (AB 테스트 분석)

● 데이터 과학자
- 머신러닝
- **SQL**, 파이썬
- 통계

: 데이터의 Feature 생성 등 코딩 지식이 필수적.

# 관계형 데이터베이스란?
구조화된 데이터를 저장하는데 사용되는 관계형 데이터베이스가 무엇인지 알아보자.

데이터가 커져도 구조화만 되어있어도 SQL을 통해 지속적인 사용이 가능하다.

# 관계형 데이터 베이스
구조화된 데이터를 저장하고 질의할 수 있도록 해주는 스토리지

- 엑셀 스프레드시트 형태의 테이블로 데이터를 정의하고 저장
-  테이블에는 컬럼(열)과 레코드(행)이 존재

>※ 관계형 데이터베이스를 조작하는 프로그래밍 언어가 SQL
>1. 테이블 정의를 위한 DDL (Data Definition Language)
>2. 테이블 데이터 조작/질의를 위한 DML (Data Manipulation Language

> Table의 format(테이블 스키마) : `이름` - `type` 존재

# 대표적 관계형 데이터베이스
> 프로덕션 데이터베이스: MySQL, PostgreSQL, Oracle, ... (백엔드, 프론트엔드 주로 사용 : 서비스에 연동된 데이터베이스)
1. OLTP (OnLine Transaction Processing)
2. **빠른 속도에 집중**. 서비스에 필요한 정보 저장

프로덕션 데이터베이스로 데이터 분석 하며 쿼리를 날리다보면 느려짐 발생 -> 서비스 속도에 영향 : 백엔드에서 불편해함.

> 데이터 웨어하우스: Redshift, Snowflake, BigQuery, Hive, ... (데이터 분석가들 주로 사용)
1. OLAP (OnLine Analytical Processing)
2. **처리 데이터 크기**에 집중. 데이터 분석 혹은 모델 빌딩등을 위한 데이터 저장
3. 보통 프로덕션 데이터베이스를 복사해서 데이터 웨어하우스에 저장

# 관계형 데이터베이스의 구조
- 총 2단계로 구성
1. 가장 밑단의 테이블 존재 (엑셀의 sheet에 해당)
2. 테이블들은 DB(혹은 스키마)라는 폴더 밑으로 구성(엑셀에서 파일)
![image.png](attachment:image.png)
테이블들과 데이터 베이스

※ 테이블의 구조 (테이블 스키마라고 부르기도 함)
- 테이블은 레코드들로 구성 (행)
- 레코드는 하나 이상의 필드(컬럼)로 구성 (열)
- 필드(컬럼)는 이름과 타입과 속성(primary key)으로 구성

![image.png](attachment:image.png)
- primary key : 해당 필드를 이 속성으로 지정하면 값들이 중복되지 않도록 해준다. (값의 유일성을 보장해줌)

# SQL
- 관계형 데이터베이스에 있는 데이터(테이블)를 질의하거나 조작해주는 언어
- SQL은 1970년대 초반에 IBM이 개발한 구조화된 데이터 질의 언어
- 두 종류의 언어로 구성됨

> DDL (Data Definition Language):
>- 테이블의 구조를 정의하는 언어

> DML (Data Manipulation Language):
>- 테이블에서 원하는 레코드들을 읽어오는 질의 언어
>- 테이블에 레코드를 추가/삭제/갱신해주는데 사용하는 언어
***

SQL은 빅데이터 세상에서도 중요!
- 구조화된 데이터를 다루는한 SQL은 데이터 규모와 상관없이 쓰임
- 모든 대용량 데이터 웨어하우스는 SQL 기반
> Redshift, Snowflake, BigQuery, Hive
- Spark이나 Hadoop도 예외는 아님
> SparkSQL과 Hive라는 SQL 언어가 지원됨
- 데이터 분야에서 일하고자 하면 반드시 익혀야할 기본 기술
> 데이터 엔지니어. 데이터 분석가, 데이터 과학자 모두 알아야함

# SQL의 단점

- 구조화된 데이터를 다루는데 최적화가 되어있음

>- 정규표현식을 통해 비구조화된 데이터를 어느 정도 다루는 것은 가능하나 제약이 심함
>- 많은 관계형 데이터베이스들이 플랫한 구조만 지원함 (no nested like JSON)
>- 구글 빅쿼리는 nested structure를 지원함
>- 비구조화된 데이터를 다루는데 Spark, Hadoop과 같은 분산 컴퓨팅 환경이 필요해짐
>- 즉 SQL만으로는 비구조화 데이터를 처리하지 못함

- 관계형 데이터베이스마다 SQL, 문법이 조금씩 상이

# Data modeling
데이터를 어떻게 표현할 것인가(모델링)에 관련한 내용
## Star schema 
![image.png](attachment:image.png)

- 프로덕션 DB용 관계형 데이터베이스에서는 보통 스타 스키마를 사용해 데이터를 저장한다.
- 데이터를 논리적 단위로 나눠 저장하고 필요 시 join, 스토리지 낭비가 덜하고 업데이트가 쉬움

# Denormalized schema
- 데이터 웨어하우스에서 사용하는 방식
- 단위 테이블로 나눠 저장하지 않음으로 별도의 조인이 필요 없는 형태를 말함
> 이는 스토리지를 더 사용하지만 조인이 필요 없기에 빠른 계산이 가능

![image-2.png](attachment:image-2.png)


## 데이터 웨어하우스
회사에 필요한 모든 데이터를 저장

> 여전히 SQL 기반의 관계형 데이터베이스
- 프로덕션 데이터베이스와는 별도이어야 함
- OLAP (OnLine Analytical Processing) vs. OLTP (OnLine Transaction Processing)
- Aws의 Redshit, Google Cloud의 Big Query, Snowflake 등이 대표적
>데이터 웨어하우스는 고객이 아닌 내부 직원을 위한 데이터베이스
- 처리속도가 아닌 처리 데이터의 크기가 더 중요해짐
>ETL 혹은 데이터 파이프라인
- 외부에 존재하는 데이터를 읽어다가 데이터 웨어하우스로 저장해주는 것이 필요해지는데 이를 ETL 혹은 데이터 파이프라인이라고 부름

ETL을 통틀어 데이터 인프라라고 한다.

# Data 인프라
- 데이터 엔지니어가 관리함
    여기서 한단계 더 발전하면 Spark와 같은 대용량 분산처리 시스템이 일부로 추가됨.
    ![image.png](attachment:image.png)

- 데이터 순환 구조 
    ![image-2.png](attachment:image-2.png)

# Cloud 정의
컴퓨팅 자원 (하드웨어, 소프트웨어)등을 네트워크를 통해 서비스 형태로 사용
- 내가 필요한 자원(서버같은)을 필요한 만큼 실사간으로 할당하여 사용

● 클라우드 컴퓨팅이 없었다면?
- 서버/네트웍/스토리지 구매와 설정등을 직접 수행해야 함
- 데이터센터 공간을 직접 확보 (Co-location)
    - 확장이 필요한 경우 공간을 먼저 더 확보해야함
- 그 공간에 서버를 구매하여 설치하고 네트웍 설정
- 보통 서버를 구매해서 설치하는데 적어도 두세달은 걸림
- 또한 Peak time을 기준으로 Capacity planning을 해야함!
- 놀고 있는 자원들이 높게 되는 현상 발생
> 직접 운영비용 vs. 클라우드 비용
- 기회비용

# AWS 소개
- 가장 큰 클라우드 컴퓨팅 서비스 업체.
- 2002년 아마존의 상품데이터를 API로 제공하면서 시작
1. 현재 100여개의 서비스를 전세계 15개의 지역에서 제공.
2. 대부분의 서비스들이 오픈소스 프로젝트들을 기반으로 함.
3. 최근 들어 ML/AI 관련 서비스들도 내놓기 시작 ^ 사용고객
4. Netfix, Zynga등의 상장업체들도 사용.
5. 많은 국내 업체들도 사용시작 (서울 리전)
- 다양한 종류의 소프트웨어/플랫폼 서비스를 제공.
1. AWS의 서비스만으로 쉽게 온라인서비스 생성.
2. 뒤에서 일부 서비스를 따로 설명.

## EC2 - Elastic Compute Cloud (1)
 AWS의 서버 호스팅 서비스.
- 리눅스 혹은 윈도우 서버를 론치하고 어카운트를 생성하여 로그인 가능 (구글앱엔진과의 가장 큰 차이점).
- 가상 서버들이라 전용서버에 비해 성능이 떨어짐.
- Bare-metal 서버도 제공하기 시작

> 다양한 종류의 서버 타입 제공
- http://aws.amazon.com/ec2/
- 예를 들어 미국 동부에서 스몰타입(12.small)의 무료 리눅스 서버를 하나 할당시
    - 시간당 2.3 센트의 비용지불.
    - 2GB 메모리, 1 가상코어, 160GB 하드디스크
    - 2012년에는 8.5 센트였음
    -= 타입별 지역별 가격을 알고 싶다면 여기를 방문
- Incoming network bandwidth는 공짜이지만 outgoing은 유료

## S3 - Simple Storage Service (1)
- http://aws.amazon.com/s3/
- 아마존이 제공하는 대용량 클라우드 스토리지 서비스 : 웹 하드디스크!
- S3는 데이터 저장관리를 위해 계층적 구조를 제공
- 글로벌 내임스페이스를 제공하기 때문에 레벨 디렉토리 이름 선정에 주의.
- S3에서는 디렉토리를 버킷(Bucket)이라고 부름
- 버킷이나 파일별로 액세스 컨트롤 가능
## S3 - Simple Storage Service (2)
- https://aws.amazon.com/ko/s3/pricing/
- Low cost. 1TB per month:
- Standard storage: $23
- Infrequent Access storage: $12.5
- SA7
- Glacier storage: $4

## 기타 중요 서비스 - Database Services
- RDS (Relational Database Service)
- MySQL, PostgreSQL, Aurora
- Oracle, MS SQL Server
- DynamoDB
- Redshift
- ElasticCache
- Neptune (Graph database)
- ElasticSearch
- MongoDB

## 기타 중요 서비스- Al & ML Services
> SageMaker : 
- Deep Learning and Machine Learning end-to-end framework
> Lex
- Conversational Interface (Chatbot service)
> Polly
- Text to Speech Engine
> Rekognition
- Image Recognition Service

## 기타 중요 서비스
> Amazon Alexa
- Amazon's voice bot platform
> Amazon Connect
- Amazon's Contact Center Solution
- 콜센터 구현이 아주 쉬워짐
> Lambda
- Event-driven, serverless computing engine(api로직 구현만 하면 나머지는 알아서 처리 : 서버 증설 신경 x)
- 서비스 구현을 위해서 EC2를 론치할 필요가 없음
- Google Cloud에는 Cloud Function이란 이름으로 존재
- Azure에는 Azure Function이란 이름으로 존재

# Redshift: Scalable SQL 엔진 (1)
- 2 PB까지 지원
 Still OLAP
- 응답속도가 빠르지 않기 때문에 프로덕션 데이터베이스로 사용불가
> Columnar storage
- 컬럼별 압축이 가능
- 컬럼을 추가하거나 삭제하는 것이 아주 빠

# • Redshift: Scalable SQL 엔진 (2)
> 벌크 업데이트 지원
- 레코드가 들어있는 파일을 S3로 복사 후 COPY 커맨드로 Redshift로 일괄 복사
> 고정 용량/비용 SQL 엔진
- vs. `Snowflake` vs. `BigQuery`(Google cloud)
> 다른 데이터 웨어하우스처럼 **primary key uniqueness를 보장하지 않음**
- 값 존재 유무 체크 : 개발자가 보장해야 함.
- 프로덕션 데이터베이스들은 보장

# Redshift는 Postgresql 8.x와 SQL이 호환됨
> 하지만 Postgresql 8.x의 모든 기능을 지원하지는 않음
- 예를 들어 text 타입이 존재하지 않음
> Postgresql 8x를 지원하는 툴이나 라이브러리로 액세스 가능
- JDBC/ODBC
> 다시 한번 SQL이 메인 언어라는 점 명심
- 그러기에 테이블 디자인이 아주 중요


# Redshift Schema(폴더) 구성

![image.png](attachment:image.png)

# Redshift 액세스 방법
> 이번 강좌에서는 Google Colab을 사용 예정
 Postgresql 8.x와 호환되는 모든 툴과 프로그래밍 언어를 통해 접근 가능
- SQL Workbench (Mac과 윈도우), Postico (Mac)
- Python이라면 psycopg2 모듈
- 시각화/대시보드 툴이라면 Looker, Tableau, Power Bl, Superset등에서 연결가능

# 실습

- Redshift 클러스터 정보
    - 1 × dc2.large instance
- 160 GB
冬 Host：
- learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com
- Port number:
    - 5439
- Database name:
    - dev

## 관계형 데이터베이스 예제 - 웹서비스 사용자/세션 정보 (1)
- 사용자 ID: 보통 웹서비스에서는 등록된 사용자마다 부여하는 유일한 ID
- 세션 ID: 세션마다 부여되는 ID
    - 세션: **사용자의 방문**을 논리적인 단위로 나눈 것
        - 사용자가 외부 링크(보통 광고)를 타고 오거나 직접 방문해서 올 경우 세션을 생성
        - 사용자가 방문 후 30분간 interaction이 없다가 뭔가를 하는 경우 새로 세션을 생성
    - 즉 하나의 사용자는 **여러 개의 세션을 가질 수 있음**
    - 보통 세션의 경우 세션을 만들어낸 접점(경유지)를 **채널**이란 이름으로 기록해둠
        - 마케팅 관련 기여도 분석을 위함
    - 또한 세션이 생긴 시간도 기록

## 관계형 데이터베이스 예제 - 웹서비스 사용자/세션 정보 (2)
- 이 정보를 기반으로 다양한 데이터 분석과 지표 설정이 가능
    - 마케팅 관련, 사용자 트래픽 관련
    - DAU(일별), WAU(주별), MAU(월별)등의 일주월별 Active User 차트
    - Marketing Channel Attribution £1
        - 어느 채널에 광고를 하는 것이 가장 효과적인가?

## 관계형 데이터베이스 예제 - 웹서비스 사용자/세션 정보 (3)
- 사용자 ID 100번: 총 3개의 세션(파란 배경)을 갖는 예제
    - 세션 1: 구글 키워드 광고로 시작한 세션
    - 세션 2: 페이스북 광고를 통해 생긴 세션
    - 세션 3: 네이버 광고를 통해 생긴 세션
    
![image.png](attachment:image.png)

- first channel attribution : 광고를 처음 발견하도록 해준 채널에 몰빵
- last channel attribution : 마지막 채널에 몰아줌

### 예제 : 데이터베이스와 테이블
- 데이터베이스(스키마)

|컬럼|타입|
|--|--|
|userid|int|
|sessionId|varchar(32)|
|channel|varchar(32)|

|컬럼|타입|
|--|--|
|sessionId|varchar(32)|
|ts | timestamp|

두 table을 합치기 : join - 
> raw_data 참고 : 위 테이블(표)들을 여러개 담아놓는 곳이 데이터 베이스!

### 예제 : 데이터베이스와 테이블 (2)
- user_session_channel : A 테이블
![image-2.png](attachment:image-2.png)

- session_timestamp : B 테이블
![image-4.png](attachment:image-4.png)




# SQL
Redshift중심의 DDL, DML 시행

## SQL 기본
- 먼저 다수의 SQL 문을 실행한다면 세미콜론으로 분리 필요
    - SQL문1; SQL문2; SQL문3;
    - SQL 주석
    - `--`: 인라인 한줄짜리 주석. 자바에서 1/에 해당
    - `/*--*/`: 여러 줄에 걸쳐 사용 가능한 주석
- SQL 키워드는 **대문자를 사용**한다던지 하는 나름대로의 포맷팅이 필요
    - 팀 프로젝트라면 팀에서 사용하는 공통 포맷이 필요
- 실무 팁!! : 테이블/필드이름의 명명규칙을 정하는 것이 중요
    - 단수형 vS. 복수형
    - User vs. Users
    - _ vs. CamelCasing
    - user_session_channel(`_`) vs. UserSessionChannel(`CamelCasing`)


## SQL DDL : 테이블 구조 정의 언어(1)
헤더 행만 정의하게 됨.
- `CREATE TABLE`
    - Primary key 속성을 지정할 수 있으나 무시됨 : 강제되지 않음. 참고만 하게 됨.
    - Primary key uniqueness
    - Big Data 데이터웨어하우스에서는 지켜지지 않음 (Redshit, Snowfake, BigQuery)
    - CTAS: `CREATE TABLE` table_name `AS SELECT`(테이블 생성 및 `INSERT INTO`동시에)
    - vs. `CREATE TABLE` and then `INSERT`

```sql
CREATE TABLE raw_data,user_session _channel( userid int,
sessionid varchar(32) primary key, 
channel varchar(32)
);
```

## SQL DML - 테이블 데이터 조작 언어 (2)
- 레코드 수정 언어:
    - `INSERT INTO`: 테이블에 레코드를 추가하는데 사용
    - `UDATE FROM`: 테이블 레코드의 필드 값 수정
    - `DELETE FROM`: 테이블에서 레코드를 삭제
    - vs. TRUNCATE

- `DROP TABLE`
    - `DROP TABLE` table_name;
    - 없는 테이블을 지우려고 하는 경우 에러를 냄
    - `DROP TABLE IF EXISTS <table_name>;`
    - vs. `DELETE FROM`
    - DELETE FROM은 **조건**에 맞는 레코드들을 지움 (테이블 자체는 존재)

## SQL DML - 테이블 데이터 조작 언어 (3)
- `ALTER TABLE`
    - 새로운 컬럼 추가:
        - `ALTER TABLE <테이블이름> ADD COLUMN <필드이름> <필드타입>;`
    - 기존 컬럼 이름 변경:
        - `ALTER TABLE <테이블이름> RENAME <현재필드이름> to <새필드이름>`
    - 기존 컬럼 제거:
        - `ALTER TABLE <테이블이름> DROP COLUMN 필드이름;`
    - 테이블 이름 변경:
        - `ALTER TABLE <현재테이블이름> RENAME to <새테이블이름>;`

## SQL DML - 테이블 데이터 조작 언어 (1)
- 레코드 질의 언어: SELECT
    - `SELECT FROM`: 테이블에서 레코드와 필드를 읽어오는데 사용
    - `WHERE`를 사용해서 레코드 선택 조건을 지정
    - `GROUP BY`를 통해 정보를 그룹 레벨에서 뽑는데 사용하기도 함
        - DAU, WAU, MAU 계산은 GROUP BY를 필요로 함
    - `ORDER BY`를 사용해서 레코드 순서를 결정하기도 함
    - 보통 다수의 테이블의 조인해서 사용하기도 함

## SQL DML - 테이블 데이터 조작 언어 (2)
- 레코드 수정 언어:
    - `INSERT INTO`: 테이블에 레코드를 추가하는데 사용
    - `UDATE FROM`: 테이블 레코드의 필드 값 수정
    - `DELETE FROM`: 테이블에서 레코드를 삭제
    - vs. TRUNCATE


## 실습에 들어가기에 앞서 기억할 점 (1)
- 현업에서 깨끗한 데이터란 존재하지 않음
    - 항상 데이터를 믿을 수 있는지 **의심**할 것! -> 의(붓)데이터증
    - 실제 레코드를 몇 개 살펴보는 것 만한 것이 없음 -> 노가다
- 데이터 일을 한다면 항상 데이터의 품질을 의심하고 체크하는 버릇이 필요
    - 중복된 레코드들 체크하기
    - 최근 데이터의 존재 여부 체크하기 (freshness)
    - Primary key uniqueness가 지켜지는지 체크하기
    - 값이 비어있는 컬럼들이 있는지 체크하기
    - 위의 체크는 코딩의 unit test 형태로 만들어 매번 쉽게 체크해볼 수 있다.
- 주기적으로 데이터 수집을 통한 모델 업데이트를 해주어야 한다. : 모델 업데이트 자동화


## 실습에 들어가기에 앞서 기억할 점 (2)
- 어느 시점이 되면 너무나 많은 테이블들이 존재하게 됨
    - 회사 성장과 밀접한 관련
    - 중요 테이블들이 무엇이고 그것들의 메타 정보를 잘 관리하는 것이 중요해짐
- 그 시점부터는 Data Discovery 문제들이 생겨남
    - 무슨 테이블에 내가 원하고 신뢰할 수 있는 정보가 들어있나?
    - 테이블에 대해 질문을 하고 싶은데 누구에게 질문을 해야하나?
-이 문제를 해결하기 위한 다양한 오픈소스와 서비스들이 출현
    - DataHub (LinkedIn), Amundsen (Lyft), $\cdots$
    - Select Star, DataFrame, $\cdots$

# SELECT
    - Redshift 액세스 정보는 아래와 같음
•§1E: learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.com
    - 포트번호: 5439
    - 사용자 ID: guest
    - 패스워드: Guest1!*
    - 접속 DB: dev

## SELECT (1)
- 테이블(들)에서 레코드들(혹은 레코드수)을 읽어오는데 사용
- WHERE를 사용해 조건을 만족하는 레코드
```sql
SELECT 필드이름1, 필드이름2,··· FROM 테이블이름
WHERE 선택조건
GROUP BY 필드이름1, 필드이름2, .-.
ORDER BY 필드이름 [ASC|DESC] -- 필드 이름 대신에 숫자 사용 가능
LIMIT N;
```

## SELECT (2)
```sql
SELECT *
FROM raw_data.user_session_channel;
```
![image.png](attachment:image.png)

##  SELECT (3)
```sql
SELECT userld, sessionld, channel FROM raw_data.user_session_channel
SELECT *
FROM raw_data.user_session_channel
LIMIT 10;
```

## SELECT (4)
- 유일한 채널 이름을 알고 싶은 경우
```sql
SELECT DISTINCT channel
FROM raw_data.user_session _channel;
```
- 채널별 카운트를 하고 싶은 경우. COUNT 함수!!
```sql
SELECT channel, COUNT(1)
FROM raw_data.user_session_channel
GROUP BY 1;
```

##  SELECT (5)
- 테이블의 모든 레코드 수 카운트. `COUNT(*)` 하나의 레코드 
```sql
SELECT COUNT(1)
FROM raw_data.user_session_channel;
```
- **특정 열에 값만 참조** : channel 이름이 Facebook경우만 고려해서 레코드수 카운트
```sql
SELECT COUNT(1)
FROM raw_data.user_session_channel
WHERE channel ='Facebook'; 
```

## CASE WHEN
- 필드 값의 변환을 위해 사용 가능
    - CASE WHEN 조건 THEN 참일때 값 ELSE 거짓일때 값 END 필드이름
- 여러 조건을 사용하여 변환하는 것도 가능
```sql
CASE
WHEN 조건1 THEN 값1
WHEN 조건2 THEN 값2
ELSE 값3
END 필드이름
```
```sql
SELECT CASE
WHEN channel in (Facebook', 'Instagram') THEN 'Social-Media' WHEN channel in ("Google', 'Naver') THEN 'Search-Engine'
ELSE 'Something-Else'
END channel_type
FROM raw_data.user_session_channel;
```

# NULL이란?
- 값이 존재하지 않음을 나타내는 상수. 0 혹은 과는 다름
- 필드 지정시 값이 없는 경우 NULL로 지정 가능
    - 테이블 정의시 디폴트 값으로도 지정 가능
- 어떤 필드의 값이 NULL인지 아닌지 비교는 특수한 문법을 필요로 함
    - field1 is NULL 혹은 field1 is not NULL
- NULL이 사칙연산에 사용되면 그 결과는?
    - SELECT 0 + NULL, 0 - NULL, 0 * NULL, O/NULL

# COUNT 함수 제대로 이해하기
![image-2.png](attachment:image-2.png)
- $A1.$ 7
- $A2.$7
- $A3.$0 : COUNT - 주어진 인자값이 NULL이면 -> 0, NULL이 아니면 1씩 더함.
- $A4.$ 6 : NULL이 아닌거만 셈
- $A5.$ 4 : NULL을 제외한 값의 고유한 개수만 count



# WHERE
- IN
    - WHERE channel in (Google', "Youtube")
        - WHERE channel ='Google' OR channel = Youtube
    - NOT IN
- LIKE and ILIKE
    - LIKE is a case sensitive string match. ILIKE is a case-insensitive string match
    - WHERE channel LIKE 'G%' -> 'G* : 채널 중 G로 시작하는 모든 채널
    - WHERE channel LIKE %o%'->'*o*' : 채널 중 중간에 o가 들어가는 모든 채널
    - NOT LIKE or NOT ILIKE
- BETWEEN
    - Used for date range matching
- 위의 오퍼레이터들은 CASE WHEN 사이에서도 사용가능

# IN & LIKE/ILIKE
```sql
SELECT COUNT(1)
FROM raw_data.user_session_channel
WHERE channel in ('Google', 'Facebook');
```
```sql
SELECT COUNT(1)
FROM raw_data.user_session_channel
WHERE channel ilike "Google' or channel ilike 'Facebook';
```
```sql
SELECT DISTINCT channel
FROM raw_data.user_session_channel
WHERE channel ILIKE %0%';
```
```sql
SELECT DISTINCT channel
FROM raw_data.user_session_channel
WHERE channel NOT ILIKE %0%';
```

# STRING Functions
![image.png](attachment:image.png)

- `LPAD, RPAD` : 좌측 혹은 우측에 문자를 그대로 이어 붙임.
- `SUBSTRING` : 시작점, 끝점까지 추출하기.

# ORDER BY
- Default ordering is ascending
    - ORDER BY 1 ASC
- Descending requires "DESC"
    - ORDER BY 1 DESC
- Ordering by multiple columns:
    - ORDER BY 1 DESC, 2, 3
- NULL 값 순서는?
    - NULL 값들은 오름차순 일 경우 (ASC), 마지막에 위치함
    - NULL 값들은 내림차순 일 경우 (DESC) 처음에 위치함 
    - 이를 바꾸고 싶다면 NULLS FIRST 혹은 NULLS LAST를 사용

# 타입 변환
- DATE Conversion:
    - 타임존 관련 변환
    - CONVERT_TIMEZONE(America/Los Angeles', ts)
    - select pg_timezone_names();

- DATE, TRUNCATE 
- DATE_TRUNC
    - 첫번째 인자가 어떤 값을 추출하는지 지정 (Week, month, day, ...)
    - EXTRACT or DATE_PART: 날짜시간에서 특정 부분의 값을 추출가능
    - DATEDIFF

    - DATEADD
    - GET_CURRENT, $\cdots$
- TO_CHAR, TO_TIMESTAMP

# Type Casting
- 1/2의 결과는?
    - 0이 됨. 정수간의 연산은 정수가 되어야하기 때문
        - 분자나 분모 중의 하나를 float로 캐스팅해야 0.5가 나옴
        - 이는 프로그래밍 언어에서도 일반적으로 동일하게 동작함
    - 뒤에서 예제를 살펴볼 예정
- :: 오퍼레이터를 사용
    - category::float
- cast 함수를 사용
    - cast(category as float)