## 4.5 EDA

### 새로운 컬럼 만들기

```
SELECT DISTINCT *column*, (*column2* + *column3*)/2 as avg
FROM *table_name*;
```

### 중복 제거
```
SELECT DISTINCT *column*
FROM *table_name*;
```

### 조건식

#### WHERE
단순 조건식
```
SELECT * 
FROM
  *table_name* 
WHERE 
  column != -1;
```
<br>

여러 조건식
```
SELECT * 
FROM 
  *table_name* 
WHERE 
  *column1* != -1 and *column2* >= 10 or *column3* < 100;
```
<br>

조건식 범위 지정 방법
```
WHERE 
  *column* BETWEEN 0 AND 10;
WHERE 
  *column* NOT BETWEEN 0 AND 10;

WHERE 
  *column* IN (0, 1, 10);
WHERE 
  *column* NOT IN (0, 1, 10);
```
<br>

문자열 검색
_: 몇 글자인지 정해줌 <br>
%: 몇 글자인지 정해주지 않음 <br>
```
WHERE 
  *column* LIKE *pattern*;
WHERE 
  *column* NOT LIKE *pattern;
```
<br>

패턴의 종류는 아래와 같음

```
LIKE '200%': 200으로 시작하는 값
LIKE '%200': 200으로 끝나는 값
LIKE '%200%': 200이 포함되는 값
LIKE '_0_': 가운데가 0이 들어가는 3자리 값
LIKE '_1': x1로 끝나는 값
LIKE '_200%': 200 앞에는 어떠한 문자도 상관 없으며 200이 포함된 문자열

```

#### CASE WHEN
조건에 따라 다른 값을 보여줄 때 사용
```
CASE 
  WHEN 
    condition_1 THEN result_1
  WHEN 
    condition_2 THEN result_2
  ...
  END AS *new_column name*

```

### 집계함수

count: row의 개수 반환
```
SELECT count(*) FROM *table_name*;
```
<br>

sum: 합계 반환
```
SELECT sum(*column*) FROM *table_name*;
```
<br>

avg: 평균 반환
```
SELECT avg(*column*) FROM *table_name*;
```
<br>

max: 최댓값 반환
```
SELECT max(*column*) FROM *table_name*;
```
<br>

min: 최솟값 반환
```
SELECT min(*column*) FROM *table_name*;
```

<br>
<br>
<br>

주의: 집계함수는 where 절에 나올 수 없음
```
SELECT id FROM news WHERE news_count = max(news_count);
```
<br>

위의 쿼리는 아래와 같이 수정해야 함
```
SELECT id FROM news
WHERE news_count = (SELECT max(news_count) FROM news);
```

### 정렬

컬럼을 기준으로 오름차순 혹은 내림차순으로 정렬

오름차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column*;
```
<br>

내림차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column* DESC;
```
<br>
<br>

GROUP BY 뒤에는 집계 함수도 들어갈 수 있음
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  sum(*column*) DESC;
```

### GROUP BY
행을 특정 그룹으로 묶음

```
SELECT 
  *column*
FROM 
  *table_name*
GROUP BY
	*column*;
```

### RANK

RANK: 전체 순위를 집계
```
SELECT id, press_name, news_count,
       RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```
<br>

DENSE_RANK: 집합 내 순위를 집계 <br>
중복 발생 시 다음 순위를 생략하지 않음 <br>
(1, 1, 2)
```
SELECT id, press_name, news_count,
       DENSE_RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```

### JOIN

(INNER)JOIN<br>
같은 값이 있는 행만 반환
```
SELECT *column1*, *column2*
FROM press_ids as p
JOIN news as n
ON *p.column1* = *n.column1*';
```

LEFT JOIN<br>
왼쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
LEFT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

RIGHT JOIN<br>
오른쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

FULL JOIN
오른쪽 테이블과 왼쪽 테이블 매칭
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

CROSS JOIN: Table1과 Table2의 모든 행을 JOIN (별도의 키를 지정하지 않음)
```
SELECT *column1*, *column2*
FROM press_ids as p
CROSS JOIN news as n;
```