# Install pakcages

In [None]:
!pip install pymysql    # mysql 연동을 위한 패키지
!pip install psycopg2   # postgresql 연동을 위한 패키지, 패키지 에러가 나면 psycopg2-binary로 설치
!pip install sqlalchemy # sqlalchemy 설치를 위한 패키지

In [None]:
import warnings
warnings.filterwarnings('ignore')

from tqdm import tqdm

import psycopg2
import pymysql
import pandas as pd

from sqlalchemy import create_engine

# DataBase



> DB(DataBase): 구조화된 정보 또는 데이터의 조직화된 모음  
DBMS(DataBase Management System): 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해 주고 데이터베이스를 관리해 주는 소프트웨어  
RDBMS(Relational DataBase Management System): 테이블과 다른 테이블이 관계를 맺고 모여있는 집합체  
SQL(Structured Query Language): 관계형 데이터베이스에서 사용되는 언어로 데이터를 쿼리, 조작 및 정의하고 액세스 제어를 제공  

## MySQL

오픈소스 RMDBS의 한 종류

### 기본 커맨드
접속
```
mysql -u root -p
```
<br>

종료
```
\q
```
<br>

DB 생성
```
CREATE DATABASES *DB명*;
```
<br>

DB 조회
```
SHOW DATABASES;
```
<br>

DB 사용
```
USE *DB명*;
```
<br>

유저 조회
```
SELECT user, host from user;
```  
<br>

테이블 조회
```
SHOW TABLES;
```
<br>

### 유저 커맨드

<span style="font-size:20px;">생성</span>

```sql
create user '사용자'@'host' identified by '비밀번호';

# 내부 접근을 허용하는 사용자 추가
create user '사용자'@'localhost' identified by '비밀번호';

# 외부 접근을 허용하는 사용자 추가
create user '사용자'@'%' identified by '비밀번호';

# 특정 ip만 접근을 허용하는 사용자 추가
create user '사용자'@'123.456.789.100' identified by '  비밀번호';

# 특정 ip 대역을 허용하는 사용자 추가
create user '사용자'@'192.168.%' identified by '비밀번호';
```

<br>

<span style="font-size:20px;">제거</span>

```sql
drop user '사용자';
# or
delete from user where user='사용자';
```

<br>

<span style="font-size:20px;">권한</span>

```sql
# 모든 데이터베이스의 모든 테이블에 모든 권한을 줌
grant all privileges on *.* to '사용자'@'localhost';

# 특정 데이터베이스의 모든 테이블에 모든 권한을 줌
grant all privileges on DB이름.* to '사용자'@'localhost';

# 특정 데이터베이스의 특정 테이블에 모든 권한을 줌
grant all privileges on DB이름.테이블명 to '사용자'@'localhost';

# 특정 데이터베이스의 특정 테이블에 select 권한을 줌
grant select on DB이름.테이블명 to '사용자'@'localhost';

# 특정 데이터베이스의 특정 테이블에 select, insert 권한을 줌
grant select, insert on DB이름.테이블명 to '사용자'@'localhost';

# 특정 데이터베이스의 특정 테이블의 컬럼1과 컬럼2의 update 권한을 줌
grant update(컬럼1, 컬럼2) on DB이름.테이블명 to '사용자'@'localhost';
```

<br>

<span style="font-size:20px;">생성+권한</span>

```sql
grant all privileges on *.* to '사용자'@'localhost' identified by '비밀번호';
```

<br>

<span style="font-size:20px;">권한 반영</span>

변경한 권한을 즉시 반영시키기 위해 아래 커맨드 실행

```sql
FLUSH PRIVILEGES;
```

## PostgreSQL

오픈소스 RMDBS의 한 종류

### 기본 커맨드
접속
```
psql -U postgres
```
<br>

종료
```
\q
```
<br>

DB 생성
```
CREATE DATABASE *DB명*;
```
<br>

DB 조회
```
\l or \list
```
<br>

유저 조회
```
\du
```  
<br>

테이블 조회
```
\dt(+)
```

<br>

테이블 정보 조회
```
\d *table name*
```

<br>

테이블 접근
```
\c *table name*
```

<br>

### 유저 커맨드

<span style="font-size:20px;">생성</span>

```sql
create user '사용자' password with '비밀번호';
```

<br>

<span style="font-size:20px;">제거</span>

```sql
drop user '사용자';
```

<br>

<span style="font-size:20px;">권한</span>

```sql
# 모든 데이터베이스의 모든 테이블에 모든 권한을 줌
grant all privileges on *.* to 사용자;

# 특정 데이터베이스의 모든 테이블에 모든 권한을 줌
grant all privileges on DB이름.* to 사용자;

# 특정 데이터베이스의 특정 테이블에 모든 권한을 줌
grant all privileges on DB이름.테이블명 to 사용자;

# 특정 데이터베이스의 특정 테이블에 select 권한을 줌
grant select on DB이름.테이블명 to 사용자;

# 특정 데이터베이스의 특정 테이블에 select, insert 권한을 줌
grant select, insert on DB이름.테이블명 to 사용자;

# 특정 데이터베이스의 특정 테이블의 컬럼1과 컬럼2의 update 권한을 줌
grant update(컬럼1, 컬럼2) on DB이름.테이블명 to 사용자;
```

<br>

<span style="font-size:20px;">생성+권한</span>

```sql
grant all privileges on *.* to 사용자 with password '비밀번호';
```

<br>

<span style="font-size:20px;">권한 반영</span>

변경한 권한을 즉시 반영시키기 위해 아래 커맨드 실행

```sql
FLUSH PRIVILEGES;
```

## 테이블 커맨드

생성
```
CREATE TABLE *table_name*  
(  
  id SERIAL PRIMARY KEY,  
  press_name VARCHAR(10) UNIQUE NOT NULL  
);
```
<br>

삭제
```
DROP TABLE *table_name*;
```
<br>

컬럼 추가
```
ALTER TABLE *table_name* ADD COLUMN *column* varchar(10);
```
<br>

컬럼 삭제
```
ALTER TABLE *table_name* DROP COLUMN *column*;
```
<br>

컬럼 이름 변경
```
ALTER TABLE *table_name* RENAME COLUMN *current_column* TO *new_column*;
```
<br>

컬럼 타입 변경
```
ALTER TABLE *table_name* ALTER COLUMN *column* TYPE *data_type*;
```

## CRUD

Create<br>
테이블 전체 컬럼 순서대로 데이터 입력
```
INSERT INTO *table_name* 
VALUES (
  *value1*,
  *value2*,
  ...
)
```
<br>

테이블 특정 컬럼 데이터 입력
```
INSERT INTO *table_name*
(
  *column1*,
  *column2*
)
VALUES
(
  *value1*,
  *value2*
);
```
<br>

Read
```
SELECT * FROM *table_name* # 모든 컬럼 조회
SELECT *column_name1, column_name2, ...* FROM *table_name* # 특정 컬럼 조회
```
<br>

Update<br>
일반적으로는 where절과 같이 사용
```
UPDATE *table_name* SET *column_name* = *value*
```
<br>

Delete<br>
일반적으로는 where절과 같이 사용
```
DROP FROM *table_name* # 전체 테이블 내용 삭제
```
<br>


## 테이블 정규화

![](https://velog.velcdn.com/images/wisdom-one/post/43aef4a5-c911-4217-a921-3b0934088326/image.png)

정규화는 테이블을 여러 개의 작은 테이블로 나누어 중복 데이터를 줄이고 데이터 무결성을 향상시키는 과정 <br>
각 테이블은 독립적인 데이터 집합을 저장하며, 이러한 테이블은 외래 키(foreign key) 등을 사용하여 서로 연결 <br>

<br>

<span style="font-size: 26px;">정규형</span>

정규화는 여러 단계로 나누어지며, 각 단계는 특정한 규칙을 따름 <br>
일반적으로 다음과 같은 정규형이 있으며 주로 3형 정규화까지 진행 <br>

<br>

<span style="font-size: 20px;">제1 정규형 (1NF, First Normal Form)</span>

테이블의 모든 필드가 원자적(atomic). 즉, 각 필드는 더 이상 나눌 수 없는 단일 값을 가짐 <br>
예를 들어, 한 칼럼에 여러 값을 저장하는 대신, 그 값을 분리하여 여러 칼럼 또는 행으로 분할

<br>

|student_id|student_name|phone_number|
|----------|------------|-------|
|1         |김철수       |010-1234-5678, 010-2345-6789|
|2         |이영희       |010-3456-7890|

--> <br>

|student_id|student_name|phone_number|
|----------|------------|-------|
|1         |김철수       |010-1234-5678|
|1         |김철수       |010-2345-6789|
|2         |이영희       |010-3456-7890|

<br>
<br>

<span style="font-size: 20px;">제2 정규형 (2NF, Second Normal Form)</span>

제1 정규형을 만족하면서, 모든 비주요 속성이 기본 키의 전체에 대해 완전히 함수 종속적 <br>
기본 키의 부분 집합에 종속되지 않아야 함 <br>
**부분 함수 종속을 제거**하고, 비주요 속성이 기본 키 전체에 종속되도록 테이블을 분리 <br>

> 부분 함수 종속 <br>
> 기본키 중에 특정 컬럼에만 종속 <br>
> 
> 완전 함수 종속 <br>
> 기본키의 부분집합이 결정자가 되어선 안 됨 <br>

<br>

![](https://velog.velcdn.com/images/wisdom-one/post/287cc94a-aed1-42f2-b9a5-aaa64c62e9be/image.png)

--> <br>

![](https://velog.velcdn.com/images/wisdom-one/post/7dfb58dc-70d9-4fea-8663-823c6e165cc2/image.png)

<br>

<span style="font-size: 20px;">제3 정규형 (3NF, Third Normal Form)</span>

제2 정규형을 만족하면서, 비주요 속성 간의 **전이적 종속 제거** <br>
비주요 속성이 다른 비주요 속성에 종속되지 않아야 함 <br>
비주요 속성이 기본 키 외의 다른 비주요 속성에 종속되는 경우 이를 제거하여 테이블을 분리 <br>

> 전이적 종속: A → B, B → C 일 때 A → C 를 만족

<br>

![](https://velog.velcdn.com/images/wisdom-one/post/1953d93d-5120-4d71-af80-4bd6b3f350df/image.png)

--> <br>

![](https://velog.velcdn.com/images/wisdom-one/post/7f0bfbd9-46da-429c-bf07-60c66642bd02/image.png)

<br>

<span style="font-size: 20px;">보이스-코드 정규형 (BCNF, Boyce-Codd Normal Form)</span>

제3 정규형을 만족하면서, 모든 결정자가 후보 키가 되어야 함. 즉, 테이블의 모든 결정자는 기본 키. <br>
제3 정규형보다 엄격한 조건으로, 기본 키가 아닌 결정자가 존재하는 경우 이를 해결 <br>

<br>

<span style="font-size: 20px;">제4 정규형 (4NF, Fourth Normal Form)</span>

**다중 값 종속 제거** <br>
한 속성이 다른 속성 집합에 다중 값 종속적이지 않아야 함 <br>

<br>

<span style="font-size: 20px;">제5 정규형 (5NF, Fifth Normal Form)</span>

**조인 종속을 제거**하고, 모든 관계가 조인 종속성에 의해 정의 <br>
테이블이 조인되는 방법으로만 데이터를 구성할 수 있도록 구성 <br>

## EDA

### 새로운 컬럼 만들기

```
SELECT DISTINCT *column*, (*column2* + *column3*)/2 as avg
FROM *table_name*;
```

### 중복 제거
```
SELECT DISTINCT *column*
FROM *table_name*;
```

### 결측치 처리
```
SELECT IFNULL(*column*, 대체할 값)
FROM *table_name*;
```

## 반올림
```
SELECT ROUND(column, 표현 자리 수)
FROM *table_name*;
```

## Date 관련 함수

### format 변환

```sql
SELECT DATE_FORMAT(column, '%Y-%m-%d') AS DATE_FORMAT
FROM *table_name*;
```

### 몇 번째 날인지 반환

```sql
SELECT
    DAYOFYEAR(date) # 주어진 date의 일자가 해당 연도에서 몇 번째 날인지 반환 (1~366)
    DAYOFMONTH(date) # 주어진 date의 일자가 해당 월에서 몇 번째 날인지 반환 (0~31)
    DAYOFWEEK(date) # 주어진 date의 일자가 해당 주에서 몇 번째 날인지 반환 (일요일=1, 토요일=7)
FROM
    *table name*
````

### 시간 정보 추출
DATE 자리에 아래의 함수 대체 가능
```
MONTH
DAY
HOUR
MINUTE
SECOND
WEEKDAY (0=월, 6=일)
LAST_DATE (주어진 컬럼에서 가장 최신 날짜 반환)
```

```sql
SELECT DATE(column)
FROM *table_name*;
```

### 현재 시각

```sql
SELECT 
    NOW(), CURRENT_TIMESTAMP() # 현재 날짜와 시간 반환
    CURDATE(), CURRENT_DATE() # 현재 날짜 반환
    CURTIME(), CURRENT_TIME() # 현재 시각 반환
FROM
    *table_name*;
```

### 시간 연산

```
ADDDATE(date, INTERVAL value addunit) # date에 value addunit 만큼 시간/날짜를 추가한 date를 반환(INTERVAL value addunit 대신 days도 가능)
ADDTIEM(datetime, addtime) # datetime에 addtime 만큼 시간을 추가한 datetime을 반환
SUBDATE(date, INTERVAL value unit) # date에 value addunit 만큼 시간/날짜를 뺀 date를 반환(INTERVAL value addunit 대신 days도 가능)
SUBTIEM(datetime, addtime) # datetime에 addtime 만큼 시간을 뺀 datetime을 반환
```

```sql
SELECT
    ADDDATE("2022-06-11", INTERVAL 10 DAY),
    ADDTIME("2022-06-11 12:34:56", "10 05:05")
FROM
    *table name*
````

### 두 시간 연산

```
PERIOD_DIFF(period1, period2) - 두 기간의 차이를 숫자로 반환 (period의 형식은 YYMM 또는 YYYYMM만 가능, period1과 period2는 같은 형식)
DATEDIFF(date1, date2) - 두 날짜 사이의 일수를 숫자로 반환
TIMEDIFF(time1, time2) - 두 시간의 차이를 datetime 형태로 반환
```

```sql
SELECT
    PERIOD_DIFF(202408, 202401)
    DATEDIFF(CURDATE(), '2024-08-05')
    TIMEDIFF('2024-08-05 12:34:56', '2024-08-05 12:34:56')
FROM
    *table name*
````

## 문자열 함수

### SUBSTR

문자열의 일부를 추출

```sql
SELECT SUBSTR(column a, b)  # a부터 b까지의 의미
FROM
  *table_name* 
WHERE 
  column != -1;
```

### CONCAT

문자열 결합

```sql
SELECT SUBSTR('abc', 'def')
FROM
  *table_name* 
```

### CONCAT

문자열 왼쪽에서 n개 추출

```sql
SELECT LEFT('abcdefg', 3)
FROM
  *table_name* 
```

### FORMAT

소숫점 자리수 범위 제한 <br>
천 단위 , 표시 <br>

```sql
SELECT FORMAT(1234.5678, 2) # -> 1,234.56
FROM
  *table_name* 
```

### UPPER, LOWER

대소문자 변환

```sql
SELECT UPPER('abcdef')
FROM
  *table_name* 
```

```sql
SELECT LOWER('abcdef')
FROM
  *table_name* 
```

### CHAR_LENGTH

문자열 길이 반환

```sql
SELECT CHAR_LENGTH('abcdef')
FROM
  *table_name* 
```

### 조건식

#### WHERE
단순 조건식
```
SELECT * 
FROM
  *table_name* 
WHERE 
  column != -1;
```
<br>

여러 조건식
```
SELECT * 
FROM 
  *table_name* 
WHERE 
  *column1* != -1 and *column2* >= 10 or *column3* < 100;
```
<br>

조건식 범위 지정 방법
```
WHERE 
  *column* BETWEEN 0 AND 10;
WHERE 
  *column* NOT BETWEEN 0 AND 10;

WHERE 
  *column* IN (0, 1, 10);
WHERE 
  *column* NOT IN (0, 1, 10);
```
<br>

문자열 검색
_: 몇 글자인지 정해줌 <br>
%: 몇 글자인지 정해주지 않음 <br>
```
WHERE 
  *column* LIKE *pattern*;
WHERE 
  *column* NOT LIKE *pattern;
```
<br>

패턴의 종류는 아래와 같음

```
LIKE '200%': 200으로 시작하는 값
LIKE '%200': 200으로 끝나는 값
LIKE '%200%': 200이 포함되는 값
LIKE '_0_': 가운데가 0이 들어가는 3자리 값
LIKE '_1': x1로 끝나는 값
LIKE '_200%': 200 앞에는 어떠한 문자도 상관 없으며 200이 포함된 문자열

```

#### CASE WHEN
조건에 따라 다른 값을 보여줄 때 사용
```
CASE 
  WHEN 
    condition_1 THEN result_1
  WHEN 
    condition_2 THEN result_2
  ...
  END AS *new_column name*

```

#### HAVING
WHERE절에는 집계 함수 등이 올 수 없으나 HAVING에는 가능 <br>
HAVING은 그룹화 이후의 데이터를 필터하는 데 사용하고, WHERE는 그룹화 이전 데이터 필터
```
HAVING b.ADDRESS LIKE '서울%'
HAVING AVG(mean) > 10
```

### 집계함수

count: row의 개수 반환
```
SELECT count(*) FROM *table_name*;
```
<br>

sum: 합계 반환
```
SELECT sum(*column*) FROM *table_name*;
```
<br>

avg: 평균 반환
```
SELECT avg(*column*) FROM *table_name*;
```
<br>

max: 최댓값 반환
```
SELECT max(*column*) FROM *table_name*;
```
<br>

min: 최솟값 반환
```
SELECT min(*column*) FROM *table_name*;
```

<br>
<br>
<br>

주의: 집계함수는 where 절에 나올 수 없음
```
SELECT id FROM news WHERE news_count = max(news_count);
```
<br>

위의 쿼리는 아래와 같이 수정해야 함
```
SELECT id FROM news
WHERE news_count = (SELECT max(news_count) FROM news);
```

### 정렬

컬럼을 기준으로 오름차순 혹은 내림차순으로 정렬

오름차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column*;
```
<br>

내림차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column* DESC;
```
<br>
<br>

GROUP BY 뒤에는 집계 함수도 들어갈 수 있음
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  sum(*column*) DESC;
```

### GROUP BY
행을 특정 그룹으로 묶음

```
SELECT 
  *column*
FROM 
  *table_name*
GROUP BY
	*column*;
```

### 변수 지정

sql에서 변수를 지정하여 사용

```
SET @variable_name = value;
````

### RANK

RANK: 전체 순위를 집계
```
SELECT id, press_name, news_count,
       RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```
<br>

DENSE_RANK: 집합 내 순위를 집계 <br>
중복 발생 시 다음 순위를 생략하지 않음 <br>
(1, 1, 2)
```
SELECT id, press_name, news_count,
       DENSE_RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```

### JOIN

![](https://phoenixnap.com/kb/wp-content/uploads/2021/04/join-types.png)

(INNER)JOIN<br>
같은 값이 있는 행만 반환
```
SELECT *column1*, *column2*
FROM press_ids as p
JOIN news as n
ON *p.column1* = *n.column1*';
```

LEFT JOIN<br>
왼쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
LEFT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

RIGHT JOIN<br>
오른쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

FULL JOIN
오른쪽 테이블과 왼쪽 테이블 매칭
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

CROSS JOIN: Table1과 Table2의 모든 행을 JOIN (별도의 키를 지정하지 않음)
```
SELECT *column1*, *column2*
FROM press_ids as p
CROSS JOIN news as n;
```

## Database Link in Python

### psycopg2

설치
```cmd
pip install psycopg2
pip install psycopg2-binary #위의 설치 에러 시 이 코드 실행
```
<br>

사용법
```python
conn = psycopg2.connect(
  host='address',
  dbname='database name',
  user='user name',
  password='password',
  port=port

cur = conn.cursor()
```

CRUD
```python
cur.execute(f'INSERT INTO test (id, press_name) VALUES ({id}, {press_name});')
conn.commit() # CREATE

cur.execute('SELECT * FROM test;')
result_one = cur.fetchone() # READ
result_many = cur.fetchmany() 
result_all = cur.fetchall() 

cur.execute(f'UPDATE test SET press_name={press_name} WHERE id > 5')
conn.commit() # UPDATE

cur.execute('DELETE FROM test WHERE press_name LIKE %조선%;')
conn.commit() # DELETE
```
<br>

pandas 내의 method를 통해서도 사용 가능
```python
pd.read_sql('SELECT * FROM test', conn)
```
<br>

Closer <br>
사용 후 연결 해제 <br>
```python
cur.close()
conn.close()
```
<br>

아래와 같이 사용 가능
```python
with conn.cursor() as cur:
  cur.execute(query)

conn.close()

with psycopg2.connect():
  with conn.cursor() as cur:
    cur.execute(query)
```

파이썬에서 데이터베이스로 데이터 올리기

네이버 뉴스 업로드

### sqlalchemy

설치
```cmd
pip install sqlalchemy
```
<br>

사용법
```python
from sqlalchemy import create_engine
from sqlalchemy.types import Integer, Text, String, DateTime

db_url = f'postgres+psycopg2://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

test.to_sql(
  'schema',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=False,
  chunksize=5000,
  dtypes={
    'id': Integer,
    'press_name': Text
  }
)
```

## Database Link to Streamlit

.streamlit 생성 -> secreets.toml 생성 후 아래 내용 입력 <br>

[.streamlit/secrets.toml]

```
[connections.mysql]
dialect = "mysql"
host = "localhost"
port = 3306
database = "xxx"
username = "xxx"
password = "xxx"
```