# 7.DataBase



> DB(DataBase): 구조화된 정보 또는 데이터의 조직화된 모음  
DBMS(DataBase Management System): 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해 주고 데이터베이스를 관리해 주는 소프트웨어  
RDBMS(Relational DataBase Management System): 테이블과 다른 테이블이 관계를 맺고 모여있는 집합체  
SQL(Structured Query Language): 관계형 데이터베이스에서 사용되는 언어로 데이터를 쿼리, 조작 및 정의하고 액세스 제어를 제공  

## 7.1 PostgreSQL

오픈소스 RMDBS의 한 종류

## 7.2 기본 커맨드
접속
```
psql -U postgres
```
<br>

종료
```
\q
```
<br>

DB 조회
```
\l or \list  
```
<br>

유저 조회
```
\du
```  
<br>

테이블 조회
```
\dt(+)
```
<br>

테이블 정보 조회
```
\d *table_name*
```  
<br>

테이블 접근
 ```
 \c *table_name*
 ```

## 7.3 테이블 커맨드

생성
```
CREATE TABLE *table_name*  
(  
  id SERIAL PRIMARY KEY,  
  press_name VARCHAR(10) UNIQUE NOT NULL  
);
```
<br>

삭제
```
DROP TABLE *table_name*;
```
<br>

컬럼 추가
```
ALTER TABLE *table_name* ADD COLUMN *column* varchar(10);
```
<br>

컬럼 삭제
```
ALTER TABLE *table_name* DROP COLUMN *column*;
```
<br>

컬럼 이름 변경
```
ALTER TABLE *table_name* RENAME COLUMN *current_column* TO *new_column*;
```
<br>

컬럼 타입 변경
```
ALTER TABLE *table_name* ALTER COLUMN *column* TYPE *data_type*;
```

## 7.4 CRUD

Create<br>
테이블 전체 컬럼 순서대로 데이터 입력
```
INSERT INTO *table_name* 
VALUES (
  *value1*,
  *value2*,
  ...
)
```
<br>

테이블 특정 컬럼 데이터 입력
```
INSERT INTO *table_name*
(
  *column1*,
  *column2*
)
VALUES
(
  *value1*,
  *value2*
);
```
<br>

Read
```
SELECT * FROM *table_name* # 모든 컬럼 조회
SELECT *column_name1, column_name2, ...* FROM *table_name* # 특정 컬럼 조회
```
<br>

Update<br>
일반적으로는 where절과 같이 사용
```
UPDATE *table_name* SET *column_name* = *value*
```
<br>

Delete<br>
일반적으로는 where절과 같이 사용
```
DROP FROM *table_name* # 전체 테이블 내용 삭제
```
<br>


## 7.5 EDA

### 새로운 컬럼 만들기

```
SELECT DISTINCT *column*, (*column2* + *column3*)/2 as avg
FROM *table_name*;
```

### 중복 제거
```
SELECT DISTINCT *column*
FROM *table_name*;
```

### 조건식

#### WHERE
단순 조건식
```
SELECT * 
FROM
  *table_name* 
WHERE 
  column != -1;
```
<br>

여러 조건식
```
SELECT * 
FROM 
  *table_name* 
WHERE 
  *column1* != -1 and *column2* >= 10 or *column3* < 100;
```
<br>

조건식 범위 지정 방법
```
WHERE 
  *column* BETWEEN 0 AND 10;
WHERE 
  *column* NOT BETWEEN 0 AND 10;

WHERE 
  *column* IN (0, 1, 10);
WHERE 
  *column* NOT IN (0, 1, 10);
```
<br>

문자열 검색
_: 몇 글자인지 정해줌 <br>
%: 몇 글자인지 정해주지 않음 <br>
```
WHERE 
  *column* LIKE *pattern*;
WHERE 
  *column* NOT LIKE *pattern;
```
<br>

패턴의 종류는 아래와 같음

```
LIKE '200%': 200으로 시작하는 값
LIKE '%200': 200으로 끝나는 값
LIKE '%200%': 200이 포함되는 값
LIKE '_0_': 가운데가 0이 들어가는 3자리 값
LIKE '_1': x1로 끝나는 값
LIKE '_200%': 200 앞에는 어떠한 문자도 상관 없으며 200이 포함된 문자열

```

#### CASE WHEN
조건에 따라 다른 값을 보여줄 때 사용
```
CASE 
  WHEN 
    condition_1 THEN result_1
  WHEN 
    condition_2 THEN result_2
  ...
  END AS *new_column name*

```

### 집계함수

count: row의 개수 반환
```
SELECT count(*) FROM *table_name*;
```
<br>

sum: 합계 반환
```
SELECT sum(*column*) FROM *table_name*;
```
<br>

avg: 평균 반환
```
SELECT avg(*column*) FROM *table_name*;
```
<br>

max: 최댓값 반환
```
SELECT max(*column*) FROM *table_name*;
```
<br>

min: 최솟값 반환
```
SELECT min(*column*) FROM *table_name*;
```

<br>
<br>
<br>

주의: 집계함수는 where 절에 나올 수 없음
```
SELECT id FROM news WHERE news_count = max(news_count);
```
<br>

위의 쿼리는 아래와 같이 수정해야 함
```
SELECT id FROM news
WHERE news_count = (SELECT max(news_count) FROM news);
```

### 정렬

컬럼을 기준으로 오름차순 혹은 내림차순으로 정렬

오름차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column*;
```
<br>

내림차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column* DESC;
```
<br>
<br>

GROUP BY 뒤에는 집계 함수도 들어갈 수 있음
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  sum(*column*) DESC;
```

### GROUP BY
행을 특정 그룹으로 묶음

```
SELECT 
  *column*
FROM 
  *table_name*
GROUP BY
	*column*;
```

### RANK

RANK: 전체 순위를 집계
```
SELECT id, press_name, news_count,
       RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```
<br>

DENSE_RANK: 집합 내 순위를 집계 <br>
중복 발생 시 다음 순위를 생략하지 않음 <br>
(1, 1, 2)
```
SELECT id, press_name, news_count,
       DENSE_RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```

### JOIN

(INNER)JOIN<br>
같은 값이 있는 행만 반환
```
SELECT *column1*, *column2*
FROM press_ids as p
JOIN news as n
ON *p.column1* = *n.column1*';
```

LEFT JOIN<br>
왼쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
LEFT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

RIGHT JOIN<br>
오른쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

FULL JOIN
오른쪽 테이블과 왼쪽 테이블 매칭
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

CROSS JOIN: Table1과 Table2의 모든 행을 JOIN (별도의 키를 지정하지 않음)
```
SELECT *column1*, *column2*
FROM press_ids as p
CROSS JOIN news as n;
```

## 7.6 Database Link in Python

In [21]:
pip install psycopg2

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [18]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine


In [13]:
conn = psycopg2.connect(
  host='localhost',
  dbname='postgres',
  user='postgres',
  password='postgrespw',
  port=49153
)
cur = conn.cursor()

In [6]:
cur.execute('SELECT * FROM news_count;')
cur.fetchall()

[(1, '2022-12-01', '1', 99),
 (2, '2022-12-01', '2', 95),
 (3, '2022-12-01', '3', 60),
 (4, '2022-12-01', '4', 85),
 (5, '2022-12-02', '1', 99),
 (6, '2022-12-02', '2', 62),
 (7, '2022-12-02', '3', 54),
 (8, '2022-12-02', '4', 82),
 (9, '2022-12-03', '1', 74),
 (10, '2022-12-03', '2', 90),
 (11, '2022-12-03', '3', 56),
 (12, '2022-12-03', '4', 96),
 (13, '2022-12-04', '1', 53),
 (14, '2022-12-04', '2', 59),
 (15, '2022-12-04', '3', 67),
 (16, '2022-12-04', '4', 63),
 (17, '2022-12-05', '1', 73),
 (18, '2022-12-05', '2', 77),
 (19, '2022-12-05', '3', 97),
 (20, '2022-12-05', '4', 81),
 (21, '2022-12-06', '1', 11),
 (22, '2022-12-06', '2', 15),
 (23, '2022-12-06', '3', 19),
 (24, '2022-12-06', '4', 21),
 (25, '2022-12-07', '1', 13),
 (26, '2022-12-07', '2', 14),
 (27, '2022-12-07', '3', 17),
 (28, '2022-12-07', '4', 10),
 (29, '2022-12-08', '1', 74),
 (30, '2022-12-08', '2', 95),
 (31, '2022-12-08', '3', 81),
 (32, '2022-12-08', '4', 60),
 (33, '2022-12-09', '1', 77),
 (34, '2022-12-09',

In [7]:
pd.read_sql('SELECT * FROM news_count;',conn)

  pd.read_sql('SELECT * FROM news_count;',conn)


Unnamed: 0,index,date,id,news_count
0,1,2022-12-01,1,99
1,2,2022-12-01,2,95
2,3,2022-12-01,3,60
3,4,2022-12-01,4,85
4,5,2022-12-02,1,99
5,6,2022-12-02,2,62
6,7,2022-12-02,3,54
7,8,2022-12-02,4,82
8,9,2022-12-03,1,74
9,10,2022-12-03,2,90


In [14]:
cur.execute(
  f"INSERT INTO user_id VALUES(7,'YTN');"
)
conn.commit()
#fail이뜨면 connection끊겨서 연결객체 다시연결해야함

In [15]:
press_id = 8
press_name = '경향신문'
cur.execute(
  f"INSERT INTO user_id VALUES({press_id},'{press_name}');"
)
conn.commit()

In [20]:
corpcode = pd.read_csv('../data/corpcode.csv')

In [22]:
#sqlalchemy -> data통으로 밀어넣기

from sqlalchemy import create_engine
from sqlalchemy.types import Integer, Text, String, DateTime

USERNAME='postgres'
PASSWORD='postgrespw'
DB_HOST='localhost'
PORT=49153
DB_NAME='postgres'

db_url = f'postgresql://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

corpcode.to_sql(
  'corpcoed',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=True,
  chunksize=5000
)

2023-05-07 13:23:55,933 INFO sqlalchemy.engine.Engine select pg_catalog.version()
2023-05-07 13:23:55,935 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-05-07 13:23:55,937 INFO sqlalchemy.engine.Engine select current_schema()
2023-05-07 13:23:55,938 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-05-07 13:23:55,940 INFO sqlalchemy.engine.Engine show standard_conforming_strings
2023-05-07 13:23:55,941 INFO sqlalchemy.engine.Engine [raw sql] {}
2023-05-07 13:23:55,945 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where pg_catalog.pg_table_is_visible(c.oid) and relname=%(name)s
2023-05-07 13:23:55,945 INFO sqlalchemy.engine.Engine [generated in 0.00095s] {'name': 'corpcoed'}
2023-05-07 13:23:55,951 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2023-05-07 13:23:55,952 INFO sqlalchemy.engine.Engine 
CREATE TABLE corpcoed (
	index BIGINT, 
	corp_code BIGINT, 
	corp_name TEXT, 
	stock_code TEXT, 
	modify_date BIGINT
)


2023-05-07 1

20519

In [23]:
corpcode.info

<bound method DataFrame.info of         corp_code           corp_name stock_code  modify_date
0          434003                  다코                20170630
1          434456                일산약품                20170630
2          430964               굿앤엘에스                20170630
3          432403                한라판지                20170630
4          388953   크레디피아제이십오차유동화전문회사                20170630
...           ...                 ...        ...          ...
100514     646510  미래에셋파트너스사호사모투자전문회사                20230228
100515    1184822      미래에셋파트너스9호사모투자                20230228
100516     755252                 시니안                20230228
100517     227582               청호나이스                20230228
100518    1615845              메타버스월드                20230228

[100519 rows x 4 columns]>

In [None]:
corpcode.to_csv('../data/corpcode.csv',index=False,encoding='utf-8-sig')

### psycopg2

설치
```cmd
pip install psycopg2
pip install psycopg2-binary #위의 설치 에러 시 이 코드 실행
```
<br>

사용법
```python
conn = psycopg2.connect(
  host='address',
  dbname='database name',
  user='user name',
  password='password',
  port=port

cur = conn.cursor()
```

CRUD
```python
cur.execute(f'INSERT INTO test (id, press_name) VALUES ({id}, {press_name});')
conn.commit() # CREATE

cur.execute('SELECT * FROM test;')
result_one = cur.fetchone() # READ
result_many = cur.fetchmany() 
result_all = cur.fetchall() 

cur.execute(f'UPDATE test SET press_name={press_name} WHERE id > 5')
conn.commit() # UPDATE

cur.execute('DELETE FROM test WHERE press_name LIKE %조선%;')
conn.commit() # DELETE
```
<br>

pandas 내의 method를 통해서도 사용 가능
```python
pd.read_sql('SELECT * FROM test', conn)
```
<br>

Closer <br>
사용 후 연결 해제 <br>
```python
cur.close()
conn.close()
```
<br>

아래와 같이 사용 가능
```python
with conn.cursor() as cur:
  cur.execute(query)

conn.close()

with psycopg2.connect():
  with conn.cursor() as cur:
    cur.execute(query)
```

### sqlalchemy

설치
```cmd
pip install sqlalchemy
```
<br>

사용법
```python
from sqlalchemy import create_engine
from sqlalchemy.types import Integer, Text, String, DateTime

db_url = f'postgres+psycopg2://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

test.to_sql(
  'schema',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=False,
  chunksize=5000,
  dtypes={
    'id': Integer,
    'press_name': Text
  }
)
```