# 7.DataBase



> DB(DataBase): 구조화된 정보 또는 데이터의 조직화된 모음  
DBMS(DataBase Management System): 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해 주고 데이터베이스를 관리해 주는 소프트웨어  
RDBMS(Relational DataBase Management System): 테이블과 다른 테이블이 관계를 맺고 모여있는 집합체  
SQL(Structured Query Language): 관계형 데이터베이스에서 사용되는 언어로 데이터를 쿼리, 조작 및 정의하고 액세스 제어를 제공  

## 7.1 PostgreSQL

오픈소스 RMDBS의 한 종류

## 7.2 기본 커맨드
접속
```
psql -U postgres
```
<br>

종료
```
\q
```
<br>

DB 조회
```
\l or \list  
```
<br>

유저 조회
```
\du
```  
<br>

테이블 조회
```
\dt(+)
```
<br>

테이블 정보 조회
```
\d *table_name*
```  
<br>

테이블 접근
 ```
 \c *table_name*
 ```

## 7.3 테이블 커맨드

생성
```
CREATE TABLE *table_name*  
(  
  id SERIAL PRIMARY KEY,  
  press_name VARCHAR(10) UNIQUE NOT NULL  
);
```
<br>

삭제
```
DROP TABLE *table_name*;
```
<br>

컬럼 추가
```
ALTER TABLE *table_name* ADD COLUMN *column* varchar(10);
```
<br>

컬럼 삭제
```
ALTER TABLE *table_name* DROP COLUMN *column*;
```
<br>

컬럼 이름 변경
```
ALTER TABLE *table_name* RENAME COLUMN *current_column* TO *new_column*;
```
<br>

컬럼 타입 변경
```
ALTER TABLE *table_name* ALTER COLUMN *column* TYPE *data_type*;
```

## 7.4 CRUD

Create<br>
테이블 전체 컬럼 순서대로 데이터 입력
```
INSERT INTO *table_name* 
VALUES (
  *value1*,
  *value2*,
  ...
)
```
<br>

테이블 특정 컬럼 데이터 입력
```
INSERT INTO *table_name*
(
  *column1*,
  *column2*
)
VALUES
(
  *value1*,
  *value2*
);
```
<br>

Read
```
SELECT * FROM *table_name* # 모든 컬럼 조회
SELECT *column_name1, column_name2, ...* FROM *table_name* # 특정 컬럼 조회
```
<br>

Update<br>
일반적으로는 where절과 같이 사용
```
UPDATE *table_name* SET *column_name* = *value*
```
<br>

Delete<br>
일반적으로는 where절과 같이 사용
```
DROP FROM *table_name* # 전체 테이블 내용 삭제
```
<br>


## 7.5 EDA

### 새로운 컬럼 만들기

```
SELECT DISTINCT *column*, (*column2* + *column3*)/2 as avg
FROM *table_name*;
```

### 중복 제거
```
SELECT DISTINCT *column*
FROM *table_name*;
```

### 조건식

#### WHERE
단순 조건식
```
SELECT * 
FROM
  *table_name* 
WHERE 
  column != -1;
```
<br>

여러 조건식
```
SELECT * 
FROM 
  *table_name* 
WHERE 
  *column1* != -1 and *column2* >= 10 or *column3* < 100;
```
<br>

조건식 범위 지정 방법
```
WHERE 
  *column* BETWEEN 0 AND 10;
WHERE 
  *column* NOT BETWEEN 0 AND 10;

WHERE 
  *column* IN (0, 1, 10);
WHERE 
  *column* NOT IN (0, 1, 10);
```
<br>

문자열 검색
_: 몇 글자인지 정해줌 <br>
%: 몇 글자인지 정해주지 않음 <br>
```
WHERE 
  *column* LIKE *pattern*;
WHERE 
  *column* NOT LIKE *pattern;
```
<br>

패턴의 종류는 아래와 같음

```
LIKE '200%': 200으로 시작하는 값
LIKE '%200': 200으로 끝나는 값
LIKE '%200%': 200이 포함되는 값
LIKE '_0_': 가운데가 0이 들어가는 3자리 값
LIKE '_1': x1로 끝나는 값
LIKE '_200%': 200 앞에는 어떠한 문자도 상관 없으며 200이 포함된 문자열

```

#### CASE WHEN
조건에 따라 다른 값을 보여줄 때 사용
```
CASE 
  WHEN 
    condition_1 THEN result_1
  WHEN 
    condition_2 THEN result_2
  ...
  END AS *new_column name*

```

### 집계함수

count: row의 개수 반환
```
SELECT count(*) FROM *table_name*;
```
<br>

sum: 합계 반환
```
SELECT sum(*column*) FROM *table_name*;
```
<br>

avg: 평균 반환
```
SELECT avg(*column*) FROM *table_name*;
```
<br>

max: 최댓값 반환
```
SELECT max(*column*) FROM *table_name*;
```
<br>

min: 최솟값 반환
```
SELECT min(*column*) FROM *table_name*;
```

<br>
<br>
<br>

주의: 집계함수는 where 절에 나올 수 없음
```
SELECT id FROM news WHERE news_count = max(news_count);
```
<br>

위의 쿼리는 아래와 같이 수정해야 함
```
SELECT id FROM news
WHERE news_count = (SELECT max(news_count) FROM news);
```

### 정렬

컬럼을 기준으로 오름차순 혹은 내림차순으로 정렬

오름차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column*;
```
<br>

내림차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column* DESC;
```
<br>
<br>

GROUP BY 뒤에는 집계 함수도 들어갈 수 있음
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  sum(*column*) DESC;
```

### GROUP BY
행을 특정 그룹으로 묶음

```
SELECT 
  *column*
FROM 
  *table_name*
GROUP BY
	*column*;
```

### RANK

RANK: 전체 순위를 집계
```
SELECT id, press_name, news_count,
       RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```
<br>

DENSE_RANK: 집합 내 순위를 집계 <br>
중복 발생 시 다음 순위를 생략하지 않음 <br>
(1, 1, 2)
```
SELECT id, press_name, news_count,
       DENSE_RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```

### JOIN

from 기준이 left<br>
(INNER)JOIN<br>
같은 값이 있는 행만 반환
```
SELECT *column1*, *column2*
FROM press_ids as p
JOIN news as n
ON *p.column1* = *n.column1*';
```

LEFT JOIN<br>
왼쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
LEFT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

RIGHT JOIN<br>
오른쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

FULL JOIN
오른쪽 테이블과 왼쪽 테이블 매칭
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

CROSS JOIN: Table1과 Table2의 모든 행을 JOIN (별도의 키를 지정하지 않음)
```
SELECT *column1*, *column2*
FROM press_ids as p
CROSS JOIN news as n;
```

## 7.6 Database Link in Python

### psycopg2

설치
```cmd
pip install psycopg2
pip install psycopg2-binary #위의 설치 에러 시 이 코드 실행
```
<br>

사용법
```python
conn = psycopg2.connect(
  host='address',
  dbname='database name',
  user='user name',
  password='password',
  port=port

cur = conn.cursor()
```

CRUD
```python
cur.execute(f'INSERT INTO test (id, press_name) VALUES ({id}, {press_name});')
conn.commit() # CREATE

cur.execute('SELECT * FROM test;')
result_one = cur.fetchone() # READ
result_many = cur.fetchmany() 
result_all = cur.fetchall() 

cur.execute(f'UPDATE test SET press_name={press_name} WHERE id > 5')
conn.commit() # UPDATE

cur.execute('DELETE FROM test WHERE press_name LIKE %조선%;')
conn.commit() # DELETE
```
<br>

pandas 내의 method를 통해서도 사용 가능
```python
pd.read_sql('SELECT * FROM test', conn)
```
<br>

Closer <br>
사용 후 연결 해제 <br>
```python
cur.close()
conn.close()
```
<br>

아래와 같이 사용 가능
```python
with conn.cursor() as cur:
  cur.execute(query)

conn.close()

with psycopg2.connect():
  with conn.cursor() as cur:
    cur.execute(query)
```

In [1]:
!pip install pyscop2

ERROR: Could not find a version that satisfies the requirement pyscop2 (from versions: none)
ERROR: No matching distribution found for pyscop2


In [2]:
!pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.5-cp39-cp39-win_amd64.whl (1.2 MB)
     ---------------------------------------- 1.2/1.2 MB 18.7 MB/s eta 0:00:00
Installing collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.5


In [88]:
import psycopg2 as pg2
import pandas as pd
from tqdm import tqdm
from sqlalchemy import create_engine

In [89]:
comn = psycopg2.connect(
    host = 'localhost',
    dbname = 'postgres',
    user = 'postgres',
    password = 'postgrespw',
    port = 49153
)

cur = comn.cursor()

In [90]:
cur.execute('SELECT * FROM NEWS_ID;')

In [91]:
cur.fetchall()

[('41 ', '동아일보'), ('15 ', '조선일보'), ('15 ', '매일경제'), ('15 ', '매일경제')]

In [92]:
pd.read_sql('SELECT * FROM NEWS_ID', comn)



Unnamed: 0,oid,press_name
0,41,동아일보
1,15,조선일보
2,15,매일경제
3,15,매일경제


In [93]:
oid = '015'
press_name = '매일경제'

In [94]:
cur.execute(f"INSERT INTO news_id VALUES ({oid},'{press_name}');")
comn.commit()

In [95]:
pd.read_sql('SELECT * FROM NEWS_ID', comn)



Unnamed: 0,oid,press_name
0,41,동아일보
1,15,조선일보
2,15,매일경제
3,15,매일경제
4,15,매일경제


In [96]:
import requests
from bs4 import BeautifulSoup

In [97]:
# 함수화
def bs_object_from_url(url):
    response = requests.get(url, headers={'User-Agent': 'Mozilla 5.0'})
    bs = BeautifulSoup(response.text, 'lxml')

    return bs

def get_contents_from_rul(url):
    bs = bs_object_from_url(url)

    if bs.select('#contents'):
        return bs_object_from_url(url).select('#contents')[0].text.strip()

    if bs.select('.content'):
        return bs_object_from_url(url).select('.content')[0].text.strip()

    return -1

# 날짜, 신문사, 페이지 정보를 입력하여 해당 주소의 값 반환
def crawl_news(date, oid, page):
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
    bs_page = bs_object_from_url(url)

    title_and_content_links = bs_page.select('dt > a')[1::2]
    titles =  [title_and_content_link.text.strip() for title_and_content_link in title_and_content_links]
    content_urls = [title_and_content_link.get('href') for title_and_content_link in title_and_content_links]
    contents = [get_contents_from_rul(url) for url in content_urls]

    temp = pd.DataFrame({
        'date': date,
        'press_name': oid,
        'title': titles,
        'content': contents,
        'content_url': content_urls
    })

    return temp

In [98]:
news = crawl_news('20221210','015',1)

In [99]:
for row in tqdm(news.itertuples()) :
    title = row.title.replace("'",'"')
    content = row.content.replace("'",'"')
    query = f"INSERT INTO news VALUES ('{row.date}','{row.press_name}','{title}','{content}','{row.content_url}');"

    cur.execute(query)
    comn.commit()

22it [00:00, 33.73it/s]


In [100]:
pd.read_sql('SELECT * FROM news', comn)



Unnamed: 0,date,oid,title,content,content_url
0,20221210,15,"5년간 멈췄던 ""한빛 4호기"" 재가동","원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,15,"부결 하루 만에…""한전채 확대법"" 재추진하는 국회","전기료 인상 등 ""전력대란"" 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,15,"이태원 참사 유가족협의회 출범…권성동 ""세월호"" 언급 논란","사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,15,"오열하던 네이마르 위로한 소년, 정체 알고 보니 ""반전""",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,15,"1045회 로또 1등 ""6, 14, 15, 19, 21, 41""…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 ""6, 14, 15, 19, 21, 41""이...",https://n.news.naver.com/mnews/article/015/000...
5,20221210,15,"""이러다 카뱅 꼴 나는 거 아냐?""…LG엔솔 직원들 ""멘붕"" [박의명의 불개미 구조대]",사진=뉴스1대박의 꿈을 품고 우리사주에 투자했던 LG에너지솔루션 직원들이 멘붕에 걸...,https://n.news.naver.com/mnews/article/015/000...
6,20221210,15,"브라질 월드컵 탈락에 소환된 ""고양이의 저주""…왜?",사진=AFP2022 카타르 월드컵의 강력한 우승 후보였던 브라질의 탈락을 두고 해외...,https://n.news.naver.com/mnews/article/015/000...
7,20221210,15,"이런 몸으로 헤딩까지…""손흥민 월드컵 출전은 도박이었다""",사진=연합뉴스손흥민이 몸 상태가 예상보다 훨씬 좋지 않다는 영국 의학전문가의 의견이...,https://n.news.naver.com/mnews/article/015/000...
8,20221210,15,[속보] 이상민 해임안 내일 본회의 표결…예산안은 15일 합의처리,이상민 행정안전부 장관/사진=연합뉴스국회는 오는 11일 오전 본회의를 열어 더불어민...,https://n.news.naver.com/mnews/article/015/000...
9,20221210,15,"""캡틴 조로""부터 ""한반두""까지…월드컵에 들썩인 한국 [이슈+]",2022 카타르 월드컵국내 화제의 순간 모음\n\n\n\n12년 만의 월드컵 16강...,https://n.news.naver.com/mnews/article/015/000...


In [126]:
USERNAME = 'postgres'
PASSWORD = 'postgrespw'
DB_HOST = 'localhost'
PORT = 49153
DB_NAME = 'postgres'

db_url = f'postgresql://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)


In [127]:
news = crawl_news('20221210','023',1)

In [129]:
news.rename(columns={'press_name':'oid'}, inplace=True)

In [123]:
news

Unnamed: 0,date,oid,title,content,content_url
0,20221210,15,5년간 멈췄던 '한빛 4호기' 재가동,"원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,15,부결 하루 만에…'한전채 확대법' 재추진하는 국회,"전기료 인상 등 '전력대란' 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,15,이태원 참사 유가족협의회 출범…권성동 '세월호' 언급 논란,"사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,15,"오열하던 네이마르 위로한 소년, 정체 알고 보니 '반전'",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,15,"1045회 로또 1등 '6, 14, 15, 19, 21, 41'…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 '6, 14, 15, 19, 21, 41'이...",https://n.news.naver.com/mnews/article/015/000...
5,20221210,15,"""이러다 카뱅 꼴 나는 거 아냐?""…LG엔솔 직원들 '멘붕' [박의명의 불개미 구조대]",사진=뉴스1대박의 꿈을 품고 우리사주에 투자했던 LG에너지솔루션 직원들이 멘붕에 걸...,https://n.news.naver.com/mnews/article/015/000...
6,20221210,15,브라질 월드컵 탈락에 소환된 '고양이의 저주'…왜?,사진=AFP2022 카타르 월드컵의 강력한 우승 후보였던 브라질의 탈락을 두고 해외...,https://n.news.naver.com/mnews/article/015/000...
7,20221210,15,"이런 몸으로 헤딩까지…""손흥민 월드컵 출전은 도박이었다""",사진=연합뉴스손흥민이 몸 상태가 예상보다 훨씬 좋지 않다는 영국 의학전문가의 의견이...,https://n.news.naver.com/mnews/article/015/000...
8,20221210,15,[속보] 이상민 해임안 내일 본회의 표결…예산안은 15일 합의처리,이상민 행정안전부 장관/사진=연합뉴스국회는 오는 11일 오전 본회의를 열어 더불어민...,https://n.news.naver.com/mnews/article/015/000...
9,20221210,15,'캡틴 조로'부터 '한반두'까지…월드컵에 들썩인 한국 [이슈+],2022 카타르 월드컵국내 화제의 순간 모음\n\n\n\n12년 만의 월드컵 16강...,https://n.news.naver.com/mnews/article/015/000...


In [130]:
news.to_sql(
  'news',
  engine,
  if_exists='append',
  index=False
)

2022-12-11 12:09:22,049 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where pg_catalog.pg_table_is_visible(c.oid) and relname=%(name)s
2022-12-11 12:09:22,052 INFO sqlalchemy.engine.Engine [cached since 30.3s ago] {'name': 'news'}
2022-12-11 12:09:22,056 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-12-11 12:09:22,057 INFO sqlalchemy.engine.Engine INSERT INTO news (date, oid, title, content, content_url) VALUES (%(date)s, %(oid)s, %(title)s, %(content)s, %(content_url)s)
2022-12-11 12:09:22,058 INFO sqlalchemy.engine.Engine [generated in 0.00130s] ({'date': '20221210', 'oid': '023', 'title': '원칙이 이겼다, 화물연대 16일만에 백기', 'content': '62% 찬성으로 파업 철회, 부산본부는 아예 투표없이 복귀대통령실 “천문학적 피해… 안전운임제도 개선 계기돼야”\n\n\n\n누구를 위한 파업이었나 - 9일 오후 경기 의왕시 내륙컨테이너기지 앞에서 민주노총 화물연대 소속의 한 조합원이 화물차에 걸려 있던 총파업 관련 ... (2904 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n

21

In [125]:
pd.read_sql('SELECT * FROM news', comn)



Unnamed: 0,date,oid,title,content,content_url
0,20221210,015,"5년간 멈췄던 ""한빛 4호기"" 재가동","원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,015,"부결 하루 만에…""한전채 확대법"" 재추진하는 국회","전기료 인상 등 ""전력대란"" 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,015,"이태원 참사 유가족협의회 출범…권성동 ""세월호"" 언급 논란","사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,015,"오열하던 네이마르 위로한 소년, 정체 알고 보니 ""반전""",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,015,"1045회 로또 1등 ""6, 14, 15, 19, 21, 41""…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 ""6, 14, 15, 19, 21, 41""이...",https://n.news.naver.com/mnews/article/015/000...
...,...,...,...,...,...
71,20221210,015,"""한국인들 1~2살씩 어려진다""…외신도 덩달아 '떠들썩'","가수 싸이 /사진=한경DB내년 6월부터 사법, 행정 분야에서 '만 나이'가 사용되는...",https://n.news.naver.com/mnews/article/015/000...
72,20221210,015,"'반려동물 달력' 만든 文에…與 ""풍산개는 버리면서 모순""",문재인 전 대통령과 반려동물들의 삽화가 담긴 달력 이미지 /사진=텀블벅 캡처국민의힘...,https://n.news.naver.com/mnews/article/015/000...
73,20221210,015,콧대 높은 아이폰 '10년 고집' 꺾이나…관심 쏟아지는 이유 [배성수의 다다IT선],사진=맥루머스애플이 이르면 내년부터 아이폰에도 USB-C타입 충전기를 수용할 것으로...,https://n.news.naver.com/mnews/article/015/000...
74,20221210,015,"이재명 ""한 점 부끄러움 없다""…與 ""기출문제 예상 답변""",이재명 더불어민주당 대표 /사진=연합뉴스이재명 더불어민주당 대표가 최측근인 정진상 ...,https://n.news.naver.com/mnews/article/015/000...


In [115]:
oid = '022'
date = '20221210'
page = '1'

url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
bs_page = bs_object_from_url(url)

title_and_content_links = bs_page.select('dt > a')[1::2]

for title_and_content_link in tqdm(title_and_content_links[14:]) :
    title = title_and_content_link.text.strip()
    content_url = title_and_content_link.get('href')
    content = get_contents_from_rul(content_url)

    title = title.replace("'",'"')
    content = content.replace("'",'"') if content != -1 else content
    query = f"INSERT INTO news VALUES ('{date}','{oid}','{title}','{content}','{content_url}');"

    cur.execute(query)
    comn.commit()

100%|██████████| 9/9 [00:02<00:00,  4.46it/s]


In [119]:
news.to_csv('news.csv',index=False, encoding='utf-8-sig')

### sqlalchemy

설치
```cmd
pip install sqlalchemy
```
<br>

사용법
```python
from sqlalchemy import create_engine
from sqlalchemy.types import Integer, Text, String, DateTime

db_url = f'postgres+psycopg2://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

test.to_sql(
  'schema',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=False,
  chunksize=5000,
  dtypes={
    'id': Integer,
    'press_name': Text
  }
)
```