# 7.DataBase



> DB(DataBase): 구조화된 정보 또는 데이터의 조직화된 모음  
DBMS(DataBase Management System): 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해 주고 데이터베이스를 관리해 주는 소프트웨어  
RDBMS(Relational DataBase Management System): 테이블과 다른 테이블이 관계를 맺고 모여있는 집합체  
SQL(Structured Query Language): 관계형 데이터베이스에서 사용되는 언어로 데이터를 쿼리, 조작 및 정의하고 액세스 제어를 제공  

## 7.1 PostgreSQL

오픈소스 RMDBS의 한 종류

## 7.2 기본 커맨드
접속
```
psql -U postgres
```
<br>

종료
```
\q
```
<br>

DB 조회
```
\l or \list  
```
<br>

유저 조회
```
\du
```  
<br>

테이블 조회
```
\dt(+)
```
<br>

테이블 정보 조회
```
\d *table_name*
```  
<br>

테이블 접근
 ```
 \c *table_name*
 ```

## 7.3 테이블 커맨드

생성
```
CREATE TABLE *table_name*  
(  
  id SERIAL PRIMARY KEY,  
  press_name VARCHAR(10) UNIQUE NOT NULL  
);
```
<br>

삭제
```
DROP TABLE *table_name*;
```
<br>

컬럼 추가
```
ALTER TABLE *table_name* ADD COLUMN *column* varchar(10);
```
<br>

컬럼 삭제
```
ALTER TABLE *table_name* DROP COLUMN *column*;
```
<br>

컬럼 이름 변경
```
ALTER TABLE *table_name* RENAME COLUMN *current_column* TO *new_column*;
```
<br>

컬럼 타입 변경
```
ALTER TABLE *table_name* ALTER COLUMN *column* TYPE *data_type*;
```

## 7.4 CRUD

Create<br>
테이블 전체 컬럼 순서대로 데이터 입력
```
INSERT INTO *table_name* 
VALUES (
  *value1*,
  *value2*,
  ...
)
```
<br>

테이블 특정 컬럼 데이터 입력
```
INSERT INTO *table_name*
(
  *column1*,
  *column2*
)
VALUES
(
  *value1*,
  *value2*
);
```
<br>

Read
```
SELECT * FROM *table_name* # 모든 컬럼 조회
SELECT *column_name1, column_name2, ...* FROM *table_name* # 특정 컬럼 조회
```
<br>

Update<br>
일반적으로는 where절과 같이 사용
```
UPDATE *table_name* SET *column_name* = *value*
```
<br>

Delete<br>
일반적으로는 where절과 같이 사용
```
DROP FROM *table_name* # 전체 테이블 내용 삭제
```
<br>


## 7.5 EDA

### 새로운 컬럼 만들기

```
SELECT DISTINCT *column*, (*column2* + *column3*)/2 as avg
FROM *table_name*;
```

### 중복 제거
```
SELECT DISTINCT *column*
FROM *table_name*;
```

### 조건식

#### WHERE
단순 조건식
```
SELECT * 
FROM
  *table_name* 
WHERE 
  column != -1;
```
<br>

여러 조건식
```
SELECT * 
FROM 
  *table_name* 
WHERE 
  *column1* != -1 and *column2* >= 10 or *column3* < 100;
```
<br>

조건식 범위 지정 방법
```
WHERE 
  *column* BETWEEN 0 AND 10;
WHERE 
  *column* NOT BETWEEN 0 AND 10;

WHERE 
  *column* IN (0, 1, 10);
WHERE 
  *column* NOT IN (0, 1, 10);
```
<br>

문자열 검색
_: 몇 글자인지 정해줌 <br>
%: 몇 글자인지 정해주지 않음 <br>
```
WHERE 
  *column* LIKE *pattern*;
WHERE 
  *column* NOT LIKE *pattern;
```
<br>

패턴의 종류는 아래와 같음

```
LIKE '200%': 200으로 시작하는 값
LIKE '%200': 200으로 끝나는 값
LIKE '%200%': 200이 포함되는 값
LIKE '_0_': 가운데가 0이 들어가는 3자리 값
LIKE '_1': x1로 끝나는 값
LIKE '_200%': 200 앞에는 어떠한 문자도 상관 없으며 200이 포함된 문자열

```

#### CASE WHEN
조건에 따라 다른 값을 보여줄 때 사용
```
CASE 
  WHEN 
    condition_1 THEN result_1
  WHEN 
    condition_2 THEN result_2
  ...
  END AS *new_column name*

```

### 집계함수

count: row의 개수 반환
```
SELECT count(*) FROM *table_name*;
```
<br>

sum: 합계 반환
```
SELECT sum(*column*) FROM *table_name*;
```
<br>

avg: 평균 반환
```
SELECT avg(*column*) FROM *table_name*;
```
<br>

max: 최댓값 반환
```
SELECT max(*column*) FROM *table_name*;
```
<br>

min: 최솟값 반환
```
SELECT min(*column*) FROM *table_name*;
```

<br>
<br>
<br>

주의: 집계함수는 where 절에 나올 수 없음
```
SELECT id FROM news WHERE news_count = max(news_count);
```
<br>

위의 쿼리는 아래와 같이 수정해야 함
```
SELECT id FROM news
WHERE news_count = (SELECT max(news_count) FROM news);
```

### 정렬

컬럼을 기준으로 오름차순 혹은 내림차순으로 정렬

오름차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column*;
```
<br>

내림차순
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  *column* DESC;
```
<br>
<br>

GROUP BY 뒤에는 집계 함수도 들어갈 수 있음
```
SELECT 
  *column*
FROM 
  *table_name*
ORDER BY 
  sum(*column*) DESC;
```

### GROUP BY
행을 특정 그룹으로 묶음

```
SELECT 
  *column*
FROM 
  *table_name*
GROUP BY
	*column*;
```

### RANK

RANK: 전체 순위를 집계
```
SELECT id, press_name, news_count,
       RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```
<br>

DENSE_RANK: 집합 내 순위를 집계 <br>
중복 발생 시 다음 순위를 생략하지 않음 <br>
(1, 1, 2)
```
SELECT id, press_name, news_count,
       DENSE_RANK() OVER (PARTITION BY press_name ORDER BY news_count DESC)
FROM news;
```

### JOIN

(INNER)JOIN<br>
같은 값이 있는 행만 반환
```
SELECT *column1*, *column2*
FROM press_ids as p
JOIN news as n
ON *p.column1* = *n.column1*';
```

LEFT JOIN<br>
왼쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
LEFT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

RIGHT JOIN<br>
오른쪽 테이블에 오른쪽 테이블을 매칭, 값이 없으면 NULL 삽입
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

FULL JOIN
오른쪽 테이블과 왼쪽 테이블 매칭
```
SELECT *column1*, *column2*
FROM press_ids as p
RIGHT JOIN news as n
ON *p.column1* = *n.column1*';
```
<br>

CROSS JOIN: Table1과 Table2의 모든 행을 JOIN (별도의 키를 지정하지 않음)
```
SELECT *column1*, *column2*
FROM press_ids as p
CROSS JOIN news as n;
```

## 7.6 Database Link in Python

In [70]:
import psycopg2
import pandas as pd

from sqlalchemy import create_engine

In [71]:
conn = psycopg2.connect(
    host='localhost',
    dbname='postgres',
    user='postgres',
    password='postgrespw',
    port=49153
)

cur = conn.cursor()

In [22]:
cur.execute('SELECT * FROM news_id;')

In [23]:
cur.fetchall()

[('조선일보', '15 ')]

In [24]:
pd.read_sql('SELECT * FROM news_id', conn)



Unnamed: 0,press_name,oid
0,조선일보,15


#### 파이썬에서 데이터베이스로 데이터 올리기

In [33]:
oid = '015'
press_name = '매일경제'

cur.execute(f"INSERT INTO news_id VALUES ('{press_name}', {oid});")
conn.commit()

In [26]:
f"INSERT INTO news_id ({oid},'{press_name}');"

"INSERT INTO news_id (015,'매일경제');"

In [34]:
pd.read_sql('SELECT * FROM news_id', conn)



Unnamed: 0,press_name,oid
0,조선일보,15
1,매일경제,15


In [44]:
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

In [37]:
# 함수화
def bs_object_from_url(url):
    response = requests.get(url, headers={'User-Agent': 'Mozilla 5.0'})
    bs = BeautifulSoup(response.text, 'lxml')

    return bs
    
# 본문 태그 변화를 처리하기 위한 함수
def get_contents_from_rul(url):
    bs = bs_object_from_url(url)

    if bs.select('#contents'):
        return bs_object_from_url(url).select('#contents')[0].text.strip()

    if bs.select('.content'):
        return bs_object_from_url(url).select('.content')[0].text.strip()

    return -1

# 날짜, 신문사, 페이지 정보를 입력하여 해당 주소의 값 반환
def crawl_news(date, oid, page):
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
    bs_page = bs_object_from_url(url)

    title_and_content_links = bs_page.select('dt > a')[1::2]
    titles =  [title_and_content_link.text.strip() for title_and_content_link in title_and_content_links]
    content_urls = [title_and_content_link.get('href') for title_and_content_link in title_and_content_links]
    contents = [get_contents_from_rul(url) for url in content_urls]

    temp = pd.DataFrame({
        'date': date,
        'press_name': oid,
        'title': titles,
        'content': contents,
        'content_url': content_urls
    })

    return temp 

In [38]:
news = crawl_news('20221210', '015', 1)

In [39]:
news

Unnamed: 0,date,press_name,title,content,content_url
0,20221210,15,5년간 멈췄던 '한빛 4호기' 재가동,"원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,15,부결 하루 만에…'한전채 확대법' 재추진하는 국회,"전기료 인상 등 '전력대란' 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,15,이태원 참사 유가족협의회 출범…권성동 '세월호' 언급 논란,"사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,15,"오열하던 네이마르 위로한 소년, 정체 알고 보니 '반전'",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,15,"1045회 로또 1등 '6, 14, 15, 19, 21, 41'…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 '6, 14, 15, 19, 21, 41'이...",https://n.news.naver.com/mnews/article/015/000...
5,20221210,15,"""이러다 카뱅 꼴 나는 거 아냐?""…LG엔솔 직원들 '멘붕' [박의명의 불개미 구조대]",사진=뉴스1대박의 꿈을 품고 우리사주에 투자했던 LG에너지솔루션 직원들이 멘붕에 걸...,https://n.news.naver.com/mnews/article/015/000...
6,20221210,15,브라질 월드컵 탈락에 소환된 '고양이의 저주'…왜?,사진=AFP2022 카타르 월드컵의 강력한 우승 후보였던 브라질의 탈락을 두고 해외...,https://n.news.naver.com/mnews/article/015/000...
7,20221210,15,"이런 몸으로 헤딩까지…""손흥민 월드컵 출전은 도박이었다""",사진=연합뉴스손흥민이 몸 상태가 예상보다 훨씬 좋지 않다는 영국 의학전문가의 의견이...,https://n.news.naver.com/mnews/article/015/000...
8,20221210,15,[속보] 이상민 해임안 내일 본회의 표결…예산안은 15일 합의처리,이상민 행정안전부 장관/사진=연합뉴스국회는 오는 11일 오전 본회의를 열어 더불어민...,https://n.news.naver.com/mnews/article/015/000...
9,20221210,15,'캡틴 조로'부터 '한반두'까지…월드컵에 들썩인 한국 [이슈+],2022 카타르 월드컵국내 화제의 순간 모음\n\n\n\n12년 만의 월드컵 16강...,https://n.news.naver.com/mnews/article/015/000...


In [41]:
row = list(news.itertuples())[0]

In [43]:
row.date

'20221210'

In [65]:
for row in tqdm(news.itertuples()):
    title = row.title.replace("'",'"')
    content = row.content.replace("'",'"')
    query = f"INSERT INTO news VALUES ('{row.date}', '{row.press_name}', '{title}', '{content}', '{row.content_url}');"

    cur.execute(query)
    conn.commit()

22it [00:00, 34.63it/s]


In [68]:
pd.read_sql('SELECT * FROM news', conn)



Unnamed: 0,date,oid,title,content,content_url
0,20221210,15,"5년간 멈췄던 ""한빛 4호기"" 재가동","원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,15,"부결 하루 만에…""한전채 확대법"" 재추진하는 국회","전기료 인상 등 ""전력대란"" 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,15,"이태원 참사 유가족협의회 출범…권성동 ""세월호"" 언급 논란","사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,15,"오열하던 네이마르 위로한 소년, 정체 알고 보니 ""반전""",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,15,"1045회 로또 1등 ""6, 14, 15, 19, 21, 41""…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 ""6, 14, 15, 19, 21, 41""이...",https://n.news.naver.com/mnews/article/015/000...
5,20221210,15,"""이러다 카뱅 꼴 나는 거 아냐?""…LG엔솔 직원들 ""멘붕"" [박의명의 불개미 구조대]",사진=뉴스1대박의 꿈을 품고 우리사주에 투자했던 LG에너지솔루션 직원들이 멘붕에 걸...,https://n.news.naver.com/mnews/article/015/000...
6,20221210,15,"브라질 월드컵 탈락에 소환된 ""고양이의 저주""…왜?",사진=AFP2022 카타르 월드컵의 강력한 우승 후보였던 브라질의 탈락을 두고 해외...,https://n.news.naver.com/mnews/article/015/000...
7,20221210,15,"이런 몸으로 헤딩까지…""손흥민 월드컵 출전은 도박이었다""",사진=연합뉴스손흥민이 몸 상태가 예상보다 훨씬 좋지 않다는 영국 의학전문가의 의견이...,https://n.news.naver.com/mnews/article/015/000...
8,20221210,15,[속보] 이상민 해임안 내일 본회의 표결…예산안은 15일 합의처리,이상민 행정안전부 장관/사진=연합뉴스국회는 오는 11일 오전 본회의를 열어 더불어민...,https://n.news.naver.com/mnews/article/015/000...
9,20221210,15,"""캡틴 조로""부터 ""한반두""까지…월드컵에 들썩인 한국 [이슈+]",2022 카타르 월드컵국내 화제의 순간 모음\n\n\n\n12년 만의 월드컵 16강...,https://n.news.naver.com/mnews/article/015/000...


In [100]:
USERNAME = 'postgres'
PASSWORD = 'postgrespw'
DB_HOST = 'localhost'
PORT = 49153
DB_NAME = 'postgres'

db_url = f'postgresql://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=False)

In [101]:
news = crawl_news('20221210', '020', 1)

In [102]:
news.columns

Index(['date', 'press_name', 'title', 'content', 'content_url'], dtype='object')

In [103]:
news.rename(columns={'press_name': 'oid'}, inplace=True)

In [104]:
news.columns

Index(['date', 'oid', 'title', 'content', 'content_url'], dtype='object')

In [105]:
news

Unnamed: 0,date,oid,title,content,content_url
0,20221210,20,4兆 피해 남기고… 화물연대 ‘빈손’ 파업철회,"조합원 62% 찬성, 15일만에 파업종료\n\n\n\n파업 플래카드 철거 9일 화물...",https://n.news.naver.com/mnews/article/020/000...
1,20221210,20,野 “법인세 인하 안된다”… 예산 정기국회 처리 무산,국회선진화법 이후 8년만에 처음윤석열 정부의 첫 예산안인 2023년도 예산안을 두고...,https://n.news.naver.com/mnews/article/020/000...
2,20221210,20,"동남아 가면 힘이 솟는 박지영, KLPGA 개막전 2R 단독 선두","동남아 가면 힘이 솟는 박지영, KLPGA 개막전 2R 단독 선두\n\n기사입력 2...",https://n.news.naver.com/mnews/article/020/000...
3,20221210,20,11일 이상민 해임안 본회의 표결…예산안은 15일 합의처리,국민의힘과 더불어민주당이 11일 본회의를 개의해 이상민 행정안전부 장관 해임건의안을...,https://n.news.naver.com/mnews/article/020/000...
4,20221210,20,"종로 골목 음식점서 가스 폭발…여성 1명 부상, 6명 대피",10일 오후 5시39분경 서울 종로구 국립현대미술관 뒤편 골목 한 음식점에서 가스 ...,https://n.news.naver.com/mnews/article/020/000...
5,20221210,20,文 풍산개 ‘마루’ 저세상으로…“고맙고 고맙다 잘가라”,문 전 대통령 페이스북문재인 전 대통령이 10일 페이스북에 “오늘 마루가 저세상으로...,https://n.news.naver.com/mnews/article/020/000...
6,20221210,20,본인 죽은 것으로 위장해 보험금 수령…‘화차’ 실사판,9일 방송된 티캐스트 E채널 ‘용감한 형사들2’에서 형사들이 영화 ‘화차’의 실사판...,https://n.news.naver.com/mnews/article/020/000...
7,20221210,20,‘文 반려동물 달력’에…與 “풍산개는 버리면서 모순덩어리”,크라우드펀딩 사이트 ‘텀블벅’에 올라온 문재인 전 대통령 측의 ‘유기견 돕기 ’ 달...,https://n.news.naver.com/mnews/article/020/000...
8,20221210,20,우퍼 스피커로 ‘귀신소리’ …층간소음 보복 아랫집 벌금 700만원,윗집 층간소음에 보복하겠다며 천장에 스피커를 설치해 귀신소리 등을 울린 아랫집 부부...,https://n.news.naver.com/mnews/article/020/000...
9,20221210,20,[댓글민심]“성범죄자-무인도”에 담긴 불안함[데이터톡],동아일보의 온라인 설문조사 ‘금요일엔 POLL+(www.donga.com/news/...,https://n.news.naver.com/mnews/article/020/000...


In [75]:
# 데이터 프레임을 통으로 올릴 수 있다.
news.to_sql(
  'news',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=False,
)

2022-12-11 11:08:18,277 INFO sqlalchemy.engine.Engine select relname from pg_class c join pg_namespace n on n.oid=c.relnamespace where pg_catalog.pg_table_is_visible(c.oid) and relname=%(name)s
2022-12-11 11:08:18,278 INFO sqlalchemy.engine.Engine [cached since 128s ago] {'name': 'news'}
2022-12-11 11:08:18,282 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-12-11 11:08:18,283 INFO sqlalchemy.engine.Engine INSERT INTO news (date, press_name, title, content, content_url) VALUES (%(date)s, %(press_name)s, %(title)s, %(content)s, %(content_url)s)
2022-12-11 11:08:18,283 INFO sqlalchemy.engine.Engine [generated in 0.00075s] ({'date': '20221210', 'press_name': '023', 'title': '원칙이 이겼다, 화물연대 16일만에 백기', 'content': '62% 찬성으로 파업 철회, 부산본부는 아예 투표없이 복귀대통령실 “천문학적 피해… 안전운임제도 개선 계기돼야”\n\n\n\n누구를 위한 파업이었나 - 9일 오후 경기 의왕시 내륙컨테이너기지 앞에서 민주노총 화물연대 소속의 한 조합원이 화물차에 걸려 있던 총파업 관련 ... (2904 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n

ProgrammingError: (psycopg2.errors.UndefinedColumn) column "press_name" of relation "news" does not exist
LINE 1: INSERT INTO news (date, press_name, title, content, content_...
                                ^

[SQL: INSERT INTO news (date, press_name, title, content, content_url) VALUES (%(date)s, %(press_name)s, %(title)s, %(content)s, %(content_url)s)]
[parameters: ({'date': '20221210', 'press_name': '023', 'title': '원칙이 이겼다, 화물연대 16일만에 백기', 'content': '62% 찬성으로 파업 철회, 부산본부는 아예 투표없이 복귀대통령실 “천문학적 피해… 안전운임제도 개선 계기돼야”\n\n\n\n누구를 위한 파업이었나 - 9일 오후 경기 의왕시 내륙컨테이너기지 앞에서 민주노총 화물연대 소속의 한 조합원이 화물차에 걸려 있던 총파업 관련 ... (2904 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733823'}, {'date': '20221210', 'press_name': '023', 'title': 'MB, 28일 0시 사면 유력… 김경수는 ‘복권없이 사면’ 검토', 'content': '28일 형 집행정지 종료일 맞춰 최경환·이병기·전병헌도 검토\t\t\t\t\t\t\t대통령실과 법무부가 일부 정치인과 경제인에 대한 사면·복권을 검토하고 있다. 이명박 전 대통령과 최경환 전 경제부총리는 사면·복권이 유력 검토되고 있고 이병기씨 등 전직 국정원장들도  ... (1939 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733751'}, {'date': '20221210', 'press_name': '023', 'title': '실처럼 살짝 붙은 뼈… 英전문가 “손흥민의 월드컵은 도박이었다”', 'content': '손흥민이 2022 카타르 월드컵 조별리그 H조 3차전인 포르투갈과의 경기에서 마스크를 고쳐쓰고 있다. /뉴시스 “손흥민의 월드컵 출전은 도박이었다.”손흥민(30·토트넘)이 한국의 16강 진출 꿈을 이끌며 무사히 월드컵 여정을 마쳤지만, 한편에서는 그의 몸 상태에 대한 ... (2843 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733895'}, {'date': '20221210', 'press_name': '023', 'title': '“콘서트 끝나고 성폭행” 폭로 나온 美유명가수… “거짓말” 반박', 'content': '미국 보이그룹 백스트리트보이즈의 멤버 닉 카터./ 로이터 뉴스1 \t\t\t\t\t\t\t\t\t\t미국 유명 보이그룹 백스트리트보이즈 멤버 닉 카터(42)가 20여년 전 장애인 여성 팬을 성폭행했다는 의혹을 전면 부인했다.9일(현지시각) CNN에 따르면 닉 카터 측 ... (2412 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733894'}, {'date': '20221210', 'press_name': '023', 'title': '“원래 44살인데…” CNN이 韓 ‘만 나이’ 보도에 예로든 인물', 'content': '가수 싸이의 \'강남스타일\' 뮤직비디오 속 한 장면. /유튜브\t\t\t\t\t\t\t\t\t\t‘만 나이’ 사용을 규정한 민법·행정기본법 개정안이 최근 국회를 통과한 가운데, CNN이 이를 조명하며 “한국인들이 어려지게 됐다”고 보도했다. 특히 한국식 나이를 설명 ... (2044 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733893'}, {'date': '20221210', 'press_name': '023', 'title': '화물연대 파업 철회 하루만에… 민노총 “안전운임제 사수” 집회', 'content': '민주노총 공공운수노조가 10일 오후 서울 영등포구 여의도에서 결의대회를 갖고 안전운임제 일몰제 3년 연장안에 대한 국회의 조속한 처리를 촉구하고 있다. /뉴스1\t\t\t\t\t\t\t\t\t\t민주노총이 화물연대의 총파업을 철회한 지 하루 만에 집회를 열고 안전운임 ... (1676 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733891'}, {'date': '20221210', 'press_name': '023', 'title': '조화순 연세대 교수, 한국정치학회 제53대 회장 선출', 'content': '조화순 연세대 정치외교학과 교수 /한국정치학회\t\t\t\t\t\t\t\t\t\t조화순 연세대 정치외교학과 교수가 10일 제53대 한국정치학회장으로 선출됐다. 임기는 1년으로, 2024년 1월부터 시작된다.조 교수는 “미래를 위한 담론과 제도 변화에 기여하도록 새롭게 ... (1640 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733890'}, {'date': '20221210', 'press_name': '023', 'title': '“뭘 봐 멍청아”… 분노한 메시, 승리 후에도 상대팀 도발, 왜?', 'content': '10일(한국시각) 2022 카타르월드컵 8강전 네덜란드전에서 득점한 리오넬 메시가 세리머니를 하고 있다./ 로이터 연합뉴스\t\t\t\t\t\t\t\t\t\t과열된 경기 탓이었을까. 아르헨티나 간판 스타 리오넬 메시가 네덜란드와의 월드컵 8강전에서 승리한 뒤에도 흥분 ... (2253 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733889'}  ... displaying 10 of 21 total bound parameter sets ...  {'date': '20221210', 'press_name': '023', 'title': '', 'content': '金 “후원 모금 마감”… 모금 한도액 1억5000만원  金, 작년엔 국회의원 평균 못미치는 9900만원 모금  더탐사는 주거침입 범죄, 수사 상황 실시간 중계해 모금\n\n\n\n김의겸 더불어민주당 의원. /뉴스1\t\t\t\t\t\t\t\t\t\t유튜브 매체 더탐사 ... (3458 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733876'}, {'date': '20221210', 'press_name': '023', 'title': '', 'content': '[박기자 쇄담]   영원한 우승 후보지만   번번히 8강 벽에 막혀   2014년엔 ‘미네이랑의 비극’  [쇄담(瑣談) : 자질구레한 이야기]이번 카타르 월드컵 우승 후보 1순위로 꼽혔던 브라질(FIFA랭킹 1위)이 꺾였다. 브라질은 10일 카타르 알라이얀의 에듀케이 ... (3848 characters truncated) ... 천합니다 버튼을 눌러주세요.  집계 기간 동안 추천을 많이 받은 기사는 네이버 자동 기사배열 영역에 추천 요소로 활용됩니다.\n\n레이어 닫기\n\n\n \n\n\n조선일보 언론사홈 바로가기\n\n\n \n\n언론사 구독 후 기사보기\n\n\n\n구독 없이 계속 보기', 'content_url': 'https://n.news.naver.com/mnews/article/023/0003733873'})]
(Background on this error at: https://sqlalche.me/e/14/f405)

In [76]:
pd.read_sql("SELECT * FROM news", conn)



Unnamed: 0,date,oid,title,content,content_url
0,20221210,15,"5년간 멈췄던 ""한빛 4호기"" 재가동","원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,15,"부결 하루 만에…""한전채 확대법"" 재추진하는 국회","전기료 인상 등 ""전력대란"" 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,15,"이태원 참사 유가족협의회 출범…권성동 ""세월호"" 언급 논란","사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,15,"오열하던 네이마르 위로한 소년, 정체 알고 보니 ""반전""",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,15,"1045회 로또 1등 ""6, 14, 15, 19, 21, 41""…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 ""6, 14, 15, 19, 21, 41""이...",https://n.news.naver.com/mnews/article/015/000...
5,20221210,15,"""이러다 카뱅 꼴 나는 거 아냐?""…LG엔솔 직원들 ""멘붕"" [박의명의 불개미 구조대]",사진=뉴스1대박의 꿈을 품고 우리사주에 투자했던 LG에너지솔루션 직원들이 멘붕에 걸...,https://n.news.naver.com/mnews/article/015/000...
6,20221210,15,"브라질 월드컵 탈락에 소환된 ""고양이의 저주""…왜?",사진=AFP2022 카타르 월드컵의 강력한 우승 후보였던 브라질의 탈락을 두고 해외...,https://n.news.naver.com/mnews/article/015/000...
7,20221210,15,"이런 몸으로 헤딩까지…""손흥민 월드컵 출전은 도박이었다""",사진=연합뉴스손흥민이 몸 상태가 예상보다 훨씬 좋지 않다는 영국 의학전문가의 의견이...,https://n.news.naver.com/mnews/article/015/000...
8,20221210,15,[속보] 이상민 해임안 내일 본회의 표결…예산안은 15일 합의처리,이상민 행정안전부 장관/사진=연합뉴스국회는 오는 11일 오전 본회의를 열어 더불어민...,https://n.news.naver.com/mnews/article/015/000...
9,20221210,15,"""캡틴 조로""부터 ""한반두""까지…월드컵에 들썩인 한국 [이슈+]",2022 카타르 월드컵국내 화제의 순간 모음\n\n\n\n12년 만의 월드컵 16강...,https://n.news.naver.com/mnews/article/015/000...


In [84]:
oid = '022'
date = '20221210'
page ='1'

url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
bs_page = bs_object_from_url(url)

title_and_content_links = bs_page.select('dt > a')[1::2]

for title_and_content_link in tqdm(title_and_content_links[14:]):  #
    title = title_and_content_link.text.strip()
    content_url = title_and_content_link.get('href')
    cotent = get_contents_from_rul(content_url)

    title = row.title.replace("'",'"')
    content = row.content.replace("'",'"') if content != -1 else content  #
    query = f"INSERT INTO news VALUES ('{date}', '{oid}', '{title}', '{content}', '{content_url}');"

    cur.execute(query)
    conn.commit()

100%|██████████| 9/9 [00:01<00:00,  4.61it/s]


In [79]:
title_and_content_links[0]

<a class="nclicks(cnt_papaerart)" href="https://n.news.naver.com/mnews/article/022/0003762956">‘최측근’ 정진상 기소에… 이재명 “법정서 무고함 밝혀질 것”</a>

In [86]:
pd.read_sql('SELECT * FROM news', conn)



Unnamed: 0,date,oid,title,content,content_url
0,20221210,015,"5년간 멈췄던 ""한빛 4호기"" 재가동","원안위 ""원전 안전성 확인""\n\n\n\n원자력안전위원회가 안전 점검 명목으로 5년...",https://n.news.naver.com/mnews/article/015/000...
1,20221210,015,"부결 하루 만에…""한전채 확대법"" 재추진하는 국회","전기료 인상 등 ""전력대란"" 우려에 여야, 부랴부랴 본회의 상정 속도여야가 9일 한...",https://n.news.naver.com/mnews/article/015/000...
2,20221210,015,"이태원 참사 유가족협의회 출범…권성동 ""세월호"" 언급 논란","사진=연합뉴스이태원 참사 희생자 유가족이 만든 협의체가 10일 공식 발족한 가운데,...",https://n.news.naver.com/mnews/article/015/000...
3,20221210,015,"오열하던 네이마르 위로한 소년, 정체 알고 보니 ""반전""",사진=AFP2022 카타르 월드컵 8강전에서 패배한 후 눈물을 쏟은 네이마르를 위로...,https://n.news.naver.com/mnews/article/015/000...
4,20221210,015,"1045회 로또 1등 ""6, 14, 15, 19, 21, 41""…당첨자 13명 19억씩","10일 제1045회 로또복권 추첨 결과 ""6, 14, 15, 19, 21, 41""이...",https://n.news.naver.com/mnews/article/015/000...
...,...,...,...,...,...
95,20221210,022,"카타르 월드컵 8강전 취재하던 美 기자, 경기 중 돌연 사망",네덜란드-아르헨티나 8강전 모습 / 사진=AP2022 카타르 월드컵을 취재하던 미국...,https://n.news.naver.com/mnews/article/022/000...
96,20221210,022,"카타르 월드컵 8강전 취재하던 美 기자, 경기 중 돌연 사망",네덜란드-아르헨티나 8강전 모습 / 사진=AP2022 카타르 월드컵을 취재하던 미국...,https://n.news.naver.com/mnews/article/022/000...
97,20221210,022,"카타르 월드컵 8강전 취재하던 美 기자, 경기 중 돌연 사망",네덜란드-아르헨티나 8강전 모습 / 사진=AP2022 카타르 월드컵을 취재하던 미국...,https://n.news.naver.com/mnews/article/022/000...
98,20221210,022,"카타르 월드컵 8강전 취재하던 美 기자, 경기 중 돌연 사망",네덜란드-아르헨티나 8강전 모습 / 사진=AP2022 카타르 월드컵을 취재하던 미국...,https://n.news.naver.com/mnews/article/022/000...


In [89]:
news.to_csv('news.csv', index=False, encoding='utf-8-sig')

### psycopg2

설치
```cmd
pip install psycopg2
pip install psycopg2-binary #위의 설치 에러 시 이 코드 실행
```
<br>

사용법
```python
conn = psycopg2.connect(
  host='address',
  dbname='database name',
  user='user name',
  password='password',
  port=port

cur = conn.cursor()
```

CRUD
```python
cur.execute(f'INSERT INTO test (id, press_name) VALUES ({id}, {press_name});')
conn.commit() # CREATE

cur.execute('SELECT * FROM test;')
result_one = cur.fetchone() # READ
result_many = cur.fetchmany() 
result_all = cur.fetchall() 

cur.execute(f'UPDATE test SET press_name={press_name} WHERE id > 5')
conn.commit() # UPDATE

cur.execute('DELETE FROM test WHERE press_name LIKE %조선%;')
conn.commit() # DELETE
```
<br>

pandas 내의 method를 통해서도 사용 가능
```python
pd.read_sql('SELECT * FROM test', conn)
```
<br>

Closer <br>
사용 후 연결 해제 <br>
```python
cur.close()
conn.close()
```
<br>

아래와 같이 사용 가능
```python
with conn.cursor() as cur:
  cur.execute(query)

conn.close()

with psycopg2.connect():
  with conn.cursor() as cur:
    cur.execute(query)
```

### sqlalchemy

설치
```cmd
pip install sqlalchemy
```
<br>

사용법
```python
from sqlalchemy import create_engine
from sqlalchemy.types import Integer, Text, String, DateTime

db_url = f'postgres+psycopg2://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

test.to_sql(
  'schema',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=False,
  chunksize=5000,
  dtypes={
    'id': Integer,
    'press_name': Text
  }
)
```

# 데이터 가져오기 숙제