## 4.6 Database Link in Python

### psycopg2

설치
```cmd
pip install psycopg2
pip install psycopg2-binary #위의 설치 에러 시 이 코드 실행
```
<br>

사용법
```python
conn = psycopg2.connect(
  host='address',
  dbname='database name',
  user='user name',
  password='password',
  port=port

cur = conn.cursor()
```

CRUD
```python
cur.execute(f'INSERT INTO test (id, press_name) VALUES ({id}, {press_name});')
conn.commit() # CREATE

cur.execute('SELECT * FROM test;')
result_one = cur.fetchone() # READ
result_many = cur.fetchmany() 
result_all = cur.fetchall() 

cur.execute(f'UPDATE test SET press_name={press_name} WHERE id > 5')
conn.commit() # UPDATE

cur.execute('DELETE FROM test WHERE press_name LIKE %조선%;')
conn.commit() # DELETE
```
<br>

pandas 내의 method를 통해서도 사용 가능
```python
pd.read_sql('SELECT * FROM test', conn)
```
<br>

Closer <br>
사용 후 연결 해제 <br>
```python
cur.close()
conn.close()
```
<br>

아래와 같이 사용 가능
```python
with conn.cursor() as cur:
  cur.execute(query)

conn.close()

with psycopg2.connect():
  with conn.cursor() as cur:
    cur.execute(query)
```

### sqlalchemy

설치
```cmd
pip install sqlalchemy
```
<br>

사용법
```python
from sqlalchemy import create_engine
from sqlalchemy.types import Integer, Text, String, DateTime

db_url = f'postgres+psycopg2://{USERNAME}:{PASSWORD}@{DB_HOST}:{PORT}/{DB_NAME}'
engine = create_engine(db_url, echo=True)

test.to_sql(
  'schema',
  engine,
  if_exists='append', # replace: 덮어쓰기
  index=False,
  chunksize=5000,
  dtypes={
    'id': Integer,
    'press_name': Text
  }
)
```

# 5.Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 
<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


## 5.1 HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## 5.2 HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> # 태그
	<div> 
    <a> c </a> 
    <span> c++ </span> 
  </div> 
    
  <div> 
    <a> java </a> 
    <span> python </span> 
  </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

## 5.3 정적크롤링

#### 5.3.1 라이브러리

##### 5.3.1.1 requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

###### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



###### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

###### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

##### 5.3.1.2 BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

###### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

###### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

### 5.3.2 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [1]:
response = '''<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>'''

In [2]:
from bs4 import BeautifulSoup

In [3]:
bs = BeautifulSoup(response, 'lxml')

In [4]:
bs.select('div')[0].select('a.framework')

[<a class="framework"> tensorflow </a>,
 <a class="framework"> pytorch </a>,
 <a class="framework"> spring </a>]

In [5]:
bs.select('#contents')

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

In [6]:
bs.select('div#contents')

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

In [7]:
bs.select('span:nth-of-type(1)')

[<span class="language"> c++ </span>]

In [8]:
bs.select('div > a')

[<a class="framework"> tensorflow </a>,
 <a class="framework"> pytorch </a>,
 <a class="framework"> spring </a>]

In [9]:
bs.select('div > div')

[<div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>,
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>]

#### 네이버 뉴스

In [11]:
!pip install pandas

Collecting pandas

You should consider upgrading via the 'c:\python38\python.exe -m pip install --upgrade pip' command.



  Downloading pandas-1.4.3-cp38-cp38-win_amd64.whl (10.6 MB)
Collecting pytz>=2020.1
  Downloading pytz-2022.2.1-py2.py3-none-any.whl (500 kB)
Installing collected packages: pytz, pandas
Successfully installed pandas-1.4.3 pytz-2022.2.1


In [13]:
!pip install requests

Collecting requests

You should consider upgrading via the 'c:\python38\python.exe -m pip install --upgrade pip' command.



  Using cached requests-2.28.1-py3-none-any.whl (62 kB)
Collecting charset-normalizer<3,>=2
  Downloading charset_normalizer-2.1.1-py3-none-any.whl (39 kB)
Installing collected packages: charset-normalizer, requests
Successfully installed charset-normalizer-2.1.1 requests-2.28.1


In [14]:
!pip install tqdm

Collecting tqdm
  Using cached tqdm-4.64.0-py2.py3-none-any.whl (78 kB)
Installing collected packages: tqdm
Successfully installed tqdm-4.64.0


You should consider upgrading via the 'c:\python38\python.exe -m pip install --upgrade pip' command.


In [15]:
!pip install psycopg2

Collecting psycopg2
  Downloading psycopg2-2.9.3-cp38-cp38-win_amd64.whl (1.1 MB)
Installing collected packages: psycopg2
Successfully installed psycopg2-2.9.3


You should consider upgrading via the 'c:\python38\python.exe -m pip install --upgrade pip' command.


In [10]:
import pandas as pd
import requests
import psycopg2
from tqdm import tqdm

마지막 페이지 주소 가져오기

In [51]:
response = requests.get(
    'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20220820&page=100',
    headers={'User-Agent' : 'Mozilla 5.0'})
bs = BeautifulSoup(response.text, 'lxml')

In [52]:
_last_page_num = bs.select('div.paging > strong')
last_page_num = int(_last_page_num[0].text)

In [53]:
last_page_num

7

In [54]:
[tag.text.replace('\n', '').replace('\t', '').strip() for tag in bs.select('li > dl > dt > a') if tag.txt != '\n\n']

['',
 '손잡은 한미 포병',
 '추석연휴 기차 예매율 9월 9일·12일이 80%대',
 '',
 '철도 역세권 투자법 부동산 절세 전략… 전문가들 비법 공개',
 '[NOW] ‘카톡 손주’ 덕분에 스마트폰·키오스크 혼자서도 잘 써요',
 '한국갤럽 尹지지율 조사, 긍정평가 3%p 올라 28%',
 '',
 '“7명 살리고 떠난 아드님 뜻, 저희가 이을게요”',
 '',
 '“엄마가 내 어린시절 노출해 큰 피해 봤어요” 일본서 셰어런팅 역풍',
 '',
 '두 배 비싸게 만든 김원웅식 위인전… 김구 290쪽, 모친은 430쪽',
 '',
 '월성·북송… 대통령기록관 하루 두번 압수수색',
 '',
 '갤Z폴드·Z플립, 이번에도 우크라에선 ‘Z’ 빠졌다',
 '[백영옥의 말과 글](266) 글 쓰는 일']

In [15]:
all_titles=[]
for i in range(1, last_page_num + 1):
    response = requests.get(
        f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20220820&page={i}',
    headers={'User-Agent' : 'Mozilla 5.0'})
    bs = BeautifulSoup(response.text, 'lxml')
    titles = [tag.text.replace('\n', '').replace('\t', '').strip() for tag in bs.select('li > dl > dt > a') if tag.txt != '\n\n']
    all_titles += titles

all_titles

    
    
    

['[NOW] ‘카톡 손주’ 덕분에 스마트폰·키오스크 혼자서도 잘 써요',
 '저소득층 의료비 최대 5000만원 지원... 적용대상도 6대중증→모든 질환',
 '두 배 비싸게 만든 김원웅식 위인전… 김구 290쪽, 모친은 430쪽',
 '월성·북송… 대통령기록관 하루 두번 압수수색',
 '',
 '“악이 판치는 세상” 정경심 형집행정지 불허에 野 반발',
 '',
 '이재명 “계파정치는 상상 못해… 공정하게 국민·당원 선택 받을 수 있도록 할 것”',
 '',
 '“조종사가 깜빡 졸아”…활주로 지나쳐 날아간 에티오피아 비행기',
 '',
 '서울서 여성전용주차장 사라진다... 오세훈, 스스로 만든 정책 전환',
 '',
 '박용진, 이재명 겨냥 “강성 지지자들, 설득하고 말리는 게 지도자 역할”',
 '',
 '박지원 “尹 제안 北이 거부할 거라 예측했다…정부 대응 적절”',
 '',
 '박수현 “尹대통령 기자회견, 이준석 확실히 정리하라는 尹心 전달한 것”',
 '',
 '바짝 마른 양쯔강…600년 전 불상 나타났다',
 '',
 '‘전 여친 폭행 혐의’ 긱스...퍼거슨 “긱스는 화낸 적 없어”',
 '',
 '조각가 박임향 첫 개인전 ‘스며듦’',
 '',
 '‘하트시그널3′ 출신 정비사 서민재 “남태현 필로폰 투약, 제 캐비넷 보세요”',
 '',
 '北매체 “尹 낮은 지지율은 정확한 민심… 보수층도 등돌려”',
 '',
 '장예찬 “우리 당에서 尹정부 애정 가진 2030 스피커 저밖에 없더라”',
 '',
 '방탄소년단, 美 MTV 비디오뮤직어워즈 6개 부문 후보',
 '',
 '“소품총 비극 책임자는…” 총 들었던 볼드윈이 지목한 두 사람',
 '',
 '검찰, ‘차량 화재’ BMW 전 대표 재수사',
 '',
 '눈 깜짝할 새 다 털어갔다… LA 편의점 들이닥친 100명 도둑떼',
 '',
 '마약 조직 잠입해 일망타진…현실판 ‘신세계 이정재’ 볼 수 있을까',
 '',
 '이준석 “윤핵관 명예롭게 정계 은퇴할 수 있게 해달라” 당원 가입 독려',


In [73]:
def get_bs_data_from_naver_news(oid, date, page):
    response = requests.get(
        f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}',
        headers={'User-Agent': 'Mozila 5.0'}
    )
    bs = BeautifulSoup(response.text, 'lxml')
    return bs


In [44]:
def get_titles_from_tags(bs: BeautifulSoup):
    return [tag.text.replace('\n', '').replace('\t', '').strip() for tag in bs.select('li > dl > dt > a') if tag.txt != '\n\n']

In [75]:
bs = get_bs_data_from_naver_news('023', '20220820', 1000)
print(bs)

<html><body><p>조선일보 홈 : 네이버 뉴스	
















메인 메뉴로 바로가기
본문으로 바로가기










검색




NAVER
뉴스


TV연예
스포츠
날씨
프리미엄










언론사별 
정치 
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 







전체 언론사
뉴스스탠드
라이브러리








08.20(토)

전체 언론사
뉴스스탠드
라이브러리





기사목록








언론사 뉴스

종합 선택됨
방송/통신 
경제 
인터넷 
IT 
포토 
매거진 
전문지 
지역 






종합




경향신문
신문


국민일보
신문


동아일보
신문


문화일보
신문


서울신문
신문


세계일보
신문


조선일보
신문


중앙일보
신문


한겨레
신문


한국일보
신문







조선일보

신문게재기사만|
제목형
요약형
포토만












								 손잡은 한미 포병
								


19일 경기도 포천시 다락대훈련장에서 열린 ‘8·20 완전작전’ 7주년 기념 훈련에서 육군 28사단 977포병대대 권현철(왼쪽) …
조선일보
16시간전	







								 추석연휴 기차 예매율 9월 9일·12일이 80%대
								


이번 추석 연휴 때 귀성객이 가장 많은 날은 9월 9일이며 귀경객이 가장 많은 날은 9월 12일이 될 전망이라고 한국철도공사(코 …
조선일보
신문A10면 
16시간전	












								 철도 역세권 투자법 부동산 절세 전략… 전문가들 비법 공개
								


오늘도 다양한 재테크 강연 대한민국 부동산 트렌드쇼 개막 이틀째인 20일에도 서울 강남구 삼성동 코엑스 D홀에서 다양한 부동산  …
조선일보
신문A14면 
16시간전	







								 [NOW] ‘카톡 손주’ 덕분에 스마트폰·키오스크 혼자서도 잘 써요
								


노인·청년 이어주는 디지털 교육 인기 경기 남양주에 사는 이소

In [58]:
def get_body_urls_from_tags(bs: BeautifulSoup):
    return [tag.attrs.get('href') for tag in bs.select('li > dl > dt > a') if tag.text != '\n\n']

In [59]:
get_body_urls_from_tags(bs)

['https://n.news.naver.com/mnews/article/023/0003711006',
 'https://n.news.naver.com/mnews/article/023/0003711005',
 'https://n.news.naver.com/mnews/article/023/0003711004',
 'https://n.news.naver.com/mnews/article/023/0003711003',
 'https://n.news.naver.com/mnews/article/023/0003711002',
 'https://n.news.naver.com/mnews/article/023/0003711001',
 'https://n.news.naver.com/mnews/article/023/0003711000',
 'https://n.news.naver.com/mnews/article/023/0003710999',
 'https://n.news.naver.com/mnews/article/023/0003710998',
 'https://n.news.naver.com/mnews/article/023/0003710997',
 'https://n.news.naver.com/mnews/article/023/0003710996']

In [60]:
all_titles=[]
all_urls = []
for i in range(1, last_page_num + 1):
    response = requests.get(
        f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20220820&page={i}',
    headers={'User-Agent' : 'Mozilla 5.0'})
    bs = BeautifulSoup(response.text, 'lxml')
    titles = [tag.text.replace('\n', '').replace('\t', '').strip() for tag in bs.select('li > dl > dt > a') if tag.txt != '\n\n']
    urls = [tag.attrs.get('href') for tag in bs.select('li > dl > dt > a') if tag.text != '\n\n']
    all_titles += titles
    all_urls += urls

print(all_titles)
print(all_urls)

['[NOW] ‘카톡 손주’ 덕분에 스마트폰·키오스크 혼자서도 잘 써요', '저소득층 의료비 최대 5000만원 지원... 적용대상도 6대중증→모든 질환', '두 배 비싸게 만든 김원웅식 위인전… 김구 290쪽, 모친은 430쪽', '월성·북송… 대통령기록관 하루 두번 압수수색', '', '이재명, 전북 경선서도 압승…누적 득표율 78.05%', '', '“악이 판치는 세상” 정경심 형집행정지 불허에 野 반발', '', '이재명 “계파정치는 상상 못해… 공정하게 국민·당원 선택 받을 수 있도록 할 것”', '', '“조종사가 깜빡 졸아”…활주로 지나쳐 날아간 에티오피아 비행기', '', '서울서 여성전용주차장 사라진다... 오세훈, 스스로 만든 정책 전환', '', '박용진, 이재명 겨냥 “강성 지지자들, 설득하고 말리는 게 지도자 역할”', '', '박지원 “尹 제안 北이 거부할 거라 예측했다…정부 대응 적절”', '', '박수현 “尹대통령 기자회견, 이준석 확실히 정리하라는 尹心 전달한 것”', '', '바짝 마른 양쯔강…600년 전 불상 나타났다', '', '‘전 여친 폭행 혐의’ 긱스...퍼거슨 “긱스는 화낸 적 없어”', '', '조각가 박임향 첫 개인전 ‘스며듦’', '', '‘하트시그널3′ 출신 정비사 서민재 “남태현 필로폰 투약, 제 캐비넷 보세요”', '', '北매체 “尹 낮은 지지율은 정확한 민심… 보수층도 등돌려”', '', '장예찬 “우리 당에서 尹정부 애정 가진 2030 스피커 저밖에 없더라”', '', '방탄소년단, 美 MTV 비디오뮤직어워즈 6개 부문 후보', '', '“소품총 비극 책임자는…” 총 들었던 볼드윈이 지목한 두 사람', '', '검찰, ‘차량 화재’ BMW 전 대표 재수사', '', '눈 깜짝할 새 다 털어갔다… LA 편의점 들이닥친 100명 도둑떼', '', '마약 조직 잠입해 일망타진…현실판 ‘신세계 이정재’ 볼 수 있을까', '', '이준석 “윤핵관 명예롭게 정계 은퇴할 수 있게 해달라” 당원 가입 독려', '', 

In [25]:
def get_contents_from_url(url : str):
    response = requests.get(
        url,
        headers={'User-Agent' : 'Mozilla 5.0'}
        )
    bs = BeautifulSoup(response.text, 'lxml')
    return bs.select('div#dic_area')[0].text

In [26]:
get_contents_from_url('https://n.news.naver.com/mnews/article/023/0003711001')

'\n19세때 장기기증 이태경군 아버지… 장기기증 서약한 고교생들 만났다\n\n\n\n지난 6일 오후 서울 서대문구 사랑의장기기증운동본부에서 2010년 뇌사 판정을 받은 후 7명에게 장기를 나눠주고 세상을 떠난 이태경군의 아버지 이대호(가운데)씨가 최근 장기기증 희망 등록을 한 고등학생 4명으로부터 꽃다발을 받고 있다. 이씨는“남을 돕는 것을 무척 좋아하던 태경이도 하늘나라에서 기뻐하고 있을 것”이라고 말했다./사랑의장기기증운동본부\t\t\t\t\t\t\t\t\t\t“장기를 기증한 아들에게 ‘대견하다’는 말을 직접 해주지 못했어요. 대신 여러분에게 오늘 그 말을 전해주고 싶습니다.”지난 6일 오후 3시쯤 서울 서대문구 사랑의장기기증운동본부 회의실. 이 말을 하는 이대호(60)씨의 눈시울이 붉어졌다. 이씨의 아들 이태경군은 열아홉이던 지난 2010년 8월 뇌와 척수에 종양이 생겨 뇌사 판정을 받았다. 결국 이군은 세상을 떠났지만 장기를 기증해 7명의 생명을 살렸다. 그 후로 12년이 지났다. 아버지 이씨는 사랑의장기기증운동본부 제안으로 지난 6일 당시 아들 또래인 고교생 4명을 만나 당시를 떠올리는 시간을 가졌다. 모두 만일의 사태가 생기면 ‘장기 기증을 하겠다’고 서약한 학생들이다.지난 2010년 당시 서울 송파구 가락시장에서 홀로 작은 채소 가게를 하던 이씨에게 아들은 든든한 지원군이자 둘도 없는 친구였다. 하지만 2010년 7월 어느 날, 학교에서 돌아온 아들이 “요즘 한쪽 눈이 잘 보이지 않아 학교에서 칠판 보기 불편하다”고 했다. 얼마 후 한 대학 병원에서 들은 검사 결과는 충격적이었다. ‘신경 교종증’이란 들어보지도 못한 병이었다. 뇌와 척수 내부에 있는 신경교세포에 종양이 생겼고, 이 종양이 시신경을 누르고 있어 한쪽 눈이 잘 보이지 않는 증상이 나타난 것이라고 했다. 이씨는 곧바로 병원에 입원시켜 치료를 시작했지만 태경군은 다음 날 의식을 잃고 쓰러졌다. 일주일 뒤 태경군은 의사에게 뇌사 판정을 받았다.\n\n\n\n故 이태경군\t\t\t\t\t\

In [27]:
response = requests.get('https://n.news.naver.com/mnews/article/023/0003711001',
headers={'User-Agent' : 'Mozilla 5.0'})
bs = BeautifulSoup(response.text, 'lxml')

In [28]:
bs.select('div#dic_area')[0].text

'\n19세때 장기기증 이태경군 아버지… 장기기증 서약한 고교생들 만났다\n\n\n\n지난 6일 오후 서울 서대문구 사랑의장기기증운동본부에서 2010년 뇌사 판정을 받은 후 7명에게 장기를 나눠주고 세상을 떠난 이태경군의 아버지 이대호(가운데)씨가 최근 장기기증 희망 등록을 한 고등학생 4명으로부터 꽃다발을 받고 있다. 이씨는“남을 돕는 것을 무척 좋아하던 태경이도 하늘나라에서 기뻐하고 있을 것”이라고 말했다./사랑의장기기증운동본부\t\t\t\t\t\t\t\t\t\t“장기를 기증한 아들에게 ‘대견하다’는 말을 직접 해주지 못했어요. 대신 여러분에게 오늘 그 말을 전해주고 싶습니다.”지난 6일 오후 3시쯤 서울 서대문구 사랑의장기기증운동본부 회의실. 이 말을 하는 이대호(60)씨의 눈시울이 붉어졌다. 이씨의 아들 이태경군은 열아홉이던 지난 2010년 8월 뇌와 척수에 종양이 생겨 뇌사 판정을 받았다. 결국 이군은 세상을 떠났지만 장기를 기증해 7명의 생명을 살렸다. 그 후로 12년이 지났다. 아버지 이씨는 사랑의장기기증운동본부 제안으로 지난 6일 당시 아들 또래인 고교생 4명을 만나 당시를 떠올리는 시간을 가졌다. 모두 만일의 사태가 생기면 ‘장기 기증을 하겠다’고 서약한 학생들이다.지난 2010년 당시 서울 송파구 가락시장에서 홀로 작은 채소 가게를 하던 이씨에게 아들은 든든한 지원군이자 둘도 없는 친구였다. 하지만 2010년 7월 어느 날, 학교에서 돌아온 아들이 “요즘 한쪽 눈이 잘 보이지 않아 학교에서 칠판 보기 불편하다”고 했다. 얼마 후 한 대학 병원에서 들은 검사 결과는 충격적이었다. ‘신경 교종증’이란 들어보지도 못한 병이었다. 뇌와 척수 내부에 있는 신경교세포에 종양이 생겼고, 이 종양이 시신경을 누르고 있어 한쪽 눈이 잘 보이지 않는 증상이 나타난 것이라고 했다. 이씨는 곧바로 병원에 입원시켜 치료를 시작했지만 태경군은 다음 날 의식을 잃고 쓰러졌다. 일주일 뒤 태경군은 의사에게 뇌사 판정을 받았다.\n\n\n\n故 이태경군\t\t\t\t\t\

In [80]:
all_titles = []
all_urls = []

for page in tqdm(range(1, last_page_num+1)):
    response=get_bs_data_from_naver_news('023', '20220820', page)
    soup = response.select('html > body > p')
print(soup[0])
#     titles = get_titles_from_tags(response)
#     urls = get_body_urls_from_tags(response)

#     all_titles += titles
#     all_urls += urls
# print(all_titles)
# print(all_urls)

100%|██████████| 7/7 [00:00<00:00,  9.99it/s]

<p>조선일보 홈 : 네이버 뉴스	
















메인 메뉴로 바로가기
본문으로 바로가기










검색




NAVER
뉴스


TV연예
스포츠
날씨
프리미엄










언론사별 
정치 
경제 
사회 
생활/문화 
IT/과학 
세계 
랭킹 
신문보기 
오피니언 
TV 
팩트체크 







전체 언론사
뉴스스탠드
라이브러리








08.20(토)

전체 언론사
뉴스스탠드
라이브러리





기사목록








언론사 뉴스

종합 선택됨
방송/통신 
경제 
인터넷 
IT 
포토 
매거진 
전문지 
지역 






종합




경향신문
신문


국민일보
신문


동아일보
신문


문화일보
신문


서울신문
신문


세계일보
신문


조선일보
신문


중앙일보
신문


한겨레
신문


한국일보
신문







조선일보

신문게재기사만|
제목형
요약형
포토만












								 손잡은 한미 포병
								


19일 경기도 포천시 다락대훈련장에서 열린 ‘8·20 완전작전’ 7주년 기념 훈련에서 육군 28사단 977포병대대 권현철(왼쪽) …
조선일보
16시간전	







								 추석연휴 기차 예매율 9월 9일·12일이 80%대
								


이번 추석 연휴 때 귀성객이 가장 많은 날은 9월 9일이며 귀경객이 가장 많은 날은 9월 12일이 될 전망이라고 한국철도공사(코 …
조선일보
신문A10면 
16시간전	












								 철도 역세권 투자법 부동산 절세 전략… 전문가들 비법 공개
								


오늘도 다양한 재테크 강연 대한민국 부동산 트렌드쇼 개막 이틀째인 20일에도 서울 강남구 삼성동 코엑스 D홀에서 다양한 부동산  …
조선일보
신문A14면 
16시간전	







								 [NOW] ‘카톡 손주’ 덕분에 스마트폰·키오스크 혼자서도 잘 써요
								


노인·청년 이어주는 디지털 교육 인기 경기 남양주에 사는 이소의(18)양은 서울 용




In [36]:
news = pd.DataFrame({
    'date':'20220820',
    'oid':'023',
    'titles': all_titles,
    'url':all_urls})
print(news)

Empty DataFrame
Columns: [date, oid, titles, url]
Index: []


In [35]:
for row in tqdm(news.itertuples):
    try:
        news.loc[row.index, 'contents'] = get_contents_from_url(row.url)
    except:
        pass

0it [00:00, ?it/s]


In [132]:
news

Unnamed: 0,date,oid,titles,url


In [137]:
conn = psycopg2.connect(
  host='localhost',
  dbname='postgres',
  user='postgres',
  password='postgrespw',
  port=49153
)

cur = conn.cursor()

In [139]:
news.to_sql(
    'news',
    conn,
    if_exists='replace',
    index=False
)

DatabaseError: Execution failed on sql 'SELECT name FROM sqlite_master WHERE type='table' AND name=?;': syntax error at or near ";"
LINE 1: ...ELECT name FROM sqlite_master WHERE type='table' AND name=?;
                                                                      ^


#### 네이버 증권

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time


In [4]:
data = requests.get('https://finance.naver.com/sise/sise_market_sum.naver')
bs = BeautifulSoup(data.text, 'lxml')
table = bs.select('table>tbody')
a = table[0].select('tr>td>a')
titles = []
for i in range(len(a)):
    if i % 2 == 0:
        titles.append(a[i].text)
print(titles)


['삼성전자', 'LG에너지솔루션', 'SK하이닉스', '삼성바이오로직스', 'LG화학', '삼성전자우', '삼성SDI', '현대차', 'NAVER', '카카오', '기아', '셀트리온', '삼성물산', 'POSCO홀딩스', 'KB금융', '현대모비스', 'SK이노베이션', '신한지주', 'SK', 'LG전자', '한국전력', '두산에너빌리티', '카카오뱅크', 'LG', '삼성생명', '포스코케미칼', '크래프톤', '현대중공업', 'KT&G', 'SK텔레콤', '하나금융지주', 'HMM', 'S-Oil', '고려아연', 'LG생활건강', 'KT', '삼성에스디에스', '삼성전기', '대한항공', '삼성화재', '우리금융지주', '한화솔루션', 'SK바이오사이언스', '카카오페이', '엔씨소프트', 'LG이노텍', '하이브', '아모레퍼시픽', '기업은행', '현대글로비스']


In [5]:
b1 = []
b2 = []
b = table[0].select('tr>td>span')
for k in range(len(b)):
    if k % 2 == 0:
        b1.append(b[k].text.replace('\n', '').replace('\t', '').replace(',', ''))
    else:
        b2.append(b[k].text.replace('\n', '').replace('\t', '').replace(',', ''))
print(b1)
print(b2)

['900', '4500', '1200', '17000', '1000', '1100', '18000', '1000', '2500', '1700', '200', '1500', '1000', '6000', '1050', '2500', '500', '250', '2000', '1000', '200', '150', '600', '1700', '100', '3000', '2500', '500', '700', '400', '700', '650', '3500', '6000', '13000', '450', '3000', '2000', '350', '1000', '250', '1200', '4000', '4100', '2000', '5500', '2500', '0', '90', '500']
['-1.48%', '-1.01%', '-1.24%', '-1.96%', '-0.16%', '-1.97%', '-2.91%', '-0.53%', '-1.01%', '-2.22%', '+0.26%', '-0.74%', '+0.83%', '-2.35%', '-2.07%', '-1.17%', '+0.24%', '-0.70%', '-0.86%', '-0.99%', '-0.93%', '+0.71%', '-2.09%', '-2.03%', '-0.16%', '+1.91%', '-0.98%', '-0.36%', '+0.86%', '+0.78%', '-1.82%', '-2.80%', '+3.72%', '-1.02%', '-1.82%', '+1.16%', '-2.25%', '-1.47%', '-1.34%', '-0.50%', '-2.01%', '-2.58%', '-3.43%', '-5.96%', '-0.53%', '-1.62%', '-1.34%', '0.00%', '-0.92%', '-0.28%']


In [6]:
b = table[0].select('tr>td')
b3 = []
for i in b:
    if i.select('a') == [] and i.select('span')== [] and i.select('img') == []:
        b3 += i
    else:
        b3 = b3
b4 = []
b5 = []
b6 = []
b7 = []
b8 = []
b9 = []
b10 = []
b11 = []
b12 = []
for x in range(len(b3)):
    if x % 9 == 0:
        b4.append(b3[x])
    elif x % 9 == 1:
        b5.append(b3[x])
    elif x % 9 == 2:
        b6.append(b3[x])
    elif x % 9 == 3:
        b7.append(b3[x])
    elif x % 9 == 4:
        b8.append(b3[x])
    elif x % 9 == 5:
        b9.append(b3[x])
    elif x % 9 == 6:
        b10.append(b3[x])
    elif x % 9 == 7:
        b11.append(b3[x])
    else:
        b12.append(b3[x])
print(b4, b5, b6, b7, b8, b9, b10, b11, b12, sep='\n')
        



['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36', '37', '38', '39', '40', '41', '42', '43', '44', '45', '46', '47', '48', '49', '50']
['60,000', '442,500', '95,200', '851,000', '639,000', '54,700', '600,000', '189,000', '245,500', '75,000', '77,400', '200,000', '121,000', '249,000', '49,750', '212,000', '205,000', '35,450', '229,500', '100,000', '21,300', '21,300', '28,050', '82,100', '62,100', '160,000', '252,500', '138,000', '82,300', '51,400', '37,800', '22,600', '97,500', '581,000', '701,000', '39,100', '130,500', '134,500', '25,850', '200,000', '12,200', '45,400', '112,500', '64,700', '372,500', '333,000', '184,000', '127,000', '9,680', '177,500']
['100', '500', '5,000', '2,500', '5,000', '100', '5,000', '5,000', '100', '100', '5,000', '1,000', '100', '5,000', '5,000', '5,000', '5,000', '5,000', '200', '5,000', '5,000', '5,00

In [7]:
tables = pd.DataFrame({
    'N': b4,
    '종목명': titles,
    '현재가': b5,
    '전일비': b1,
    '등락률': b2,
    '액면가' : b6,
    '시가총액': b7,
    '상장주식수' : b8,
    '외국인비율' : b9, 
    '거래량' : b10,
    'PER' : b11,
    'ROE' : b12})
tables

Unnamed: 0,N,종목명,현재가,전일비,등락률,액면가,시가총액,상장주식수,외국인비율,거래량,PER,ROE
0,1,삼성전자,60000,900,-1.48%,100,3581870,5969783,49.81,8082385,9.1,13.92
1,2,LG에너지솔루션,442500,4500,-1.01%,500,1035450,234000,4.09,205774,735.05,10.68
2,3,SK하이닉스,95200,1200,-1.24%,5000,693058,728002,50.03,2285134,6.04,16.84
3,4,삼성바이오로직스,851000,17000,-1.96%,2500,605691,71174,10.77,52133,113.18,8.21
4,5,LG화학,639000,1000,-0.16%,5000,451085,70592,47.85,136878,22.53,18.47
5,6,삼성전자우,54700,1100,-1.97%,100,450119,822887,71.93,784548,8.3,
6,7,삼성SDI,600000,18000,-2.91%,5000,412587,68765,43.81,139493,27.99,8.45
7,8,현대차,189000,1000,-0.53%,5000,403833,213668,28.09,530426,8.39,6.84
8,9,NAVER,245500,2500,-1.01%,100,402740,164049,53.23,336171,40.05,106.72
9,10,카카오,75000,1700,-2.22%,100,333862,445150,28.83,1236744,15.0,17.1


#### 다음 증권

In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
import time

In [None]:
path = 'c:/Temp/chromedriver_104/chromedriver.exe'
driver = webdriver.Chrome(path)
driver.get('https://www.daum.net/')
time.sleep(4)
driver.find_element(By.XPATH, '/html/body/div[2]/header/div[2]/div/div[1]/ul/li[5]/a').click()
time.sleep(4)
driver.find_element(By.XPATH, '/html/body/div/div[2]/div[2]/div/ul/li[2]/a').click()
time.sleep(4)
driver.find_element(By.XPATH, '/html/body/div/div[4]/div[1]/span[3]/ul/li[1]/a').click()