# 4.Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 
<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


In [1]:
import requests
from bs4 import BeautifulSoup



## 4.1 HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## 4.2 HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

## 4.3 정적크롤링

#### 4.3.1 라이브러리

##### 4.3.1.1 requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://jsonplaceholder.typicode.com/users/1")
bs = BeautifulSoup(response.text, 'lxml')
bs

###### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



###### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

###### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

##### 4.3.1.2 BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

###### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

###### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

### 4.3.2 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [2]:
response = '''
<div id="contents"> 
  <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
'''

In [3]:
bs = BeautifulSoup(response, 'lxml')

In [5]:
bs.select('div')[0]

<div id="contents">
<div class="data1">
<span class="language"> c++ </span>
<span class="language"> java </span>
<span class="language"> python </span>
</div>
<div class="data2">
<a class="framework"> tensorflow </a>
<a class="framework"> pytorch </a>
<a class="framework"> spring </a>
</div>
</div>

In [None]:
bs.select('div')[1]

In [None]:
bs.select('div')[2]

In [None]:
bs.select('div')[2].select('a')

In [None]:
bs.select('div')[2].select('a')[0]

In [None]:
bs.select('div')[2].select('a')[1]

In [None]:
bs.select('div')[2].select('a')[2]

In [None]:
bs.select('div > span')

In [4]:
bs.select('div > a')

[<a class="framework"> tensorflow </a>,
 <a class="framework"> pytorch </a>,
 <a class="framework"> spring </a>]

In [None]:
bs.select('div > a')[0].text.strip()

In [None]:
bs.select('div > a')[0].text.strip()

In [None]:
[tag.text.strip() for tag in bs.select('div > a')]

In [13]:
bs.select(".data2")

[<div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>]

In [9]:
bs.select("div")

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>,
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>,
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>]

#### 네이버 뉴스

In [142]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm



개별 뉴스


In [30]:
response = requests.get(
    'https://n.news.naver.com/mnews/article/023/0003759424?sid=101',
    headers = {
    'User-Agent': 'Mozilla 5.0'
    })

bs = BeautifulSoup(response.text, 'lxml')

bs

<!DOCTYPE html>
<html data-useragent="Mozilla 5.0" lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
<meta content="“트위터 유료 구독한 계정 차단하자”...인증 마크 놓고 또 혼란에 빠진 트위터" property="og:title"/>
<meta content="article" property="og:type"/>
<meta content="https://n.news.naver.com/mnews/article/023/0003759424?sid=101" property="og:url"/>
<meta content="https://imgnews.pstatic.net/image/023/2023/04/23/0003759424_001_20230423095301032.jpg?type=w800" property="og:image"/>
<meta content="일론 머스크의 트위터가 유료 구독 인증 마크를 놓고 또 혼란에 빠졌다. 트위터는 지난 20일(현지시각)부터 월 7.99달러짜리 트위터 블루 유료 구독을 하지 않는 사람들의 계정에서 인증 마크인 ‘블루체크’ 표시를 없" property="og:description"/>
<meta content="조선일보 | 네이버" property="og:article:author"/>
<meta content="summary_large_image" name="twitter:card"/>
<meta content="“트위터 유료 구독한 계정 차단하자”...인증 마크 놓고 또 혼란에 빠진 트위터" name="twitter:title"/>

In [58]:
title = bs.select('h2#title_area > span')[0].text.strip()

time = bs.select('span.media_end_head_info_datestamp_time._ARTICLE_DATE_TIME')[0].text.strip()

author = bs.select('em.media_end_head_journalist_name')[0].text.strip()

contents = bs.select('div#dic_area')[0].text.strip()

print(title)

print(time)

print(author)

print(contents)



“트위터 유료 구독한 계정 차단하자”...인증 마크 놓고 또 혼란에 빠진 트위터
2023.04.23. 오전 9:52
김성민 기자
일론 머스크의 트위터 계정. 월 8달러를 내면 달아주는 파란색 인증마크가 달려 있다. /AFP 연합뉴스										일론 머스크의 트위터가 유료 구독 인증 마크를 놓고 또 혼란에 빠졌다. 트위터는 지난 20일(현지시각)부터 월 7.99달러짜리 트위터 블루 유료 구독을 하지 않는 사람들의 계정에서 인증 마크인 ‘블루체크’ 표시를 없애는 조치에 들어갔는데 반발이 거센 상황이다.파란색 체크 인증 마크는 트위터 내 계정이 실제 공식 계정인지를 확인해줘 사칭을 방지하는 역할을 했다. 하지만 많은 유명인들이 트위터 유료 구독을 하지 않아 인증 마크를 잃는 상황이 발생했다. 트위터가 지난 20일 비유료 구독자의 인증마크를 삭제하는 조치를 취하면서 교황과 해리포터 저자 JK 롤링, 팝스타 비욘세, 축구선수 크리스티아누 호날두, 래퍼 제이지, 방송인 오프라 윈프리 등이 모두 파란색 체크 마크를 잃었다.교황의 경우 파란색 인증 마크를 잃었다가 다시 회색 인증 마크를 얻었는데, 머스크는 “교황과 NBA선수 르브론 제임스, 배우 윌리엄 섀트너 3인에 대해서는 직접 내가 돈을 내줬다”고 트위터에 올렸다. 교황은 돈을 내지 않았지만 머스크가 대신 돈을 내고 인증마크를 다시 달아줬다는 것이다.유명인들이 인증 마크를 잃고, 계정 사칭의 가능성이 높아지자 머스크는 색다른 아이디어를 내놨다. 머스크는 21일(현지시각) 자신의 트위터에 “우리는 (트위터 구독 요금인) 8달러를 내주는 유명인 계정 지키기 펀드(save-a-celebrity fund)를 시작했다”며 “우리는 이 문제를 매우 심각하게 받아들인다”고 했다. 월 7.99달러 구독료를 대신 내주고 유명인들에게 인증 마크를 다시 달아주는 펀드를 시작했다는 것이다. 전날까지 인증 마크를 잃었던 도널드 트럼프 전 대통령, 가수 저스틴 비버, 축구선수 호날두, 비욘세, JK롤링 등 많은 유명인의 계정엔 22일(현지

기사전체 (한 페이지 내용 수집)

In [81]:
def get_bs_from_url(url):
    response = requests.get(
        url,
        headers = {
        'User-Agent': 'Mozilla 5.0'
        })
    bs = BeautifulSoup(response.text, 'lxml')
    return bs


bs = get_bs_from_url("https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023")


In [109]:
bs.select('div.list_body.newsflash_body li dt')[1::2][0]

SyntaxError: invalid syntax (3634573443.py, line 1)

In [103]:
bs.select('div.list_body.newsflash_body li dt')[1::2][0].select('a')[0].get('href')


'https://n.news.naver.com/mnews/article/023/0003759432'

In [118]:
titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
urls = [link.select('a')[0].get('href') for link in bs.select('div.list_body.newsflash_body li dt')[1::2]]

In [119]:
urls = [link.select('a')[0].get('href') for link in bs.select('div.list_body.newsflash_body li dt')[1::2]]

In [120]:
pd.DataFrame({
    'title': titles,
    'url': urls
})

Unnamed: 0,title,url
0,"이랜드 스파오, 중국에 직진출.. “글로벌 SPA 브랜드로 거듭난다”",https://n.news.naver.com/mnews/article/023/000...
1,청년 전·월세 보증금 대출 사기 가담 40대… 징역 ‘10개월’,https://n.news.naver.com/mnews/article/023/000...
2,中관영매체 “韓 외교 국격 산산조각”… 尹대만 발언 연일 비난,https://n.news.naver.com/mnews/article/023/000...
3,고맙다며 음료수 들고... 경찰서에 제발로 ‘마약 가방’ 찾으러 온 60대,https://n.news.naver.com/mnews/article/023/000...
4,"류진 풍산그룹 회장, 전경련 한미재계회의 위원장 선임",https://n.news.naver.com/mnews/article/023/000...
5,“일산화탄소 중독 추정”...경북 청도 캠핑장서 2명 사상,https://n.news.naver.com/mnews/article/023/000...
6,“큰 거짓에 약간의 진실...” 학폭 가해자로 지목된 군무원의 항변,https://n.news.naver.com/mnews/article/023/000...
7,만남 거부하는데도 전 여친 집 찾아간 60대에 징역형 집유,https://n.news.naver.com/mnews/article/023/000...
8,“트위터 유료 구독한 계정 차단하자”...인증 마크 놓고 또 혼란에 빠진 트위터,https://n.news.naver.com/mnews/article/023/000...
9,“밤 자르게 칼 좀 달라”더니... 모르는 옆 테이블 손님 목에 ‘휙’,https://n.news.naver.com/mnews/article/023/000...


페이지 여러개

In [123]:
total_news = pd.DataFrame(columns = ['title', 'url'])
for page in range(1,8):
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20230422&page={page}'
    bs = get_bs_from_url(url)
    
    titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
    urls = [link.select('a')[0].get('href') for link in bs.select('div.list_body.newsflash_body li dt')[1::2]]
    
    news = pd.DataFrame({
    'title': titles,
    'url': urls
    })

    total_news = pd.concat([total_news, news])

total_news


Unnamed: 0,title,url
0,"이재명, 尹 겨냥해 “살인수출”… 자유진영 28國, 우크라 군사 지원\n포토\n조선...",https://n.news.naver.com/mnews/article/023/000...
1,"정부, LH 매입임대로 전세사기 주택 우선 매수 추진\n포토\n조선일보\n신문A1면...",https://n.news.naver.com/mnews/article/023/000...
2,전쟁터에서 돌아와 또 살인…주민들 떨게 만든 러 죄수들,https://n.news.naver.com/mnews/article/023/000...
3,송영길 “민주당 탈당…모든 정치적 책임 지겠다”,https://n.news.naver.com/mnews/article/023/000...
4,“난 성공한 성폭행범” 한국계 배우 망언에…스티븐 연이 대신 사과,https://n.news.naver.com/mnews/article/023/000...
...,...,...
3,"전세사기꾼 7000억 사업 따낼 때, 인천 공무원이 강원도 옮겨가 총괄",https://n.news.naver.com/mnews/article/023/000...
4,,https://n.news.naver.com/mnews/article/023/000...
5,,https://n.news.naver.com/mnews/article/023/000...
6,,https://n.news.naver.com/mnews/article/023/000...


특정 날짜 범위

In [150]:
total_news = pd.DataFrame(columns = ['date','title', 'url'])
for date in tqdm(pd.date_range('20230401', '20230423')):
    date = date.strftime("%Y%m%d")
    
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date={date}&page=10000'
    bs = get_bs_from_url(url)
    last_page_num = int(bs.select('.paging > strong')[0].text.strip())

    for page in range(1,last_page_num+1):
        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&{date}=20230422&page={page}'
        bs = get_bs_from_url(url)
        
        titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
        urls = [link.select('a')[0].get('href') for link in bs.select('div.list_body.newsflash_body li dt')[1::2]]
        
        news = pd.DataFrame({
        'date' : date,
        'title': titles,
        'url': urls
        
        })

        total_news = pd.concat([total_news, news])

total_news

100%|██████████| 23/23 [00:35<00:00,  1.55s/it]


Unnamed: 0,date,title,url
0,20230401,자동차가 게처럼 옆으로 스르륵...팽이처럼 제자리 회전도,https://n.news.naver.com/mnews/article/023/000...
1,20230401,사우디 문 두드리는 K-스타트업들… 오일 머니로 딥테크 투자하는 ‘기회의 땅’,https://n.news.naver.com/mnews/article/023/000...
2,20230401,앵무새도 영상통화로 외로움 달랜다,https://n.news.naver.com/mnews/article/023/000...
3,20230401,"삼성전자, 2분기엔 15년만의 ‘전체 적자’ 가능성… S23까지 부진",https://n.news.naver.com/mnews/article/023/000...
4,20230401,경찰 부르더니 주머니 뒤적... 필로폰 주사기 보여주며 자수한 남성,https://n.news.naver.com/mnews/article/023/000...
...,...,...,...
16,20230423,,https://n.news.naver.com/mnews/article/023/000...
17,20230423,,https://n.news.naver.com/mnews/article/023/000...
18,20230423,,https://n.news.naver.com/mnews/article/023/000...
0,20230423,송영길 “전대때 캠프 일 일일이 못챙겨…강래구는 참여할 위치 아냐”,https://n.news.naver.com/mnews/article/023/000...


In [153]:

total_news = pd.DataFrame(columns = ['oid','date','title', 'url'])
for oid in tqdm(['023','028']):
    for date in pd.date_range('20230401', '20230423'):
        date = date.strftime("%Y%m%d")
        
        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000'
        bs = get_bs_from_url(url)
        last_page_num = int(bs.select('.paging > strong')[0].text.strip())

        for page in range(1,last_page_num+1):
            url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&{date}=20230422&page={page}'
            bs = get_bs_from_url(url)
            
            titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
            urls = [link.select('a')[0].get('href') for link in bs.select('div.list_body.newsflash_body li dt')[1::2]]
            
            news = pd.DataFrame({    
            'date' : date,
            'oid' : oid,
            'title': titles,
            'url': urls
            
            })

            total_news = pd.concat([total_news, news])

total_news

100%|██████████| 2/2 [00:55<00:00, 27.85s/it]


Unnamed: 0,oid,date,title,url
0,023,20230401,자동차가 게처럼 옆으로 스르륵...팽이처럼 제자리 회전도,https://n.news.naver.com/mnews/article/023/000...
1,023,20230401,사우디 문 두드리는 K-스타트업들… 오일 머니로 딥테크 투자하는 ‘기회의 땅’,https://n.news.naver.com/mnews/article/023/000...
2,023,20230401,앵무새도 영상통화로 외로움 달랜다,https://n.news.naver.com/mnews/article/023/000...
3,023,20230401,"삼성전자, 2분기엔 15년만의 ‘전체 적자’ 가능성… S23까지 부진",https://n.news.naver.com/mnews/article/023/000...
4,023,20230401,경찰 부르더니 주머니 뒤적... 필로폰 주사기 보여주며 자수한 남성,https://n.news.naver.com/mnews/article/023/000...
...,...,...,...,...
16,028,20230423,"허구와 착시, 그리고 진실",https://n.news.naver.com/mnews/article/028/000...
17,028,20230423,자전거 퇴근하다 신호위반 사고…법원 “산재 아니다”,https://n.news.naver.com/mnews/article/028/000...
18,028,20230423,"인공지능 ‘빛의 질주’…따라갈 것인가, 성찰할 것인가",https://n.news.naver.com/mnews/article/028/000...
19,028,20230423,"김성회 전 비서관, ‘MBC가 초상권 침해’ 손배소 패소",https://n.news.naver.com/mnews/article/028/000...


Naver News Crawler

In [156]:
def naver_news_crawler(oids,start_date,end_date):     
    total_news = pd.DataFrame(columns = ['oid','date','title', 'url'])

    for oid in tqdm(oids):
        for date in pd.date_range(start_date, end_date):
            date = date.strftime("%Y%m%d")
            
            url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000'
            bs = get_bs_from_url(url)
            last_page_num = int(bs.select('.paging > strong')[0].text.strip())

            for page in range(1,last_page_num+1):
                url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&{date}=20230422&page={page}'
                bs = get_bs_from_url(url)
                
                titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
                urls = [link.select('a')[0].get('href') for link in bs.select('div.list_body.newsflash_body li dt')[1::2]]
                
                news = pd.DataFrame({    
                'date' : date,
                'oid' : oid,
                'title': titles,
                'url': urls
                
                })

                total_news = pd.concat([total_news, news])
    return total_news

In [157]:
naver_news_crawler(['023','025','028'], '20230421','20230423')

100%|██████████| 3/3 [00:07<00:00,  2.51s/it]


Unnamed: 0,oid,date,title,url
0,023,20230421,자동차가 게처럼 옆으로 스르륵...팽이처럼 제자리 회전도,https://n.news.naver.com/mnews/article/023/000...
1,023,20230421,사우디 문 두드리는 K-스타트업들… 오일 머니로 딥테크 투자하는 ‘기회의 땅’,https://n.news.naver.com/mnews/article/023/000...
2,023,20230421,앵무새도 영상통화로 외로움 달랜다,https://n.news.naver.com/mnews/article/023/000...
3,023,20230421,"삼성전자, 2분기엔 15년만의 ‘전체 적자’ 가능성… S23까지 부진",https://n.news.naver.com/mnews/article/023/000...
4,023,20230421,경찰 부르더니 주머니 뒤적... 필로폰 주사기 보여주며 자수한 남성,https://n.news.naver.com/mnews/article/023/000...
...,...,...,...,...
16,028,20230423,"허구와 착시, 그리고 진실",https://n.news.naver.com/mnews/article/028/000...
17,028,20230423,자전거 퇴근하다 신호위반 사고…법원 “산재 아니다”,https://n.news.naver.com/mnews/article/028/000...
18,028,20230423,"인공지능 ‘빛의 질주’…따라갈 것인가, 성찰할 것인가",https://n.news.naver.com/mnews/article/028/000...
19,028,20230423,"김성회 전 비서관, ‘MBC가 초상권 침해’ 손배소 패소",https://n.news.naver.com/mnews/article/028/000...


#### 네이버 증권

#### 다음 증권