In [108]:
import pandas as pd
import requests
from bs4 import BeautifulSoup



# 4.Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 
<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


## 4.1 HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## 4.2 HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

## 4.3 정적크롤링

#### 4.3.1 라이브러리

##### 4.3.1.1 requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

In [5]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://jsonplaceholder.typicode.com/users/1")
bs = BeautifulSoup(response.text, 'lxml')
bs

<html><body><p>{
  "id": 1,
  "name": "Leanne Graham",
  "username": "Bret",
  "email": "Sincere@april.biz",
  "address": {
    "street": "Kulas Light",
    "suite": "Apt. 556",
    "city": "Gwenborough",
    "zipcode": "92998-3874",
    "geo": {
      "lat": "-37.3159",
      "lng": "81.1496"
    }
  },
  "phone": "1-770-736-8031 x56442",
  "website": "hildegard.org",
  "company": {
    "name": "Romaguera-Crona",
    "catchPhrase": "Multi-layered client-server neural-net",
    "bs": "harness real-time e-markets"
  }
}</p></body></html>

###### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



###### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

###### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

##### 4.3.1.2 BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

###### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

###### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

### 4.3.2 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [None]:
response = '''
<div id="contents"> 
  <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
'''

NameError: name 'bs' is not defined

In [None]:
bs = BeautifulSoup(response, 'lxml')

In [None]:
bs.select('div')[0]

In [None]:
bs.select('div')[1]

In [None]:
bs.select('div')[2]

In [None]:
bs.select('div')[2].select('a')

In [None]:
bs.select('div')[2].select('a')[0]

In [None]:
bs.select('div')[2].select('a')[1]

In [None]:
bs.select('div')[2].select('a')[2]

In [None]:
bs.select('div > span')

In [None]:
bs.select('div > a')

In [None]:
bs.select('div > a')[0].text.strip()

In [None]:
bs.select('div > a')[0].text.strip()

In [None]:
[tag.text.strip() for tag in bs.select('div > a')]

#### 네이버 뉴스

In [35]:

#개별 data받아오기
import requests
from bs4 import BeautifulSoup

#connection error -> user-agent처리 해야함
response = requests.get('https://n.news.naver.com/mnews/article/023/0003759424', 
                        headers={
                        'User-Agent' : 'Mozilla 5.0'
                        }) #파라미터 정보로 넣음
result = []
bs = BeautifulSoup(response.text,'lxml')
s1 = bs.select('.media_end_head_info_datestamp_bunch > span')[0]#태그정보
result.append(s1)
s2 = bs.select('.byline_p > span')[0] #인덱스로 요소값 받아오는게 아니면 반환list
result.append(s2)
print(result)


#학원수업
title = bs.select('h2#title_area > span')[0].text.strip()
time = bs.select('span.media_end_head_info_datestamp_time._ARTICLE_DATE_TIME')[0].text.strip()
author = bs.select('em.media_end_head_journalist_name')[0].text.strip()
contents = bs.select('#newsct_article')[0].text.strip()



[<span class="media_end_head_info_datestamp_time _ARTICLE_DATE_TIME" data-date-time="2023-04-23 09:52:01">2023.04.23. 오전 9:52</span>, <span class="byline_s">실리콘밸리=김성민 특파원 dori2381@chosun.com</span>]


In [53]:
#여러개의 기사를 크롤링
#이후 url로접근, 개별기사 크롤링

#main페이지*(new기사 리스트)
response = requests.get('https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023', 
                        headers={
                        'User-Agent' : 'Mozilla 5.0'
                        }) #파라미터 정보로 넣음
bs = BeautifulSoup(response.text,'lxml')


In [54]:
def get_bs_url(url):  
  response = requests.get(
                          url, 
                          headers={
                          'User-Agent' : 'Mozilla 5.0'
                          }) #파라미터 정보로 넣음
  bs = BeautifulSoup(response.text,'lxml')
  return bs

In [83]:
bs = get_bs_url('https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023') #중복있음 -> 두개씩같음

In [110]:

bs.select('div.list_body.newsflash_body li dt')[1::2][0].text.strip()
# /n/n/t/t와 같은 공백문제 제거 함수 strip()
bs.select('div.list_body.newsflash_body li dt')[1::2][0].select('a')[0].attrs.get('href')


#aticle_title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]


'https://n.news.naver.com/mnews/article/023/0003759295'

In [139]:

bs.select('div.list_body.newsflash_body li dt')[1::2]

IndexError: list index out of range

In [113]:
print(aticle_title)
#url_list = []


['이재명, 尹 겨냥해 “살인수출”… 자유진영 28國, 우크라 군사 지원\n포토\n조선일보\n신문A1면 \n2023.04.22. 오전 3:01', '정부, LH 매입임대로 전세사기 주택 우선 매수 추진\n포토\n조선일보\n신문A1면 \n2023.04.21. 오후 6:10', '전쟁터에서 돌아와 또 살인…주민들 떨게 만든 러 죄수들', '송영길 “민주당 탈당…모든 정치적 책임 지겠다”', '“난 성공한 성폭행범” 한국계 배우 망언에…스티븐 연이 대신 사과', '조종실에 여친 부르고 “술 가져와” 요구…인도 기장의 ‘황당 갑질’', '‘尹 퇴진집회’ 간 野의원 “총선 1년, 민주당에 힘 모아달라”', '“생각 없이 샀는데 1등” “전액 아내에게”…화제된 행운의 주인공들', '수단 교민 철수 도울 군 수송기, 지부티 미군기지 도착', '‘야구 천재’ 오타니, 완벽투 과시하며 130년만의 최저 기록 달성', '“똑바로 앉으랬지” 일부러 급제동 ‘끼익’…아동학대 기소 美스쿨버스 기사', '신정훈 “난 돈 봉투 안 받았다…민주당 169명 모두 진실 고백해야”', '이 남자의 액션, 벌써 100만명 홀렸다… ‘존 윅 4′ 흥행  1위 질주', '‘마른 하늘에 날벼락’…자국 도시에 실수로 폭탄 투하한 러 전투기', '‘처짐 현상 심각’ 탄천 16개 교량 보행로 재시공', '野 “중국 막말, 尹대통령 책임도 커” 與 “중국과 한팀이냐”', 'NYT “미군 기밀문서, 우크라 침공 직후인 작년 2월부터 유출”', '검찰 기소 앞둔 신현성, 외국 재판 받는 권도형', "직원 1만명 잘려도…'빅테크 연봉킹’ 구글 CEO, 얼마 챙겼나?", '아직도 이런 개농장이? 쇠꼬챙이로 개 도살한 파주 업자', '김기현 “민주당 도덕적 파산…대장동 이어 돈 봉투 사건”', '삼성전자, 미 특허소송서 4000억원 배상 평결']


In [123]:

aticle_title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
#in 뒤에 list,그속에서 빼와서 표현형으로 list 추가 (전부다 넣어서 list의 길이로 for문돌리지말자)
url_list = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
print(url_list)
#왜 [0]이들어가지?

['https://n.news.naver.com/mnews/article/023/0003759297', 'https://n.news.naver.com/mnews/article/023/0003759296', 'https://n.news.naver.com/mnews/article/023/0003759295', 'https://n.news.naver.com/mnews/article/023/0003759294', 'https://n.news.naver.com/mnews/article/023/0003759292', 'https://n.news.naver.com/mnews/article/023/0003759291', 'https://n.news.naver.com/mnews/article/023/0003759290', 'https://n.news.naver.com/mnews/article/023/0003759289']


In [None]:
news = pd.DataFrame({
    'title' : titles, #수업때 쓰는 변수임
    'url' : urls
})

## 페이지 전체


In [None]:

#DateFrmae()파라미터 columns알아보기

In [117]:
total_news = pd.DataFrame(columns=['title','url'])
for page in range(1, 8):  
  url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20230422&page={page}'
  bs = get_bs_url(url)
  titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
  urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
  
  news = pd.DataFrame({
    'title' : titles,
    'url' : urls
  })
  total_news = pd.concat([total_news, news])


In [120]:
  
  total_news

Unnamed: 0,title,url
0,"이재명, 尹 겨냥해 “살인수출”… 자유진영 28國, 우크라 군사 지원\n포토\n조선...",https://n.news.naver.com/mnews/article/023/000...
1,"정부, LH 매입임대로 전세사기 주택 우선 매수 추진\n포토\n조선일보\n신문A1면...",https://n.news.naver.com/mnews/article/023/000...
2,전쟁터에서 돌아와 또 살인…주민들 떨게 만든 러 죄수들,https://n.news.naver.com/mnews/article/023/000...
3,송영길 “민주당 탈당…모든 정치적 책임 지겠다”,https://n.news.naver.com/mnews/article/023/000...
4,“난 성공한 성폭행범” 한국계 배우 망언에…스티븐 연이 대신 사과,https://n.news.naver.com/mnews/article/023/000...
...,...,...
3,"전세사기꾼 7000억 사업 따낼 때, 인천 공무원이 강원도 옮겨가 총괄",https://n.news.naver.com/mnews/article/023/000...
4,,https://n.news.naver.com/mnews/article/023/000...
5,,https://n.news.naver.com/mnews/article/023/000...
6,,https://n.news.naver.com/mnews/article/023/000...


### 특정날짜 범위

In [130]:
ds.
pd.date_range('20230401','20230423').strftime("%Y%m%d") #strftime알아보기

Index(['20230401', '20230402', '20230403', '20230404', '20230405', '20230406',
       '20230407', '20230408', '20230409', '20230410', '20230411', '20230412',
       '20230413', '20230414', '20230415', '20230416', '20230417', '20230418',
       '20230419', '20230420', '20230421', '20230422', '20230423'],
      dtype='object')

In [138]:
last_page_num = bs.select('.pasing > strong')[0].text.strip()


IndexError: list index out of range

In [146]:
bs

<!DOCTYPE HTML>
<html lang="ko">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta contents="always" name="referrer"/>
<meta content="600" http-equiv="refresh"/>
<meta content="width=1106" name="viewport"/>
<meta content="조선일보 언론사홈" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://news.naver.com/main/list.naver?mode=LPOD&amp;mid=sec&amp;oid=023" property="og:url"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
<meta content="언론사 주요 뉴스와 속보를 만나볼 수 있습니다." property="og:description"/>
<meta content="네이버" property="og:article:author"/>
<meta content="summary" name="twitter:card"/>
<meta content="조선일보 언론사홈" name="twitter:title"/>
<meta content="네이버 뉴스" name="twitter:site"/>
<meta content="네이버 뉴스" name="twitter:creator"/>
<meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" name="twitter:ima

In [152]:
from tqdm import tqdm #?


total_news = pd.DataFrame(columns=['date','oid','title','url'])

for oid in tqdm(['023','028']):
  for date in pd.date_range('20230401','20230423'):
    date = date.strftime("%Y%m%d")
    
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000'
    bs = get_bs_url(url)
    last_page_num = int(bs.select('.paging > strong')[0].text.strip())

    for page in range(1, last_page_num+1):  
      url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
      bs = get_bs_url(url)
      titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
      urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
      
      news = pd.DataFrame({
        'date' : date,
        'oid' : oid,
        'title' : titles,
        'url' : urls   
      })
      total_news = pd.concat([total_news, news])
    

100%|██████████| 2/2 [01:22<00:00, 41.43s/it]


In [151]:
len(total_news)

6763

# 네이버 뉴스 크롤러


In [161]:
def naver_news_crawler(oids, start_date, end_date):
  total_news = pd.DataFrame(columns=['date','oid','title','url'])

  for oid in oids:
    for date in pd.date_range(start_date, end_date):
      date = date.strftime("%Y%m%d")
      
      url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000'
      bs = get_bs_url(url)
      last_page_num = int(bs.select('.paging > strong')[0].text.strip())

      for page in range(1, last_page_num+1):  
        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}'
        bs = get_bs_url(url)
        titles = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
        urls = [tag.select('a')[0].get('href') for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]]
        
        news = pd.DataFrame({
          'date' : date,
          'oid' : oid,
          'title' : titles,
          'url' : urls   
        })
        total_news = pd.concat([total_news, news])
  return total_news      
      
  

In [162]:
naver_news_crawler(['023','025','028'],'20230421','20230423')

Unnamed: 0,date,oid,title,url
0,20230421,023,"[단독] ‘문재인 탈원전’, 한전에 26조 손실 떠안겼다\n포토\n조선일보\n신문A...",https://n.news.naver.com/mnews/article/023/000...
1,20230421,023,중국 “대만 말참견 말라” 한국 “국격 의심돼”\n조선일보\n신문A1면 \n2023...,https://n.news.naver.com/mnews/article/023/000...
2,20230421,023,"엄지발가락 물어뜯은 불도그… 주인은 “땡큐”, 무슨 일?",https://n.news.naver.com/mnews/article/023/000...
3,20230421,023,"[반론보도] 「“尹 퇴진이 추모다” 北, 민노총에 시위구호까지 지령」 관련",https://n.news.naver.com/mnews/article/023/000...
4,20230421,023,인천 전세 사기꾼 “함께 부자 되자”... 동해 사업 거론하며 피해자 회유,https://n.news.naver.com/mnews/article/023/000...
...,...,...,...,...
16,20230423,028,"허구와 착시, 그리고 진실",https://n.news.naver.com/mnews/article/028/000...
17,20230423,028,자전거 퇴근하다 신호위반 사고…법원 “산재 아니다”,https://n.news.naver.com/mnews/article/028/000...
18,20230423,028,"인공지능 ‘빛의 질주’…따라갈 것인가, 성찰할 것인가",https://n.news.naver.com/mnews/article/028/000...
19,20230423,028,"김성회 전 비서관, ‘MBC가 초상권 침해’ 손배소 패소",https://n.news.naver.com/mnews/article/028/000...


#### 네이버 증권

#### 다음 증권