In [223]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

# 4.Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 
<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


## 4.1 HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## 4.2 HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

## 4.3 정적크롤링

#### 4.3.1 라이브러리

##### 4.3.1.1 requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

In [224]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://jsonplaceholder.typicode.com/users/1")
bs = BeautifulSoup(response.text, 'lxml')
bs

<html><body><p>{
  "id": 1,
  "name": "Leanne Graham",
  "username": "Bret",
  "email": "Sincere@april.biz",
  "address": {
    "street": "Kulas Light",
    "suite": "Apt. 556",
    "city": "Gwenborough",
    "zipcode": "92998-3874",
    "geo": {
      "lat": "-37.3159",
      "lng": "81.1496"
    }
  },
  "phone": "1-770-736-8031 x56442",
  "website": "hildegard.org",
  "company": {
    "name": "Romaguera-Crona",
    "catchPhrase": "Multi-layered client-server neural-net",
    "bs": "harness real-time e-markets"
  }
}</p></body></html>

###### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



###### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

###### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

##### 4.3.1.2 BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

###### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

###### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

### 4.3.2 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [225]:
response = '''
<div id="contents"> 
  <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
'''

In [226]:
bs = BeautifulSoup(response, 'lxml')

In [227]:
bs.select('div')[0]

<div id="contents">
<div class="data1">
<span class="language"> c++ </span>
<span class="language"> java </span>
<span class="language"> python </span>
</div>
<div class="data2">
<a class="framework"> tensorflow </a>
<a class="framework"> pytorch </a>
<a class="framework"> spring </a>
</div>
</div>

In [228]:
bs.select('div')[1]

<div class="data1">
<span class="language"> c++ </span>
<span class="language"> java </span>
<span class="language"> python </span>
</div>

In [229]:
bs.select('div')[2]

<div class="data2">
<a class="framework"> tensorflow </a>
<a class="framework"> pytorch </a>
<a class="framework"> spring </a>
</div>

In [230]:
bs.select('div')[2].select('a')

[<a class="framework"> tensorflow </a>,
 <a class="framework"> pytorch </a>,
 <a class="framework"> spring </a>]

In [231]:
bs.select('div')[2].select('a')[0]

<a class="framework"> tensorflow </a>

In [232]:
bs.select('div')[2].select('a')[1]

<a class="framework"> pytorch </a>

In [233]:
bs.select('div')[2].select('a')[2]

<a class="framework"> spring </a>

In [234]:
bs.select('div > span')

[<span class="language"> c++ </span>,
 <span class="language"> java </span>,
 <span class="language"> python </span>]

In [235]:
bs.select('div > a')

[<a class="framework"> tensorflow </a>,
 <a class="framework"> pytorch </a>,
 <a class="framework"> spring </a>]

In [236]:
bs.select('div > a')[0].text.strip()

'tensorflow'

In [237]:
bs.select('div > a')[0].text.strip()

'tensorflow'

In [238]:
[tag.text.strip() for tag in bs.select('div > a')]

['tensorflow', 'pytorch', 'spring']

In [239]:
bs.select('#contents') # 아이디를 매칭시킬떄는 무조건 # 사용

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

In [240]:
bs.select('div#contents')  # > 기호가 없어도 아이디값은 #으로 사용이가능하다.

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

In [241]:
bs.select('.data2')  # .을사용해서 특정한 클래스를 가지고온다.

[<div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>]

#### 네이버 뉴스

In [242]:
response =  requests.get(
    'https://n.news.naver.com/mnews/article/023/0003759424',
    headers={
    'User-Agent' : 'Mozilla 5.0'
    })
bs =  BeautifulSoup(response.text, 'lxml')

In [243]:
title =bs.select("h2#title_area > span")[0].text.strip()
come = bs.select("#newsct_article")[0].text.strip()
time = bs.select("span.media_end_head_info_datestamp_time. _ARTICLE_DATE_TIME")[0].text.strip()
author = bs.select("em.media_end_head_journalist_name")[0].test.strip()

SelectorSyntaxError: Malformed class selector at position 39
  line 1:
span.media_end_head_info_datestamp_time. _ARTICLE_DATE_TIME
                                       ^

In [None]:
bs.select('h2#title_area > span')[0].text.strip()

'“트위터 유료 구독한 계정 차단하자”...인증 마크 놓고 또 혼란에 빠진 트위터'

In [None]:
def get_bs_from_url(url):
    response =  requests.get(
    url,
    headers={
    'User-Agent' : 'Mozilla 5.0'
    }
)

    bs =  BeautifulSoup(response.text, 'lxml')


    return bs

In [None]:
# 한페이지 내용 수집
bs = get_bs_from_url("https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023")

In [None]:
bs.select('div.list_body.newsflash_body li dt')[1::2][0]

<dt>
<a class="nclicks(cnt_flashart)" href="https://n.news.naver.com/mnews/article/023/0003759429">
								 고맙다며 음료수 들고... 경찰서에 ‘마약 가방’ 찾으러 온 60대
								</a>
</dt>

In [None]:
bs.select('div.list_body.newsflash_body li dt')[1::2][0].text.strip() # 제목만가지고오기

'고맙다며 음료수 들고... 경찰서에 ‘마약 가방’ 찾으러 온 60대'

In [None]:
bs.select('div.list_body.newsflash_body li dt')[1::2][0].select('a')[0].get('href')    # href만 가지고오기

'https://n.news.naver.com/mnews/article/023/0003759429'

In [None]:
title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] # 제목만 가져오는 방법

In [None]:
urls = [bs.select('a')[0].get("href") for bs in bs.select('div.list_body.newsflash_body li dt')[1::2]] # url 만 가지고오는방법

In [None]:
news = pd.DataFrame({
    'title' : title,
    'url' : urls
})

In [None]:
# >와 스페이스바 1번만 타고간다면 >를사용하고 2번이상을 타고간다면 스페이스바를 사용한다.

In [None]:
total_news = pd.DataFrame(columns=['title','url'])
for page in range(1, 8):
    url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date=20230422&page={page}"
    bs = get_bs_from_url(url)

    title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
    urls = [bs.select('a')[0].get("href") for bs in bs.select('div.list_body.newsflash_body li dt')[1::2]]

    news = pd.DataFrame({
    'title' : title,
    'url' : urls
    })
    
    total_news = pd.concat([total_news,news])

In [None]:
total_news

Unnamed: 0,title,url
0,"이재명, 尹 겨냥해 “살인수출”… 자유진영 28國, 우크라 군사 지원\n포토\n조선...",https://n.news.naver.com/mnews/article/023/000...
1,"정부, LH 매입임대로 전세사기 주택 우선 매수 추진\n포토\n조선일보\n신문A1면...",https://n.news.naver.com/mnews/article/023/000...
2,전쟁터에서 돌아와 또 살인…주민들 떨게 만든 러 죄수들,https://n.news.naver.com/mnews/article/023/000...
3,송영길 “민주당 탈당…모든 정치적 책임 지겠다”,https://n.news.naver.com/mnews/article/023/000...
4,“난 성공한 성폭행범” 한국계 배우 망언에…스티븐 연이 대신 사과,https://n.news.naver.com/mnews/article/023/000...
...,...,...
3,"전세사기꾼 7000억 사업 따낼 때, 인천 공무원이 강원도 옮겨가 총괄",https://n.news.naver.com/mnews/article/023/000...
4,,https://n.news.naver.com/mnews/article/023/000...
5,,https://n.news.naver.com/mnews/article/023/000...
6,,https://n.news.naver.com/mnews/article/023/000...


In [None]:
pd.date_range('20230401','20230423')

DatetimeIndex(['2023-04-01', '2023-04-02', '2023-04-03', '2023-04-04',
               '2023-04-05', '2023-04-06', '2023-04-07', '2023-04-08',
               '2023-04-09', '2023-04-10', '2023-04-11', '2023-04-12',
               '2023-04-13', '2023-04-14', '2023-04-15', '2023-04-16',
               '2023-04-17', '2023-04-18', '2023-04-19', '2023-04-20',
               '2023-04-21', '2023-04-22', '2023-04-23'],
              dtype='datetime64[ns]', freq='D')

In [None]:
total_news = pd.DataFrame(columns=['title','url',"date"])
for date in tqdm(pd.date_range('20230401','20230423')):
    date = date.strftime("%Y%m%d")

    url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date={date}&page=10000"
    bs = get_bs_from_url(url)
    last_page_num = int(bs.select('.paging > strong')[0].text.strip())


    for page in range(1, last_page_num+1):
        url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=023&date={date}&page={page}"
        bs = get_bs_from_url(url)

        title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
        urls = [bs.select('a')[0].get("href") for bs in bs.select('div.list_body.newsflash_body li dt')[1::2]]

        news = pd.DataFrame({
        "date" : date,
        'title' : title,
        'url' : urls
        })
        
        total_news = pd.concat([total_news,news])

100%|██████████| 23/23 [00:34<00:00,  1.49s/it]


In [None]:
total_news

Unnamed: 0,title,url,date
0,헌법 위 민주당...대통령 임명권 줄이고 조약 통제하는 법안까지 발의\n포토\n조선...,https://n.news.naver.com/mnews/article/023/000...,20230401
1,"트럼프 “수갑 채워 데려가라”... 다시 두쪽 나는 美, 경찰은 비상대기령\n포토\...",https://n.news.naver.com/mnews/article/023/000...,20230401
2,"“흥민이형 오해한 제 잘못, 96파벌설은…” 김민재 입 열었다",https://n.news.naver.com/mnews/article/023/000...,20230401
3,"尹, 대구서 프로야구 개막전 시구… 韓日 정상, 피칭 대결의 승자는?",https://n.news.naver.com/mnews/article/023/000...,20230401
4,"경찰, 강남 여성 납치·살해 3명 구속영장 신청",https://n.news.naver.com/mnews/article/023/000...,20230401
...,...,...,...
15,,https://n.news.naver.com/mnews/article/023/000...,20230423
16,,https://n.news.naver.com/mnews/article/023/000...,20230423
17,,https://n.news.naver.com/mnews/article/023/000...,20230423
18,,https://n.news.naver.com/mnews/article/023/000...,20230423


In [None]:
pd.date_range('20230401','20230423')[0].strftime("%Y%m%d") # 대문자 Y가 연도 소문자m이 월  소문자d가 일

'20230401'

In [None]:
# 여러 언론사
total_news = pd.DataFrame(columns=['title','url',"date",'oid'])
for oid in tqdm(['023','028']):
    for date in (pd.date_range('20230401','20230423')):
        date = date.strftime("%Y%m%d")

        url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000"
        bs = get_bs_from_url(url)
        last_page_num = int(bs.select('.paging > strong')[0].text.strip())


        for page in range(1, last_page_num+1):
            url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}"
            bs = get_bs_from_url(url)

            title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
            urls = [bs.select('a')[0].get("href") for bs in bs.select('div.list_body.newsflash_body li dt')[1::2]]

            news = pd.DataFrame({
            "date" : date,
            'title' : title,
            'url' : urls,
            'oid' : oid
            })
            
            total_news = pd.concat([total_news,news])

            

100%|██████████| 2/2 [01:00<00:00, 30.09s/it]


In [None]:
total_news

Unnamed: 0,title,url,date,oid
0,헌법 위 민주당...대통령 임명권 줄이고 조약 통제하는 법안까지 발의\n포토\n조선...,https://n.news.naver.com/mnews/article/023/000...,20230401,023
1,"트럼프 “수갑 채워 데려가라”... 다시 두쪽 나는 美, 경찰은 비상대기령\n포토\...",https://n.news.naver.com/mnews/article/023/000...,20230401,023
2,"“흥민이형 오해한 제 잘못, 96파벌설은…” 김민재 입 열었다",https://n.news.naver.com/mnews/article/023/000...,20230401,023
3,"尹, 대구서 프로야구 개막전 시구… 韓日 정상, 피칭 대결의 승자는?",https://n.news.naver.com/mnews/article/023/000...,20230401,023
4,"경찰, 강남 여성 납치·살해 3명 구속영장 신청",https://n.news.naver.com/mnews/article/023/000...,20230401,023
...,...,...,...,...
16,"허구와 착시, 그리고 진실",https://n.news.naver.com/mnews/article/028/000...,20230423,028
17,자전거 퇴근하다 신호위반 사고…법원 “산재 아니다”,https://n.news.naver.com/mnews/article/028/000...,20230423,028
18,"인공지능 ‘빛의 질주’…따라갈 것인가, 성찰할 것인가",https://n.news.naver.com/mnews/article/028/000...,20230423,028
19,"김성회 전 비서관, ‘MBC가 초상권 침해’ 손배소 패소",https://n.news.naver.com/mnews/article/028/000...,20230423,028


In [None]:
def naver_news_crawler(oids, start_date, end_date):
    total_news = pd.DataFrame(columns=['title','url',"date",'oid'])
    for oid in tqdm(oids):
        for date in (pd.date_range(start_date,end_date)):
            date = date.strftime("%Y%m%d")

            url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page=10000"
            bs = get_bs_from_url(url)
            last_page_num = int(bs.select('.paging > strong')[0].text.strip())


            for page in range(1, last_page_num+1):
                url = f"https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={oid}&date={date}&page={page}"
                bs = get_bs_from_url(url)

                title = [tag.text.strip() for tag in bs.select('div.list_body.newsflash_body li dt')[1::2]] 
                urls = [bs.select('a')[0].get("href") for bs in bs.select('div.list_body.newsflash_body li dt')[1::2]]

                news = pd.DataFrame({
                "date" : date,
                'title' : title,
                'url' : urls,
                'oid' : oid
                })
                
                total_news = pd.concat([total_news,news])
    
    return total_news

In [None]:
naver_news_crawler(['025','023','028'], '20230421','20230423')

#### 네이버 증권

In [4]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

In [5]:
response =  requests.get(
    'https://finance.naver.com/item/main.naver?code=086520#')
bs =  BeautifulSoup(response.text, 'lxml')

In [None]:
current_price = int(bs.select("div.today > p.no_today")[0].select("span.blind")[0].text.strip().replace(',',''))

In [None]:
volume = bs.select("div.rate_info > table")[0].select("span")
volume

In [10]:
bs.select("div h2")

[<h2 class="blind">자동완성</h2>,
 <h2><a href="#" onclick="clickcr(this, 'sop.title', '', '', event);window.location.reload();">에코프로</a></h2>,
 <h2 class="blind" id="blind_text_tab_search">최근조회</h2>,
 <h2 class="h_sub sub_tit9"><span>인기검색종목</span></h2>,
 <h2 class="h_sub sub_tit8"><span>시세정보바로가기</span></h2>,
 <h2 class="h_sub sub_tit10"><span>공지사항</span></h2>]

In [19]:
bs.select("table  tbody tr  td  em")

[<em>941,053</em>,
 <em>992,060</em>,
 <em>396,642</em>,
 <em>426,024</em>,
 <em>252,501</em>,
 <em>234,294</em>,
 <em>229,873</em>,
 <em>212,587</em>,
 <em>216,105</em>,
 <em>197,960</em>,
 <em>730,000</em>,
 <em class="f_up up"><span>상향</span>
 				21,000
 				</em>,
 <em class="f_down">
 				-150,650
 				</em>,
 <em class="f_down">
 				-16,033
 				</em>,
 <em>709,000</em>,
 <em class="f_up up"><span>상향</span>
 				110,000
 				</em>,
 <em class="f_up">
 				+126,180
 				</em>,
 <em class="f_up">
 				+38,486
 				</em>,
 <em>599,000</em>,
 <em class="f_up up"><span>상향</span>
 				2,000
 				</em>,
 <em class="f_down">
 				-94,651
 				</em>,
 <em class="f_up">
 				+25,713
 				</em>,
 <em>597,000</em>,
 <em class="f_down down"><span>하향</span>
 				1,000
 				</em>,
 <em class="f_down">
 				-142,352
 				</em>,
 <em class="f_down">
 				-17,889
 				</em>,
 <em>598,000</em>,
 <em class="f_up up"><span>상향</span>
 				24,000
 				</em>,
 <em class="f_down">
 				-16,804
 				</e

In [39]:
bs.select("div > tablesummary >  td")

[]

#### 다음 증권

In [244]:
import json
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

In [245]:
response = requests.get("https://finance.daum.net/domestic/market_cap")
bs =  BeautifulSoup(response.text, 'lxml')

In [None]:
headers= {'User-Agent' : 'Mozilla 5.0',
            'referer' : "https://finance.daum.net/domestic/market_cap"}
response = requests.get("https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true",headers = headers)
bs = BeautifulSoup(response.text, "lxml") # 태그정보만 살려준다.

In [None]:
# 코스피 전체 데이터 프레임 만들기

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

headers = {'User-Agent': 'Mozilla/5.0',
           'Referer': 'https://finance.daum.net/domestic/market_cap'}
response = requests.get('https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true', headers=headers)
data = json.loads(response.text)
df = pd.DataFrame(data)

df

In [265]:

headers = {'User-Agent': 'Mozilla/5.0',
           'Referer': 'https://finance.daum.net/domestic/market_cap'}
response = requests.get('https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true', headers=headers)
bs= json.loads(response.text)

total_stock = pd.DataFrame(bs.get("data"))

In [270]:
for page in tqdm(range(2, bs.get("totalPages")+1)):
    response = requests.get(f"https://finance.daum.net/api/trend/market_capitalization?page={page}&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true",headers=headers)

    bs = json.loads(response.text)
    temp_stock = pd.DataFrame(bs.get("data"))

    total_Stock = pd.concat([total_Stock,temp_stock])

100%|██████████| 66/66 [00:42<00:00,  1.57it/s]


In [192]:
headers_1 = {'User-Agent' : 'Mozilla 5.0',
            'referer' : "https://finance.daum.net/domestic/market_cap"}
response_1 = requests.get("https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSDAQ&pagination=true",headers = headers)
bs_1 = json.loads(response_1.text) # 딕셔너리형태로 보여준다.

In [258]:
pd.DataFrame(bs.get("data"))

Unnamed: 0,rank,name,symbolCode,code,tradePrice,change,changePrice,changeRate,marketCap,listedShareCount,foreignRatio
0,1,삼성전자,A005930,KR7005930003,65500.0,RISE,900.0,0.013932,391020800000000.0,5969782550,0.518
1,2,LG에너지솔루션,A373220,KR7373220003,581000.0,FALL,6000.0,-0.010221,135954000000000.0,234000000,0.054
2,3,SK하이닉스,A000660,KR7000660001,89500.0,RISE,700.0,0.007883,65156210000000.0,728002365,0.495
3,4,삼성바이오로직스,A207940,KR7207940008,781000.0,RISE,3000.0,0.003856,55586890000000.0,71174000,0.106
4,5,LG화학,A051910,KR7051910008,740000.0,FALL,1000.0,-0.00135,52238330000000.0,70592343,0.484
5,6,삼성SDI,A006400,KR7006400006,691000.0,FALL,15000.0,-0.021246,47516290000000.0,68764530,0.494
6,7,삼성전자우,A005935,KR7005931001,55700.0,RISE,600.0,0.010889,45834790000000.0,822886700,0.72
7,8,현대차,A005380,KR7005380001,197500.0,FALL,4500.0,-0.022277,41777470000000.0,211531506,0.316
8,9,기아,A000270,KR7000270009,84500.0,FALL,2100.0,-0.024249,34253200000000.0,405363347,0.37
9,10,POSCO홀딩스,A005490,KR7005490008,377000.0,FALL,10000.0,-0.02584,31883350000000.0,84571230,0.408


In [197]:
df_1 = pd.DataFrame(bs_1.get("data"))

In [252]:
total_Stock = pd.concat([df_1,df])
total_Stock

Unnamed: 0,rank,name,symbolCode,code,tradePrice,change,changePrice,changeRate,marketCap,listedShareCount,foreignRatio
0,1,에코프로비엠,A247540,KR7247540008,267000.0,FALL,2500.0,-0.009276,26112960000000.0,97801344,0.097
1,2,에코프로,A086520,KR7086520004,730000.0,RISE,21000.0,0.029619,19438200000000.0,26627668,0.065
2,3,셀트리온헬스케어,A091990,KR7091990002,69400.0,FALL,600.0,-0.008571,11413310000000.0,164456910,0.162
3,4,엘앤에프,A066970,KR7066970005,265000.0,FALL,11000.0,-0.039855,9544854000000.0,36018316,0.231
4,5,HLB,A028300,KR7028300002,35350.0,RISE,350.0,0.01,4333089000000.0,122576784,0.149
5,6,카카오게임즈,A293490,KR7293490009,40350.0,RISE,350.0,0.00875,3325925000000.0,82426880,0.119
6,7,셀트리온제약,A068760,KR7068760008,81600.0,FALL,1400.0,-0.016867,3230416000000.0,39588427,0.079
7,8,JYP Ent.,A035900,KR7035900000,90200.0,RISE,2200.0,0.025,3201874000000.0,35497492,0.446
8,9,오스템임플란트,A048260,KR7048260004,186600.0,RISE,300.0,0.00161,2906573000000.0,15576488,0.009
9,10,펄어비스,A263750,KR7263750002,43050.0,RISE,250.0,0.005841,2765524000000.0,64239815,0.138


In [1]:
!pip install selenium

Defaulting to user installation because normal site-packages is not writeable


In [2]:
from selenium import webdriver