In [130]:
import pandas as pd
import psycopg2
import requests
import json
from bs4 import BeautifulSoup
from tqdm import tqdm

# Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 느림|

<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


## HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [11]:
response = requests.get("https://jsonplaceholder.typicode.com/users/1")
bs = BeautifulSoup(response.text, 'lxml')
bs

<html><body><p>{
  "id": 1,
  "name": "Leanne Graham",
  "username": "Bret",
  "email": "Sincere@april.biz",
  "address": {
    "street": "Kulas Light",
    "suite": "Apt. 556",
    "city": "Gwenborough",
    "zipcode": "92998-3874",
    "geo": {
      "lat": "-37.3159",
      "lng": "81.1496"
    }
  },
  "phone": "1-770-736-8031 x56442",
  "website": "hildegard.org",
  "company": {
    "name": "Romaguera-Crona",
    "catchPhrase": "Multi-layered client-server neural-net",
    "bs": "harness real-time e-markets"
  }
}</p></body></html>

## 정적크롤링

### 라이브러리

#### requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

##### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



##### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

##### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

#### BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

##### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

##### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

### 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [12]:
response = '''
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
'''

In [14]:
bs4 = BeautifulSoup(response, 'lxml')

In [18]:
languages = bs4.select('a')
languages

[<a> c </a>, <a> java </a>]

In [22]:
languages[0].text.strip()

'c'

In [25]:
[language.text.strip() for language in languages]

['c', 'java']

In [31]:
bs4.select('div')[2]

<div>
<a> java </a>
<span> python </span>
</div>

In [34]:
bs4.select('div div a')

[<a> c </a>, <a> java </a>]

In [36]:
bs4.select('div > a')

[<a> c </a>, <a> java </a>]

In [37]:
response = '''
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
'''

In [38]:
bs4 = BeautifulSoup(response, 'lxml')

In [40]:
bs4.select('.language')

[<span class="language"> c++ </span>,
 <span class="language"> java </span>,
 <span class="language"> python </span>]

In [41]:
bs4.select('span.language')

[<span class="language"> c++ </span>,
 <span class="language"> java </span>,
 <span class="language"> python </span>]

In [44]:
bs4.select('.data2')[0].select('a')

[<a class="framework"> tensorflow </a>,
 <a class="framework"> pytorch </a>,
 <a class="framework"> spring </a>]

In [46]:
bs4.select('div#contents')

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

In [48]:
# ['tensorflow', 'pytorch', 'spring']
frameworks = bs4.select('a.framework')
frameworks = [framework.text.strip() for framework in frameworks]
frameworks

['tensorflow', 'pytorch', 'spring']

#### 네이버 뉴스

In [52]:
response = requests.get('https://n.news.naver.com/mnews/article/009/0005351727')
if response.status_code == 200:
    bs = BeautifulSoup(response.text, 'lxml')

In [55]:
times = bs.select('div.media_end_head_info_datestamp_bunch > span')

In [58]:
[time.text for time in times][0].split()

['2024.08.18.', '오후', '6:05']

In [61]:
times[0].text.split()

['2024.08.18.', '오후', '6:05']

In [8]:
def convert_to_datetime(date: str):
    date, am_pm, time = date.split()

    hour, minute = time.split(':')
    hour = int(hour)
    
    if (am_pm == '오후') and (hour != 12):
        hour += 12
    time = f'{hour}:{minute}'
    datetime_ = f'{date}{time}'

    return pd.to_datetime(datetime_, format='%Y.%m.%d.%H:%M')

In [94]:
posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]

In [78]:
title = bs.select('h2#title_area > span')
title = title[0].text
title

'인구 비상사태, 기업 대응 낙제점'

In [83]:
reporter = bs.select('em.media_end_head_journalist_name')
reporter = reporter[0].text
reporter = reporter.split()[0]
reporter

'성승훈'

In [87]:
contents = bs.select('article#dic_area')
contents[0]

<article class="go_trans _article_content" id="dic_area">
<span style="border-left:4px solid #959595; padding-left: 20px; display: inline-block"><strong>한미연 EPG 경영 평가, 300개 기업중 80점이상 5곳 그쳐<br/>육아 환경 여전히 팍팍 …"출산장려 기업 인센티브 부족"</strong></span><br/><br/>◆ 기업 인구대응 평가 ◆<br/><br/><span class="end_photo_org"><div class="nbd_im_w _LAZY_LOADING_WRAP is_small">
<div class="nbd_a _LAZY_LOADING_ERROR_HIDE" id="img_a1">
<img alt="" class="_LAZY_LOADING _LAZY_LOADING_INIT_HIDE" data-src="https://imgnews.pstatic.net/image/009/2024/08/18/0005351727_001_20240818204316565.jpg?type=w647" id="img1" style="display: none;"/>
</div>
</div></span><br/><br/>제조업 분야 중견기업에서 근무 중인 30대 여성 직장인 A씨는 수년째 출산을 미루고 있다. 회사에서 자리가 사라질 것 같은 불안감 때문이다. 그는 "주변 사례를 보면 육아휴직 후 돌아올 자리가 없을 것이라는 식으로 압박을 주는 일이 심심치 않게 있었다"며 "경력단절을 막기 위해 출산을 포기하든지 육아를 위해 퇴사하든지 선택지는 둘 중 하나"라고 토로했다.<br/><br/>국내 기업들의 인구위기 대응은 '낙제점'을 면치 못한 것으로 나타났다. 인구절벽에 직면해 정부가 출산·육아 지원책을 잇달아 내놓고 있지만 현장에서 제대로 작동하지 않고 있다는 지적이다. <br/><br/>18일 매일경제와 한반도미래인구연구원은 국내 최초로 자산 규모 1조

In [148]:
press_id = '009'
article_id = 'https://n.news.naver.com/mnews/article/009/0005351727'.split('/')[-1]

In [149]:
with psycopg2.connect(
    host='localhost',
    dbname='postgres',
    user='postgres',
    password='1234',
    port=5432,
) as conn:
    with conn.cursor() as cur:
        f"""INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title}', '{contents[0].text.replace('\'', '').replace('\"', '')}')"""
        cur.execute()

AttributeError: 'str' object has no attribute 'text'

In [None]:
## 한 페이지 crawling

In [225]:
response = requests.get('https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date=20240819&page=1')
bs = BeautifulSoup(response.text, 'lxml')

url_with_problem = []
press_id = '009'
for url in tqdm(list(set([tag.attrs.get('href') for tag in bs.select('li dl a')]))):
    article_id = url.split('/')[-1]

    response = requests.get(url)
    if response.status_code == 200:
        bs = BeautifulSoup(response.text, 'lxml')
    else:
        url_with_problem.append(url)
        continue

    times = bs.select('div.media_end_head_info_datestamp_bunch > span')
    if times and len(times) == 2:
        posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
    elif times and len(times) == 1:
        posting_time = [convert_to_datetime(time.text) for time in times][0]
        modifying_time = posting_time
    else:
        url_with_problem.append(url)
        continue

    title = bs.select('h2#title_area > span')
    if title:
        title = title[0].text
    elif not title:
        title = bs.select('h2.NewsEndMain_article_title__kqEzS')
        title = title[0].text
    else:
        url_with_problem.append(url)
        continue

    reporter = bs.select('em.media_end_head_journalist_name')
    if reporter:
        reporter = reporter[0].text
        reporter = reporter.split()[0]
    else:
        reporter = ''
    
    contents = bs.select('article#dic_area')
    if contents:
        contents = contents[0].text.replace('\'', '').replace('\"', '')
    elif not contents:
        contents = bs.select('article#comp_news_article')
        contents = contents[0].text.replace('\'', '').replace('\"', '')
    else:
        url_with_problem.append(url)
        continue

    with psycopg2.connect(
        host='localhost',
        dbname='postgres',
        user='postgres',
        password='1234',
        port=5432,
    ) as conn:
        with conn.cursor() as cur:
            try:                
                cur.execute(f"""INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title}', '{contents}')""")
            except Exception:
                url_with_problem.append(url)

100%|██████████| 24/24 [00:03<00:00,  6.84it/s]


## 전체 페이지 crawling

In [237]:
url = 'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date=20240819&page=100000'
response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')

last_page_num = bs.select('div.paging > strong')
last_page_num = int(last_page_num[0].text)

url_with_problem = []
press_id = '009'
for page in tqdm(range(1, last_page_num+1)):
    response = requests.get(f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date=20240819&page={page}')
    bs = BeautifulSoup(response.text, 'lxml')

    for url in list(set([tag.attrs.get('href') for tag in bs.select('li dl a')])):
        article_id = url.split('/')[-1]

        response = requests.get(url)
        if response.status_code == 200:
            bs = BeautifulSoup(response.text, 'lxml')
        else:
            url_with_problem.append(url)
            continue

        times = bs.select('div.media_end_head_info_datestamp_bunch > span')
        if times and len(times) == 2:
            posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
        elif times and len(times) == 1:
            posting_time = [convert_to_datetime(time.text) for time in times][0]
            modifying_time = posting_time
        else:
            url_with_problem.append(url)
            continue

        title = bs.select('h2#title_area > span')
        if title:
            title = title[0].text
        elif not title:
            title = bs.select('h2.NewsEndMain_article_title__kqEzS')
            title = title[0].text
        else:
            url_with_problem.append(url)
            continue

        reporter = bs.select('em.media_end_head_journalist_name')
        if reporter:
            reporter = reporter[0].text
            reporter = reporter.split()[0]
        else:
            reporter = ''
        
        contents = bs.select('article#dic_area')
        if contents:
            contents = contents[0].text.replace('\'', '').replace('\"', '')
        elif not contents:
            contents = bs.select('article#comp_news_article')
            contents = contents[0].text.replace('\'', '').replace('\"', '')
        else:
            url_with_problem.append(url)
            continue

        with psycopg2.connect(
            host='localhost',
            dbname='postgres',
            user='postgres',
            password='1234',
            port=5432,
        ) as conn:
            with conn.cursor() as cur:
                try:                
                    cur.execute(f"""INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title}', '{contents}')""")
                except Exception:
                    url_with_problem.append(url)

100%|██████████| 24/24 [00:03<00:00,  6.69it/s]
100%|██████████| 20/20 [00:03<00:00,  5.92it/s]
100%|██████████| 20/20 [00:03<00:00,  6.61it/s]
100%|██████████| 20/20 [00:03<00:00,  6.04it/s]
100%|██████████| 20/20 [00:05<00:00,  3.58it/s]
100%|██████████| 20/20 [00:03<00:00,  5.92it/s]
100%|██████████| 20/20 [00:03<00:00,  5.47it/s]
100%|██████████| 20/20 [00:03<00:00,  6.03it/s]
100%|██████████| 20/20 [00:03<00:00,  5.27it/s]
100%|██████████| 20/20 [00:02<00:00,  6.70it/s]
100%|██████████| 20/20 [00:03<00:00,  5.85it/s]
100%|██████████| 20/20 [00:05<00:00,  3.61it/s]
100%|██████████| 20/20 [00:03<00:00,  5.32it/s]
100%|██████████| 20/20 [00:04<00:00,  4.99it/s]
100%|██████████| 20/20 [00:03<00:00,  5.43it/s]
100%|██████████| 20/20 [00:03<00:00,  5.37it/s]
100%|██████████| 6/6 [00:01<00:00,  5.55it/s]t]
100%|██████████| 17/17 [01:03<00:00,  3.73s/it]


In [239]:
## 여러 날짜의 데이터 crawling

In [243]:
url_with_problem = []
press_id = '009'
for date in tqdm(pd.date_range('2024-08-17', '2024-08-19')):
    date = date.strftime('%Y%m%d')

    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date={date}&page=100000'
    response = requests.get(url)
    bs = BeautifulSoup(response.text, 'lxml')

    last_page_num = bs.select('div.paging > strong')
    last_page_num = int(last_page_num[0].text)

    for page in range(1, last_page_num+1):
        response = requests.get(f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date={date}&page={page}')
        bs = BeautifulSoup(response.text, 'lxml')

        for url in list(set([tag.attrs.get('href') for tag in bs.select('li dl a')])):
            article_id = url.split('/')[-1]

            response = requests.get(url)
            if response.status_code == 200:
                bs = BeautifulSoup(response.text, 'lxml')
            else:
                url_with_problem.append(url)
                continue

            times = bs.select('div.media_end_head_info_datestamp_bunch > span')
            if times and len(times) == 2:
                posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
            elif times and len(times) == 1:
                posting_time = [convert_to_datetime(time.text) for time in times][0]
                modifying_time = posting_time
            else:
                url_with_problem.append(url)
                continue

            title = bs.select('h2#title_area > span')
            if title:
                title = title[0].text
            elif not title:
                title = bs.select('h2.NewsEndMain_article_title__kqEzS')
                title = title[0].text
            else:
                url_with_problem.append(url)
                continue

            reporter = bs.select('em.media_end_head_journalist_name')
            if reporter:
                reporter = reporter[0].text
                reporter = reporter.split()[0]
            else:
                reporter = ''
            
            contents = bs.select('article#dic_area')
            if contents:
                contents = contents[0].text.replace('\'', '').replace('\"', '')
            elif not contents:
                contents = bs.select('article#comp_news_article')
                contents = contents[0].text.replace('\'', '').replace('\"', '')
            else:
                url_with_problem.append(url)
                continue

            with psycopg2.connect(
                host='localhost',
                dbname='postgres',
                user='postgres',
                password='1234',
                port=5432,
            ) as conn:
                with conn.cursor() as cur:
                    try:                
                        cur.execute(f"""INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title}', '{contents}')""")
                    except Exception:
                        url_with_problem.append(url)

100%|██████████| 3/3 [03:03<00:00, 61.00s/it]


In [None]:
## 함수화

In [245]:
def crawler(press_id: str, start_date: str, end_date: str, **kwargs) -> list:
    url_with_problem = []
    for date in tqdm(pd.date_range(start_date, end_date)):
        date = date.strftime('%Y%m%d')

        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={press_id}&date={date}&page=100000'
        response = requests.get(url)
        bs = BeautifulSoup(response.text, 'lxml')

        last_page_num = bs.select('div.paging > strong')
        last_page_num = int(last_page_num[0].text)

        for page in range(1, last_page_num+1):
            response = requests.get(f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid={press_id}&date={date}&page={page}')
            bs = BeautifulSoup(response.text, 'lxml')

            for url in list(set([tag.attrs.get('href') for tag in bs.select('li dl a')])):
                article_id = url.split('/')[-1]

                response = requests.get(url)
                if response.status_code == 200:
                    bs = BeautifulSoup(response.text, 'lxml')
                else:
                    url_with_problem.append(url)
                    continue

                times = bs.select('div.media_end_head_info_datestamp_bunch > span')
                if times and len(times) == 2:
                    posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
                elif times and len(times) == 1:
                    posting_time = [convert_to_datetime(time.text) for time in times][0]
                    modifying_time = posting_time
                else:
                    url_with_problem.append(url)
                    continue

                title = bs.select('h2#title_area > span')
                if title:
                    title = title[0].text
                elif not title:
                    title = bs.select('h2.NewsEndMain_article_title__kqEzS')
                    title = title[0].text
                else:
                    url_with_problem.append(url)
                    continue

                reporter = bs.select('em.media_end_head_journalist_name')
                if reporter:
                    reporter = reporter[0].text
                    reporter = reporter.split()[0]
                else:
                    reporter = ''
                
                contents = bs.select('article#dic_area')
                if contents:
                    contents = str(contents[0])
                elif not contents:
                    contents = bs.select('article#comp_news_article')
                    contents = str(contents[0])
                else:
                    url_with_problem.append(url)
                    continue

                with psycopg2.connect(
                    host=kwargs.get('host'),
                    dbname=kwargs.get('dbname'),
                    user=kwargs.get('user'),
                    password=kwargs.get('password'),
                    port=kwargs.get('port'),
                ) as conn:
                    with conn.cursor() as cur:
                        try:                
                            cur.execute(f"""INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title}', '{contents}')""")
                        except Exception:
                            url_with_problem.append(url)
    
    return url_with_problem

In [246]:
url_with_problem = crawler(
    '025', '2024-08-18', '2024-08-19',
    host='localhost', dbname='postgres', user='postgres', password='1234', port=5432,
)

100%|██████████| 2/2 [01:03<00:00, 31.58s/it]


#### 네이버 증권

In [66]:
url = 'https://finance.naver.com/item/main.naver?code=005930'
response = requests.get(url)
bs4 = BeautifulSoup(response.text, 'lxml')


# stock_code
stock_code = bs4.select('span.code')[0].text

# stock_name
stock_name = bs4.select('div.wrap_company > h2 > a')[0].text

# open_price
open_price = bs4.select('td.first em span.blind')[-1].text

# high_price
high_price = bs4.select('em.no_up span.blind')[-3]

# low_price
low_price = bs4.select('em.no_up span.blind')[-1]

# volume
volume = bs4.select('table.no_info')[0].select('tr')[0].select('td')[-1].select('span.blind')[0].text

# close_price
close_price = bs4.select('div.today span.blind')[0].text

In [103]:
# 시가총액
market_cap = bs4.select('em#_market_sum')[0].text.strip().replace('\n', '').replace('\t', '')

# 상장주식수
num_of_stocks = bs4.select('div.first table')[0].select('tr')[2].select('td')[0].text

# 액면가
face_price = bs4.select('div.first table')[0].select('tr')[-1].select('td')[0].text.strip().replace('\n', '').replace('\t', '')

# per
per = bs4.select('em#_per')[0].text

# pbr
pbr = bs4.select('em#_pbr')[0].text

# 배당수익률
dvr = bs4.select('em#_dvr')[0].text

# 동일업종 PER
same_field_per = bs4.select('div.gray')[-1].select('tr')[0].select('em')[0].text

In [107]:
def extract_information(stock_code):
    url = f'https://finance.naver.com/item/main.naver?code={stock_code}'
    response = requests.get(url)
    bs4 = BeautifulSoup(response.text, 'lxml')

    # stock_code
    stock_code = bs4.select('span.code')[0].text

    # stock_name
    stock_name = bs4.select('div.wrap_company > h2 > a')[0].text

    # open_price
    open_price = bs4.select('td.first em span.blind')[-1].text

    # high_price
    high_price = bs4.select('em.no_up span.blind')[-3].text

    # low_price
    low_price = bs4.select('em.no_up span.blind')[-1].text

    # volume
    volume = bs4.select('table.no_info')[0].select('tr')[0].select('td')[-1].select('span.blind')[0].text

    # close_price
    close_price = bs4.select('div.today span.blind')[0].text

    return stock_code, stock_name, open_price, high_price, low_price, volume, close_price

In [108]:
extract_information('005930')

('005930', '삼성전자', '79,500', '79,800', '78,700', '4,774,832', '79,300')

In [119]:
# 시가총액 페이지에서 종목 코드 수집
all_codes= []
for page in range(1, 11):
    url = f'https://finance.naver.com/sise/sise_market_sum.naver?&page={page}'
    response = requests.get(url, headers={'user-agent': 'Mozilla 5.0'})
    bs = BeautifulSoup(response.text, 'lxml')

    codes = [tag.attrs.get('href').split('=')[-1] for tag in bs.select('tr td a') if 'main.naver?' in tag.attrs.get('href')]
    all_codes.extend(codes)

In [None]:
# 수집한 코드를 함수에 입력하여 정보 추출 후 디비 입력

for code in all_codes:
    extract_information(code)

#### 다음 증권

In [122]:
url = 'https://finance.daum.net/domestic/market_cap'
response = requests.get(url, headers={'user-agent': 'Mozilla 5.0'})
bs = BeautifulSoup(response.text, 'lxml')

In [124]:
bs.select('div.box_contents')

[]

In [131]:
url = 'https://finance.daum.net/api/trend/market_capitalization?page=1&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true'
response = requests.get(
    url,
    headers={
        'user-agent': 'Mozilla 5.0',
        'Referer': 'https://finance.daum.net/domestic/market_cap',
        },
    )
result = json.loads(response.text)

In [134]:
def crawl_daum_finance(page):
    url = f'https://finance.daum.net/api/trend/market_capitalization?page={page}&perPage=30&fieldName=marketCap&order=desc&market=KOSPI&pagination=true'
    response = requests.get(
        url,
        headers={
            'user-agent': 'Mozilla 5.0',
            'Referer': 'https://finance.daum.net/domestic/market_cap',
            },
        )
    result = json.loads(response.text).get('data')

    return result

In [135]:
data = []

for page in tqdm(range(1, 77)):
    data.extend(crawl_daum_finance(page))

100%|██████████| 76/76 [00:02<00:00, 37.92it/s]


In [137]:
data

[{'rank': 1,
  'code': 'KR7005930003',
  'name': '삼성전자',
  'symbolCode': 'A005930',
  'tradePrice': 79600.0,
  'change': 'RISE',
  'changePrice': 1300.0,
  'changeRate': 0.0166028097,
  'marketCap': 475194690980000,
  'listedShareCount': 5969782550,
  'foreignRatio': '0.5623283582'},
 {'rank': 2,
  'code': 'KR7000660001',
  'name': 'SK하이닉스',
  'symbolCode': 'A000660',
  'tradePrice': 200500.0,
  'change': 'RISE',
  'changePrice': 6600.0,
  'changeRate': 0.034038164,
  'marketCap': 145964474182500,
  'listedShareCount': 728002365,
  'foreignRatio': '0.5491759563'},
 {'rank': 3,
  'code': 'KR7373220003',
  'name': 'LG에너지솔루션',
  'symbolCode': 'A373220',
  'tradePrice': 329000.0,
  'change': 'FALL',
  'changePrice': 500.0,
  'changeRate': 0.0015174507,
  'marketCap': 76986000000000,
  'listedShareCount': 234000000,
  'foreignRatio': '0.0476472308'},
 {'rank': 4,
  'code': 'KR7207940008',
  'name': '삼성바이오로직스',
  'symbolCode': 'A207940',
  'tradePrice': 908000.0,
  'change': 'FALL',
  'chang