In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm

# Crawling

스크레이핑(Scraping)이라고도 하며 웹 페이지 내의 데이터를 추출하는 것을 의미 <br>
데이터를 수집하기 위한 방법으로 많이 사용 <br>
크게 두 가지의 방법이 존재
1. 정적크롤링 <br>
정적 데이터를 수집하는 방법 <br>
정적 데이터란 페이지 내에 원하는 정보가 모두 들어남

2. 동적크롤링 <br>
동적 데이터를 수집하는 방법 <br>
동적 데이터란 클릭, 로그인 등의 행위를 통해 원하는 데이터에 접근 가능 <br>


|    |정적 크롤링|동적 크롤링|
|----|--------|--------|
|방법 |주소 사용  |브라우저 사용|
|수집 범위|제한적  |제한 없음|
|속도|매우 빠름|매우 
<br>

크롤링 시 사이트에서 크롤링을 허용하는지를 반드시 확인해야 함 <br>
robots.txt를 뒤에 붙여 확인 가능 <br>
강제는 아니나 이를 무시하면 추후 법률적 문제가 생길 수 있음
```
www.daum.net/robots.txt
User-agent: *
Disallow: /
```
*: All <br>
/: All Directories


In [None]:
# robots.txt 를 사용했을때, Disallow : /가 있으면 크롤링 하지말란 뜻이다.


## HTTP

WWW(World Wide Web, W3) 상에서 정보를 주고받을 수 있는 프로토콜 <br>
클라이언트와 서버 사이에 이루어지는 요청/응답 프로토콜

### API
API(Application Programming Interface) <br>
- Application: 고유한 기능을 가진 모든 소프트웨어
- Interface: 두 애플리케이션 간의 규약 <br>
이 계약은 요청과 응답을 사용하여 두 애플리케이션이 서로 통신하는 방법을 정의합니다.

### REST
REST(Representational State Transfer): 자원을 이름으로 구분하여 해당 자원의 상태를 주고받는 것 <br>

REST 구성
1. 자원(Resource): HTTP URI
2. 자원에 대한 행위(Verb): HTTP Method
3. 자원에 대한 행위의 내용(Representations): HTTP Message Pay Load


- HTTP URI(Uniform Resource Identifier)를 통해 자원(Resource)을 명시
- HTTP Method(POST, GET, PUT, DELETE)를 사용하여 URI에 대한 CRUD Operation을 적용 <br>
<br>

HTTP Methods
- GET: 자원 검색
- POST: 자원 작성
- PUT: 자원 업데이트
- DELETE: 데이터 삭제
- HEAD: 자원 검색 (GET과 유사하나 상태 줄과 헤더만 반환)
- OPTIONS: 자원이 지원하고 있는 메소드의 취득
- PATCH: 자원 일부 수정 (PUT과 유사하나 일부만 수정)
- CONNECT: 자원의 터널 접속을 변경
- TRACE: 리소스에 대한 경로를 따라 메시지 루프백 테스트를 수행
<br>

HTTP Status
1. 1xx(Informational): 요청 처리중
2. 2xx(Successful): 요청 정상 처리 <br>
200: 요청 성공
3. 3xx(Redirection): 요청을 완료하려면 추가 행동이 필요
4. 4xx(Client Error): 클라이언트 오류, 잘못된 문법등으로 요청을 수행할 수 없음 <br>
400: Bad Request, 클라이언트의 잘못된 요청으로 서버가 요청을 처리할 수 없음 <br>
401: Unauthorized, 해당 리소스에 대한 인증이 필요함 <br>
403: Forbidden, 서버가 요청을 이해했지만 승인을 거부함 <br>
404: Not Found, 리소스를 찾을 수 없음 <br>
5. 5xx(Server Error): 서버 오류

### REST API
REST의 원리를 따르는 API <br>
※ RESTful: REST의 원리를 따르는 시스템

## HTML
HTML(HyperText Markup Language)은 웹 페이지 표시를 위해 개발된 지배적인 마크업 언어 <br>
HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성 <br>
HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트, 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있음 <br>
<br>
HTML 선택자: HTML에서는 다수의 동일한 태그가 존재하는데 각 태그를 구별할 수 있도록 선택자를 이용
```html
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
```

```html
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [9]:
response = requests.get("https://jsonplaceholder.typicode.com/users/1") #requests를 통해서 가지고 온 데이터는 문자열이다.

# import json
# json.loads(response.text) 딕셔너리로 바꿔주는 함수.

In [13]:
bs = BeautifulSoup(response.text, 'lxml')
bs

<html><body><p>{
  "id": 1,
  "name": "Leanne Graham",
  "username": "Bret",
  "email": "Sincere@april.biz",
  "address": {
    "street": "Kulas Light",
    "suite": "Apt. 556",
    "city": "Gwenborough",
    "zipcode": "92998-3874",
    "geo": {
      "lat": "-37.3159",
      "lng": "81.1496"
    }
  },
  "phone": "1-770-736-8031 x56442",
  "website": "hildegard.org",
  "company": {
    "name": "Romaguera-Crona",
    "catchPhrase": "Multi-layered client-server neural-net",
    "bs": "harness real-time e-markets"
  }
}</p></body></html>

## 정적크롤링

### 라이브러리

#### requests

requests: 파이썬용 http 라이브러리 <br>
reference: https://requests.readthedocs.io/en/latest/

메소드별 사용법
```python
GET: requests.get()
POST: requests.post()
PUT: requests.put()
DELETE: requests.delete()
```

```python
import requests

requests.get("https://jsonplaceholder.typicode.com/users/1")
```

{'id': 1,
 'name': 'Leanne Graham',
 'username': 'Bret',
 'email': 'Sincere@april.biz',
 'address': {'street': 'Kulas Light',
  'suite': 'Apt. 556',
  'city': 'Gwenborough',
  'zipcode': '92998-3874',
  'geo': {'lat': '-37.3159', 'lng': '81.1496'}},
 'phone': '1-770-736-8031 x56442',
 'website': 'hildegard.org',
 'company': {'name': 'Romaguera-Crona',
  'catchPhrase': 'Multi-layered client-server neural-net',
  'bs': 'harness real-time e-markets'}}

##### Response Body

요청이 정상적으로 처리가 되면, response body에 요청한 데이터가 담겨져 옴. <br>
response body 크게 3가지 방식으로 읽을 수 있음 <br>
1. content: binary 원문을 읽음
```python
response.content
```
2. text: utf-8로 인코딩 된 문자열로 읽음
```python
response.text
```
3. json: 응답이 json이면 dict로 읽음
```python
response.json()
```



##### Request

param: 주소에 포함된 변수를 담음<br>
ex) https://www.naver.com/post/12345 <br>
-> 12345 <br>
query: 주소 바깥? 이후의 주소를 담음<br>
ex) https://www.naver.com/post/post_id=12345&id=1 <br>
-> 12345, 1
body: XML, JSON 등의 데이터를 담음, 주소에서는 확인 불가<br>
<br>

requests에서는 아래와 같이 사용
- get
```python
response = requests.get("https://naver.com/post", params={"post_id": "12345", "id": "1"})
```

- post, put: HTML 데이터 전송
```python
response = requests.get("https://naver.com/post", data={"post_id": "12345", "id": "1"})
```
json 형태로도 요청 가능
```python
response = requests.get("https://naver.com/post", json={"post_id": "12345", "id": "1"})
```

##### headers

일부 웹 사이트는 bot agent를 차단 <br>
이 경우 header의 user-agent를 아래와 같이 넘기면 해결 <br>
```python
requests.get("https://naver.com/post", headers={'User-Agent': 'Mozilla 5.0'})
```

#### BeautifulSoup

BeautifulSoup: html, xml 등으로부터 원하는 정보를 가지고 올 수 있도록 하는 라이브러리 <br>
reference: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
import requests
from bs4 import BeautifulSoup

response = requests.get(url)
bs = BeautifulSoup(response.text, 'lxml')
```

###### Parser

|parser|특징|설치|속도|사용방법|
|------|---|---|---|------|
|html.parser||기본|보통|BeautifulSoup(html_doc, 'html.parser')|
|lxml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'lxml')|
|xml|xml 지원|lxml 필요|빠름|BeautifulSoup(html_doc, 'xml')|
|html5lib|브라우저와 동일|html5lib 필요|느림|BeautifulSoup(html_doc, 'html5lib')|

##### find
속성과 값을 이용하여 원하는 값을 찾음

find: 매칭되는 값 중 상위 1개 반환
find_all: 매칭되는 전체 반환

특정 태그 추출
```python
soup.find_all('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.find_all(class_='a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.find_all('p', attrs={'class': 'a'}) # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.find_all(id='b') # b id를 갖는 값 추출
```
<br>

##### select
CSS Selector로 태그를 찾아 반환 <br>
CSS에서 HTML을 태깅하는 방법을 활용 <br>
<br>
select_one: 매칭되는 값 중 상위 1개 반환 <br>
select: 매칭되는 전체 반환 <br>
<br>

특정 태그 추출
```python
soup.select('p') # p 태그 추출
```
<br>

특정 클래스 추출
```python
soup.select('.a') # a 클래스 추출
```
<br>

특정 태그와 class 추출
```python
soup.select('p.a') # p 태그와 a 클래스 모두를 갖는 값 추출
```
<br>

특정 id 추출
```python
soup.select('#b') # b id를 갖는 값 추출
```
<br>

특정 태그와 id 추출
```python
soup.select('p#b') # p 태그와 b id 모두를 갖는 값 추출
```
<br>

특정 태그와 class, id 모두 추출
```python
soup.select('p.a#b') # p 태그와 a 클래스 b id 모두 갖는 값 추출
```
<br>

특정 태그 아래에 있는 태그 찾기
```python
soup.select('div p') # div 아래 p태그가 있는 값 추출
soup.select('div > p') # div 바로 아래 p태그가 있는 값 추출
soup.select("div > #link") # div 바로 아래 link id가 있는 값 추출
```
<br>

형제 태그 찾기
```python
soup.select("#link + .sister") # link 태그와 형제 태그 중 바로 직후 1개
soup.select("#link ~ .sister") # link 태그와 형제 태그 중 뒤에 태그 전부
```
<br>

여러 태그 중 i번째 태그 추출
```python
soup.select('a:nth-of-type(i)') # 추출된 a태그 중 i번째 값 반환
```
<br>
<br>

정규표현식 활용 <br>
```python
soup.select('[class~=a]') # class 속성 중 a를 포함하는 태그
soup.select('a[href]') # a 태그 중 href 속성이 존재하는 태그
soup.select('a[href="https://www.naver.com"]') # a 태그 중 href 속성이 https://www.naver.com과 매칭되는 태그
soup.select('a[href^="https://"]') # a 태그 중 href 속성이 https://로 시작하는 태그
soup.select('a[href$="ac.kr"]') # a 태그 중 href 속성이 ac.kr로 끝나는 태그
soup.select('a[href*="naver"]') # a 태그 중 href 속성 중 naver를 가지는 태그
```

<br>
<br>

출력
```python
soup.strings # 값 반환
soup.stripped_strings # 공백을 제거한 값 반환
```

In [22]:
bs.select('p')

[<p>{
   "id": 1,
   "name": "Leanne Graham",
   "username": "Bret",
   "email": "Sincere@april.biz",
   "address": {
     "street": "Kulas Light",
     "suite": "Apt. 556",
     "city": "Gwenborough",
     "zipcode": "92998-3874",
     "geo": {
       "lat": "-37.3159",
       "lng": "81.1496"
     }
   },
   "phone": "1-770-736-8031 x56442",
   "website": "hildegard.org",
   "company": {
     "name": "Romaguera-Crona",
     "catchPhrase": "Multi-layered client-server neural-net",
     "bs": "harness real-time e-markets"
   }
 }</p>]

In [None]:
'''
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
'''

In [23]:
response = '''
<div> 
	<div> 
      <a> c </a> 
      <span> c++ </span> 
    </div> 
    
    <div> 
      <a> java </a> 
      <span> python </span> 
    </div> 
</div>
'''

In [41]:
bs4 = BeautifulSoup(response, 'lxml')
languages = bs4.select('a')
languages

languages[0].text.strip()
languages

[<a> c </a>, <a> java </a>]

In [40]:
[language.text.strip() for language in languages]

['c', 'java']

In [48]:
bs4.select('div a')[0]

<a> c </a>

### 실습

##### 예제

```html
<div id="contents"> 
    <div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 

  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
```

In [50]:
response = '''
<div id="contents"> 
	<div class="data1"> 
      <span class="language"> c++ </span> 
      <span class="language"> java </span> 
      <span class="language"> python </span> 
  </div> 
    
  <div class="data2"> 
      <a class="framework"> tensorflow </a> 
      <a class="framework"> pytorch </a> 
      <a class="framework"> spring </a> 
  </div> 
</div>
'''

In [77]:
bs4 = BeautifulSoup(response, 'lxml')
languages = bs4.select('div span') #language = bs4.select('.language'), language = bs4.select('span.language') 이런식으로 가져올 수 있다.
languages = bs4.select('a.framework')
[language.text.strip() for language in languages]

['tensorflow', 'pytorch', 'spring']

In [66]:
bs4.select('#contents')
# #은 id, .은 class정보를 가져올 수 있다.

[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

In [69]:
bs4.select('div#contents')
bs4.select('div#contents.data1')
bs4.select('div#contents')


[<div id="contents">
 <div class="data1">
 <span class="language"> c++ </span>
 <span class="language"> java </span>
 <span class="language"> python </span>
 </div>
 <div class="data2">
 <a class="framework"> tensorflow </a>
 <a class="framework"> pytorch </a>
 <a class="framework"> spring </a>
 </div>
 </div>]

#### 네이버 뉴스

In [88]:
response = requests.get('https://n.news.naver.com/mnews/article/009/0005351727')
if response.status_code == 200:
    bs = BeautifulSoup(response.text, 'lxml')

In [144]:
times = bs.select('div.media_end_head_info_datestamp_bunch > span')
times

[<span class="media_end_head_info_datestamp_time _ARTICLE_DATE_TIME" data-date-time="2024-08-18 18:05:08" data-date-time-age-in-minutes="1037">2024.08.18. 오후 6:05</span>,
 <span class="media_end_head_info_datestamp_time _ARTICLE_MODIFY_DATE_TIME" data-modify-date-time="2024-08-18 20:43:16" data-modify-date-time-age-in-minutes="879">2024.08.18. 오후 8:43</span>]

In [119]:
[time.text for time in times][0].split()

['2024.08.18.', '오후', '6:05']

In [124]:
def convert_to_datetime(date: str):
    date, am_pm, time = date.split()

    hour, minute = time.split(':')
    hour = int(hour)

    if am_pm == '오후' and hour != 12:
        hour += 12
    time = f'{hour}:{minute}'
    datetime_ = f'{date}{time}'

    return pd.to_datetime(datetime_, format = '%Y.%m.%d.%H:%M')
convert_to_datetime(times[0].text)


Timestamp('2024-08-18 18:05:00')

In [128]:
posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
print(posting_time, modifying_time)

2024-08-18 18:05:00 2024-08-18 20:43:00


In [152]:
title = bs.select('h2#title_area span')
title = title[0].text
title

'인구 비상사태, 기업 대응 낙제점'

In [159]:
reporter = reporter[0].text
reporter = reporter.split()[0]
reporter

'성승훈'

In [193]:
content = bs.select('article#dic_area')
content = content[0]
content.text

'\n한미연 EPG 경영 평가, 300개 기업중 80점이상 5곳 그쳐육아 환경 여전히 팍팍 …"출산장려 기업 인센티브 부족"◆ 기업 인구대응 평가 ◆\n\n\n\n제조업 분야 중견기업에서 근무 중인 30대 여성 직장인 A씨는 수년째 출산을 미루고 있다. 회사에서 자리가 사라질 것 같은 불안감 때문이다. 그는 "주변 사례를 보면 육아휴직 후 돌아올 자리가 없을 것이라는 식으로 압박을 주는 일이 심심치 않게 있었다"며 "경력단절을 막기 위해 출산을 포기하든지 육아를 위해 퇴사하든지 선택지는 둘 중 하나"라고 토로했다.국내 기업들의 인구위기 대응은 \'낙제점\'을 면치 못한 것으로 나타났다. 인구절벽에 직면해 정부가 출산·육아 지원책을 잇달아 내놓고 있지만 현장에서 제대로 작동하지 않고 있다는 지적이다. 18일 매일경제와 한반도미래인구연구원은 국내 최초로 자산 규모 1조원 이상 기업 300곳을 대상으로 EPG(환경·인구·투명경영) 경영평가 점수를 발표했다. 올해 3월 매일경제와 한미연이 제34차 국민보고대회에서 EPG 경영을 제안한 데 따른 후속 조치다. EPG는 ESG에서 \'S(책임·Social)\'를 \'P(인구·Population)\'로 바꾼 용어다. EPG 평가에서 300개 기업 평균 점수는 55.5점에 그쳤다. 최고점은 85.3점이었으며 최저점은 16.2점으로 나타났다. 기초 평가 17개 지표를 기준으로 삼성전기(85.3점)가 1위를 차지했으며 롯데정밀화학(83.8점)과 신한카드·KB국민카드·KT&G(80.9점)가 뒤를 이었다.대부분 기업은 다방면에서 취약점을 노출했다. 남성 육아휴직을 의무화한 기업은 5%인 15곳에 불과했다. 출산·육아휴직 복귀 지원 프로그램을 체계적으로 운영하는 곳도 27곳에 그쳤다.산업계에서는 대부분 출산·양육 지원 제도가 사용자가 아닌 근로자에게만 초점이 맞춰진 점을 지적한다. 정만기 한국산업연합포럼 회장은 "기업이 부담해야 하는 인력난이나 생산성 저하 등에 대한 사업주 지원책은 부족하다"며 "가령 출산을 장려하는 기업에 세금을 

In [177]:
press_id = '009'
article_id = 'https://n.news.naver.com/mnews/article/009/0005351727'.split('/')[-1]

In [172]:
!pip install pymysql    
!pip install sqlalchemy 
!pip install pymongo    



In [187]:
!pip install psycopg2   





In [236]:
import psycopg2

In [194]:
with psycopg2.connect(
    host='localhost',
    dbname='postgres',
    user='postgres',
    password='1',
    port=5432
)as conn:
    with conn.cursor() as cur:
        cur.execute(f'''INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title}', '{content.text.replace('\'', '').replace('\"', '')}')''')


In [316]:
response = requests.get('https://n.news.naver.com/mnews/article/009/0005351722')
if response.status_code == 200:
    bs = BeautifulSoup(response.text, 'lxml')
    

content = bs.select('article#dic_area')
content = content[0]
content = content.text
reporter = bs.select('em.media_end_head_journalist_name')
reporter[0].text.split()[0]



'김덕식'

In [320]:
with psycopg2.connect(
    host='localhost',
    dbname='postgres',
    user='postgres',
    password='1',
    port=5432
)as conn:
        with conn.cursor() as cur:
                cur.execute(f'''INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title.replace('\'', '').replace('\"', '')}', '{content.replace('\'', '').replace('\"', '')}')''')

UniqueViolation: duplicate key value violates unique constraint "article_pk"
DETAIL:  Key (press_id, article_id)=(009, 0005352077) already exists.


In [331]:
response = requests.get('https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009')
bs = BeautifulSoup(response.text, 'lxml') 
bs.select('li dl a')[0].attrs.get('href')
a = [i.attrs.get('href') for i in bs.select('li dl a')]
a



['https://n.news.naver.com/mnews/article/009/0005351727',
 'https://n.news.naver.com/mnews/article/009/0005351727',
 'https://n.news.naver.com/mnews/article/009/0005351728',
 'https://n.news.naver.com/mnews/article/009/0005351770',
 'https://n.news.naver.com/mnews/article/009/0005351729',
 'https://n.news.naver.com/mnews/article/009/0005352099',
 'https://n.news.naver.com/mnews/article/009/0005352099',
 'https://n.news.naver.com/mnews/article/009/0005352098',
 'https://n.news.naver.com/mnews/article/009/0005352098',
 'https://n.news.naver.com/mnews/article/009/0005352097',
 'https://n.news.naver.com/mnews/article/009/0005352097',
 'https://n.news.naver.com/mnews/article/009/0005352096',
 'https://n.news.naver.com/mnews/article/009/0005352096',
 'https://n.news.naver.com/mnews/article/009/0005352095',
 'https://n.news.naver.com/mnews/article/009/0005352095',
 'https://n.news.naver.com/mnews/article/009/0005352094',
 'https://n.news.naver.com/mnews/article/009/0005352094',
 'https://n.ne

In [325]:
url_with_problem = []
press_id = '009'

for url in list(set([i.attrs.get('href') for i in bs.select('li dl a')])):
    response = requests.get(url)
    if response.status_code == 200:
        bs = BeautifulSoup(response.text, 'lxml')
    else:
        url_with_problem.append(url + 'Link')
        continue
    article_id = url.split('/')[-1]
    press_id = '009'
    times = bs.select('div.media_end_head_info_datestamp_bunch > span')
    if times and len(times) == 2:
        posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
    elif times and len(times) == 1:
        posting_time = [convert_to_datetime(time.text) for time in times][0]
        modifying_time = posting_time
    else:
        url_with_problem.append(url + 'time')
        continue
    title = bs.select('h2#title_area > span')
    if title:
            title = title[0].text
    else:
        url_with_problem.append(url + 'title')
        continue
    reporter = bs.select('em.media_end_head_journalist_name')
    if reporter:
        reporter = reporter[0].text.split()[0]
    else:
        reporter = '아무개'
    content = bs.select('article#dic_area')
    if content:
        content = content[0].text.replace('\'', '').replace('\"', '')
    else:
        url_with_problem.append(url + 'content')
        continue

    with psycopg2.connect(
    host='localhost',
    dbname='postgres',
    user='postgres',
    password='1',
    port=5432
    )as conn:
        with conn.cursor() as cur:
            try:
                cur.execute(f'''INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title.replace('\'', '').replace('\"', '')}', '{content}')''')
            except Exception:
                url_with_problem.append(url + 'INSERT')




In [327]:
url_with_problem

['https://n.news.naver.com/mnews/article/009/0005351727INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352081time',
 'https://n.news.naver.com/mnews/article/009/0005351728INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352080INSERT',
 'https://n.news.naver.com/mnews/article/009/0005351770INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352079time',
 'https://n.news.naver.com/mnews/article/009/0005352083INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352082INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352087INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352085INSERT',
 'https://n.news.naver.com/mnews/article/009/0005351729INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352076INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352091time',
 'https://n.news.naver.com/mnews/article/009/0005352093time',
 'https://n.news.naver.com/mnews/article/009/0005352088INSERT',
 'https://n.news.naver.com/mnews/article/009/000

In [352]:
response = requests.get('https://m.entertain.naver.com/article/009/0005352079')
bs = BeautifulSoup(response.text, 'lxml') 
bs.select('div.NewsEndMain_info_item__t+40a em.date')

SelectorSyntaxError: Invalid character '4' position 29
  line 1:
div.NewsEndMain_info_item__t+40a em.date
                             ^

In [360]:
#전체페이지 crawling
url_with_problem = []
press_id = '009'
for date in pd.date_range('2024-08-17', '2024-08-19'):
    date = date.strftime('%Y%m%d')
    url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date={date}&page=10000'
    response = requests.get(url)
    bs = BeautifulSoup(response.text, 'lxml')
    last_page_num = int(bs.select('div.paging > strong')[0].text)
    for i in range(1, last_page_num + 1):
        url = f'https://news.naver.com/main/list.naver?mode=LPOD&mid=sec&oid=009&date={date}&page={i}'
        response = requests.get(url)
        bs = BeautifulSoup(response.text, 'lxml')
        for asd in list(set([i.attrs.get('href') for i in bs.select('li dl a')])):
            response = requests.get(asd)
            if response.status_code == 200:
                bs = BeautifulSoup(response.text, 'lxml')
            else:
                url_with_problem.append(asd + 'Link')
                continue
            article_id = asd.split('/')[-1]
            times = bs.select('div.media_end_head_info_datestamp_bunch > span')
            if times and len(times) == 2:
                posting_time, modifying_time = [convert_to_datetime(time.text) for time in times]
            elif times and len(times) == 1:
                posting_time = [convert_to_datetime(time.text) for time in times][0]
                modifying_time = posting_time
            else:
                url_with_problem.append(asd + 'time')
                continue
            title = bs.select('h2#title_area > span')
            if title:
                    title = title[0].text
            else:
                url_with_problem.append(asd + 'title')
                continue
            reporter = bs.select('em.media_end_head_journalist_name')
            if reporter:
                reporter = reporter[0].text.split()[0]
            else:
                reporter = '아무개'
            content = bs.select('article#dic_area')
            if content:
                content = content[0].text.replace('\'', '').replace('\"', '')
            else:
                url_with_problem.append(asd + 'content')
                continue

            with psycopg2.connect(
            host='localhost',
            dbname='postgres',
            user='postgres',
            password='1',
            port=5432
            )as conn:
                with conn.cursor() as cur:
                    try:
                        cur.execute(f'''INSERT INTO article VALUES ('{press_id}', '{article_id}', '{posting_time}', '{modifying_time}', '{reporter}', '{title.replace('\'', '').replace('\"', '')}', '{content}')''')
                    except Exception:
                        url_with_problem.append(asd + 'INSERT')





In [358]:
def crawler(press_id: str, start_date: str, end_date: str, **kwargs): -> list
    with psycopg2.connect(
        host = kwargs.get('host'),
        dbname=kwargs.get('dbname')
        user=kwargs.get('user')
        password=kwargs.get('password')
        port = kwargs.get('port')
    )

2024-08-17 00:00:00
2024-08-18 00:00:00
2024-08-19 00:00:00


['https://n.news.naver.com/mnews/article/009/0005351727INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352130time',
 'https://n.news.naver.com/mnews/article/009/0005352123INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352117INSERT',
 'https://n.news.naver.com/mnews/article/009/0005351728INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352132time',
 'https://n.news.naver.com/mnews/article/009/0005352129time',
 'https://n.news.naver.com/mnews/article/009/0005352116INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352125time',
 'https://n.news.naver.com/mnews/article/009/0005352121time',
 'https://n.news.naver.com/mnews/article/009/0005352124INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352115INSERT',
 'https://n.news.naver.com/mnews/article/009/0005351770INSERT',
 'https://n.news.naver.com/mnews/article/009/0005352131time',
 'https://n.news.naver.com/mnews/article/009/0005352120time',
 'https://n.news.naver.com/mnews/article/009/000535211

In [None]:
response = requests.get('https://n.news.naver.com/mnews/article/009/0005351722')
if response.status_code == 200:
    bs = BeautifulSoup(response.text, 'lxml')
    

content = bs.select('article#dic_area')
content = content[0]
content = content.text
reporter = bs.select('em.media_end_head_journalist_name')
reporter[0].text.split()[0]



'김덕식'

#### 네이버 증권

stock_code = [i.attrs.get('href').split('=') for i in bs.select('tbody tr td a')] #stock_code를 string으로 받음.


In [None]:
response = requests.get('https://n.news.naver.com/mnews/article/009/0005351722')
if response.status_code == 200:
    bs = BeautifulSoup(response.text, 'lxml')
    

content = bs.select('article#dic_area')
content = content[0]
content = content.text
reporter = bs.select('em.media_end_head_journalist_name')
reporter[0].text.split()[0]



'김덕식'

In [539]:
url = 'https://finance.naver.com/sise/sise_market_sum.naver?sosok=0'
response = requests.get(url, headers = {'user-agent': 'Mozilla 5.0'})
bs = BeautifulSoup(response.text, 'lxml')
bs.select('tbody tr td a')
url_with_problem = []

url_list = list(set(['https://finance.naver.com' + i.attrs.get('href').replace('board', 'main') for i in bs.select('tbody td a')])) #url정보들을 담은 리스트
for i in url_list:
    stock_code = i.split('=')[-1]
    response = requests.get(i)
    bs = BeautifulSoup(response.text, 'lxml')
    stock_name = bs.select('div#middle h2 a')
    if stock_name:
        stock_name = bs.select('div#middle h2 a')[0].text
    market_price = bs.select('tr td em span.blind')
    if market_price:
        market_price = bs.select('tr td em span.blind')[4].text
    high_price = bs.select('tr td em span.blind')
    if high_price:
        high_price = bs.select('tr td em span.blind')[1].text
    low_price = bs.select('tr td em span.blind')
    if low_price:
        low_price = bs.select('tr td em span.blind')[5].text
    end_price = bs.select('div.rate_info p.no_today span.blind')
    if end_price:
        end_price = end_price[0].text
    trading_amount = bs.select('tr td em span.blind')
    if trading_amount:
        trading_amount = trading_amount[3].text
    total_amount = bs.select('tr.strong td')[0].text.strip().replace('\n', '').replace('\t', '')
    if total_amount:
        total_amount = total_amount[0].text.strip().replace('\n', '').replace('\t', '')
    stock_count = bs.select('div.first em')[2].text
    if stock_count:
        stock_count = stock_count[2].text
    face_amount = bs.select('div.first tr td em')[3].text
    if face_amount:
        face_amount = face_amount[3].text
    per = bs.select('em#_per')[0].text
    if per:
        per = per[0].text
    pbr = bs.select('em#_pbr')[0].text
    if pbr:
        pbr = pbr[0].text
    percent = bs.select('em#_dvr')[0].text
    if percent:
        percent = percent[0].text
    same_per = bs.select('div.gray em')[3].text
    if same_per:
        same_per = same_per[3].text

    with psycopg2.connect(
            host='localhost',
            dbname='postgres',
            user='postgres',
            password='1',
            port=5432
            )as conn:
                with conn.cursor() as cur:
                    try:
                        cur.execute(f'''INSERT INTO naver_finance VALUES ('{stock_code}', '{stock_name}', '{market_price}', '{high_price}', '{low_price}', '{end_price}', '{trading_amount}',
                                    '{total_amount}', '{stock_count}', '{face_amount}',
                                    '{per}', '{pbr}', '{percent}', '{same_per}')''')
                    except Exception:
                        url_with_problem.append(asd + 'INSERT')
    

    




IndexError: list index out of range

In [542]:
# bs.select('a=/item/main.naver?code=005930 .title')
response = requests.get('https://finance.naver.com/item/main.naver?code=005930')
bs = BeautifulSoup(response.text, 'lxml')
markey_price = bs.select('td em.no_down span.blind')
markey_price

end_price = bs.select('div.rate_info p.no_today span.blind')[0].text
end_price
trading_amount = bs.select('tr td em span.blind')[3].text
trading_amount = bs.select('tr td em span.blind')

total_amount = bs.select('tr.strong td')[0].text.strip().replace('\n', '').replace('\t', '')
stock_count = bs.select('div.first tr td em')[2].text
trading_amount = bs.select('tr.strong td')[0].text.strip().replace('\n', '').replace('\t', '')
trading_amount
total_amount = bs.select('div.first em')[2].text
total_amount
high_price = bs.select('tr td em span.blind')[5].text
high_price

face_amount = bs.select('div.first tr td em')[3].text
face_amount
per = bs.select('em#_per')[0].text
per
pbr = bs.select('em#_pbr')[0].text
pbr
percent = bs.select('em#_dvr')[0].text
percent
same_per = bs.select('div.gray em')[3].text
same_per


#stock_name = bs.select('div#middle h2 a')[0].text
#stock_name
# requests.get(url, headers = {'user-agent': 'Mozilla 5.0'})

'43.09'

#### 다음 증권