## 증권 주요뉴스 수집

- 네이버 증권(https://finance.naver.com/) 페이지를 탐색합니다.
  - 상단 메뉴에서 뉴스 → 주요뉴스를 차례로 클릭합니다.
  - 크롬 개발자도구를 열고 네트워크 탭에서 문서로 이동합니다.
  - 웹 페이지 하단에 있는 날짜 네비게이션에서 이전 날짜를 클릭합니다.
    - 요청 URL에 쿼리 문자열이 추가되었으므로 원하는 날짜를 지정할 수 있습니다.
  - 'mainnews'로 시작하는 리소스를 클릭하고 미리보기에서 수집하려는 텍스트를 찾습니다.
  - 헤더로 이동하여 HTTP 요청 방식과 요청 URL을 확인합니다.
  - 페이로드로 이동하여 쿼리 문자열을 확인합니다.

### HTTP 요청 실행

In [None]:
# 관련 라이브러리를 호출합니다.
import requests

In [None]:
# 요청 URL을 설정합니다.
url = 'https://finance.naver.com/news/mainnews.naver'

In [None]:
# 쿼리 문자열을 딕셔너리로 설정합니다. [참고] 날짜를 'yyyy-mm-dd'로 지정합니다.
query = {'date': '2023-06-01'}

In [None]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url, params = query)

### HTTP 응답 확인

In [None]:
# HTTP 응답 상태코드를 확인합니다.
res.status_code

In [None]:
# HTTP 응답 헤더에서 Content-type을 확인합니다.
res.headers['content-type']

In [None]:
# HTTP 응답 바디 문자열을 출력합니다.
print(res.text)

In [None]:
# HTTP 요청 URL을 확인합니다.
res.url

### HTML로 변환

In [None]:
# 관련 라이브러리를 호출합니다.
from bs4 import BeautifulSoup as bts

In [None]:
# HTTP 응답 바디 문자열을 bs4.BeautifulSoup 자료형으로 변환합니다.
soup = bts(markup = res.text, features = 'html.parser')

In [None]:
# soup을 확인합니다.
soup

In [None]:
# soup의 클래스를 확인합니다.
type(soup)

### 뉴스 정보 수집

In [None]:
# 뉴스 제목을 포함하는 HTML 요소를 선택하고 items에 할당합니다.
items = soup.select(selector = '.articleSubject > a')

In [None]:
# items를 확인합니다.
items

In [None]:
# items의 첫 번째 원소에서 뉴스 제목을 추출합니다.
items[0].text

In [None]:
# items의 첫 번째 원소에서 뉴스 링크를 추출합니다.
items[0]['href']

### HTML 요소의 속성값을 리스트로 저장하는 함수 생성

In [None]:
# HTML 요소의 텍스트를 원소로 갖는 리스트를 반환하는 함수를 생성합니다.
def getHtmlText(x, css):
    items = x.select(selector = css)
    return [item.text for item in items]

# HTML 요소의 속성값을 원소로 갖는 리스트를 반환하는 함수를 생성합니다.
def getHtmlAttr(x, css, key):
    items = x.select(selector = css)
    return [item[key] for item in items]

### 뉴스 정보 수집

In [None]:
# 뉴스 제목을 리스트로 생성합니다.
getHtmlText(x = soup, css = '.articleSubject > a')

In [None]:
# 뉴스 링크를 리스트로 생성합니다.
getHtmlAttr(x = soup, css = '.articleSubject > a', key = 'href')

In [None]:
# 뉴스 요약을 리스트로 저장합니다.
getHtmlText(x = soup, css = '.articleSummary')

## End of Document