## Naver Stock News

- 아래 링크로 조회되는 증권 관련 국내 주요뉴스 제목을 수집합니다.
- 링크: https://finance.naver.com/news/mainnews.naver?date=2022-03-29

### HTTP 요청 실행

In [None]:
# 관련 라이브러리를 호출합니다.
import requests

In [None]:
# 요청 URL을 설정합니다.
url = 'https://finance.naver.com/news/mainnews.naver'

In [None]:
# 쿼리 문자열을 딕셔너리로 설정합니다. [참고] 날짜를 'yyyy-mm-dd'로 지정합니다.
query = {'date': '2022-12-01'}

In [None]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url, params = query)

### HTTP 응답 확인

In [None]:
# HTTP 응답 상태코드를 확인합니다.
res.status_code

In [None]:
# HTTP 응답 헤더에서 Content-type을 확인합니다.
res.headers['content-type']

In [None]:
# HTTP 응답 바디 문자열을 출력합니다.
res.text

### HTML로 변환

In [None]:
# 관련 라이브러리를 호출합니다.
from bs4 import BeautifulSoup as bts

In [None]:
# HTTP 응답 바디 문자열을 bs4.BeautifulSoup 자료형으로 변환합니다.
soup = bts(markup = res.text, features = 'html.parser')

In [None]:
# soup의 클래스를 확인합니다.
type(soup)

In [None]:
# soup을 출력합니다.
soup

### 뉴스 정보 수집

In [None]:
# 뉴스 제목을 포함하는 HTML 요소를 선택하고 items에 할당합니다.
items = soup.select(selector = 'ul.newsList > li')

In [None]:
# items를 출력합니다.
items

In [None]:
# items의 첫 번째 원소를 item에 할당합니다.
item = items[0]

In [None]:
# item을 출력합니다.
item

In [None]:
# 뉴스 제목을 포함하는 HTML 요소를 찾아 css에 할당합니다.
# [참고] 뉴스 썸네일이 있으면 <dd>, 없으면 <dt> 태그가 사용되므로 태그를 삭제해야 합니다.
css = '.articleSubject > a'

In [None]:
# item에서 뉴스 제목을 포함하는 HTML 요소를 선택합니다.
item.select(selector = css)

In [None]:
# 위 코드 실행 결과에서 첫 번째 원소를 선택합니다.(bs3.element.Tag)
item.select(selector = css)[0]

In [None]:
# 위 코드 실행 결과에서 'href' 속성값을 추출합니다.
item.select(selector = css)[0]['href']

### for 반복문 실행

In [None]:
# 지금까지의 과정을 for 반복문으로 실행합니다.
for item in items:
    print(item.select(selector = css)[0]['href'])

In [None]:
# for 반복문 대신 리스트 컴프리헨션을 사용하여 리스트로 반환합니다.
[item.select(selector = css)[0]['href'] for item in items]

### HTML 요소의 속성값을 리스트로 저장하는 함수 생성

In [None]:
# HTML 요소의 속성값을 리스트로 반환하는 함수를 생성합니다.
def getHtmlAttr(x, css, key):
    return [i.select(selector = css)[0][key] for i in x]

In [None]:
# HTML 요소의 텍스트를 리스트로 반환하는 함수를 생성합니다.
def getHtmlText(x, css):
    return [i.select(selector = css)[0].text for i in x]

### 뉴스 정보 수집

In [None]:
# 뉴스 링크를 리스트로 생성합니다.
getHtmlAttr(x = items, css = css, key = 'href')

In [None]:
# 뉴스 제목을 리스트로 생성합니다.
getHtmlText(x = items, css = css)

In [None]:
# 뉴스 요약 기스를 리스트로 저장합니다.
# [참고] 모든 뉴스 요약 기사에는 <dd> 태그가 사용되므로 css에 'dd'를 추가하는 것이 좋습니다.
getHtmlText(x = items, css = 'dd.articleSummary')

## End of Document