#### 웹페이지 요청 및 응답받기
* `requests.get(url)`
    *  -> Response 객체 리턴
* Response  객체의 주요 속성
    * `status_code` : 요청 성공 여부
        * 200 : 요청이 성공적으로 처리됨
        * 4XX : 클라이언트 오류
            * 403 : 권한 없음
            * 404 : Not Found(요청한 리소스를 찾을 수 없음)
        * 5XX : 서버 오류
            * 500 : 서버 내부 오류
    * `text` : 응답 본문 (utf-8로 변환된 문자열 형태로 제공)
    * `content` : 응답 본문 (byte형태로 제공)

In [1]:
# -----------------------------------------
# 웹페이지 요청 및 응답받기
# -----------------------------------------
import requests
url = 'https://finance.naver.com/news/mainnews.naver'
response = requests.get(url)

# -----------------------------------------
# 요청 성공여부 확인
# -----------------------------------------
status_code = response.status_code 

# -----------------------------------------
# 응답받은 웹문서
# -----------------------------------------
html = response.text

print(status_code)
html # ==> print(html)로 출력 시 vscode 다운될 수 있음


200


'<!--  global include -->\n\n\t\n\t\n\t\n\t\n<html lang=\'ko\'>\n<head>\n\n\n\t\n\t\n\t\t\n\t\t\t\n\t\t\t\t<title>네이버페이 증권</title>\n\t\t\t\n\t\t\t\n\t\t\n\t\n\n\n\n\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n\n<meta http-equiv="Content-Script-Type" content="text/javascript">\n<meta http-equiv="Content-Style-Type" content="text/css">\n<meta name="apple-mobile-web-app-title" content="네이버페이 증권" />\n\n\n\n\n\n\t\n    \n        <meta property="og:url" content="http://finance.naver.com/news/mainnews.naver"/>\n        \n\t\t\t\n\t\t    \n\t\t    \t<meta property="og:title" content="주요뉴스 : 네이버페이 증권"/>\n\t\t     \n\t\t\n\t\t\n\t\t\t\n\t\t\t   <meta property="og:description" content="관심종목의 실시간 주가를 가장 빠르게 확인하는 곳"/>\n\t\t    \n\t\t    \n\t\t\n\t\t \n\t\t\t\n\t\t\t    <meta property="og:image" content="https://ssl.pstatic.net/static/m/stock/im/2016/08/og_stock-200.png"/>\n\t\t    \n\t\t    \n\t\t\n    \n\n<meta property="og:type" content="article"/>\n<meta property="og:

#### html문서에서 요소 추출
* BeautisulSoup 객체 생성
    * `BeautifulSoup(html문서, html파서)`
* 요소 추출
    * `select_one(선택자)`
        * 선택자로 요소 1개 추출
        * 동일한 선택자를 가진 요소가 여러개인 경우 가장 첫번째 요소만 추출
    * `select(선택자)` 
        * 모든 요소를 리스트로 추출

In [2]:
# -----------------------------------------
# BeautifulSoup 객체 생성
# -----------------------------------------

from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')


# -----------------------------------------
# html 문서에서 뉴스 첫번째 뉴스 제목 추출하기
# -----------------------------------------
first_article = soup.select_one(".articleSubject > a")


# -----------------------------------------
# html 문서에서 뉴스 모든 뉴스 제목 추출하기
# -----------------------------------------
article_list = soup.select(".articleSubject > a")


print(first_article)
print(article_list)




<a href="/news/news_read.naver?article_id=0001882862&amp;office_id=057&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1">[단독] 지반침하 두려움 큰데…사고위치 '지번' 돌연 숨긴 국토부</a>
[<a href="/news/news_read.naver?article_id=0001882862&amp;office_id=057&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1">[단독] 지반침하 두려움 큰데…사고위치 '지번' 돌연 숨긴 국토부</a>, <a href="/news/news_read.naver?article_id=0001206779&amp;office_id=215&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1">관세 늪에 빠진 美 증시…"최악의 4월 향한다"</a>, <a href="/news/news_read.naver?article_id=0002949937&amp;office_id=029&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1">"지금 투자 적기"… 외면 받았던 인도 ETF, 다시 자금 몰린다</a>, <a href="/news/news_read.naver?article_id=0002949936&amp;office_id=029&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1"> 트럼프 취임 100일도 안됐는데… `탈 미국·셀 USA` 가속[기획]</a>, <a href="/news/news_read.naver?article_id=0002949920&amp;office_id=029&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1">中개미들의 애국 반란

#### 요소에서 원하는 부분 추출
* `text`
    * 요소의 텍스트 추출
* `attrs["속성명"]`
    * 특정 속성 추출

In [3]:
first_article

<a href="/news/news_read.naver?article_id=0001882862&amp;office_id=057&amp;mode=mainnews&amp;type=&amp;date=2025-04-22&amp;page=1">[단독] 지반침하 두려움 큰데…사고위치 '지번' 돌연 숨긴 국토부</a>

In [4]:
first_article.text

"[단독] 지반침하 두려움 큰데…사고위치 '지번' 돌연 숨긴 국토부"

In [5]:
first_article.attrs

{'href': '/news/news_read.naver?article_id=0001882862&office_id=057&mode=mainnews&type=&date=2025-04-22&page=1'}

In [6]:
first_article.attrs["href"]

'/news/news_read.naver?article_id=0001882862&office_id=057&mode=mainnews&type=&date=2025-04-22&page=1'