## 코드 템플릿

In [None]:
# 라이브러리가 이미 설치 되어있다면 생략.
!python -m pip install -q requests beautifulsoup4 pandas

In [None]:
import bs4
import requests

url = "https://smu-momentum.github.io/crawling-study/1/"
html = requests.get(url).text

soup = bs4.BeautifulSoup(html, "html.parser")

## 연합 뉴스 크롤링 미리보기

In [None]:
import bs4
import requests
import pandas as pd


# URL 주소로부터 HTML을 불러온다.
url = "https://yna.co.kr/news"
html = requests.get(url).text

# HTML 분석기(BeautifulSoup)으로 구조를 파악하고
soup = bs4.BeautifulSoup(html, "html.parser")

data = []

# 특정 계층에 있는 태그들을 가져온다.
# (계층 예시: <body>태그 아래 첫 번째 <div>안에 있는 class 속성이 "container521"인 태그 안에 있는...)
css_selector = "#container > div.container521 > div.content03 > div.section01 > section > div > ul > li > div > div"
for tag in soup.select(css_selector):
    헤드라인 = tag.select_one("strong.tit-wrap").get_text(strip=True)
    발췌 = tag.select_one("p.lead").get_text(strip=True)
    data.append((헤드라인, 발췌))

news_data = pd.DataFrame(data=data, columns=["헤드라인", "발췌"])
news_data

## 강의자료 삽입용

In [None]:
# HTML에서 태그를 검색하는 법

tag_set = soup.select("...")  # 발견된 태그 전부 (태그들이 담긴 집합)
tag = soup.select_one("...")  # 가장 먼저 발견된 태그 1개

# 검색한 태그 안에서 추가 검색하는 것도 가능
for tag in soup.select("..."):
    taaaag = tag.select_one("...")

In [None]:
# (타입 오류 제거용)
from bs4 import Tag
tag: Tag

In [None]:
# 검색한 태그에서 텍스트 데이터를 가져오려면?

텍스트 = tag.get_text(strip=True)  # 태그 안에 있는 텍스트를 가져온다.
속성 = tag.get("id")             # id 속성의 값을 가져온다.

## 진짜 뉴스 찾기 코드 템플릿

In [1]:
import bs4
import requests


url = "https://smu-momentum.github.io/crawling-study/1/"
html = requests.get(url).text

soup = bs4.BeautifulSoup(html, "html.parser")

In [2]:
css_selector = "#news-list > li:nth-child(3) > h1"

tag = soup.select_one(css_selector)
if tag is None:
    print("태그를 찾지 못했습니다.")
    exit(1)

print("헤드라인:", tag.get_text().strip())
print("meta 속성:", tag.get("meta"))

헤드라인: 진짜뉴스 헤드라인
meta 속성: real


In [3]:
import bs4
import requests

url = "https://smu-momentum.github.io/crawling-study/1/"
html = requests.get(url).text

soup = bs4.BeautifulSoup(html, "html.parser")

for li_tag in soup.select("li.news"):
    # "li.news" 부터 시작하는 select(), select_one() 검색은
    # 선택자도 선택된 "li.news"를 기준으로 적어주어야 한다.
    h1_tag = li_tag.select_one("li.news > h1")

    if h1_tag is None:
        # 헤드라인이 담긴 <h1> 태그를 찾지 못한 경우.
        print("뉴스 기사를 담은 <li> 태그가 아닙니다:", li_tag)
        continue

    헤드라인 = h1_tag.get_text().strip()
    meta_속성 = h1_tag.get("meta")

    print(f"meta: [{meta_속성}] 헤드라인: [{헤드라인}]")

meta: [fake] 헤드라인: [가짜뉴스 헤드라인 1]
meta: [fake] 헤드라인: [가짜뉴스 헤드라인 2]
meta: [real] 헤드라인: [진짜뉴스 헤드라인]
meta: [fake] 헤드라인: [가짜뉴스 헤드라인 3]


## robots.txt 검사

In [None]:
import urllib.robotparser

rp = urllib.robotparser.RobotFileParser()

# robot.txt 있는 경로 (주로 사이트의 /robots.txt 경로에 있다.)
rp.set_url("https://www.yna.co.kr/robots.txt")

rp.read()

# 우리가 접근하려는 주소를 입력하면, robots.txt에서 이를 허가하는지 알 수 있다.
rp.can_fetch("*", "https://www.yna.co.kr/news?site=navi_latest_depth01")