In [1]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

BASE_URL = "https://www.aitimes.com"
NEWS_LIST_URL = f"{BASE_URL}/news/articleList.html?view_type=sm"

def get_soup(url: str) -> BeautifulSoup:
    """URL에서 BeautifulSoup 객체를 가져옵니다."""
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
        "Referer": BASE_URL,
        "Accept-Language": "ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7"
    }
    resp = requests.get(url, headers=headers, timeout=10)
    resp.raise_for_status()
    return BeautifulSoup(resp.text, "html.parser")

max_articles=10
"""기사 리스트 페이지에서 기사 링크를 추출합니다."""
soup = get_soup(NEWS_LIST_URL)
article_links = soup.select('#section-list > ul > li > a')
print(f"[크롤러] 기사 링크 개수: {len(article_links)}")
for link in article_links[:max_articles]:
    article_url = urljoin(BASE_URL, link.get('href'))
    print(f"[크롤러] 기사 링크: {article_url}")

[크롤러] 기사 링크 개수: 20
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200484
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200462
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200477
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200476
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200472
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200469
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200470
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200468
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200465
[크롤러] 기사 링크: https://www.aitimes.com/news/articleView.html?idxno=200464


In [7]:
link = article_links[0].get('href')
soup = get_soup(link)

In [14]:
title = soup.select_one('#article-view > div > div > header > h1') # 바뀐 HTML (250709)
print(title.text)

[AI의 역사] 59 보상과 처벌을 통해 학습하는 강화학습의 발전 과정 - 머신러닝의 분류 (하)


In [31]:
import re

# ul 태그 전체 텍스트 예시: "박수빈 기자 입력 2025.07.09 13:15 댓글 0"
date_text = soup.select_one('#article-view > div > div > header > div > article > ul').text

# 정규식: '입력'과 '댓글' 사이의 날짜(공백 포함)만 추출
m = re.search(r'입력\s*([0-9.\s:]+)\s*댓글', date_text)
if m:
    date_str = m.group(1).strip()
    print(date_str)
else:
    print("날짜를 찾을 수 없습니다.")

2025.07.09 13:56
