In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager
import time
import json

# 크롬 옵션 설정
chrome_options = Options()
chrome_options.add_argument("--headless")  # GUI 없이 실행 (필요하면 제거)
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# ChromeDriver를 자동으로 다운로드 및 설정
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)

# 크롤링할 URL
base_url = "https://sports.news.naver.com/kbaseball/news/index"

# 최대 페이지 수 계산
def get_max_page(date, team):
    url = base_url + f"?date={date}&team={team}&page=1&isphoto=N&type=team"
    driver.get(url)
    time.sleep(2)  # 페이지 로딩 대기

    try:
        pagination = driver.find_element(By.CLASS_NAME, "paginate")
        pages = pagination.find_elements(By.TAG_NAME, "a")
        return int(pages[-1].text) if pages else 1
    except:
        return 1

# 기사 목록 크롤링
def crawl_articles(date, team, page):
    articles = []
    url = f"{base_url}?date={date}&team={team}&page={page}&isphoto=N&type=team"
    driver.get(url)
    time.sleep(2)  # 페이지 로딩 대기

    # 뉴스 목록 가져오기
    try:
        news_list = driver.find_elements(By.CSS_SELECTOR, ".news_list > li")
        for item in news_list:
            title_element = item.find_element(By.CSS_SELECTOR, ".title")
            article_url = item.find_element(By.TAG_NAME, "a").get_attribute("href")

            articles.append({
                'news_title': title_element.text.strip(),
                'article_url': article_url
            })
    except:
        pass

    return articles

# 본문 내용 추출
def get_article_content(article_url):
    driver.get(article_url)
    time.sleep(2)  # 페이지 로딩 대기

    try:
        news_content = driver.find_element(By.ID, "newsEndContents").text.strip()
    except:
        news_content = "본문 없음"

    try:
        published_date = driver.find_element(By.CSS_SELECTOR, ".info > span").text.split(' ')[0]
    except:
        published_date = "날짜 없음"

    return {
        'news_content': news_content,
        'published_date': published_date
    }

# 뉴스 기사 크롤링
def crawl_news(date, team):
    max_page = get_max_page(date, team)
    print(f"날짜: {date}, 팀: {team}, 최대 페이지 수: {max_page}")
    
    all_articles = []
    for page in range(1, max_page + 1):
        articles = crawl_articles(date, team, page)
        for article in articles:
            content = get_article_content(article['article_url'])
            all_articles.append({
                'news_title': article['news_title'],
                'news_content': content['news_content'],
                'published_date': content['published_date']
            })
        time.sleep(2)  # 요청 간 2초 대기
    
    return all_articles

def main():
    date = input("크롤링할 날짜를 입력하세요 (YYYYMMDD 형식): ")
    # KIA 타이거즈: HT, 삼성 라이온즈: SS, 두산 베어스: OB, 롯데 자이언츠: LT, KT 위즈: KT, SSG 랜더스: SK, 한화 이글스: HH, NC 다이노스: NC, 키움 히어로즈: WO, LG 트윈스: LG
    team = input("크롤링할 팀 코드를 입력하세요 (예: HT): ")
    
    results = crawl_news(date, team)
    
    with open(f"news_{date}_{team}.json", "w", encoding="utf-8") as f:
        json.dump(results, f, ensure_ascii=False, indent=2)
    
    print(f"크롤링 완료. 총 {len(results)}개의 기사를 저장했습니다.")
    driver.quit()

if __name__ == "__main__":
    main()


날짜: 20250313, 팀: HH, 최대 페이지 수: 3
크롤링 완료. 총 0개의 기사를 저장했습니다.


In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time
import re

# 크롬 옵션 설정
chrome_options = Options()
chrome_options.add_argument("--headless")  # GUI 없이 실행 (필요하면 제거)
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")

# ChromeDriver를 자동으로 다운로드 및 설정
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)

# 크롤링할 URL
base_url = "https://sports.news.naver.com/kbaseball/news/index"

# 최대 페이지 수 계산
def get_max_page(date, team):
    url = base_url + f"?date={date}&team={team}&page=1&isphoto=N&type=team"
    driver.get(url)
    time.sleep(2)  # 페이지 로딩 대기

    try:
        pagination = driver.find_element(By.CLASS_NAME, "paginate")
        pages = pagination.find_elements(By.TAG_NAME, "a")
        return int(pages[-1].text) if pages else 1
    except:
        return 1

# 기사 목록 크롤링
def crawl_articles(date, team):
    max_page = get_max_page(date, team)
    articles = []
    
    for page in range(1, max_page + 1):
        url = f"{base_url}?date={date}&team={team}&page={page}&isphoto=N&type=team"
        driver.get(url)
        time.sleep(2)  # 페이지 로딩 대기

        # 뉴스 목록 가져오기
        try:
            news_list = driver.find_elements(By.CSS_SELECTOR, "#_newsList > ul > li")
            for item in news_list:
                title_element = item.find_element(By.CSS_SELECTOR, ".title")
                article_url = item.find_element(By.TAG_NAME, "a").get_attribute("href")

                articles.append({
                    'news_title': re.sub("/", "", title_element.text.strip()),
                    'article_url': article_url
                })
        except:
            pass

    return articles

date = "20250313"
team = "HH"
max_page = get_max_page(date, team)
print(max_page)

crawl_articles(date, team)

1


[]