In [12]:
from selenium import webdriver 
from bs4 import BeautifulSoup
import time
import csv
import os
from datetime import datetime, timedelta

# 1. 날짜 및 초기 설정
ds = "2008.01.01"  # 시작 날짜 (YYYY.MM.DD 형식)
end_date = "2018.12.31"  # 종료 날짜

duration = 7       # 기본 기간 (days)
min_duration = 1   # 최소 기간

# 저장 폴더 설정
save_folder = "e_daily_csv"
os.makedirs(save_folder, exist_ok=True)

# 날짜 형식 변환 함수
def add_days_to_date(date_str, days):
    date_obj = datetime.strptime(date_str, "%Y.%m.%d")
    new_date_obj = date_obj + timedelta(days=days)
    return new_date_obj.strftime("%Y.%m.%d")

while True:
    try:
        # 종료 조건: ds가 end_date를 초과하면 중단
        if datetime.strptime(ds, "%Y.%m.%d") > datetime.strptime(end_date, "%Y.%m.%d"):
            print("크롤링 완료: 설정한 날짜 범위를 초과했습니다.")
            break

        # 2. 종료 날짜 계산
        de = add_days_to_date(ds, duration)
        if datetime.strptime(de, "%Y.%m.%d") > datetime.strptime(end_date, "%Y.%m.%d"):
            de = end_date

        # Selenium 설정
        options = webdriver.ChromeOptions()
        options.add_argument("--headless")  # 브라우저 창을 띄우지 않음
        options.add_argument("--no-sandbox")
        options.add_argument("--disable-dev-shm-usage")
        options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")

        driver = webdriver.Chrome(options=options)
        url = f"https://search.naver.com/search.naver?where=news&query=%EA%B8%88%EB%A6%AC&sm=tab_opt&sort=2&photo=0&field=0&pd=3&ds={ds}&de={de}&docid=&related=0&mynews=1&office_type=1&office_section_code=3&news_office_checked=1018&nso=so%3Ar%2Cp%3Afrom{ds.replace('.', '')}to{de.replace('.', '')}&is_sug_officeid=0&office_category=0&service_area=0"
        driver.get(url)

        # 무한 스크롤 처리
        SCROLL_PAUSE_TIME = 2  # 스크롤 간 대기 시간

        last_height = driver.execute_script("return document.body.scrollHeight")
        while True:
            driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
            time.sleep(SCROLL_PAUSE_TIME)
            new_height = driver.execute_script("return document.body.scrollHeight")
            if new_height == last_height:
                break
            last_height = new_height

        # BeautifulSoup으로 HTML 파싱
        soup = BeautifulSoup(driver.page_source, "html.parser")
        articles = soup.select(".news_wrap")  # 기사 목록 선택자

        # 데이터 수집
        results = []
        for article in articles:
            try:
                url_tag = article.select_one("a.info[href^='https://n.news.naver.com']")
                if url_tag:
                    url = url_tag["href"]
                    date_tag = url_tag.find_previous_sibling("span", class_="info")
                    date = date_tag.text.strip() if date_tag else "날짜 없음"
                    results.append({"url": url, "date": date})
            except Exception as e:
                print(f"Error parsing article: {e}")

        # 결과 저장 (CSV 파일)
        output_filename = os.path.join(save_folder, f"naver_news_{ds.replace('.', '')}_{de.replace('.', '')}_e_daily.csv")
        with open(output_filename, "w", encoding="utf-8-sig", newline="") as f:
            writer = csv.DictWriter(f, fieldnames=["url", "date"])
            writer.writeheader()
            writer.writerows(results)

        print(f"크롤링 완료! 총 수집된 기사: {len(results)}")
        print(f"결과가 저장되었습니다: {output_filename}")
        
        driver.quit()

        # 다음 실행을 위한 ds 업데이트 (de + 1)
        ds = add_days_to_date(de, 1)
        
    except Exception as e:
        print(f"오류 발생: {e}")
        
        # duration을 줄여서 재시도 (최소값은 min_duration)
        duration -= 1
        if duration < min_duration:
            print("최소 기간에 도달하여 크롤링을 중단합니다.")
            break
        
    finally:
        try:
            driver.quit()
        except:
            pass




크롤링 완료! 총 수집된 기사: 177
결과가 저장되었습니다: e_daily_csv\naver_news_20080101_20080108_e_daily.csv
크롤링 완료! 총 수집된 기사: 248
결과가 저장되었습니다: e_daily_csv\naver_news_20080109_20080116_e_daily.csv
크롤링 완료! 총 수집된 기사: 283
결과가 저장되었습니다: e_daily_csv\naver_news_20080117_20080124_e_daily.csv
크롤링 완료! 총 수집된 기사: 266
결과가 저장되었습니다: e_daily_csv\naver_news_20080125_20080201_e_daily.csv
크롤링 완료! 총 수집된 기사: 80
결과가 저장되었습니다: e_daily_csv\naver_news_20080202_20080209_e_daily.csv
크롤링 완료! 총 수집된 기사: 168
결과가 저장되었습니다: e_daily_csv\naver_news_20080210_20080217_e_daily.csv
크롤링 완료! 총 수집된 기사: 175
결과가 저장되었습니다: e_daily_csv\naver_news_20080218_20080225_e_daily.csv
크롤링 완료! 총 수집된 기사: 186
결과가 저장되었습니다: e_daily_csv\naver_news_20080226_20080304_e_daily.csv
크롤링 완료! 총 수집된 기사: 215
결과가 저장되었습니다: e_daily_csv\naver_news_20080305_20080312_e_daily.csv
크롤링 완료! 총 수집된 기사: 253
결과가 저장되었습니다: e_daily_csv\naver_news_20080313_20080320_e_daily.csv
크롤링 완료! 총 수집된 기사: 157
결과가 저장되었습니다: e_daily_csv\naver_news_20080321_20080328_e_daily.csv
크롤링 완료! 총 수집된 기사: 131
결과가 저장되었습니다