In [10]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from bs4 import BeautifulSoup
import pandas as pd
import time
import os

# Selenium 설정
service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)
driver.set_page_load_timeout(60)  # 페이지 로드 타임아웃 설정 (초 단위)

# 크롤링할 페이지 범위 설정
BASE_URL = "https://gall.dcinside.com/board/lists/?id=bitcoins_new1&page="
start_page = 26400
end_page = 30000  # 원하는 페이지 수
data = []
save_interval = 100  # 데이터 저장 주기

# 데이터 저장 함수
def save_data_to_csv(data, filename="dc_bitcoin_data_filtered 20250121.csv"):
    df = pd.DataFrame(data)
    if os.path.exists(filename):
        df.to_csv(filename, mode='a', header=False, encoding='utf-8-sig', index=False)  # 기존 파일에 추가
    else:
        df.to_csv(filename, encoding='utf-8-sig', index=False)  # 새 파일 생성
    print(f"{len(data)}개의 데이터를 저장했습니다.")
    data.clear()  # 저장 후 리스트 초기화

# 페이지 크롤링 함수
def fetch_page_data(page):
    try:
        driver.get(BASE_URL + str(page))
        time.sleep(2)  # 페이지 로드 대기
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        articles = soup.select('tbody > tr.ub-content')  # 게시물 행 선택

        page_data = []
        for article in articles:
            gall_no = article.select_one('td.gall_num').text.strip()
            if not gall_no.isdigit():  # 번호가 숫자가 아니면 건너뜀
                continue

            title = article.select_one('td.gall_tit > a').text.strip()
            date = article.select_one('td.gall_date').text.strip()
            views = article.select_one('td.gall_count').text.strip()
            recommends = article.select_one('td.gall_recommend').text.strip()

            page_data.append({
                '게시물 번호': gall_no,
                '제목': title,
                '작성일': date,
                '조회수': views,
                '추천수': recommends
            })
        return page_data
    except Exception as e:
        print(f"Error on page {page}: {e}")
        return []

# 메인 크롤링 루프
try:
    for page in range(start_page, end_page + 1):
        print(f"{page}페이지 크롤링 중...")
        page_data = fetch_page_data(page)
        data.extend(page_data)

        if page % save_interval == 0 or page == end_page:  # 주기적으로 데이터 저장
            save_data_to_csv(data)
except KeyboardInterrupt:
    print("크롤링이 중단되었습니다.")
finally:
    # 남은 데이터 저장
    if data:
        save_data_to_csv(data)
    driver.quit()
    print("크롤링 종료")


26400페이지 크롤링 중...
50개의 데이터를 저장했습니다.
26401페이지 크롤링 중...
26402페이지 크롤링 중...
26403페이지 크롤링 중...
26404페이지 크롤링 중...
26405페이지 크롤링 중...
26406페이지 크롤링 중...
26407페이지 크롤링 중...
26408페이지 크롤링 중...
26409페이지 크롤링 중...
26410페이지 크롤링 중...
26411페이지 크롤링 중...
26412페이지 크롤링 중...
26413페이지 크롤링 중...
26414페이지 크롤링 중...
26415페이지 크롤링 중...
26416페이지 크롤링 중...
26417페이지 크롤링 중...
26418페이지 크롤링 중...
26419페이지 크롤링 중...
26420페이지 크롤링 중...
26421페이지 크롤링 중...
26422페이지 크롤링 중...
26423페이지 크롤링 중...
26424페이지 크롤링 중...
26425페이지 크롤링 중...
26426페이지 크롤링 중...
26427페이지 크롤링 중...
26428페이지 크롤링 중...
26429페이지 크롤링 중...
26430페이지 크롤링 중...
26431페이지 크롤링 중...
26432페이지 크롤링 중...
26433페이지 크롤링 중...
26434페이지 크롤링 중...
26435페이지 크롤링 중...
26436페이지 크롤링 중...
26437페이지 크롤링 중...
26438페이지 크롤링 중...
26439페이지 크롤링 중...
26440페이지 크롤링 중...
26441페이지 크롤링 중...
26442페이지 크롤링 중...
26443페이지 크롤링 중...
26444페이지 크롤링 중...
26445페이지 크롤링 중...
26446페이지 크롤링 중...
26447페이지 크롤링 중...
26448페이지 크롤링 중...
26449페이지 크롤링 중...
26450페이지 크롤링 중...
26451페이지 크롤링 중...
26452페이지 크롤링 중...
26453페이지 크롤링 중...
26454페이지 크