In [5]:
!pip install fake-useragent aiohttp requests beautifulsoup4 pandas tqdm



In [10]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random
import os
import re
import concurrent.futures
from tqdm import tqdm

# 사용자 에이전트 목록 (차단 방지용)
user_agents = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.2 Safari/605.1.15',
    'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/109.0',
    'Mozilla/5.0 (iPhone; CPU iPhone OS 16_2 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/16.2 Mobile/15E148 Safari/604.1'
]

# CSV 파일명 설정
BASE_FILENAME = 'dcinside_chartanalysis_data'

# 페이지 URL 포맷
BASE_URL = 'https://gall.dcinside.com/mgallery/board/lists/'
VIEW_URL = 'https://gall.dcinside.com/mgallery/board/view/'

# 총 크롤링할 게시물 수
TOTAL_POSTS = 20000
# 중간 저장 단위
SAVE_INTERVAL = 5000

# 게시물 ID 캐시 (중복 방지)
post_id_cache = set()

# 현재까지 수집한 게시물 수
collected_posts = 0

# 페이지 범위 설정 (566~25824)
start_page = 25115
end_page = 26030

# 병렬 처리 설정
MAX_WORKERS = 5  # 동시에 처리할 상세 페이지 요청 수
MAX_RETRIES = 3   # 요청 실패 시 재시도 횟수
MIN_DELAY = 0.1   # 최소 딜레이(초)
MAX_DELAY = 0.5   # 최대 딜레이(초)

# 세션 객체 생성 (연결 재사용)
session = requests.Session()

# 함수: 랜덤 딜레이 적용 (더 짧은 딜레이)
def random_delay():
    delay = random.uniform(MIN_DELAY, MAX_DELAY)
    time.sleep(delay)

# 함수: 요청 헤더 생성
def get_headers():
    return {
        'User-Agent': random.choice(user_agents),
        'Referer': 'https://gall.dcinside.com/mgallery/board/lists/?id=chartanalysis',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Language': 'ko-KR,ko;q=0.9,en-US;q=0.8,en;q=0.7',
        'Connection': 'keep-alive',
        'Cache-Control': 'max-age=0'
    }

# 함수: CSV 저장
def save_to_csv(dataframe, count):
    filename = f"{BASE_FILENAME}_{count}.csv"
    dataframe.to_csv(filename, index=False, encoding='utf-8-sig')
    print(f"{filename} 파일에 {len(dataframe)}개 게시물 저장 완료")

# 함수: 게시물 상세 페이지 크롤링 (재시도 로직 포함)
def crawl_post_detail(post_info):
    post_url, post_id = post_info
    
    for attempt in range(MAX_RETRIES):
        try:
            # 너무 빠른 요청을 피하기 위한 최소 딜레이
            if attempt > 0:
                time.sleep(random.uniform(0.5, 1.0))
            
            headers = get_headers()
            response = session.get(post_url, headers=headers, timeout=5)
            
            if response.status_code != 200:
                continue
            
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 내용 추출 (최적화: 정확한 선택자 사용)
            content_div = soup.select_one('div.write_div')
            content = content_div.text.strip() if content_div else "내용 없음"
            
            # 조회수 추출
            view_count = soup.select_one('span.gall_count')
            view_count = view_count.text.replace('조회 ', '').strip() if view_count else "0"
            
            # 댓글 수 추출
            comment_count = soup.select_one('span.gall_reply_num')
            comment_count = comment_count.text.replace('댓글 ', '').strip() if comment_count else "0"
            
            # 숫자만 추출 (컴파일된 정규식 패턴 사용)
            view_count = re.sub(r'[^0-9]', '', view_count)
            comment_count = re.sub(r'[^0-9]', '', comment_count)
            
            return {
                'post_id': post_id,
                '내용': content,
                '조회수': view_count,
                '댓글갯수': comment_count
            }
            
        except Exception as e:
            if attempt == MAX_RETRIES - 1:
                # print(f"게시물 상세 페이지 크롤링 실패 (최대 재시도 횟수 초과): {post_url}")
                return None
    
    return None

# 게시글 번호 기준으로 균등하게 샘플링할 범위 계산
def calculate_sampling_interval():
    # 전체 페이지 범위의 예상 게시물 수
    total_pages = end_page - start_page + 1
    estimated_total_posts = total_pages * 100  # 페이지당 100개 게시물
    
    # 샘플링 간격 계산
    sampling_interval = max(1, estimated_total_posts // TOTAL_POSTS)
    return sampling_interval

# 함수: 게시판 목록 페이지에서 게시물 정보 추출
def extract_post_info(page):
    for retry in range(MAX_RETRIES):
        try:
            headers = get_headers()
            page_url = f"{BASE_URL}?id=chartanalysis&page={page}&list_num=100&sort_type=N"
            response = session.get(page_url, headers=headers, timeout=5)
            
            if response.status_code != 200:
                continue
            
            soup = BeautifulSoup(response.text, 'html.parser')
            posts = soup.select('tr.ub-content')
            
            post_info_list = []
            
            for post in posts:
                # 공지사항 건너뛰기
                if 'notice' in post.get('class', []):
                    continue
                
                # 게시물 정보 추출
                post_id_elem = post.select_one('td.gall_num')
                post_id = post_id_elem.text.strip() if post_id_elem else "0"
                
                # 이미 수집한 게시물인지 확인
                if post_id in post_id_cache:
                    continue
                
                post_title_elem = post.select_one('td.gall_tit a')
                title = post_title_elem.text.strip() if post_title_elem else "제목 없음"
                
                post_date_elem = post.select_one('td.gall_date')
                date = post_date_elem.text.strip() if post_date_elem else ""
                
                # 게시물 URL 생성
                post_detail_url = None
                if post_title_elem and post_title_elem.get('href'):
                    post_detail_url = post_title_elem['href']
                    if not post_detail_url.startswith('http'):
                        post_detail_url = "https://gall.dcinside.com" + post_detail_url
                
                if post_detail_url:
                    post_info_list.append({
                        'post_id': post_id,
                        'title': title,
                        'date': date,
                        'url': post_detail_url
                    })
            
            return post_info_list
            
        except Exception as e:
            if retry == MAX_RETRIES - 1:
                # print(f"페이지 {page} 크롤링 실패: {e}")
                return []
            time.sleep(random.uniform(1.0, 2.0))
    
    return []

# 메인 크롤링 함수
def main():
    global collected_posts, post_id_cache
    
    all_data = []  # 수집된 모든 게시물 데이터
    
    # 기존 파일 체크 및 이어서 크롤링
    existing_files = [f for f in os.listdir('.') if f.startswith(BASE_FILENAME) and f.endswith('.csv')]
    if existing_files:
        latest_file = sorted(existing_files)[-1]
        temp_df = pd.read_csv(latest_file, encoding='utf-8-sig')
        collected_posts = len(temp_df)
        all_data = temp_df.to_dict('records')  # 리스트로 변환하여 저장
        print(f"기존 파일 {latest_file}에서 {collected_posts}개 게시물 불러옴")
        
        # 이미 수집한 게시물 ID 캐시에 추가
        for post_id in temp_df['번호']:
            post_id_cache.add(str(post_id))
    
    # 게시물 샘플링 간격 계산
    sampling_interval = calculate_sampling_interval()
    print(f"샘플링 간격: 약 {sampling_interval}개 게시물마다 1개 수집")
    
    # 현재 수집한 게시물 수 확인
    current_batch_size = collected_posts % SAVE_INTERVAL
    
    # 각 페이지에서 게시물 목록 추출을 위한 페이지 범위 생성
    page_ranges = list(range(start_page, end_page + 1))
    
    # 크롤링 시작 시간 기록
    start_time = time.time()
    posts_at_start = collected_posts
    
    try:
        # 메인 크롤링 루프
        with tqdm(total=TOTAL_POSTS, initial=collected_posts, desc="게시물 크롤링 진행") as pbar:
            # 페이지 단위로 처리
            for page_chunk_idx in range(0, len(page_ranges), 5):  # 한 번에 5페이지씩 처리
                if collected_posts >= TOTAL_POSTS:
                    break
                
                # 현재 청크의 페이지 범위
                current_pages = page_ranges[page_chunk_idx:page_chunk_idx + 5]
                
                # 페이지별 게시물 목록 가져오기 (병렬 처리)
                all_posts_info = []
                with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
                    results = list(executor.map(extract_post_info, current_pages))
                
                for posts_in_page in results:
                    all_posts_info.extend(posts_in_page)
                
                # 샘플링 적용 (게시물 번호 기준으로 균등하게 샘플링)
                selected_posts = []
                for idx, post_info in enumerate(all_posts_info):
                    if (collected_posts + idx) % sampling_interval == 0:
                        selected_posts.append(post_info)
                        post_id_cache.add(post_info['post_id'])
                
                # 게시물 상세 정보 병렬 크롤링
                post_details_to_crawl = [(post['url'], post['post_id']) for post in selected_posts]
                
                # 최대 MAX_WORKERS 개의 스레드로 상세 페이지 병렬 크롤링
                crawled_details = []
                with concurrent.futures.ThreadPoolExecutor(max_workers=MAX_WORKERS) as executor:
                    future_to_post = {executor.submit(crawl_post_detail, post_detail): post_detail 
                                     for post_detail in post_details_to_crawl}
                    
                    for future in concurrent.futures.as_completed(future_to_post):
                        result = future.result()
                        if result:
                            crawled_details.append(result)
                
                # 크롤링 결과 처리
                for detail in crawled_details:
                    # 상세 정보와 게시물 정보 매칭
                    matching_post = next((post for post in selected_posts if post['post_id'] == detail['post_id']), None)
                    
                    if matching_post:
                        new_row = {
                            '번호': matching_post['post_id'],
                            '날짜': matching_post['date'],
                            '제목': matching_post['title'],
                            '내용': detail['내용'],
                            '조회수': detail['조회수'],
                            '댓글갯수': detail['댓글갯수']
                        }
                        all_data.append(new_row)
                        collected_posts += 1
                        current_batch_size += 1
                        pbar.update(1)
                        
                        # 중간 저장
                        if current_batch_size >= SAVE_INTERVAL:
                            # 데이터프레임으로 변환하여 저장
                            df = pd.DataFrame(all_data)
                            save_to_csv(df, collected_posts)
                            current_batch_size = 0
                
                # 현재 크롤링 속도 계산 및 표시
                current_time = time.time()
                elapsed_time = current_time - start_time
                if elapsed_time > 0:
                    posts_collected = collected_posts - posts_at_start
                    posts_per_minute = (posts_collected / elapsed_time) * 60
                    print(f"현재 크롤링 속도: {posts_per_minute:.2f} 게시물/분 (총 {posts_collected}개 수집, {elapsed_time:.1f}초 소요)")
                
                # 페이지 처리 간 짧은 대기
                time.sleep(0.5)
        
    except KeyboardInterrupt:
        print("사용자에 의해 크롤링이 중단되었습니다.")
    finally:
        # 마지막 저장
        if all_data and current_batch_size > 0:
            df = pd.DataFrame(all_data)
            save_to_csv(df, collected_posts)
        
        # 최종 크롤링 속도 계산 및 표시
        total_time = time.time() - start_time
        posts_collected = collected_posts - posts_at_start
        if total_time > 0:
            posts_per_minute = (posts_collected / total_time) * 60
            print(f"평균 크롤링 속도: {posts_per_minute:.2f} 게시물/분")
            print(f"총 소요 시간: {total_time/60:.2f}분 ({total_time:.1f}초)")
        
        print(f"크롤링 완료: 총 {collected_posts}개 게시물 수집")

if __name__ == "__main__":
    main()

게시물 크롤링 진행:   8%|▊         | 1654/20000 [03:47<39:05,  7.82it/s]

현재 크롤링 속도: 462.27 게시물/분 (총 1753개 수집, 227.5초 소요)


게시물 크롤링 진행:   9%|▉         | 1754/20000 [04:00<39:22,  7.72it/s]

현재 크롤링 속도: 455.13 게시물/분 (총 1827개 수집, 240.9초 소요)


게시물 크롤링 진행:   9%|▉         | 1828/20000 [04:13<41:55,  7.22it/s]

현재 크롤링 속도: 456.84 게시물/분 (총 1927개 수집, 253.1초 소요)


게시물 크롤링 진행:  10%|▉         | 1928/20000 [04:27<42:17,  7.12it/s]

현재 크롤링 속도: 454.57 게시물/분 (총 2027개 수집, 267.5초 소요)


게시물 크롤링 진행:  10%|█         | 2028/20000 [04:40<41:04,  7.29it/s]

현재 크롤링 속도: 454.89 게시물/분 (총 2127개 수집, 280.6초 소요)


게시물 크롤링 진행:  11%|█         | 2128/20000 [04:54<40:45,  7.31it/s]

현재 크롤링 속도: 454.25 게시물/분 (총 2227개 수집, 294.2초 소요)


게시물 크롤링 진행:  11%|█         | 2228/20000 [05:07<40:28,  7.32it/s]

현재 크롤링 속도: 458.48 게시물/분 (총 2352개 수집, 307.8초 소요)


게시물 크롤링 진행:  12%|█▏        | 2353/20000 [05:18<34:40,  8.48it/s]

현재 크롤링 속도: 457.57 게시물/분 (총 2427개 수집, 318.2초 소요)


게시물 크롤링 진행:  12%|█▏        | 2428/20000 [05:32<39:13,  7.47it/s]

현재 크롤링 속도: 460.85 게시물/분 (총 2552개 수집, 332.3초 소요)


게시물 크롤링 진행:  13%|█▎        | 2553/20000 [05:40<31:35,  9.20it/s]

현재 크롤링 속도: 463.39 게시물/분 (총 2627개 수집, 340.1초 소요)


게시물 크롤링 진행:  13%|█▎        | 2628/20000 [05:55<37:51,  7.65it/s]

현재 크롤링 속도: 464.64 게시물/분 (총 2752개 수집, 355.4초 소요)


게시물 크롤링 진행:  14%|█▍        | 2753/20000 [06:03<30:28,  9.43it/s]

현재 크롤링 속도: 467.17 게시물/분 (총 2827개 수집, 363.1초 소요)


게시물 크롤링 진행:  14%|█▍        | 2828/20000 [06:13<32:31,  8.80it/s]

현재 크롤링 속도: 466.22 게시물/분 (총 2902개 수집, 373.5초 소요)


게시물 크롤링 진행:  15%|█▍        | 2903/20000 [06:25<35:22,  8.06it/s]

현재 크롤링 속도: 471.59 게시물/분 (총 3027개 수집, 385.1초 소요)


게시물 크롤링 진행:  15%|█▌        | 3028/20000 [06:39<34:08,  8.29it/s]

현재 크롤링 속도: 469.65 게시물/분 (총 3127개 수집, 399.5초 소요)


게시물 크롤링 진행:  16%|█▌        | 3128/20000 [06:53<35:17,  7.97it/s]

현재 크롤링 속도: 468.63 게시물/분 (총 3227개 수집, 413.2초 소요)


게시물 크롤링 진행:  16%|█▌        | 3228/20000 [07:13<41:21,  6.76it/s]

현재 크롤링 속도: 464.25 게시물/분 (총 3352개 수집, 433.2초 소요)


게시물 크롤링 진행:  17%|█▋        | 3353/20000 [07:31<40:39,  6.82it/s]

현재 크롤링 속도: 459.04 게시물/분 (총 3452개 수집, 451.2초 소요)


게시물 크롤링 진행:  17%|█▋        | 3453/20000 [07:44<39:43,  6.94it/s]

현재 크롤링 속도: 455.13 게시물/분 (총 3527개 수집, 465.0초 소요)


게시물 크롤링 진행:  18%|█▊        | 3528/20000 [07:56<40:01,  6.86it/s]

현재 크롤링 속도: 453.71 게시물/분 (총 3602개 수집, 476.3초 소요)


게시물 크롤링 진행:  18%|█▊        | 3603/20000 [08:15<47:31,  5.75it/s]

현재 크롤링 속도: 451.14 게시물/분 (총 3727개 수집, 495.7초 소요)


게시물 크롤링 진행:  19%|█▊        | 3728/20000 [08:31<42:45,  6.34it/s]

현재 크롤링 속도: 448.49 게시물/분 (총 3827개 수집, 512.0초 소요)


게시물 크롤링 진행:  19%|█▉        | 3828/20000 [08:54<47:53,  5.63it/s]

현재 크롤링 속도: 440.87 게시물/분 (총 3927개 수집, 534.4초 소요)


게시물 크롤링 진행:  20%|█▉        | 3928/20000 [09:10<45:56,  5.83it/s]

현재 크롤링 속도: 436.47 게시물/분 (총 4002개 수집, 550.1초 소요)


게시물 크롤링 진행:  20%|██        | 4003/20000 [09:33<54:33,  4.89it/s]

현재 크롤링 속도: 429.36 게시물/분 (총 4102개 수집, 573.2초 소요)


게시물 크롤링 진행:  21%|██        | 4103/20000 [09:48<49:44,  5.33it/s]

현재 크롤링 속도: 428.52 게시물/분 (총 4202개 수집, 588.4초 소요)


게시물 크롤링 진행:  21%|██        | 4203/20000 [10:00<44:23,  5.93it/s]

현재 크롤링 속도: 426.99 게시물/분 (총 4277개 수집, 601.0초 소요)


게시물 크롤링 진행:  21%|██▏       | 4278/20000 [10:15<45:49,  5.72it/s]

현재 크롤링 속도: 426.67 게시물/분 (총 4377개 수집, 615.5초 소요)


게시물 크롤링 진행:  22%|██▏       | 4378/20000 [10:33<46:09,  5.64it/s]

현재 크롤링 속도: 426.23 게시물/분 (총 4502개 수집, 633.7초 소요)


게시물 크롤링 진행:  23%|██▎       | 4503/20000 [10:45<37:42,  6.85it/s]

현재 크롤링 속도: 425.64 게시물/분 (총 4577개 수집, 645.2초 소요)


게시물 크롤링 진행:  23%|██▎       | 4578/20000 [10:57<38:47,  6.63it/s]

현재 크롤링 속도: 424.39 게시물/분 (총 4652개 수집, 657.7초 소요)


게시물 크롤링 진행:  23%|██▎       | 4653/20000 [11:20<48:23,  5.29it/s]

현재 크롤링 속도: 416.90 게시물/분 (총 4727개 수집, 680.3초 소요)


게시물 크롤링 진행:  24%|██▎       | 4728/20000 [11:36<49:59,  5.09it/s]

현재 크롤링 속도: 415.80 게시물/분 (총 4827개 수집, 696.5초 소요)


게시물 크롤링 진행:  24%|██▍       | 4828/20000 [11:47<42:31,  5.95it/s]

현재 크롤링 속도: 415.55 게시물/분 (총 4902개 수집, 707.8초 소요)


게시물 크롤링 진행:  25%|██▍       | 4903/20000 [12:08<49:44,  5.06it/s]

dcinside_chartanalysis_data_5000.csv 파일에 5000개 게시물 저장 완료
현재 크롤링 속도: 413.88 게시물/분 (총 5027개 수집, 728.8초 소요)


게시물 크롤링 진행:  25%|██▌       | 5028/20000 [12:26<44:17,  5.63it/s]

현재 크롤링 속도: 411.84 게시물/분 (총 5127개 수집, 746.9초 소요)


게시물 크롤링 진행:  26%|██▌       | 5128/20000 [12:50<48:10,  5.15it/s]

현재 크롤링 속도: 409.15 게시물/분 (총 5252개 수집, 770.2초 소요)


게시물 크롤링 진행:  26%|██▋       | 5253/20000 [13:08<43:18,  5.68it/s]

현재 크롤링 속도: 409.38 게시물/분 (총 5377개 수집, 788.1초 소요)


게시물 크롤링 진행:  27%|██▋       | 5378/20000 [13:23<38:22,  6.35it/s]

현재 크롤링 속도: 409.18 게시물/분 (총 5477개 수집, 803.1초 소요)


게시물 크롤링 진행:  27%|██▋       | 5478/20000 [13:38<37:48,  6.40it/s]

현재 크롤링 속도: 408.87 게시물/분 (총 5577개 수집, 818.4초 소요)


게시물 크롤링 진행:  28%|██▊       | 5578/20000 [14:00<42:05,  5.71it/s]

현재 크롤링 속도: 406.87 게시물/분 (총 5701개 수집, 840.7초 소요)


게시물 크롤링 진행:  29%|██▊       | 5702/20000 [14:25<43:50,  5.43it/s]

현재 크롤링 속도: 403.79 게시물/분 (총 5826개 수집, 865.7초 소요)


게시물 크롤링 진행:  29%|██▉       | 5827/20000 [14:36<36:07,  6.54it/s]

현재 크롤링 속도: 403.83 게시물/분 (총 5901개 수집, 876.8초 소요)


게시물 크롤링 진행:  30%|██▉       | 5902/20000 [14:48<36:11,  6.49it/s]

현재 크롤링 속도: 403.50 게시물/분 (총 5976개 수집, 888.6초 소요)


게시물 크롤링 진행:  30%|██▉       | 5977/20000 [14:58<34:45,  6.72it/s]

현재 크롤링 속도: 402.41 게시물/분 (총 6026개 수집, 898.5초 소요)


게시물 크롤링 진행:  30%|███       | 6027/20000 [15:17<45:00,  5.17it/s]

현재 크롤링 속도: 400.39 게시물/분 (총 6126개 수집, 918.0초 소요)


게시물 크롤링 진행:  31%|███       | 6127/20000 [15:36<43:56,  5.26it/s]

현재 크롤링 속도: 400.54 게시물/분 (총 6251개 수집, 936.4초 소요)


게시물 크롤링 진행:  31%|███▏      | 6252/20000 [16:00<43:33,  5.26it/s]

현재 크롤링 속도: 398.43 게시물/분 (총 6376개 수집, 960.2초 소요)


게시물 크롤링 진행:  32%|███▏      | 6377/20000 [16:14<36:52,  6.16it/s]

현재 크롤링 속도: 398.88 게시물/분 (총 6476개 수집, 974.1초 소요)


게시물 크롤링 진행:  32%|███▏      | 6477/20000 [16:31<37:26,  6.02it/s]

현재 크롤링 속도: 397.89 게시물/분 (총 6576개 수집, 991.6초 소요)


게시물 크롤링 진행:  33%|███▎      | 6577/20000 [16:39<31:39,  7.07it/s]

현재 크롤링 속도: 397.64 게시물/분 (총 6626개 수집, 999.8초 소요)


게시물 크롤링 진행:  33%|███▎      | 6627/20000 [16:55<38:10,  5.84it/s]

현재 크롤링 속도: 397.39 게시물/분 (총 6726개 수집, 1015.5초 소요)


게시물 크롤링 진행:  34%|███▎      | 6727/20000 [17:09<35:21,  6.26it/s]

현재 크롤링 속도: 397.95 게시물/분 (총 6826개 수집, 1029.2초 소요)


게시물 크롤링 진행:  34%|███▍      | 6827/20000 [17:28<37:28,  5.86it/s]

현재 크롤링 속도: 394.89 게시물/분 (총 6901개 수집, 1048.6초 소요)


게시물 크롤링 진행:  35%|███▍      | 6902/20000 [17:46<41:03,  5.32it/s]

현재 크롤링 속도: 395.29 게시물/분 (총 7026개 수집, 1066.5초 소요)


게시물 크롤링 진행:  35%|███▌      | 7027/20000 [18:03<36:22,  5.94it/s]

현재 크롤링 속도: 396.03 게시물/분 (총 7151개 수집, 1083.4초 소요)


게시물 크롤링 진행:  36%|███▌      | 7152/20000 [18:15<30:32,  7.01it/s]

현재 크롤링 속도: 395.83 게시물/분 (총 7226개 수집, 1095.3초 소요)


게시물 크롤링 진행:  36%|███▌      | 7227/20000 [18:29<32:35,  6.53it/s]

현재 크롤링 속도: 396.21 게시물/분 (총 7326개 수집, 1109.4초 소요)


게시물 크롤링 진행:  37%|███▋      | 7327/20000 [18:48<34:42,  6.09it/s]

현재 크롤링 속도: 394.86 게시물/분 (총 7426개 수집, 1128.4초 소요)


게시물 크롤링 진행:  37%|███▋      | 7427/20000 [18:58<30:28,  6.88it/s]

현재 크롤링 속도: 393.96 게시물/분 (총 7476개 수집, 1138.6초 소요)


게시물 크롤링 진행:  37%|███▋      | 7477/20000 [19:06<30:27,  6.85it/s]

현재 크롤링 속도: 394.03 게시물/분 (총 7526개 수집, 1146.0초 소요)


게시물 크롤링 진행:  38%|███▊      | 7527/20000 [19:26<41:23,  5.02it/s]

현재 크롤링 속도: 393.57 게시물/분 (총 7651개 수집, 1166.4초 소요)


게시물 크롤링 진행:  38%|███▊      | 7652/20000 [19:40<33:29,  6.15it/s]

현재 크롤링 속도: 392.69 게시물/분 (총 7726개 수집, 1180.5초 소요)


게시물 크롤링 진행:  39%|███▊      | 7727/20000 [19:55<35:21,  5.78it/s]

현재 크롤링 속도: 392.76 게시물/분 (총 7826개 수집, 1195.6초 소요)


게시물 크롤링 진행:  39%|███▉      | 7827/20000 [20:09<32:32,  6.24it/s]

현재 크롤링 속도: 393.31 게시물/분 (총 7926개 수집, 1209.1초 소요)


게시물 크롤링 진행:  40%|███▉      | 7927/20000 [20:21<29:38,  6.79it/s]

현재 크롤링 속도: 393.13 게시물/분 (총 8001개 수집, 1221.1초 소요)


게시물 크롤링 진행:  40%|████      | 8002/20000 [20:40<35:18,  5.66it/s]

현재 크롤링 속도: 392.98 게시물/분 (총 8126개 수집, 1240.7초 소요)


게시물 크롤링 진행:  41%|████      | 8127/20000 [21:05<36:32,  5.42it/s]

현재 크롤링 속도: 391.18 게시물/분 (총 8250개 수집, 1265.4초 소요)


게시물 크롤링 진행:  41%|████▏     | 8251/20000 [21:19<31:13,  6.27it/s]

현재 크롤링 속도: 390.42 게시물/분 (총 8325개 수집, 1279.4초 소요)


게시물 크롤링 진행:  42%|████▏     | 8326/20000 [21:40<36:23,  5.35it/s]

현재 크롤링 속도: 389.92 게시물/분 (총 8450개 수집, 1300.3초 소요)


게시물 크롤링 진행:  42%|████▏     | 8451/20000 [21:59<33:32,  5.74it/s]

현재 크롤링 속도: 388.89 게시물/분 (총 8550개 수집, 1319.2초 소요)


게시물 크롤링 진행:  43%|████▎     | 8551/20000 [22:09<29:36,  6.44it/s]

현재 크롤링 속도: 389.11 게시물/분 (총 8625개 수집, 1330.0초 소요)


게시물 크롤링 진행:  43%|████▎     | 8626/20000 [22:27<33:03,  5.73it/s]

현재 크롤링 속도: 389.55 게시물/분 (총 8750개 수집, 1347.7초 소요)


게시물 크롤링 진행:  44%|████▍     | 8751/20000 [22:45<30:40,  6.11it/s]

현재 크롤링 속도: 389.85 게시물/분 (총 8874개 수집, 1365.8초 소요)


게시물 크롤링 진행:  44%|████▍     | 8875/20000 [23:07<31:09,  5.95it/s]

현재 크롤링 속도: 389.10 게시물/분 (총 8999개 수집, 1387.7초 소요)


게시물 크롤링 진행:  45%|████▌     | 9000/20000 [23:18<25:49,  7.10it/s]

현재 크롤링 속도: 389.35 게시물/분 (총 9074개 수집, 1398.3초 소요)


게시물 크롤링 진행:  45%|████▌     | 9075/20000 [23:31<27:08,  6.71it/s]

현재 크롤링 속도: 388.86 게시물/분 (총 9149개 수집, 1411.7초 소요)


게시물 크롤링 진행:  46%|████▌     | 9150/20000 [23:47<29:30,  6.13it/s]

현재 크롤링 속도: 388.80 게시물/분 (총 9249개 수집, 1427.3초 소요)


게시물 크롤링 진행:  46%|████▋     | 9250/20000 [24:06<30:50,  5.81it/s]

현재 크롤링 속도: 387.79 게시물/분 (총 9349개 수집, 1446.5초 소요)


게시물 크롤링 진행:  47%|████▋     | 9350/20000 [24:24<30:50,  5.76it/s]

현재 크롤링 속도: 388.18 게시물/분 (총 9473개 수집, 1464.2초 소요)


게시물 크롤링 진행:  47%|████▋     | 9474/20000 [24:43<29:24,  5.97it/s]

현재 크롤링 속도: 387.15 게시물/분 (총 9573개 수집, 1483.6초 소요)


게시물 크롤링 진행:  48%|████▊     | 9574/20000 [25:03<30:51,  5.63it/s]

현재 크롤링 속도: 385.93 게시물/분 (총 9673개 수집, 1503.8초 소요)


게시물 크롤링 진행:  48%|████▊     | 9674/20000 [25:22<30:56,  5.56it/s]

현재 크롤링 속도: 385.14 게시물/분 (총 9772개 수집, 1522.4초 소요)


게시물 크롤링 진행:  49%|████▉     | 9773/20000 [25:39<30:20,  5.62it/s]

현재 크롤링 속도: 385.71 게시물/분 (총 9897개 수집, 1539.5초 소요)
현재 크롤링 속도: 385.56 게시물/분 (총 9897개 수집, 1540.1초 소요)


게시물 크롤링 진행:  49%|████▉     | 9898/20000 [25:57<27:58,  6.02it/s]

현재 크롤링 속도: 384.16 게시물/분 (총 9972개 수집, 1557.5초 소요)


게시물 크롤링 진행:  50%|████▉     | 9973/20000 [26:21<33:32,  4.98it/s]

dcinside_chartanalysis_data_10000.csv 파일에 10000개 게시물 저장 완료
현재 크롤링 속도: 383.11 게시물/분 (총 10097개 수집, 1581.3초 소요)


게시물 크롤링 진행:  50%|█████     | 10098/20000 [26:39<29:45,  5.55it/s]

현재 크롤링 속도: 382.59 게시물/분 (총 10197개 수집, 1599.1초 소요)


게시물 크롤링 진행:  51%|█████     | 10198/20000 [27:03<32:13,  5.07it/s]

현재 크롤링 속도: 381.57 게시물/분 (총 10322개 수집, 1623.1초 소요)


게시물 크롤링 진행:  52%|█████▏    | 10323/20000 [27:18<27:52,  5.79it/s]

현재 크롤링 속도: 381.59 게시물/분 (총 10422개 수집, 1638.7초 소요)


게시물 크롤링 진행:  52%|█████▏    | 10423/20000 [27:39<29:13,  5.46it/s]

현재 크롤링 속도: 379.48 게시물/분 (총 10497개 수집, 1659.7초 소요)


게시물 크롤링 진행:  52%|█████▏    | 10498/20000 [27:56<30:38,  5.17it/s]

현재 크롤링 속도: 380.08 게시물/분 (총 10622개 수집, 1676.8초 소요)


게시물 크롤링 진행:  53%|█████▎    | 10623/20000 [28:06<23:57,  6.53it/s]

현재 크롤링 속도: 380.50 게시물/분 (총 10697개 수집, 1686.8초 소요)


게시물 크롤링 진행:  53%|█████▎    | 10698/20000 [28:28<28:49,  5.38it/s]

현재 크롤링 속도: 379.98 게시물/분 (총 10822개 수집, 1708.8초 소요)


게시물 크롤링 진행:  54%|█████▍    | 10823/20000 [28:45<25:26,  6.01it/s]

현재 크롤링 속도: 379.82 게시물/분 (총 10921개 수집, 1725.2초 소요)


게시물 크롤링 진행:  55%|█████▍    | 10922/20000 [29:02<25:22,  5.96it/s]

현재 크롤링 속도: 379.57 게시물/분 (총 11021개 수집, 1742.1초 소요)


게시물 크롤링 진행:  55%|█████▌    | 11022/20000 [29:16<24:01,  6.23it/s]

현재 크롤링 속도: 379.89 게시물/분 (총 11121개 수집, 1756.4초 소요)


게시물 크롤링 진행:  56%|█████▌    | 11122/20000 [29:29<22:17,  6.64it/s]

현재 크롤링 속도: 379.70 게시물/분 (총 11196개 수집, 1769.2초 소요)


게시물 크롤링 진행:  56%|█████▌    | 11197/20000 [29:53<28:01,  5.24it/s]

현재 크롤링 속도: 378.83 게시물/분 (총 11321개 수집, 1793.1초 소요)


게시물 크롤링 진행:  57%|█████▋    | 11322/20000 [30:11<25:32,  5.66it/s]

현재 크롤링 속도: 378.18 게시물/분 (총 11421개 수집, 1812.0초 소요)


게시물 크롤링 진행:  57%|█████▋    | 11422/20000 [30:39<29:35,  4.83it/s]

현재 크롤링 속도: 376.51 게시물/분 (총 11546개 수집, 1840.0초 소요)


게시물 크롤링 진행:  58%|█████▊    | 11547/20000 [30:51<23:29,  6.00it/s]

현재 크롤링 속도: 376.65 게시물/분 (총 11621개 수집, 1851.2초 소요)


게시물 크롤링 진행:  58%|█████▊    | 11622/20000 [30:58<21:16,  6.56it/s]

현재 크롤링 속도: 376.69 게시물/분 (총 11671개 수집, 1859.0초 소요)


게시물 크롤링 진행:  58%|█████▊    | 11672/20000 [31:14<25:12,  5.51it/s]

현재 크롤링 속도: 376.71 게시물/분 (총 11771개 수집, 1874.8초 소요)


게시물 크롤링 진행:  59%|█████▉    | 11772/20000 [31:33<24:57,  5.49it/s]

현재 크롤링 속도: 376.24 게시물/분 (총 11871개 수집, 1893.1초 소요)


게시물 크롤링 진행:  59%|█████▉    | 11872/20000 [31:57<27:34,  4.91it/s]

현재 크롤링 속도: 375.28 게시물/분 (총 11996개 수집, 1917.9초 소요)


게시물 크롤링 진행:  60%|█████▉    | 11997/20000 [32:21<26:17,  5.07it/s]

현재 크롤링 속도: 374.65 게시물/분 (총 12121개 수집, 1941.2초 소요)


게시물 크롤링 진행:  61%|██████    | 12122/20000 [32:36<22:40,  5.79it/s]

현재 크롤링 속도: 374.70 게시물/분 (총 12221개 수집, 1956.9초 소요)


게시물 크롤링 진행:  61%|██████    | 12222/20000 [33:00<24:47,  5.23it/s]

현재 크롤링 속도: 373.98 게시물/분 (총 12346개 수집, 1980.8초 소요)


게시물 크롤링 진행:  62%|██████▏   | 12347/20000 [33:17<21:54,  5.82it/s]

현재 크롤링 속도: 373.86 게시물/분 (총 12446개 수집, 1997.4초 소요)


게시물 크롤링 진행:  62%|██████▏   | 12447/20000 [33:34<21:41,  5.80it/s]

현재 크롤링 속도: 374.36 게시물/분 (총 12571개 수집, 2014.8초 소요)


게시물 크롤링 진행:  63%|██████▎   | 12572/20000 [33:45<17:42,  6.99it/s]

현재 크롤링 속도: 374.65 게시물/분 (총 12646개 수집, 2025.3초 소요)


게시물 크롤링 진행:  63%|██████▎   | 12647/20000 [34:04<20:39,  5.93it/s]

현재 크롤링 속도: 374.03 게시물/분 (총 12746개 수집, 2044.7초 소요)


게시물 크롤링 진행:  64%|██████▎   | 12747/20000 [34:15<18:12,  6.64it/s]

현재 크롤링 속도: 374.25 게시물/분 (총 12821개 수집, 2055.5초 소요)


게시물 크롤링 진행:  64%|██████▍   | 12822/20000 [34:38<22:35,  5.30it/s]

현재 크롤링 속도: 373.65 게시물/분 (총 12945개 수집, 2078.7초 소요)


게시물 크롤링 진행:  65%|██████▍   | 12946/20000 [34:50<18:13,  6.45it/s]

현재 크롤링 속도: 373.69 게시물/분 (총 13020개 수집, 2090.5초 소요)


게시물 크롤링 진행:  65%|██████▌   | 13021/20000 [35:08<20:30,  5.67it/s]

현재 크롤링 속도: 372.57 게시물/분 (총 13095개 수집, 2108.9초 소요)


게시물 크롤링 진행:  65%|██████▌   | 13096/20000 [35:23<21:01,  5.47it/s]

현재 크롤링 속도: 372.75 게시물/분 (총 13195개 수집, 2123.9초 소요)


게시물 크롤링 진행:  66%|██████▌   | 13196/20000 [35:39<19:38,  5.78it/s]

현재 크롤링 속도: 372.18 게시물/분 (총 13270개 수집, 2139.3초 소요)


게시물 크롤링 진행:  66%|██████▋   | 13271/20000 [35:53<19:55,  5.63it/s]

현재 크롤링 속도: 372.50 게시물/분 (총 13370개 수집, 2153.6초 소요)


게시물 크롤링 진행:  67%|██████▋   | 13371/20000 [36:15<21:04,  5.24it/s]

현재 크롤링 속도: 372.23 게시물/분 (총 13495개 수집, 2175.3초 소요)


게시물 크롤링 진행:  67%|██████▋   | 13496/20000 [36:28<17:20,  6.25it/s]

현재 크롤링 속도: 371.99 게시물/분 (총 13570개 수집, 2188.8초 소요)


게시물 크롤링 진행:  68%|██████▊   | 13571/20000 [36:41<17:29,  6.13it/s]

현재 크롤링 속도: 372.52 게시물/분 (총 13670개 수집, 2201.8초 소요)


게시물 크롤링 진행:  68%|██████▊   | 13671/20000 [37:00<17:54,  5.89it/s]

현재 크롤링 속도: 372.13 게시물/분 (총 13770개 수집, 2220.2초 소요)


게시물 크롤링 진행:  69%|██████▉   | 13771/20000 [37:18<18:12,  5.70it/s]

현재 크롤링 속도: 372.36 게시물/분 (총 13895개 수집, 2239.0초 소요)


게시물 크롤링 진행:  69%|██████▉   | 13896/20000 [37:31<15:09,  6.71it/s]

현재 크롤링 속도: 372.27 게시물/분 (총 13970개 수집, 2251.6초 소요)


게시물 크롤링 진행:  70%|██████▉   | 13971/20000 [37:54<18:40,  5.38it/s]

현재 크롤링 속도: 371.80 게시물/분 (총 14095개 수집, 2274.6초 소요)


게시물 크롤링 진행:  70%|███████   | 14096/20000 [38:06<15:03,  6.53it/s]

현재 크롤링 속도: 371.85 게시물/분 (총 14170개 수집, 2286.4초 소요)


게시물 크롤링 진행:  71%|███████   | 14171/20000 [38:17<14:51,  6.54it/s]

현재 크롤링 속도: 371.96 게시물/분 (총 14245개 수집, 2297.8초 소요)


게시물 크롤링 진행:  71%|███████   | 14246/20000 [38:33<16:01,  5.98it/s]

현재 크롤링 속도: 371.38 게시물/분 (총 14320개 수집, 2313.5초 소요)


게시물 크롤링 진행:  72%|███████▏  | 14321/20000 [38:52<17:59,  5.26it/s]

현재 크롤링 속도: 371.56 게시물/분 (총 14445개 수집, 2332.6초 소요)


게시물 크롤링 진행:  72%|███████▏  | 14446/20000 [39:22<19:23,  4.77it/s]

현재 크롤링 속도: 369.37 게시물/분 (총 14545개 수집, 2362.7초 소요)


게시물 크롤링 진행:  73%|███████▎  | 14546/20000 [39:40<18:10,  5.00it/s]

현재 크롤링 속도: 369.73 게시물/분 (총 14669개 수집, 2380.5초 소요)


게시물 크롤링 진행:  73%|███████▎  | 14670/20000 [40:02<16:56,  5.24it/s]

현재 크롤링 속도: 369.54 게시물/분 (총 14794개 수집, 2402.0초 소요)


게시물 크롤링 진행:  74%|███████▍  | 14795/20000 [40:17<14:41,  5.91it/s]

현재 크롤링 속도: 369.59 게시물/분 (총 14894개 수집, 2417.9초 소요)


게시물 크롤링 진행:  74%|███████▍  | 14895/20000 [40:34<14:15,  5.97it/s]

현재 크롤링 속도: 369.59 게시물/분 (총 14994개 수집, 2434.2초 소요)


게시물 크롤링 진행:  75%|███████▍  | 14995/20000 [40:50<13:48,  6.04it/s]

dcinside_chartanalysis_data_15000.csv 파일에 15000개 게시물 저장 완료
현재 크롤링 속도: 369.60 게시물/분 (총 15094개 수집, 2450.3초 소요)


게시물 크롤링 진행:  75%|███████▌  | 15095/20000 [41:05<13:16,  6.16it/s]

현재 크롤링 속도: 369.73 게시물/분 (총 15194개 수집, 2465.7초 소요)


게시물 크롤링 진행:  76%|███████▌  | 15195/20000 [41:23<13:23,  5.98it/s]

현재 크롤링 속도: 368.86 게시물/분 (총 15268개 수집, 2483.6초 소요)


게시물 크롤링 진행:  76%|███████▋  | 15269/20000 [41:39<14:01,  5.62it/s]

현재 크롤링 속도: 368.94 게시물/분 (총 15368개 수집, 2499.3초 소요)


게시물 크롤링 진행:  77%|███████▋  | 15369/20000 [41:53<12:51,  6.00it/s]

현재 크롤링 속도: 369.24 게시물/분 (총 15468개 수집, 2513.5초 소요)


게시물 크롤링 진행:  77%|███████▋  | 15469/20000 [42:13<13:22,  5.65it/s]

현재 크롤링 속도: 368.69 게시물/분 (총 15568개 수집, 2533.5초 소요)


게시물 크롤링 진행:  78%|███████▊  | 15569/20000 [42:25<11:46,  6.27it/s]

현재 크롤링 속도: 368.73 게시물/분 (총 15643개 수집, 2545.5초 소요)


게시물 크롤링 진행:  78%|███████▊  | 15644/20000 [42:45<13:30,  5.38it/s]

현재 크롤링 속도: 368.18 게시물/분 (총 15743개 수집, 2565.5초 소요)


게시물 크롤링 진행:  79%|███████▊  | 15744/20000 [42:59<12:08,  5.85it/s]

현재 크롤링 속도: 368.52 게시물/분 (총 15843개 수집, 2579.4초 소요)


게시물 크롤링 진행:  79%|███████▉  | 15844/20000 [43:14<11:19,  6.12it/s]

현재 크롤링 속도: 368.75 게시물/분 (총 15943개 수집, 2594.1초 소요)


게시물 크롤링 진행:  80%|███████▉  | 15944/20000 [43:37<12:25,  5.44it/s]

현재 크롤링 속도: 368.39 게시물/분 (총 16068개 수집, 2617.0초 소요)


게시물 크롤링 진행:  80%|████████  | 16069/20000 [43:44<09:08,  7.16it/s]

현재 크롤링 속도: 368.49 게시물/분 (총 16118개 수집, 2624.5초 소요)


게시물 크롤링 진행:  81%|████████  | 16119/20000 [43:58<10:38,  6.08it/s]

현재 크롤링 속도: 368.75 게시물/분 (총 16218개 수집, 2638.8초 소요)


게시물 크롤링 진행:  81%|████████  | 16219/20000 [44:19<11:17,  5.58it/s]

현재 크롤링 속도: 368.67 게시물/분 (총 16343개 수집, 2659.8초 소요)


게시물 크롤링 진행:  82%|████████▏ | 16344/20000 [44:31<09:04,  6.72it/s]

현재 크롤링 속도: 368.69 게시물/분 (총 16418개 수집, 2671.9초 소요)


게시물 크롤링 진행:  82%|████████▏ | 16419/20000 [44:50<10:22,  5.75it/s]

현재 크롤링 속도: 368.32 게시물/분 (총 16518개 수집, 2690.8초 소요)


게시물 크롤링 진행:  83%|████████▎ | 16519/20000 [45:05<09:30,  6.11it/s]

현재 크롤링 속도: 368.60 게시물/분 (총 16618개 수집, 2705.0초 소요)


게시물 크롤링 진행:  83%|████████▎ | 16619/20000 [45:25<09:56,  5.66it/s]

현재 크롤링 속도: 368.03 게시물/분 (총 16718개 수집, 2725.5초 소요)


게시물 크롤링 진행:  84%|████████▎ | 16719/20000 [45:39<09:05,  6.01it/s]

현재 크롤링 속도: 367.75 게시물/분 (총 16793개 수집, 2739.9초 소요)


게시물 크롤링 진행:  84%|████████▍ | 16794/20000 [45:57<09:50,  5.43it/s]

현재 크롤링 속도: 367.54 게시물/분 (총 16893개 수집, 2757.8초 소요)


게시물 크롤링 진행:  84%|████████▍ | 16894/20000 [46:12<08:55,  5.80it/s]

현재 크롤링 속도: 367.76 게시물/분 (총 16993개 수집, 2772.4초 소요)


게시물 크롤링 진행:  85%|████████▍ | 16994/20000 [46:31<08:51,  5.66it/s]

현재 크롤링 속도: 367.97 게시물/분 (총 17117개 수집, 2791.1초 소요)


게시물 크롤링 진행:  86%|████████▌ | 17118/20000 [46:44<07:21,  6.53it/s]

현재 크롤링 속도: 367.24 게시물/분 (총 17167개 수집, 2804.8초 소요)


게시물 크롤링 진행:  86%|████████▌ | 17168/20000 [47:09<09:57,  4.74it/s]

현재 크롤링 속도: 366.70 게시물/분 (총 17292개 수집, 2829.4초 소요)


게시물 크롤링 진행:  86%|████████▋ | 17293/20000 [47:27<08:19,  5.41it/s]

현재 크롤링 속도: 367.05 게시물/분 (총 17417개 수집, 2847.1초 소요)


게시물 크롤링 진행:  87%|████████▋ | 17418/20000 [47:43<07:07,  6.04it/s]

현재 크롤링 속도: 367.06 게시물/분 (총 17517개 수집, 2863.4초 소요)


게시물 크롤링 진행:  88%|████████▊ | 17518/20000 [48:09<08:00,  5.16it/s]

현재 크롤링 속도: 366.30 게시물/분 (총 17642개 수집, 2889.8초 소요)


게시물 크롤링 진행:  88%|████████▊ | 17643/20000 [48:22<06:25,  6.12it/s]

현재 크롤링 속도: 366.21 게시물/분 (총 17717개 수집, 2902.8초 소요)


게시물 크롤링 진행:  89%|████████▊ | 17718/20000 [48:45<07:22,  5.16it/s]

현재 크롤링 속도: 365.97 게시물/분 (총 17842개 수집, 2925.2초 소요)


게시물 크롤링 진행:  89%|████████▉ | 17843/20000 [49:05<06:34,  5.47it/s]

현재 크롤링 속도: 366.00 게시물/분 (총 17967개 수집, 2945.4초 소요)


게시물 크롤링 진행:  90%|████████▉ | 17968/20000 [49:19<05:25,  6.23it/s]

현재 크롤링 속도: 365.73 게시물/분 (총 18042개 수집, 2959.9초 소요)


게시물 크롤링 진행:  90%|█████████ | 18043/20000 [49:27<04:49,  6.76it/s]

현재 크롤링 속도: 365.28 게시물/분 (총 18067개 수집, 2967.7초 소요)


게시물 크롤링 진행:  90%|█████████ | 18067/20000 [49:28<05:17,  6.09it/s]

dcinside_chartanalysis_data_18067.csv 파일에 18067개 게시물 저장 완료
평균 크롤링 속도: 365.21 게시물/분
총 소요 시간: 49.47분 (2968.2초)
크롤링 완료: 총 18067개 게시물 수집



