# 네이버 포탈 카페 크롤링 

## 수정 내용
1. **버그 수정**: `keywords` → `key` (275번 줄 - 전체 리스트가 아닌 현재 키워드 저장)
2. **안정성 개선**: iframe 전환 전 default_content로 복귀
3. **에러 처리 강화**: 탭 핸들링 로직 개선
4. **무한 루프 방지**: 최대 페이지 수 제한 추가

In [10]:
# 필요시 패키지 설치 (주석 해제 후 실행)
# !pip install selenium
# !pip install beautifulsoup4
# !pip install lxml
# !pip install pandas
# !pip install tqdm

In [11]:
import logging
import random
from urllib.parse import urlparse
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import (
    TimeoutException, 
    NoSuchElementException, 
    NoAlertPresentException,
    StaleElementReferenceException,
    WebDriverException
)
from bs4 import BeautifulSoup as bs
import time
import pandas as pd
import re
import warnings
from tqdm.notebook import tqdm

warnings.filterwarnings(action='ignore')

# 로그 설정
logging.basicConfig(
    level=logging.INFO, 
    format='%(asctime)s - %(levelname)s - %(message)s'
)

print("라이브러리 로드 완료!")

라이브러리 로드 완료!


## 1. 설정
### 1.1 키워드 설정

In [12]:
# 메인 키워드 설정
main_keywords = ['에어컨']

# 에어컨 세부 키워드
aircond_key = ['아이방']

eliminate_ads_keyword = ''

### 1.2 제외할 카페 설정

In [None]:
# 제외할 카페 목록 (필수 실행)
eliminate_cafe = [
    'https://cafe.naver.com/allfm01',
    'https://cafe.naver.com/autowave21',
    'https://cafe.naver.com/ipod5',
    'https://cafe.naver.com/saejaeserver/5179',
    'https://cafe.naver.com/clubkiakue',
    'https://cafe.naver.com/xxyxx',
    'https://cafe.naver.com/story77',
    'https://cafe.naver.com/bongo312',
    'https://cafe.naver.com/hyun6587',
    'https://cafe.naver.com/jihosoccer123',
    'https://cafe.naver.com/lexusclubkorea',
    'https://cafe.naver.com/haruhi',
    'https://cafe.naver.com/old13',
    'https://cafe.naver.com/mp3vilge',
    'https://cafe.naver.com/pantagi',
    'https://cafe.naver.com/ioniq9owners',
    'https://cafe.naver.com/gpsf',
    'https://cafe.naver.com/viviv',
    'https://cafe.naver.com/bananawork',
    'https://cafe.naver.com/volvocrew',
    'https://cafe.naver.com/esmartwoman',
    'https://cafe.naver.com/silver0989',
    'https://cafe.naver.com/kig',
    'https://cafe.naver.com/mycar2010',
    'https://cafe.naver.com/gruu',
    'http://cafe.naver.com/joonggonara',
    'https://cafe.naver.com/campingfirst',
    'https://cafe.naver.com/imsanbu',
    'https://cafe.naver.com/remonterrace'
]

print(f"제외할 카페: {len(eliminate_cafe)}개")

제외할 카페: 22개


### 1.3 키워드 조합 생성

In [14]:
# 키워드 조합 생성
keywords = []

for main in main_keywords:
    for air in aircond_key:
        keywords.append(main + '+%2B' + air + ' ' + eliminate_ads_keyword)

print("생성된 키워드:")
for i, kw in enumerate(keywords, 1):
    print(f"  {i}. {kw}")

생성된 키워드:
  1. 에어컨+%2B아이방 


## 2. 헬퍼 함수 정의

In [15]:
def safe_close_extra_tabs(driver, keep_count=1):
    """
    안전하게 추가 탭들을 닫는 함수
    
    Args:
        driver: Selenium WebDriver
        keep_count: 유지할 탭 수 (기본값: 1)
    """
    try:
        max_attempts = 10  # 무한 루프 방지
        attempts = 0
        
        while len(driver.window_handles) > keep_count and attempts < max_attempts:
            driver.switch_to.window(driver.window_handles[-1])
            driver.close()
            time.sleep(0.3)
            attempts += 1
        
        driver.switch_to.window(driver.window_handles[0])
    except Exception as e:
        logging.warning(f"탭 닫기 중 오류: {e}")
        try:
            driver.switch_to.window(driver.window_handles[0])
        except:
            pass


def handle_alert(driver, timeout=2):
    """
    Alert 팝업 처리 함수
    
    Args:
        driver: Selenium WebDriver
        timeout: 대기 시간 (초)
    
    Returns:
        bool: Alert가 있었으면 True, 없었으면 False
    """
    try:
        WebDriverWait(driver, timeout).until(EC.alert_is_present())
        alert = driver.switch_to.alert
        alert_text = alert.text
        logging.info(f"Alert 감지: {alert_text}")
        alert.accept()
        return True
    except (TimeoutException, NoAlertPresentException):
        return False


def switch_to_cafe_frame(driver, max_retries=3):
    """
    카페 메인 프레임으로 전환하는 함수
    
    Args:
        driver: Selenium WebDriver
        max_retries: 최대 재시도 횟수
    
    Returns:
        bool: 성공 여부
    """
    for attempt in range(max_retries):
        try:
            # ★★★ 중요: 먼저 default content로 돌아가기 ★★★
            driver.switch_to.default_content()
            time.sleep(0.5)
            
            # iframe 존재 확인
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.ID, 'cafe_main'))
            )
            
            # 프레임 전환
            driver.switch_to.frame('cafe_main')
            return True
        except Exception as e:
            logging.warning(f"프레임 전환 시도 {attempt + 1}/{max_retries} 실패: {e}")
            if attempt < max_retries - 1:
                driver.refresh()
                time.sleep(2)
    return False


def extract_post_data(driver):
    """
    게시물 데이터 추출 함수
    
    Args:
        driver: Selenium WebDriver (이미 cafe_main 프레임 내에 있어야 함)
    
    Returns:
        dict or None: 추출된 데이터 또는 실패시 None
    """
    try:
        soup = bs(driver.page_source, 'lxml')
        
        # 제목 추출
        title_elem = soup.select_one('h3.title_text')
        if not title_elem:
            return None
        title = title_elem.text.strip()
        
        # 본문 추출
        contents = [i.text for i in soup.select('div.se-component-content')]
        if len(contents) == 0:
            contents = [i.text for i in soup.select('div.ContentRenderer')]
        contents = ' '.join(contents)
        contents = contents.replace('\u200b', ' ')
        contents = re.sub(r'\s+', ' ', contents).strip()
        
        # 날짜 추출
        date_elem = soup.select_one('span.date')
        date = date_elem.text.strip() if date_elem else ''
        
        # 댓글 추출
        comments = [i.text for i in soup.select('span.text_comment')]
        
        # 글쓴이 닉네임 추출
        try:
            author_nick_elem = soup.select_one('button.nickname')
            if author_nick_elem:
                author_nickname = author_nick_elem.text.strip()
            else:
                # WriterInfo 영역에서 찾기
                writer_info = soup.select_one('div.WriterInfo a.nickname, div.WriterInfo button.nickname')
                author_nickname = writer_info.text.strip() if writer_info else '닉네임 없음'
        except:
            author_nickname = '닉네임 없음'
        
        # 댓글 작성자 닉네임 추출
        try:
            comment_nick_elems = soup.select('a.comment_nickname')
            if comment_nick_elems:
                comment_nicknames = ' | '.join([n.text.strip() for n in comment_nick_elems])
            else:
                comment_nicknames = '댓글 닉네임 없음'
        except:
            comment_nicknames = '댓글 닉네임 없음'
        
        return {
            'title': title,
            'contents': contents,
            'date': date,
            'comments': comments,
            'author_nickname': author_nickname,
            'comment_nicknames': comment_nicknames
        }
    except Exception as e:
        logging.error(f"데이터 추출 오류: {e}")
        return None


print("헬퍼 함수 정의 완료!")

헬퍼 함수 정의 완료!


## 3. WebDriver 설정 및 실행

In [16]:
# Chrome 옵션 설정
options = Options()
options.add_argument("--disable-backgrounding-occluded-windows")
options.add_argument('--disable-popup-blocking')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
# Headless 모드 (화면 없이 실행) - 필요시 주석 해제
# options.add_argument('--headless')

# WebDriver 실행
try:
    driver = webdriver.Chrome(options=options)
    print("WebDriver 실행 성공!")
except WebDriverException as e:
    print(f"WebDriver 실행 실패: {e}")
    print("ChromeDriver가 설치되어 있고 Chrome 브라우저 버전과 일치하는지 확인하세요.")

WebDriver 실행 성공!


In [17]:
# 데이터프레임 초기화
dataframe = pd.DataFrame(columns=['date', 'keyword', 'title', 'contents', 'comments', 'site', 'url', 'author_nickname', 'comment_nicknames'])
index = 0

print("데이터프레임 초기화 완료!")

데이터프레임 초기화 완료!


## 4. 크롤링 실행

⚠️ **주의사항**
- 한 키워드당 진짜 오래걸려용,,,

In [18]:
# 설정값
MAX_PAGES_PER_KEYWORD = 30 

# 날짜 설정 (YYYY-MM-DD 형식)
start_date = "2020-03-01"
end_date = "2025-10-19"

for key in tqdm(keywords, desc='키워드'):
    logging.info(f"[{key}] 키워드 검색 시작")
    progress = tqdm(desc="수집된 게시물", leave=False)
    
    # 검색 URL 접근 (날짜 필터 적용)
    search_url = f'https://search.naver.com/search.naver?ssc=tab.cafe.all&sm=tab_jum&query={key}&nso=so:r,p:from{start_date.replace("-","")}to{end_date.replace("-","")}'
    driver.get(search_url)
    driver.implicitly_wait(15)
    time.sleep(1)
    
    breaker = False
    start_n, end_n = 1, 31
    page_count = 0
    
    while not breaker and page_count < MAX_PAGES_PER_KEYWORD:
        page_count += 1
        
        # 현재 페이지의 게시물 수 확인
        check_soup = bs(driver.page_source, 'lxml')
        post_elements = check_soup.select('div.title_area')
        check_len = len(post_elements)
        
        if check_len == 0:
            logging.info("더 이상 게시물이 없습니다.")
            break
        
        for i in range(start_n, end_n):
            # 현재 페이지 내에서의 상대적 인덱스
            relative_idx = i - start_n + 1
            
            if relative_idx > check_len:
                breaker = True
                break
            
            xpath = f'//*[@id="main_pack"]/section/div[1]/ul/li[{i}]/div/div[2]/div[2]/a'
            
            try:
                # 요소 찾기
                site = WebDriverWait(driver, 5).until(
                    EC.presence_of_element_located((By.XPATH, xpath))
                )
                href_value = site.get_attribute("href")
                
                # 제외할 카페인지 확인
                if any(element in href_value for element in eliminate_cafe):
                    continue
                
                # 게시물 클릭
                site.click()
                time.sleep(random.uniform(0.5, 1.5))
                
                # 새 탭이 열릴 때까지 대기
                try:
                    WebDriverWait(driver, 5).until(
                        lambda d: len(d.window_handles) > 1
                    )
                except TimeoutException:
                    logging.warning("새 탭이 열리지 않음, 건너뜀")
                    continue
                
                # 새 탭으로 전환
                driver.switch_to.window(driver.window_handles[-1])
                time.sleep(random.uniform(0.5, 1))
                
                # Alert 처리 (삭제된 게시물 등)
                if handle_alert(driver):
                    logging.info("삭제된 게시물, 건너뜀")
                    safe_close_extra_tabs(driver)
                    continue
                
                # 프레임 전환 및 데이터 추출
                if switch_to_cafe_frame(driver):
                    post_data = extract_post_data(driver)
                    
                    if post_data and post_data['title']:
                        current_url = driver.current_url
                        
                        # ★★★ 핵심 수정: keywords -> key ★★★
                        # 기존 코드는 keywords (전체 리스트)를 넣어서 오류 발생
                        # 수정된 코드는 key (현재 키워드 문자열)를 넣음
                        input_data = [
                            post_data['date'],
                            key,  # ★ 수정됨: keywords -> key
                            post_data['title'],
                            post_data['contents'],
                            post_data['comments'],
                            '네이버포탈',
                            current_url,
                            post_data['author_nickname'],
                            post_data['comment_nicknames']
                        ]
                        dataframe.loc[index] = input_data
                        index += 1
                        progress.update(1)
                    else:
                        logging.warning("데이터 추출 실패")
                else:
                    logging.warning("프레임 전환 실패")
                
                # 탭 닫기 및 원래 탭으로 복귀
                safe_close_extra_tabs(driver)
                
            except StaleElementReferenceException:
                logging.warning("요소가 stale 상태, 건너뜀")
                safe_close_extra_tabs(driver)
                continue
            except NoSuchElementException:
                continue
            except Exception as e:
                logging.error(f"게시물 처리 중 오류: {e}")
                safe_close_extra_tabs(driver)
                continue
        
        # 스크롤 및 다음 페이지
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(1)
        
        start_n += 30
        end_n += 30
    
    progress.close()
    logging.info(f"[{key}] 키워드 완료")

print(f"\n크롤링 완료! 총 {len(dataframe)}개 게시물 수집")

키워드:   0%|          | 0/1 [00:00<?, ?it/s]

2025-12-11 17:48:54,593 - INFO - [에어컨+%2B아이방 ] 키워드 검색 시작


수집된 게시물: 0it [00:00, ?it/s]

2025-12-11 17:51:24,297 - ERROR - 게시물 처리 중 오류: Message: element click intercepted: Element <a href="https://cafe.naver.com/pajumom/4571898?art=ZXh0ZXJuYWwtc2VydmljZS1uYXZlci1zZWFyY2gtY2FmZS1wcg.eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJjYWZlVHlwZSI6IkNBRkVfVVJMIiwiY2FmZVVybCI6InBhanVtb20iLCJhcnRpY2xlSWQiOjQ1NzE4OTgsImlzc3VlZEF0IjoxNzY1NDQyODQ5Mjc4fQ.cN3TQGfVdjy4F1O4mvdpB7QUnmRz-Fy7pLFEN4Gj-BQ" onclick="return goOtherCR(this,&quot;a=caf*g.tit&amp;r=31&amp;i=90000004_00AC850D0045C2FA00000000&amp;u=&quot;+urlencode(urlexpand(this.href)))" class="dsc_link" target="_blank">...</a> is not clickable at point (384, 24). Other element would receive the click: <input id="nx_query" type="text" name="query" class="box_window" value="에어컨 +아이방" maxlength="255" accesskey="s" autocomplete="off" placeholder="검색어를 입력해 주세요." role="combobox" aria-expanded="false" aria-haspopup="listbox" aria-owns="autocomplete_wrap" aria-controls="" aria-autocomplete="list" aria-activedescendant="" data-atcmp-element="">
  

KeyboardInterrupt: 

## 5. 결과 확인 및 저장

In [19]:
# 데이터 확인
print(f"수집된 총 게시물 수: {len(dataframe)}")
dataframe.head(100)

수집된 총 게시물 수: 242


Unnamed: 0,date,keyword,title,contents,comments,site,url,author_nickname,comment_nicknames
0,2025.07.23. 08:59,에어컨+%2B아이방,아이방 에어컨은 벽걸이? 시스템? 창문형?,현재 거주하는 집에 2in 1 에어컨이 있고9월 이사가는 집은 거실과 안방에 시스템...,"[1.3.4다 불가능해보이고 이동식,창문형,별도의 벽걸이 에어컨 추가설치 이렇게 가...",네이버포탈,https://cafe.naver.com/dieselmania/46033526?ar...,유즈차,보라돌이 | 유즈차 | 오복남 | 유즈차 | 오복남 | 오복남 | 디매쎄믈리에 | ...
1,2025.07.22. 15:49,에어컨+%2B아이방,방학때 에어컨 종일 켜시는분들 아이방이나 안방도 종일 켜나요?,"저희는 집구조가 1층 거실,주방이고 2층에 방들이 있어요.맞벌이라 낮에 혼자 방에 ...",[집 구조가 냉난방 계절에는 몹시나 고민되시겠어요\n저희집은 아파트라 생각해본적 없...,네이버포탈,https://cafe.naver.com/mymyson/480631?art=ZXh0...,하나뿐인 보물,딸기스무디 | 하나뿐인 보물 | 세하별봄이
2,2025.06.10. 22:23,에어컨+%2B아이방,지웰3차 아이방 에어컨,지웰3차 2in1에어컨 거실+ 안방설치하고아이방에 에어컨달고싶은데시스템에어컨말고는정...,"[시스템 고민중이고 현재에는 lg 창문형 쓰고 있어요, 창문형 알아봐야겠네요ㅠ답변감...",네이버포탈,https://cafe.naver.com/woongchun12/175832?art=...,맛살89,달려라하니m82m지웰3 | 맛살m89m지웰 | 워터멜론m78m웅천 | 맛살m89m지...
3,2025.10.19. 13:38,에어컨+%2B아이방,공부하는 아이방 직부등이냐 vs 실링팬(매립등)이냐,초등 아이방 리모델링 예정인데 조명이 고민됩니다. 아이가 땀이 많아서 실링팬 넣기로...,"[실링팬이 들어가면 매립등이 자연스럽지 않을까요!?!? 하하.., 네 실링팬이냐 실...",네이버포탈,https://cafe.naver.com/overseer/1460454?art=ZX...,홈스윗호옴123,신입청소기사F | 홈스윗호옴123 | 모찌딸기 | 홈스윗호옴123 | 미비마리
4,2025.08.04. 14:05,에어컨+%2B아이방,아이방 창문형 에어컨 설치요 ㅠ,# 늘~ 가까이 함께하는 텍폴맘 수다 ~♡ 아이방에 에어컨을 설치해줄려는데 벽걸이는...,"[저희는 만족하면서 쓰고 있어요, 저희도 만족하고 쓰는중이요 !, 소음조금나지만\...",네이버포탈,https://cafe.naver.com/tpmom/1190397?art=ZXh0Z...,우야맘96,어디가니77 | 까미랑88 | 딴딴맘80 | 오드리될뿐78 | 콜드블루92 | 해란...
...,...,...,...,...,...,...,...,...,...
95,2024.06.13. 08:10,에어컨+%2B아이방,아이방 에어컨 몇도로 유지하시나요 감기는 ㅠ,다들 아이방 에어컨 몇도로 유지하시나요?84일 아기가 어제부터 재채기랑 잔기침을 하...,[그게 감기시작일거에요 ㅠ\n즤집애도 그러다가 온갖 바이러스걸려서 입원하고 엊그제퇴...,네이버포탈,https://cafe.naver.com/imsanbu/71280842?art=ZX...,미니미햄,ilillllliiiiiillllll | 미니미햄 | 행복한뇽뇽이 | 미니미햄 | ...
96,2024.12.26. 19:03,에어컨+%2B아이방,내돈내산) 아이방 시스템 에어컨 설치후기,이번에 저희아이방 시스템 에어컨 설치해줬어요~더위를 얼마나많이타는지~ ㅎㅎㅎ지난여름...,"[쾌적하시겠어요~~!!, 네네ㅎㅎ]",네이버포탈,https://cafe.naver.com/06rkddkwl/2168798?art=Z...,뽀뽀뽕,미리맘 | 뽀뽀뽕
97,2024.11.12. 16:44,에어컨+%2B아이방,에어컨 없는 아이방 윈드라이트 투인원 실링팬 완전 만족해요!!,아이방에 에어컨이 없어서 작년 여름 서큘레이터로 사용하다가이번에 윈드라이트 투인원 ...,"[작은 방에 설치하기 딱 이네요조명색 변경도 되는건가요?, 네 조명색,조명밝기 조절...",네이버포탈,https://cafe.naver.com/overseer/1234110?art=ZX...,도승이,메가코이 | 도승이 | 크레파파스 | 도승이 | 브리스가 | 도승이 | 크롱이552...
98,2025.07.11. 14:59,에어컨+%2B아이방,작은 아이방 에어컨 어찌 하셨나요?,1생 거주 중 입니다. 투인원으로 거실하고 안방은 에어컨이 있는데 작은방 2개가 너...,[저희는 창문형 에어컨 설치했어요 \n아이가 너무 좋아해요 \n삶의 질이 올라간데요...,네이버포탈,https://cafe.naver.com/no1sejong/4097404?art=Z...,더블행복맘,당찬그녀 | knkms | 나를믿고 | 가재마을아줌마


In [20]:
# URL 기준 중복 제거
dataframe = dataframe.drop_duplicates(subset='url', keep='first').reset_index(drop=True)
print(f"중복 제거 후 게시물 수: {len(dataframe)}")

중복 제거 후 게시물 수: 242


In [None]:
ad_keywords = [
    '할인', '핫딜', '매도', '임대', '계약', '특가', '가이드', 
    '업체', '이벤트', '렌탈', '대여', 'AS', '앵콜', '비트코인', 
    '초특가', '광고','적립', '파격', '땡처리','고시원','급매','거래'
]

def is_ad_post(row):
    text = str(row['title']) + ' ' + str(row['contents'])
    return any(kw in text for kw in ad_keywords)

In [22]:
print(f"필터링 전: {len(dataframe)}개")
dataframe = dataframe[~dataframe.apply(is_ad_post, axis=1)].reset_index(drop=True)
print(f"필터링 후: {len(dataframe)}개")

필터링 전: 242개
필터링 후: 218개


In [None]:
csv_filename = "네이버포탈_크롤링결과_키워드명.csv"
dataframe.to_csv(csv_filename, encoding="utf-8-sig", index=False)

In [None]:
# WebDriver 종료
driver.quit()
print("WebDriver 종료 완료!")