In [1]:
pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [2]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

In [3]:
from selenium.webdriver.common.by import By

In [4]:
driver = webdriver.Chrome()
driver.get('https://www.naver.com/')
time.sleep(3)

In [5]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

search_box = driver.find_element(By.XPATH, '//*[@id="query"]')
search_box.send_keys("약 현지")
search_box.send_keys(Keys.RETURN)


In [6]:
search_button = driver.find_element(By.XPATH, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[2]/a')
search_button.click()

In [7]:
body = driver.find_element(By.CSS_SELECTOR, 'body')

last_height = driver.execute_script("return document.body.scrollHeight")
while True:
    body.send_keys(Keys.END)
    time.sleep(5)

    new_height = driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

print("Reached the end of the page.")

In [12]:
from selenium.webdriver.common.action_chains import ActionChains
from selenium.common.exceptions import TimeoutException, WebDriverException
import time
import pandas as pd

data = []
main_window = driver.current_window_handle

cafe_titles_box = driver.find_elements(By.CLASS_NAME, 'title_link')
print(f"Found {len(cafe_titles_box)} elements with class 'title_link'")

for idx, box in enumerate(cafe_titles_box):
    print(f"\nProcessing element {idx+1}")
    try:
        # 클릭 및 새 창 전환
        driver.execute_script("arguments[0].click();", box)
        time.sleep(2)
        
        WebDriverWait(driver, 10).until(
            lambda driver: len(driver.window_handles) > 1
        )
        new_window = [handle for handle in driver.window_handles if handle != main_window][0]
        driver.switch_to.window(new_window)
        
        # iframe 전환
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.ID, "cafe_main"))
        )
        driver.switch_to.frame("cafe_main")
        
        # 제목 추출
        cafe_titles = ""
        cafe_contents = ""
        cafe_replies = []
        
        try:
            cafe_title_element = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CLASS_NAME, 'title_area'))
            )
            cafe_titles = cafe_title_element.text
            print(f"Title: {cafe_titles}")
        except Exception as e:
            print(f"Error getting title: {e}")

        # 본문 추출 - 여러 클래스 시도
        try:
            # 첫 번째 시도: se-main-container
            content_element = WebDriverWait(driver, 5).until(
                EC.presence_of_element_located((By.CLASS_NAME, 'se-main-container'))
            )
            paragraphs = content_element.find_elements(By.CLASS_NAME, 'se-text-paragraph')
            cafe_contents = '\n'.join([p.text for p in paragraphs])
            print(f"contents: {cafe_contents}")

        except:
            try:
                # 두 번째 시도: ContentRenderer
                content_element = WebDriverWait(driver, 5).until(
                    EC.presence_of_element_located((By.CLASS_NAME, 'ContentRenderer'))
                )
                cafe_contents = content_element.text
            except:
                try:
                    # 세 번째 시도: article_container
                    content_element = WebDriverWait(driver, 5).until(
                        EC.presence_of_element_located((By.CLASS_NAME, 'article_container'))
                    )
                    cafe_contents = content_element.text
                except Exception as e:
                    print(f"Error getting content: {e}")

        print(f"Content length: {len(cafe_contents)}")

        # 댓글 추출 - 여러 클래스 시도
        try:
            # 첫 번째 시도
            reply_elements = driver.find_elements(By.CLASS_NAME, 'comment_text_box')
            if not reply_elements:
                # 두 번째 시도
                reply_elements = driver.find_elements(By.CLASS_NAME, 'CommentItem')
            if not reply_elements:
                # 세 번째 시도
                reply_elements = driver.find_elements(By.CLASS_NAME, 'reply_text')
                
            cafe_replies = [reply.text for reply in reply_elements if reply.text.strip()]
            print(f"replies: {cafe_replies}")

            print(f"Found {len(cafe_replies)} replies")
        except Exception as e:
            print(f"Error getting replies: {e}")

        # 데이터 저장
        data.append({
            'cafe_title': cafe_titles,
            'cafe_content': cafe_contents,
            'cafe_replies': cafe_replies,
        })
        
    except Exception as e:
        print(f"Unexpected error: {e}")
        
    finally:
        try:
            driver.switch_to.default_content()
            driver.close()
            driver.switch_to.window(main_window)
            time.sleep(1)
        except Exception as e:
            print(f"Error in cleanup: {e}")

# 결과를 DataFrame으로 변환
df = pd.DataFrame(data)

# 데이터 확인
print("\nData Collection Summary:")
print(f"Total rows: {len(df)}")
print("\nColumns with content:")
for col in df.columns:
    non_empty = df[col].astype(str).str.len() > 0
    print(f"{col}: {sum(non_empty)} non-empty entries")

# CSV로 저장
df.to_csv('naver_cafe_data.csv', index=False, encoding='utf-8-sig')
print("\nData saved to 'naver_cafe_data.csv'")

Found 30 elements with class 'title_link'

Processing element 1
Title: 다낭 물갈이 현지약
contents: 물갈이 할까 너무 걱정되는데 효과좋은 현지약 있을까요? 약국가서 대충 증상 설명하면 알아서 주시나요? ㅠ
Content length: 58
replies: ['약도 약이지만 걱정이 된다면 한국에서 생수 위탁으로 넣어가세요 그리고 다낭 롯데마트에 삼다수도 팝니다', '다낭 롯대 마트에 에비앙 삼다수 있어요 그리고 한국 출발 하기전에 생수 구입하기전까지 두실물 몇개만 수화물에 넣어가시고 거기서 얼음은 드시지 마세요', '다낭약국 배달도 되니까 증상 바로 나타는거랑, 말씀하면 약 지어줍니다! 증상 설명하면 줄거에요', '한국어로 약 배달할수 있는 약국도 있어요~']
Found 4 replies

Processing element 2
Title: 현지구매 가능한 개미약 추천 부탁드립니다
contents: 개미가 살살 보여서 약을 써야할 것 같은데 현지에서 구매 가능한 효과 좋은 개미약 추천 부탁드립니다
Content length: 55
replies: ['현지 개미약 1링깃짜리 사시면 오래 쓸거에요. 저는 한국마트에서 구매했는데요 현지마트에도 파는곳 많을것같습니다', '감사합니다', '조호뉴비이 약 짝퉁도 유통되니, 사진처럼 포장이 깨끗한걸로 구매하세요...']
Found 3 replies

Processing element 3
Title: 나트랑 현지 약국 가래콧물약?
contents: 현지약국 가래콧물약 좀 추천 부탁드려요ㅜ
가져온 콜대원 레드를 다먹어버려서
급하게 필요합니당~~~
증상 끈적한 가래 콧물 ㅜ 기침시 누런 가래올라와요
마사지 엎드려받으니 더 심하네요

+ 약 구매해서 저녁부터 복용중입니다.
댓글에 추천해주신 데콜겐 낮/밤용 과 프로스판 시럽
데콜겐 4정씩포장된거 2개씩 총4팩구매+프로스판시럽 = 총 10만동
7시쯤 저녁용 데콜겐먹고 시간차두고 8시에 프로스판시럽 복용 한숨자고나면 좀나을지

In [9]:
import pandas as pd
df = pd.DataFrame(data)


# 댓글 리스트를 문자열로 변환 (CSV에 저장 시 리스트는 문자열로 처리)
# df['cafe_replies'] = df['cafe_replies'].apply(lambda x: ', '.join(x))

# CSV 파일로 저장
csv_file_path = "cafe_data.csv"
df.to_csv(csv_file_path, index=False, encoding='utf-8-sig')

print(f"Data saved to {csv_file_path}")



non_medicine_financial_keywords = ['요금제','현지업체']

def filter_wo_financial(content) :
    if any(keyword in content for keyword in non_medicine_financial_keywords):
        return False
    return True

false_values = [item for item in data if not filter_wo_financial(item['cafe_content'])]

for item in false_values:
    print(f"Excluded -> cafe_title: {item['cafe_title']}, cafe_content: {item['cafe_content']}")
    print()


Data saved to cafe_data.csv


KeyError: 'cafe_content'

In [None]:
first_filtered_data = [item for item in data if filter_wo_financial(item['cafe_content'])]

for item in first_filtered_data:
    print(f"Remaining -> cafe_title: {item['cafe_title']}, cafe_content: {item['cafe_content']}")
    print()

In [None]:
non_medicine_financial_keywords2 = ['투어:', '출고', '피규어']

# 필터 함수 정의
def filter_wo_financial2(content, title):
    # 키워드가 content나 title에 포함되어 있으면 False를 반환
    if any(keyword in content or keyword in title for keyword in non_medicine_financial_keywords2):
        return False
    return True

# 필터링된 항목 (제거된 항목)
false_values2 = [
    item for item in first_filtered_data
    if not filter_wo_financial2(item['cafe_content'], item['cafe_title'])
]

# 결과 출력
for item in false_values2:
    print(f"Excluded -> cafe_title: {item['cafe_title']}, cafe_content: {item['cafe_content']}")
    print()

In [None]:
second_filtered_data = [item for item in first_filtered_data if filter_wo_financial(item['cafe_content'])]

for item in second_filtered_data:
    print(f"Remaining -> cafe_title: {item['cafe_title']}, cafe_content: {item['cafe_content']}")
    print()

In [None]:
print(second_filtered_data)

In [None]:
from datetime import datetime, timedelta
import pandas as pd
import re

# 현재 날짜
current_date = datetime.now()

# 날짜 변환 함수 (상대 날짜 처리)
def convert_relative_date(text):
    # '주전' 처리
    week_match = re.search(r'(\d+)주 전', text)
    if week_match:
        weeks_ago = int(week_match.group(1))
        return (current_date - timedelta(weeks=weeks_ago)).strftime('%Y-%m-%d')

    # '일전' 처리
    day_match = re.search(r'(\d+)일 전', text)
    if day_match:
        days_ago = int(day_match.group(1))
        return (current_date - timedelta(days=days_ago)).strftime('%Y-%m-%d')

    # 절대 날짜 처리 (YYYY.MM.DD.)
    absolute_date_match = re.search(r'\d{4}\.\d{2}\.\d{2}', text)
    if absolute_date_match:
        return absolute_date_match.group(0)

    # 날짜 정보가 없는 경우
    return None

# 'second_filtered_data'를 Pandas DataFrame으로 변환
second_filtered_df = pd.DataFrame(second_filtered_data)

# 'cafe_title' 열에서 날짜를 변환하여 새로운 'date' 열 생성
second_filtered_df['date'] = second_filtered_df['cafe_title'].apply(convert_relative_date)

# 'cafe_title'에서 날짜 관련 텍스트 제거
second_filtered_df['cafe_title'] = second_filtered_df['cafe_title'].str.replace(
    r'(\d+주 전|\d+일 전|\d{4}\.\d{2}\.\d{2}\.)', '', regex=True
).str.strip()

# 결과 확인
print(second_filtered_df)

In [None]:
print(second_filtered_df.head())

In [None]:
from IPython.display import display
display(second_filtered_df)

In [None]:
second_filtered_df.to_csv('naver_crolling_cafe.csv', index=False)

In [None]:
#지식인 부분 크롤링
search_button = driver.find_element(By.XPATH, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[5]/a')
search_button.click()

In [None]:
body = driver.find_element(By.CSS_SELECTOR, 'body')

last_height = driver.execute_script("return document.body.scrollHeight")
while True:
    body.send_keys(Keys.END)
    time.sleep(5)

    new_height = driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break
    last_height = new_height

print("Reached the end of the page.")

In [None]:
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 질문과 답변 데이터 가져오기
questions = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.question_txt > a'))
)
answers = WebDriverWait(driver, 10).until(
    EC.presence_of_all_elements_located((By.CLASS_NAME, 'answer_group'))
)

# 데이터 저장
data = []
for question, answer in zip(questions, answers):
    question_text = question.text
    answer_text = answer.text if answer.text else "No answer provided"
    data.append({
        'jisikin_questions': question_text,
        'jisikin_answers': answer_text
    })

# 데이터 출력
for item in data:
    print(f"Question: {item['jisikin_questions']}, Answer: {item['jisikin_answers']}")

In [None]:
# 제외할 키워드 리스트
non_medicine_keywords = ['요금제', '현지업체', '계약','유심','만화책','부동산','환율']

# 키워드가 포함된 항목 필터링 함수
def filter_wo_financial(jisikin_questions):
    # 키워드가 jisikin_questions에 포함되어 있으면 False 반환
    if any(keyword in jisikin_questions for keyword in non_medicine_keywords):
        return False
    return True

# 필터링된 항목 (제거된 항목)
false_values = [
    item for item in data
    if not filter_wo_financial(item['jisikin_questions'])
]

# 결과 출력
for item in false_values:
    print(f"Excluded -> jisikin_questions: {item['jisikin_questions']}, jisikin_answers: {item['jisikin_answers']}")
    print()

In [None]:
firstJI_filtered_data = [item for item in data if filter_wo_financial(item['jisikin_questions'])]

for item in firstJI_filtered_data:
    print(f"Remaining -> jisikin_questions: {item['jisikin_questions']}, jisikin_answers: {item['jisikin_answers']}")
    print()

In [None]:
firstJI_filtered_data

In [None]:
import pandas as pd

jisikQA_filtered_df = pd.DataFrame(firstJI_filtered_data)

print(jisikQA_filtered_df)

jisikQA_filtered_df.to_csv('jisikQA_filtered_data.csv', index=False, encoding='utf-8-sig')

print("Data saved to 'firstJI_filtered_data.csv'")

In [None]:
from IPython.display import display
display(jisikQA_filtered_df)