In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import time
import csv

# Selenium WebDriver 설정
options = webdriver.ChromeOptions()
options.add_argument("--headless")  # 브라우저 UI를 보지 않고 실행 (필요하면 제거)
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

# ChromeDriver 자동 설치 및 실행
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# 크롤링할 URL
url = "https://m.soribada.com/faq"

# 페이지 요청
driver.get(url)

# 페이지가 완전히 로드될 때까지 대기
try:
    # 10초간 기다리며 'question floatLeft'와 'answer floatLeft' 클래스가 로드되기를 기다림
    WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.XPATH, '//div[@class="question floatLeft"]')))
except Exception as e:
    print("페이지 로딩에 실패했습니다:", e)

# 모든 질문과 답변 요소 찾기
questions = driver.find_elements(By.XPATH, '//div[@class="question floatLeft"]')
answers = driver.find_elements(By.XPATH, '//div[@class="answer floatLeft"]')

# CSV 파일로 저장
with open('faq.csv', mode='w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['Question', 'Answer'])  # CSV 헤더

    # 각 질문과 답변을 순차적으로 추출하여 CSV에 기록
    for question, answer in zip(questions, answers):
        question_text = question.text.strip()

        # 'innerHTML'을 사용하여 HTML 태그가 포함된 답변을 가져오기
        answer_text = answer.get_attribute('innerHTML').strip()

        # HTML 태그 제거 (원하는 경우)
        from bs4 import BeautifulSoup
        answer_text_cleaned = BeautifulSoup(answer_text, "html.parser").get_text(separator=" ").strip()

        # CSV에 기록
        writer.writerow([question_text, answer_text_cleaned])

# 드라이버 종료
driver.quit()

print("FAQ 데이터가 CSV 파일로 저장되었습니다.")


FAQ 데이터가 CSV 파일로 저장되었습니다.
