In [1]:
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import chromedriver_autoinstaller


In [4]:

def setup_driver():
    """Chrome WebDriver를 설정하고 반환합니다."""
    chromedriver_autoinstaller.install()
    driver = webdriver.Chrome()
    wait = WebDriverWait(driver, 10)  # 최대 10초까지 대기
    action = ActionChains(driver)
    return driver, wait, action

def open_faq_page(driver):
    """FAQ 페이지를 열고 로딩될 때까지 대기합니다."""
    driver.get('https://www.hyundai.com/kr/ko/e/customer/center/faq')
    time.sleep(5)  # 페이지 로딩 대기

def click_element(driver, wait, action, xpath):
    """지정된 XPATH를 가진 요소를 클릭합니다."""
    element = wait.until(EC.visibility_of_element_located((By.XPATH, xpath)))
    action.move_to_element(element).perform()
    element.click()
    time.sleep(2)  # 페이지 로딩 대기

def extract_faq(driver, wait, action, idx):
    """특정 FAQ 항목의 질문과 답변을 추출합니다."""
    try:
        button_xpath = f'//*[@id="app"]/div[3]/section/div[2]/div/div[2]/section/div/div[3]/div[1]/div[{idx}]/button'
        button = wait.until(EC.element_to_be_clickable((By.XPATH, button_xpath)))
        action.move_to_element(button).perform()
        button.click()
        time.sleep(2)  # 페이지 로딩 대기

        question = button.text
        answer_xpath = f'//*[@id="app"]/div[3]/section/div[2]/div/div[2]/section/div/div[3]/div[1]/div[{idx}]/div'
        answer = driver.find_element(By.XPATH, answer_xpath).text
        
        return {'question': question, 'answer': answer}
    except Exception as e:
        print(f'    [FAQ 항목 {idx} 처리 실패]')
        print('*' * 20)
        return None

def crawl_page(driver, wait, action, start_idx=1, end_idx=11):
    """하나의 페이지에서 모든 FAQ 항목을 크롤링합니다."""
    results = []
    for idx in range(start_idx, end_idx):
        result = extract_faq(driver, wait, action, idx)
        if result:
            results.append(result)
    return results

def crawl_menu(driver, wait, action, menu_number):
    """특정 메뉴에 대한 모든 FAQ를 크롤링합니다."""
    menu_xpath = f'//*[@id="app"]/div[3]/section/div[2]/div/div[2]/section/div/div[1]/div[1]/ul/li[{menu_number}]/button'
    click_element(driver, wait, action, menu_xpath)
    
    all_results = []
    for page_number in range(2, 5):  # 페이지를 2부터 4까지 반복
        print(f"  페이지 {page_number-1} 처리 중")
        try:
            page_results = crawl_page(driver, wait, action)
            all_results.extend(page_results)
            
            if page_number < 4:  # 마지막 페이지가 아니면 페이지 이동
                next_page_xpath = f'//*[@id="app"]/div[3]/section/div[2]/div/div[2]/section/div/div[3]/div[2]/div/ul/li[{page_number}]/button'
                click_element(driver, wait, action, next_page_xpath)
        except Exception as e:
            print(f'  [페이지 {page_number-1} 처리 실패]')
            print('*' * 20)
    
    return all_results

def main():
    driver, wait, action = setup_driver()
    open_faq_page(driver)
    
    total_results = []
    
    for menu_number in range(2, 9):  # 메뉴를 1부터 8까지 반복
        print(f"메뉴 {menu_number-1} 처리 중")
        try:
            menu_results = crawl_menu(driver, wait, action, menu_number)
            total_results.extend(menu_results)
        except Exception as e:
            print(f"[메뉴 {menu_number-1} 처리 실패]")
            print('*' * 20)
    
    driver.quit()
    
    # 결과를 DataFrame으로 변환하고 출력
    df = pd.DataFrame(total_results)
    print(df.head())
    
    # DataFrame을 CSV 파일로 저장
    df.to_csv('hyundai_faq', index=False)
    
    return df

if __name__ == "__main__":
    df = main()

메뉴 1 처리 중
  페이지 1 처리 중
  페이지 2 처리 중
  페이지 3 처리 중
    [FAQ 항목 10 처리 실패]
********************
메뉴 2 처리 중
  페이지 1 처리 중
  페이지 2 처리 중
  페이지 3 처리 중
메뉴 3 처리 중
  페이지 1 처리 중
  페이지 2 처리 중
  [페이지 2 처리 실패]
********************
  페이지 3 처리 중
메뉴 4 처리 중
  페이지 1 처리 중
  페이지 2 처리 중
  페이지 3 처리 중
메뉴 5 처리 중
  페이지 1 처리 중
  페이지 2 처리 중
  페이지 3 처리 중
    [FAQ 항목 10 처리 실패]
********************
메뉴 6 처리 중
  페이지 1 처리 중
    [FAQ 항목 10 처리 실패]
********************
  [페이지 1 처리 실패]
********************
  페이지 2 처리 중
    [FAQ 항목 10 처리 실패]
********************
  [페이지 2 처리 실패]
********************
  페이지 3 처리 중
    [FAQ 항목 10 처리 실패]
********************
메뉴 7 처리 중
  페이지 1 처리 중
    [FAQ 항목 8 처리 실패]
********************
    [FAQ 항목 9 처리 실패]
********************
    [FAQ 항목 10 처리 실패]
********************
  [페이지 1 처리 실패]
********************
  페이지 2 처리 중
    [FAQ 항목 4 처리 실패]
********************
    [FAQ 항목 8 처리 실패]
********************
    [FAQ 항목 9 처리 실패]
********************
    [FAQ 항목 10 처리 실패]
********************
  [페이지 2 처리

In [6]:
!pip install pandas sqlalchemy pymysql



In [12]:
import pandas as pd
from sqlalchemy import create_engine

# MySQL 데이터베이스 연결 설정
# 'username', 'password', 'localhost', 'faq' 부분을 자신의 환경에 맞게 수정하세요
engine = create_engine('mysql+pymysql://root:1234@localhost/faq')

# CSV 파일 읽기
df = pd.read_csv('hyundai_faq.csv')

# 데이터프레임에 'Company' 열 추가 (모든 값은 'Hyundai'로 설정)
df['Company'] = 'hyundai'

# 'Company', 'question', 'answer' 열로 정렬
df = df[['Company', 'question', 'answer']]

# 테이블 이름을 'faq'로 설정
# if_exists='replace'는 테이블이 존재할 경우 기존 테이블을 대체합니다. 
# 데이터베이스에 새로운 테이블을 생성하고 데이터 삽입을 시도합니다.
df.to_sql('hyundai', con=engine, if_exists='replace', index=False)

print("CSV 파일의 데이터가 MySQL 데이터베이스에 성공적으로 추가되었습니다.")

CSV 파일의 데이터가 MySQL 데이터베이스에 성공적으로 추가되었습니다.
