In [None]:
%pip install -q selenium webdriver_manager

## 한번만 실행

In [11]:
import subprocess
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import pickle

# Chrome 브라우저를 원격 디버깅 모드로 실행
chrome_path = "C:/Program Files/Google/Chrome/Application/chrome.exe"
chrome_debug_port = "9222"
user_data_dir = "C:/Selenium/ChromeData"

# Chrome을 원격 디버깅 모드로 실행
subprocess.Popen([chrome_path, f'--remote-debugging-port={chrome_debug_port}', f'--user-data-dir={user_data_dir}'])

# Selenium 옵션 설정
options = Options()
options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")

# ChromeDriver 초기화
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# 구글 로그인 페이지로 이동
driver.get('https://accounts.google.com/signin')

# 수동으로 로그인 진행
print("Please log in manually and then press Enter here...")
input("Press Enter after you have logged in...")  # 터미널에서 엔터를 누름

# 로그인된 쿠키 저장
cookies = driver.get_cookies()
with open('cookies.pkl', 'wb') as file:
    pickle.dump(cookies, file)

print("Cookies saved.")
driver.quit()

Please log in manually and then press Enter here...
Cookies saved.


## 크롤링 메인 코드

In [1]:
import subprocess
import time
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from webdriver_manager.chrome import ChromeDriverManager
import json
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
import pandas as pd

# Chrome 브라우저를 원격 디버깅 모드로 실행
chrome_path = "C:/Program Files/Google/Chrome/Application/chrome.exe"
chrome_debug_port = "9222"
user_data_dir = "C:/Selenium/ChromeData"

# Chrome을 원격 디버깅 모드로 실행
subprocess.Popen([chrome_path, f'--remote-debugging-port={chrome_debug_port}', f'--user-data-dir={user_data_dir}'])

# Selenium 옵션 설정
options = Options()
options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")

# ChromeDriver 초기화
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

def wait_for_page_load(driver, timeout=50):
    try:
        WebDriverWait(driver, timeout).until(
            lambda d: d.execute_script('return document.readyState') == 'complete'
        )
        return True
    except:
        return False

def scroll_to_element(driver, element):
    """ Scrolls the page until the element is visible """
    driver.execute_script("arguments[0].scrollIntoView();", element)

def get_buttons(driver, button_selector, timeout=30):
    """ Retrieves buttons with a given selector and waits for them to be loaded """
    end_time = time.time() + timeout
    buttons = []
    while time.time() < end_time:
        buttons = driver.find_elements(By.CSS_SELECTOR, button_selector)
        if buttons:
            return buttons
        time.sleep(2)
    return buttons

try:
    # 페이지 접속
    driver.get('https://alan.est.ai/youtube?showHistoryMenu=false&showLeftSidebar=true')
    if not wait_for_page_load(driver):
        print("페이지 로딩에 실패했습니다.")
        driver.quit()
        exit()

    driver.maximize_window()
    time.sleep(3)

    # 데이터 저장 리스트 및 실패한 URL 저장 리스트
    all_data = {}
    failed_urls = []

    # URL 리스트 경로 (url 바꿔가면서 진행)
    path_list_file = '견종백과.csv'

    df = pd.read_csv(path_list_file)
   
    # url 몇개까지 할건지 개수지정. 앨런=하루 30개 제한, ex) [:30], [31:60], [61:90]...
    path_list = df['링크'].tolist()[:30] 

    # 각 URL에 대해 반복 작업 수행
    for url in path_list:
        print(f"처리 중인 URL: {url}")
        driver.get('https://alan.est.ai/youtube?showHistoryMenu=false&showLeftSidebar=true')
        if not wait_for_page_load(driver):
            print(f"URL {url}에 대한 페이지 로딩에 실패했습니다.")
            failed_urls.append(url)
            continue

        try:
            textarea = WebDriverWait(driver, 20).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'textarea[placeholder*="요약할 유튜브 링크를 입력해주세요"]'))
            )
            textarea.clear()
            textarea.send_keys(url)
            textarea.send_keys(Keys.RETURN)
            time.sleep(3)

            # 2. 로딩 대기
            WebDriverWait(driver, 180).until(
                EC.presence_of_element_located((By.XPATH, '//p[contains(text(), "영상 요약을 완료했습니다!")]'))
            )
            print(f"요약 완료 메시지가 표시되었습니다: {url}")
            time.sleep(10)

            # 3. 타이틀 추출
            titles = driver.find_elements(By.CSS_SELECTOR, 'div._title_1skjv_47')
            print(f"타이틀 개수: {len(titles)}")
            time.sleep(5)

            # 4. 버튼 로딩 및 클릭
            buttons = get_buttons(driver, 'button._btn_arrow_1skjv_57')
            if not buttons:
                print("버튼이 로딩되지 않았습니다.")
                continue
            print(f"버튼 개수: {len(buttons)}")
            time.sleep(5)

            url_data = {
                'URL': url,
                'SUMMARIES': []
            }

            for i, button in enumerate(buttons):
                try:
                    scroll_to_element(driver, button)
                    ActionChains(driver).move_to_element(button).click().perform()
                    print(f"버튼 클릭됨: {i}")
                    time.sleep(3)
                except Exception as e:
                    print(f"버튼 클릭 오류: {e}")
                    continue
            time.sleep(5)

            # 5. '자세히' 버튼 로딩 및 클릭
            detail_buttons = get_buttons(driver, 'button._btn_detail_rtro1_37')
            if not detail_buttons:
                print("'자세히' 버튼이 로딩되지 않았습니다.")
                continue
            print(f"'자세히' 버튼 개수: {len(detail_buttons)}")
    
            for i, detail_button in enumerate(detail_buttons):
                try:
                    # 스크롤하여 버튼을 클릭 가능하게 함
                    scroll_to_element(driver, detail_button)
                    ActionChains(driver).move_to_element(detail_button).click().perform()
                    print(f"'자세히' 버튼 클릭됨: {i}")
                    time.sleep(3)  # 버튼 클릭 후 로딩 시간 대기

                    # 타이틀 추출
                    summary_title = titles[i].text if i < len(titles) else f"Summary {i+1}"
                    print(f"타이틀 추출됨: {summary_title}")

                    # 간단 텍스트 모음 추출
                    simple_text_elements = driver.find_elements(By.XPATH, '//ul[@class="_ul_tnadh_1"]/li/span/p[@class="_p_qdrcw_1"]')
                    simple_text = "\n".join([element.text for element in simple_text_elements])
                    print(f"간단 텍스트 추출됨: {simple_text}")

                    # 자세히 텍스트 모음 추출
                    detail_text_elements = driver.find_elements(By.XPATH, '//div[@class="_detail_rtro1_31"]/p[@class="_p_qdrcw_1"]')
                    detail_text = "\n".join([element.text for element in detail_text_elements])
                    print(f"자세히 텍스트 추출됨: {detail_text}")

                    # 추출한 데이터를 저장
                    url_data['SUMMARIES'].append({
                        'SUMMARY_TITLE': summary_title,
                        'SIMPLE_TEXT': simple_text,
                        'DETAIL_TEXT': detail_text
                    })
                except Exception as e:
                    print(f"'자세히' 버튼 클릭 오류: {e}")

            all_data[url] = url_data

        except Exception as e:
            print(f"Error processing URL {url}: {e}")
            failed_urls.append(url)
            continue

    # JSON 파일로 저장
    try:
        with open('extracted_data.json', 'w', encoding='utf-8') as f:
            json.dump(all_data, f, ensure_ascii=False, indent=4)
        print("데이터가 extracted_data.json 파일에 저장되었습니다.")
    except Exception as e:
        print(f"JSON 파일 저장 중 오류 발생: {e}")

    # 실패한 URL 저장 (선택 사항)
    if failed_urls:
        with open('failed_urls.txt', 'w') as f:
            for url in failed_urls:
                f.write(url + '\n')

finally:
    # 드라이버 종료
    driver.quit()


처리 중인 URL: https://www.youtube.com/watch?v=Lhi7tJzRKXk&list=PLVh3TM0B0WtksY4ZQVNdD0aTG1Qm1mQNM&index=1&pp=iAQB
요약 완료 메시지가 표시되었습니다: https://www.youtube.com/watch?v=Lhi7tJzRKXk&list=PLVh3TM0B0WtksY4ZQVNdD0aTG1Qm1mQNM&index=1&pp=iAQB
타이틀 개수: 5
버튼 개수: 5
버튼 클릭됨: 0
버튼 클릭됨: 1
버튼 클릭됨: 2
버튼 클릭됨: 3
버튼 클릭됨: 4
'자세히' 버튼 개수: 4
'자세히' 버튼 클릭됨: 0
타이틀 추출됨: 그레이트 피레니즈 소개
간단 텍스트 추출됨: 그레이트 피레니즈는 상근이로 유명한 개로, 예전에는 많은 인기를 끌었습니다.
현재는 그레이트 피레니즈가 잘 보이지 않지만, 여전히 많은 사람들에게 사랑받고 있습니다.
보호자는 유기견 보호소에서 이 개를 입양하였고, 상근이의 성격이 좋았다는 점을 강조합니다.
그레이트 피레니즈는 양을 지키던 역사적 배경을 가지고 있습니다.
온화한 성격을 지니고 있지만, 중성화하지 않은 수컷은 공격성을 보일 수 있습니다.
훈련사 경험을 통해 사람에게는 순하지만 다른 개에게는 공격적인 모습을 보일 수 있음을 알 수 있습니다.
그레이트 피레니즈는 고관절 문제와 체리아이와 같은 질병에 취약합니다.
체리아이는 눈 주위에 빨간색이 나타나는 증상으로, 치료가 필요할 수 있습니다.
귀 문제와 피부병도 발생할 수 있어 주의가 필요합니다.
그레이트 피레니즈는 환경에 따라 키우기 난이도가 달라질 수 있습니다.
보호자는 개를 키우기 위해 많은 사랑과 관심이 필요하다고 강조합니다.
반려견 문화가 높은 지역에서 키우는 것이 이 견종에게 더 좋습니다.
자세히 텍스트 추출됨: 그레이트 피레니즈는 이름이 유명하지는 않지만, 상근이로 유명합니다.
상근이는 예전에 1박 2일에서 큰 인기를 끌었던 개입니다.
현재는 그레이트 피레니즈가 잘 보이지 않기 시작했습니다.
보호자는 