<a href="https://colab.research.google.com/github/jonghhhh/lecture_colabs/blob/main/selenium_tutorial_033025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Selenium 활용한 동적 웹 크롤링

## 1. Selenium 소개

웹 브라우저를 자동화하기 위한 도구

* **브라우저 자동화**: 실제 브라우저를 제어하여 사용자 행동 시뮬레이션
* **크로스 브라우저**: Chrome, Firefox, Edge 등 다양한 브라우저 지원
* **동적 콘텐츠 처리**: JavaScript로 생성되는 동적 콘텐츠 처리 가능
* **사용자 상호작용 시뮬레이션**: 클릭, 스크롤, 입력 등 실제 사용자 행동을 시뮬레이션

### 정적 vs 동적 웹 스크래핑

* **정적 웹 스크래핑** (BeautifulSoup, requests 등)
  - 초기 HTML 문서만 분석 가능
  - JavaScript로 생성되는 콘텐츠에 접근 불가
  - 사용자 상호작용(클릭, 스크롤 등) 불가

* **동적 웹 스크래핑** (Selenium)
  - 실제 브라우저를 통해 JavaScript 실행 결과에 접근 가능
  - 클릭, 스크롤, 입력 등의 사용자 상호작용 가능

## 2. Colab에서 Selenium 설치하기

Google Colab에서 Selenium을 사용하기 위해 Chrome 브라우저와 ChromeDriver를 설치해야 함

In [None]:
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium chromedriver-autoinstaller

## 3. 기본 웹 탐색

WebDriver를 초기화하고 웹 페이지를 탐색

In [None]:
# 필요한 라이브러리 임포트
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException

import time
import chromedriver_autoinstaller

In [None]:
# Chrome WebDriver 설정
def setup_driver():
    """Colab 환경에 최적화된 Chrome WebDriver를 설정합니다."""

    # Chrome 옵션 설정
    chrome_options = webdriver.ChromeOptions()
    chrome_options.add_argument('--headless')                  # GUI 없이 백그라운드에서 실행
    chrome_options.add_argument('--no-sandbox')                # 샌드박스 비활성화 (Colab에서 필요)
    chrome_options.add_argument('--disable-dev-shm-usage')     # 공유 메모리 사용 제한 비활성화
    chrome_options.add_argument('--window-size=1920,1080')     # 창 크기 설정

    # 드라이버 생성
    driver = webdriver.Chrome(options=chrome_options)
    return driver

# WebDriver 초기화
driver = setup_driver()
print("WebDriver가 성공적으로 초기화되었습니다.")

In [None]:
# 웹 페이지 탐색 기본 기능

# 웹 페이지 열기
driver.get("https://www.selenium.dev/documentation/")
print(f"현재 페이지 제목: {driver.title}")

# 페이지 정보 가져오기
print(f"현재 URL: {driver.current_url}")
print(f"페이지 소스 길이: {len(driver.page_source)} 문자")

# 다른 페이지로 이동
driver.get("https://www.selenium.dev/selenium/web/web-form.html")
print(f"새 페이지 제목: {driver.title}")

# 브라우저 네비게이션 사용
driver.back()      # 뒤로 가기
print(f"뒤로 가기 후 URL: {driver.current_url}")

driver.forward()   # 앞으로 가기
print(f"앞으로 가기 후 URL: {driver.current_url}")

driver.refresh()   # 새로고침
print("페이지가 새로고침 되었습니다.")

## 4. 요소 찾기 (Locating Elements)

웹 페이지에서 요소를 찾는 다양한 방법

1. ID로 찾기
2. 이름으로 찾기
3. 클래스 이름으로 찾기
4. CSS 선택자로 찾기
5. XPath로 찾기
6. 링크 텍스트로 찾기
7. 태그 이름으로 찾기

In [None]:
# 테스트용 웹 페이지 열기
driver.get("https://www.selenium.dev/selenium/web/web-form.html")
print(f"페이지 제목: {driver.title}")

In [None]:
# 다양한 방법으로 요소 찾기

# CSS 선택자로 요소 찾기
dropdown = driver.find_element(By.CSS_SELECTOR, "select.form-select")
print(f"CSS 선택자로 찾은 요소 태그: {dropdown.tag_name}")

# XPath로 요소 찾기
checkbox = driver.find_element(By.XPATH, "//input[@type='checkbox']")
print(f"XPath로 찾은 요소 태그: {checkbox.tag_name}, 타입: {checkbox.get_attribute('type')}")

# 태그 이름으로 요소 찾기
first_button = driver.find_element(By.TAG_NAME, "button")
print(f"태그 이름으로 찾은 요소 텍스트: {first_button.text}")

# ID로 요소 찾기
text_input = driver.find_element(By.ID, "my-text-id")
print(f"ID로 찾은 요소 태그: {text_input.tag_name}")

# 클래스 이름으로 요소 찾기
form_element = driver.find_element(By.CLASS_NAME, "form-control")
print(f"클래스 이름으로 찾은 첫 번째 요소 태그: {form_element.tag_name}")

# 이름으로 요소 찾기
password_input = driver.find_element(By.NAME, "my-password")
print(f"이름으로 찾은 요소 태그: {password_input.tag_name}")

# 링크 텍스트로 요소 찾기
link = driver.find_element(By.LINK_TEXT, "Return to index")
print(f"링크 텍스트로 찾은 요소 태그: {link.tag_name}, 텍스트: {link.text}")

In [None]:
# 여러 요소 찾기
all_inputs = driver.find_elements(By.TAG_NAME, "input")
print(f"페이지에서 발견된 input 요소 수: {len(all_inputs)}")

# 찾은 요소들의 타입 출력
for i, inp in enumerate(all_inputs[:5]):  # 처음 5개만 출력
    input_type = inp.get_attribute("type")
    print(f"Input #{i+1} 타입: {input_type}")

# get_attribute():
# HTML 요소의 속성(attribute)에 해당하는 값을 가져옴
# 불리언 속성(예: disabled, checked)은 속성이 존재하면 "true"를 반환하고, 존재하지 않으면 None을 반환
# 자주 사용되는 속성들: type, value, name, id, class, href, src, alt, disabled, checked, selected, placeholder, innerHTML, innerText, maxlength, required, readonly, style, title, target, rel, data

## 5. 요소 조작 (Element Interaction)

웹 요소와 상호작용하는 방법: 입력과 클릭


In [None]:
# 테스트용 웹 페이지 열기
driver.get("https://www.selenium.dev/selenium/web/web-form.html")

In [None]:
# 텍스트 입력
text_input = driver.find_element(By.ID, "my-text-id")
text_input.clear()  # 기존 내용 지우기
text_input.send_keys("안녕하세요, Selenium!")
print(f"텍스트 입력 후 값: {text_input.get_attribute('value')}")

# 버튼 클릭
submit = driver.find_element(By.CSS_SELECTOR, "button.btn.btn-outline-primary.mt-3")
submit.click()

## 6. 동적 콘텐츠 다루기

JavaScript로 생성되는 동적 콘텐츠 다루기: JavaScript 실행, 스크롤 처리, iframe 처리


In [None]:
# JavaScript 실행
driver.get("https://www.selenium.dev/selenium/web/dynamic.html")

# JavaScript로 요소 조작
driver.execute_script("document.getElementById('reveal').click();")

# JavaScript로 페이지 정보 가져오기
page_title = driver.execute_script("return document.title;")
print(f"JavaScript로 가져온 페이지 제목: {page_title}")

# JavaScript로 요소 값 설정
driver.get("https://www.selenium.dev/selenium/web/web-form.html")
driver.execute_script(
    "arguments[0].value = arguments[1];",
    driver.find_element(By.ID, "my-text-id"),
    "JavaScript로 설정한 값"
)

text_value = driver.execute_script(
    "return document.getElementById('my-text-id').value;"
)
print(f"JavaScript로 설정한 입력 값: {text_value}")

In [None]:
# 스크롤 처리
driver.get("https://www.selenium.dev/documentation/webdriver/")

# 페이지 맨 아래로 스크롤
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
print("페이지 맨 아래로 스크롤됨")

In [None]:
# 무한 스크롤 처리 예제
def scroll_to_load_more(driver, scroll_count=5, wait_time=1):
    """무한 스크롤 페이지에서 콘텐츠를 더 로드하기 위해 스크롤"""

    # 초기 높이 가져오기
    last_height = driver.execute_script("return document.body.scrollHeight")

    for i in range(scroll_count):
        # 페이지 맨 아래로 스크롤
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

        # 페이지 로딩 대기
        time.sleep(wait_time)

        # 새 높이 계산
        new_height = driver.execute_script("return document.body.scrollHeight")

        # 높이가 더 이상 변하지 않으면 더 이상 콘텐츠가 로드되지 않는 것
        if new_height == last_height:
            print(f"더 이상 로드할 콘텐츠 없음 (스크롤 #{i+1}에서 중단)")
            break

        last_height = new_height
        print(f"스크롤 #{i+1} 완료, 새 높이: {new_height}px")

    return last_height

# 스크롤 테스트를 위해 GitHub 저장소 이슈 페이지 열기
driver.get("https://github.com/SeleniumHQ/selenium/issues")
final_height = scroll_to_load_more(driver, scroll_count=3, wait_time=2)
print(f"최종 페이지 높이: {final_height}px")

# 로드된 이슈 수 확인
issues = driver.find_elements(By.CSS_SELECTOR, ".js-issue-row")
print(f"로드된 이슈 수: {len(issues)}")

In [None]:
# iframe 처리: 작동 안됨. 코드만 참조.
driver.get("https://www.selenium.dev/selenium/web/click_frames.html")

# 먼저 iframe으로 컨텍스트 전환
driver.switch_to.frame("source")

# iframe 내부의 요소에 접근
iframe_link = driver.find_element(By.ID, "otherframe")
print(f"iframe 내부 링크 텍스트: {iframe_link.text}")
iframe_link.click()

# 다시 기본 컨텍스트로 전환
driver.switch_to.default_content()
print("기본 컨텍스트로 전환됨")

# 다른 iframe으로 전환 (인덱스 사용)
iframe_elements = driver.find_elements(By.TAG_NAME, "iframe")
driver.switch_to.frame(0)  # 첫 번째 iframe
print("첫 번째 iframe으로 전환됨")

# 다시 기본 컨텍스트로 전환
driver.switch_to.default_content()

## 7. 대기 전략 (Waiting Strategies)

웹 페이지 로딩이나 동적 콘텐츠가 나타날 때까지 기다리기

1. 암시적 대기 (Implicit Wait)
2. 명시적 대기 (Explicit Wait)

In [None]:
# 암시적 대기 (Implicit Wait)
# 모든 요소를 찾을 때 지정된 시간만큼 기다림
driver.implicitly_wait(10)  # 최대 10초 동안 대기

# 암시적 대기 테스트
driver.get("https://www.selenium.dev/selenium/web/dynamic.html")
driver.find_element(By.ID, "adder").click()
added_element = driver.find_element(By.ID, "box0")  # 이 요소는 클릭 후 나타남
print(f"추가된 요소 텍스트: {added_element.text}")

# 암시적 대기 재설정
driver.implicitly_wait(0)  # 대기 비활성화

In [None]:
# 명시적 대기 (Explicit Wait)
# 특정 조건이 충족될 때까지 기다림

driver.get("https://www.selenium.dev/selenium/web/dynamic.html")

# 요소가 나타날 때까지 대기하고 싶은 경우
driver.find_element(By.ID, "reveal").click()

wait = WebDriverWait(driver, 10)  # 최대 10초 대기
revealed_element = wait.until(
    EC.visibility_of_element_located((By.ID, "revealed"))
)

print(f"나타난 요소 텍스트: {revealed_element.text}")

## 8. 고급 기법
- 스크린샷 찍기, 쿠키 관리, 창 및 탭 관리, 알림 및 대화 상자 처리, 사용자 에이전트 설정 등 가능

In [None]:
# 스크린샷 찍기
driver.get("https://www.selenium.dev/")

# 전체 페이지 스크린샷
driver.save_screenshot("selenium_homepage.png")
print("전체 페이지 스크린샷 저장됨: selenium_homepage.png")

### 브라우저 종료

작업이 완료되면 항상 브라우저를 종료하여 리소스를 정리해야 합니다.

In [None]:
# WebDriver 종료
driver.quit()
print("WebDriver가 종료되었습니다.")

## 9. 추가 자료

- [Selenium 공식 문서](https://www.selenium.dev/documentation/)
- [Selenium Python API 문서](https://selenium-python.readthedocs.io/)
- [Selenium GitHub 저장소](https://github.com/SeleniumHQ/selenium)

