# Selenium 웹 크롤링 기초

## 1. Selenium 소개

### Selenium이란?
Selenium은 웹 브라우저를 자동화하는 도구입니다. 웹 테스트 자동화, 데이터 수집, 웹 스크래핑 등 다양한 용도로 사용됩니다.

### 왜 Selenium을 사용하나요?
* 동적 웹페이지 처리 가능
* 실제 브라우저 동작 시뮬레이션
* JavaScript로 생성되는 콘텐츠 수집 가능

### 공식문서
- Selenium 공식 문서: https://www.selenium.dev/documentation/
- Python Selenium 튜토리얼: https://selenium-python.readthedocs.io/

## 1. 환경 설정
필요한 패키지를 설치하고 import 합니다.

In [None]:
!pip install selenium webdriver-manager

### 1.2 필요한 라이브러리 import

In [8]:
from selenium import webdriver  # 웹드라이버 기본 모듈
from selenium.webdriver.chrome.service import Service  # 크롬 서비스 관리 모듈
from selenium.webdriver.chrome.options import Options  # 크롬 브라우저 옵션 설정 모듈
from webdriver_manager.chrome import ChromeDriverManager  # 크롬드라이버 자동 관리 모듈
from selenium.webdriver.common.by import By  # 요소 찾기 방법 지정 모듈
from selenium.webdriver.support.ui import WebDriverWait  # 요소 대기 관리 모듈
from selenium.webdriver.support import expected_conditions as EC  # 예상 조건 모듈
import time # 시간 대기 모듈
from selenium.webdriver.common.keys import Keys  # 키보드 입력 모듈

## 2. 기본 브라우저 실행
가장 기본적인 브라우저 실행 방법을 학습합니다.

In [9]:
# 크롬드라이버 설정
service = Service(ChromeDriverManager().install())

# 크롬 브라우저 옵션 설정
chrome_options = Options()
chrome_options.add_argument('--start-maximized')  # 브라우저를 최대화하여 시작
# chrome_options.add_argument('--headless')  # 화면 없이 백그라운드에서 실행하고 싶을 때 사용

# 크롬 브라우저 실행
driver = webdriver.Chrome(service=service, options=chrome_options)

# 웹페이지 접속
driver.get("https://www.google.com")

# 현재 페이지의 제목 출력
print("페이지 제목:", driver.title)

# 브라우저 종료
driver.quit()

페이지 제목: Google


## 3. 웹 조작하기
다양한 방법으로 웹을 조작해 봅니다.

In [19]:
# 드라이버 설정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

# 구글 접속
driver.get("https://www.google.com")

# 1. name 속성으로 검색창 찾기 (HTML의 name 속성값 사용)
# 예: <input name="q">
search_box = driver.find_element(By.NAME, "q")

# 2. ID로 요소 찾기 예시 (HTML의 id 속성값 사용)
# 예: <div id="searchbox">
# search_element = driver.find_element(By.ID, "searchbox")

# 3. CSS 선택자로 요소 찾기 예시
# 예: <div class="search-container">
# search_container = driver.find_element(By.CSS_SELECTOR, ".search-container")

# 4. 클래스 이름으로 요소 찾기 예시
# 예: <div class="search-box">
# search_box = driver.find_element(By.CLASS_NAME, "search-box")

# 4. XPath로 요소 찾기 예시
# - XML Path Language의 약자로 XML 문서의 특정 요소나 속성에 접근하기 위한 경로를 지정하는 언어
# 예: <div class="search-box" id="search">검색</div>
# search_box = driver.find_element(By.XPATH, "//*[@id="searchbox"]")  

# 검색어 입력
search_box.clear()  # 검색창 텍스트 지우기
search_box.send_keys("Python Selenium") 

# 엔터키 입력 (Keys.RETURN 또는 Keys.ENTER 사용 가능)
search_box.send_keys(Keys.RETURN)  # 또는 Keys.ENTER 사용 가능

# 잠시 대기 (결과 확인용)
time.sleep(5)

# 검색 결과 페이지 제목 출력
print("검색 결과 페이지 제목:", driver.title)

# 브라우저 종료
driver.quit() 

검색 결과 페이지 제목: Python Selenium - Google 검색


## 4. 대기(Wait) 조건 예제

1. `presence_of_element_located`:
- HTML DOM에 요소가 존재하는지만 확인
- 요소가 화면에 보이지 않아도 됨 (숨겨져 있어도 OK)
- 예시: 숨겨진 입력 필드나 화면 밖에 있는 요소도 감지

```html
<!-- 이 요소는 DOM에 존재하지만 화면에 보이지 않음 -->
<input name="q" style="display: none;">
```

2. `element_to_be_clickable`:
- 요소가 DOM에 존재하고
- 화면에 보이며 (visible)
- 클릭이 가능한 상태인지 확인 (disabled 아님)
- 예시: 로딩이 끝나고 실제로 클릭 가능한 버튼

```html
<!-- 이 버튼은 존재하고 보이지만 클릭할 수 없음 -->
<button name="btnK" disabled>검색</button>
```

3. `visibility_of_element_located`:
- 요소가 DOM에 존재하고
- 화면에 실제로 보이는지 (visible) 확인
- 클릭 가능 여부는 확인하지 않음
- 예시: 애니메이션이 끝나고 화면에 나타난 메시지

실제 사용 시 팁:
1. 일반적인 요소 확인 시: `presence_of_element_located` 사용
2. 버튼이나 링크 클릭 시: `element_to_be_clickable` 사용
3. 화면에 표시되는 결과 확인 시: `visibility_of_element_located` 사용


In [21]:
# 드라이버 설정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("https://www.google.com")

# 명시적 대기(Explicit Wait) 설정 - 최대 10초
wait = WebDriverWait(driver, 10)

# 1. 검색창이 나타날 때까지 대기
search_box = wait.until(
    EC.presence_of_element_located((By.NAME, "q"))
)

# 2. 요소가 클릭 가능할 때까지 대기 예시
# button = wait.until(
#     EC.element_to_be_clickable((By.NAME, "btnK"))
# )

# 3. 요소가 화면에 보일 때까지 대기 예시
# element = wait.until(
#     EC.visibility_of_element_located((By.ID, "result"))
# )

# 검색어 입력
search_box.send_keys("Python Selenium Tutorial")

# 검색 버튼이 클릭 가능할 때까지 대기 후 클릭
search_button = wait.until(
    EC.element_to_be_clickable((By.NAME, "btnK")) #검색 버튼 이름
)
search_button.click()

# 검색 결과가 로드될 때까지 대기
wait.until(
    EC.presence_of_element_located((By.ID, "rso")) #본문 ID
)

print("검색 완료!")

# 잠시 대기 (결과 확인용)
time.sleep(5)

# 브라우저 종료
driver.quit()

검색 완료!


## 5. 스크롤 처리 예제

In [22]:
# 드라이버 설정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("https://play.google.com/store/apps?hl=ko")

# 특정 픽셀만큼 스크롤
driver.execute_script("window.scrollTo(0, 500);")  # 위에서 500픽셀 아래로
print("500픽셀만큼 스크롤!")
time.sleep(1)

# 부드러운 스크롤 (위에서 아래로)
for i in range(5):
    # 100픽셀씩 스크롤
    driver.execute_script(f"window.scrollTo(0, {500+i * 100});")
    time.sleep(1)  # 1초 간격으로 스크롤
print("부드러운 스크롤 완료!")

# 페이지 맨 아래로 스크롤
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
print("페이지 끝까지 스크롤 완료!")
time.sleep(1)  # 스크롤 동작 확인을 위한 대기

# 페이지 맨 위로 스크롤
driver.execute_script("window.scrollTo(0, 0);")
print("페이지 처음으로 스크롤!")
time.sleep(1)

# 브라우저 종료
driver.quit()

500픽셀만큼 스크롤!
부드러운 스크롤 완료!
페이지 끝까지 스크롤 완료!
페이지 처음으로 스크롤!


## 6. JavaScript 실행 예시

In [23]:
# 드라이버 설정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get("https://play.google.com/store/apps?hl=ko")

# 예1: 요소 클릭 (일반적인 click()이 작동하지 않을 때 사용)
element = driver.find_element(By.XPATH, '//*[@id="9"]/span[2]') # 영화 메뉴 탭 클릭 함
# element.click()
driver.execute_script("arguments[0].click();", element)
time.sleep(2)

# 예2: 스크롤
driver.execute_script("window.scrollTo(0, 500)")  # 500픽셀 아래로 스크롤
time.sleep(2)

# 예3: Alert 띄우기
driver.execute_script("alert('hello world')")
time.sleep(2)

# 브라우저 종료
driver.quit()

## 6. 실전 예제: 구글 검색 결과 수집

In [24]:
# 드라이버 설정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
wait = WebDriverWait(driver, 10)

try:
    # 구글 접속
    driver.get("https://www.google.com")

    # 검색창 찾기 및 검색어 입력
    search_box = wait.until(
        EC.presence_of_element_located((By.NAME, "q"))
    )
    search_box.send_keys("인공지능")

    # 검색 버튼 클릭
    search_button = wait.until(
        EC.element_to_be_clickable((By.NAME, "btnK"))
    )
    search_button.click()

    # 검색 결과 수집 (제목만 수집)
    search_results = wait.until(
        EC.presence_of_all_elements_located((By.CSS_SELECTOR, "h3"))
    )

    # 결과 출력
    print("\n검색 결과:")
    for idx, result in enumerate(search_results[:5], 1):
        print(f"{idx}. {result.text}")

except Exception as e:
    print(f"오류 발생: {e}")

finally:
    driver.quit()


검색 결과:
1. 인공지능(AI)이란 무엇인가요? - Google Cloud
2. 인공지능
3. 인공지능 - 위키백과, 우리 모두의 백과사전
4. 인공 지능(AI)이란? | 용어 해설
5. 인공 지능(AI)이란 무엇입니까?


### 스크롤을 통한 모든 검색 결과 얻기

In [26]:
# 드라이버 설정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
wait = WebDriverWait(driver, 10)

try:
    # 구글 접속
    driver.get("https://www.google.com")
    
    # 검색창 찾기 및 검색어 입력
    search_box = wait.until(
        EC.presence_of_element_located((By.NAME, "q"))
    )
    search_box.send_keys("인공지능")
    search_box.send_keys(Keys.RETURN)
    
    # 초기 대기
    time.sleep(2)
    
    # 페이지 끝까지 스크롤
    last_height = driver.execute_script("return document.body.scrollHeight")
    while True:
        # 페이지 끝까지 스크롤
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        
        # 새로운 내용이 로드될 때까지 대기
        time.sleep(2)
        
        # 새로운 높이 계산
        new_height = driver.execute_script("return document.body.scrollHeight")
        
        # 더 이상 스크롤이 되지 않으면 종료
        if new_height == last_height:
            break
            
        last_height = new_height
    
    # 모든 검색 결과 수집
    search_results = driver.find_elements(By.CSS_SELECTOR, "h3")
    
    # 결과 출력
    print("\n검색 결과:")
    for idx, result in enumerate(search_results, 1):
        print(f"{idx}. {result.text}")
        
except Exception as e:
    print(f"오류 발생: {e}")

finally:
    driver.quit()


검색 결과:
1. 인공지능(AI)이란 무엇인가요? - Google Cloud
2. 인공지능
3. 
4. 
5. 
6. 
7. 인공지능 - 위키백과, 우리 모두의 백과사전
8. 인공 지능(AI)이란? | 용어 해설
9. 인공 지능(AI)이란 무엇입니까?
10. (사)한국인공지능협회
11. AI 허브
12. 인공지능(AI) 이란 무엇인가요?
13. 인공 지능(AI)이란, AI가 중요한 이유
14. AI타임스
