# **Selenium**
- 동적 크롤링이 가능
- 파이썬 코드를 통해 사람이 할 수 있는 웹 브라우저의 기능을 제어할 수 있음.
- 사람이 실제로 인터넷을 사용하는 것과 동일한 순서대로 코드를 작성해야함.
- selenium 은 동적 페이지에서도 동작하기 위해 페이지가 바뀌는 순간 모든 데이터가 초기화 되므로 페이지의 변화에 맞게 코드를 작성해서 접근해야함.

In [1]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.34.1-py3-none-any.whl.metadata (7.5 kB)
Collecting urllib3~=2.5.0 (from urllib3[socks]~=2.5.0->selenium)
  Downloading urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting trio~=0.30.0 (from selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting certifi>=2025.6.15 (from selenium)
  Downloading certifi-2025.6.15-py3-none-any.whl.metadata (2.4 kB)
Collecting typing_extensions~=4.14.0 (from selenium)
  Downloading typing_extensions-4.14.1-py3-none-any.whl.metadata (3.0 kB)
Collecting attrs>=23.2.0 (from trio~=0.30.0->selenium)
  Using cached attrs-25.3.0-py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.30.0->selenium)
  Using cached outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.12.2->selenium)
  Using cached wspro

In [139]:
# webdriver: 웹을 통제하는 기능을 가진 모듈
from selenium import webdriver as wb
import pandas as pd

## 크롬 브라우저 실행

In [7]:
driver = wb.Chrome() # 이거 실행하면 새로운 크롬 창이 하나 뜸. 창 끄면 안 됨!

## 네이버 페이지로 이동

In [10]:
# get: 웹 페이지 이동 함수
# driver: 객체는 기본적으로 크롬 브라우저로써 동작하므로 인증을 내포하고 있어 headers 설정 불필요
# bs에서 사용했던 bs객체화 시켜줄 필요가 없음.
driver.get('https://naver.com') # 이거 실행하면 크롬창이 네이버로 이동함.

## 검색창에 특정 단어 입력
- 컴퓨터에게 검색창을 먼저 찾게해야하는데, 검색창에 대한 태그나 선택자를 알아야 접근 가능함.

In [21]:
# By: seleium에서 선택자를 구분해주는 함수
from selenium.webdriver.common.by import By

# find_element: selenium에서 웹의 특정 요소를 찾아주는 함수(여러개를 찾고 싶으면 fine_elements 사용)
# CSS_SELECTOR: CSS선택자를 찾아주는 인자
search = driver.find_element(By.CSS_SELECTOR,'#query') #(By.ID,'query')라고 써도 됨.
# 변화없음. 그냥 검색창에 접근만 함.

In [23]:
# send_keys: 특정 문자를 입력시켜주는 함수
search.send_keys('손흥민')

## ENTER 키 눌러서 검색하기

In [26]:
# Keys: 키보드를 통해 값을 입력할 때 사용하는 함수(키보드 역할)
from selenium.webdriver.common.keys import Keys

In [29]:
# Keys.하고 탭 키 누르면 자동완성으로 사용가능한 키들을 다 볼 수 있음.
search.send_keys(Keys.ENTER) # 손흥민이 검색된 페이지로 이동

## 뒤로가기

In [32]:
# 뒤로가기 버튼은 HTML 요소가 아니라 브라우저의 고유 기능이므로 driver에서 동작시킴. 뒤로가기, 앞으로 가기, 새로고침 등
driver.back() # 다시 네이버로 돌아감.

## 돋보기 버튼은 눌러서 검색하기

In [39]:
# 브라우저 검색창에 접근
search = driver.find_element(By.CSS_SELECTOR,'#query')

# 검색창에 키워드 작성
search.send_keys('오늘의 날씨')

In [45]:
# ID값으로 돋보기 버튼에 접근
btn = driver.find_element(By.ID,'search-btn')

In [47]:
# 해당 요소 클릭
btn.click() # 오늘의 날씨가 검색된 페이지로 이동됨.

## XPATH로 절대 경로값을 사용
- XPATH는 원하는 요소에 정확히 접근하기 위해 절대적인 경로를 가져오는 명령
- 한나의 요소에 정확히 접근할 때 사용하려면 편리하나, 여러개의 요소에 접근해야하거나 웹 페이지가 유동적으로 많이 변화하는 환경에서는 효율이 떨어져서 상황에 맞게 적절하게 사용해야함.
- 변동사항이 적은 개별 요소를 추출할 때 유용함.

In [51]:
driver.back()

In [53]:
search = driver.find_element(By.CSS_SELECTOR,'#query')

search.send_keys('오늘의 날씨')

In [55]:
btn = driver.find_element(By.XPATH,'//*[@id="search-btn"]')
# 개발자도구로 돋보기 아이콘 찾아서 그 HTML 태그를 오른쪽으로 클릭해 XPATH 복사 누르면됨.
btn.click()

## 스크롤 기능 사용하기
- 일반적으로 웹 페이지 내의 컨텐츠들은 body 태그 안에다 작성
- 스크롤 하기 위해서는 스크롤이 가능한 body 태그 자체에 접근한 뒤 스크롤 기능을 활용

In [58]:
body = driver.find_element(By.TAG_NAME,'body') # 태그명으로 접근
# find_element(By.CSS_SELECTOR, 'body.wrap-new.api_animation')

# END: 키보드로 스크롤을 끝까지 내리는 명령
# DOWN: 아래방향으로 한번 스크롤됨.
# 스크롤하면 끝없이 나오는 페이지는 반복문을 쓰던가 얼마만 스크롤 할 건지 정해야함.
body.send_keys(Keys.END)

## 브라우저 창 닫기

In [61]:
# close: 창을 닫는데, 메모리는 그대로 남아있음.
driver.close()

In [63]:
# quit: 모든 창을 닫고 브라우저를 최종 종료(메모리도 모두 삭제)
driver.quit()

### 네이버 검색
1. 크롬 브라우저 켜기
2. 네이버로 접속
3. CSS 선택자로 검색창 접근 후 원하는 검색어 입력
4. 돋보기 검색 아이콘 클릭
5. 스크롤 끝까지 내리기
6. 뒤로가기 버튼 눌러서 다시 메인으로 이동
7. 크롬창 종료(메모리까지 삭제)

In [242]:
driver = wb.Chrome()

In [244]:
driver.get('https://naver.com')

In [246]:
search = driver.find_element(By.ID,'query')

In [248]:
search.send_keys('도널드 트럼프')

In [250]:
search_btn = driver.find_element(By.ID,'search-btn')

In [252]:
search_btn.click()

In [254]:
body = driver.find_element(By.TAG_NAME,'body')

In [256]:
body.send_keys(Keys.END)

In [258]:
driver.back()

In [86]:
driver.quit()

### 네이버 검색 심화
1. 크롬 브라우저 켜기
2. 네이버로 접속
3. CSS 선택자로 검색창 접근 -> 원하는 검색어 입력
4. ENTER 키 사용해서 검색
5. 검색 후 상단 '이미지' 탭 클릭
6. 뒤로가기
7. '뉴스'탭 클릭해서 들어가기(CSS선택자로 경로 잡을 것)
8. Selenium 코드를 활용하여 뉴스 기사 제목만 크롤링하기
9. 크롤링된 기사를 No 1번부터 인덱스로 설정해서 DF로 만들기
10. 뒤로가기 두번 실행해서 다시 네이버 메인으로 이동
11. 크롬창 종료(메모리 삭제)

In [282]:
#1
driver = wb.Chrome()

In [284]:
#2
driver.get('https://naver.com')

In [286]:
#3
find = driver.find_element(By.ID,'query')
find.send_keys('손흥민')

In [288]:
#4
find.send_keys(Keys.ENTER)

In [264]:
#5
image = driver.find_element(By.XPATH,'//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[2]/a')

In [266]:
#5
image.click()

In [268]:
#6
driver.back()

In [290]:
#7
news = driver.find_element(By.CSS_SELECTOR,'.tab:nth-child(1)')
news.click()

In [292]:
#8
body = driver.find_element(By.TAG_NAME,'body')
body.send_keys(Keys.END)

In [294]:
#9
headline_list = []
headlines = driver.find_elements(By.CSS_SELECTOR,'.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1')

for i in headlines:
    headline = i.text
    headline_list.append(headline)

headline_list

['“캡틴 축하해” 33세 생일 맞은 손흥민… 이적설은 여전',
 '손흥민, 떠날까 남을까…토트넘의 복잡한 계산법',
 '영국 매체 "토트넘의 왼쪽 날개 주전은 여전히 손흥민"',
 '싸이 의정부 ‘흠뻑쇼’, 손흥민도 봤다',
 "'33세 생일 하루 남은' 손흥민, 싸이 콘서트서 머리 식혔다",
 '영국 매체 "손흥민, LAFC 제의 거절…사우디 클럽 관심은 계속"',
 "양민혁은 생존 경쟁, '프리시즌 스타트!!' 손흥민은 거취 면담 앞둬",
 "'이럴 수가' 손흥민 매각→토트넘 새 주장 선임 시나리오 등장…프랭크...",
 '이동경, 환상 감아차기 슛 "손흥민과 비교? 이제 한 골인 걸요"',
 '‘손흥민 효과 노리나’ 메가MGC커피, 대세 아이돌 라이즈 발탁',
 '손흥민의 행선지는 사우디? 미국? 토트넘 잔류도 열렸다',
 '“손흥민 향한 사우디 관심 남아있다, 거취 본격화”…김민재·이강인은...',
 "손흥민, '흠뻑쇼' 생애 첫 관람…싸이 만났다",
 "'참 호감이네' 포로, 손흥민 세리머니부터 양민혁 챙기기까지...친한파...",
 '손흥민 대체자로 지목된 쿠두스…토트넘·웨스트햄 간 협상 계속',
 'CEO가 손흥민 찐팬, 에어아시아 16조원 투자 새 항공기 도입',
 "'싸이 흠뻑쇼 첫 관람' 손흥민, 감독 면담하고 韓 투어까지…당장 토트...",
 '\'손흥민 이적\' 생각 말고 남아달라는 아우성, "여전히 토트넘에서 선발...',
 '\'손흥민 이적 일단 멈춰!\' 토트넘이 망설이는 이유는 분명, "엄청난 액수...',
 '[속보] ‘10년 동행 마침표’ 손흥민, 토트넘 떠난다…다만 LA FC 이적은...']

In [296]:
#10
headline_dic = {'headline':headline_list}
headline_df = pd.DataFrame(headline_dic, index = range(1,len(headline_list)+1))
headline_df.index.name = 'No'
headline_df

Unnamed: 0_level_0,headline
No,Unnamed: 1_level_1
1,“캡틴 축하해” 33세 생일 맞은 손흥민… 이적설은 여전
2,"손흥민, 떠날까 남을까…토트넘의 복잡한 계산법"
3,"영국 매체 ""토트넘의 왼쪽 날개 주전은 여전히 손흥민"""
4,"싸이 의정부 ‘흠뻑쇼’, 손흥민도 봤다"
5,"'33세 생일 하루 남은' 손흥민, 싸이 콘서트서 머리 식혔다"
6,"영국 매체 ""손흥민, LAFC 제의 거절…사우디 클럽 관심은 계속"""
7,"양민혁은 생존 경쟁, '프리시즌 스타트!!' 손흥민은 거취 면담 앞둬"
8,'이럴 수가' 손흥민 매각→토트넘 새 주장 선임 시나리오 등장…프랭크...
9,"이동경, 환상 감아차기 슛 ""손흥민과 비교? 이제 한 골인 걸요"""
10,"‘손흥민 효과 노리나’ 메가MGC커피, 대세 아이돌 라이즈 발탁"


In [298]:
#10
driver.back()
driver.back()

In [300]:
#11
driver.quit()