## 동적 크롤링이 가능한 Selenium을 사용해보자
- BeautifulSoup과 달리 파이썬 코드를 통해서 사람이 할 수 있는 웹 브라우저의 모든 기능을 제어할 수 있음
- 사람이 실제로 인터넷을 사용하는 것과 동일한 순서대로 코드를 작성해야함
- selenium은 동적 페이지에서도 동작하기 위해 페이지가 바뀌는 순간 모든 데이터가 초기화 되므로 페이지의 변화에 맞게 코드를 작성해서 접근해야함

In [54]:
!pip install selenium



In [55]:
# webdriver : 웹을 통제하는 기능을 가진 모듈
from selenium import webdriver as wb

### 크롬 브라우저 실행

In [56]:
driver = wb.Chrome()

# 'Chrome이 자동화된 테스트 소프트웨어에 제어되고 있습니다' 문구가 떠 있는지 확인할 것(창이 꺼져 있으면 제어를 할 수 없음)

### 네이버 페이지로 이동

In [57]:
# get : 웹 페이지 이동 함수
 # driver 객체는 기본적으로 크롬 브라우저로써 동작하므로 인증을 내포하고 있어 headers 설정을 해 줄 필요가 없음
driver.get("https://www.naver.com")

# bs에서 사용했던 bs객체화를 시켜줄 필요가 없음

### 검색창에 특정 단어 입력
- 컴퓨터에게 검색창을 먼저 찾게해야하며 이 때 검색창에 대한 태그나 선택자를 알아야 접근이 가능함

In [58]:
# By : selenium에서 선택자를 구분해주는 함수
from selenium.webdriver.common.by import By

# find_element : selenium에서 웹의 특정 요소를 찾아주는 함수(여러개를 찾고 싶으면 find_elements로 설정)
 #CSS_SELECTOR : CSS선택자를 찾아주는 인자
search = driver.find_element(By.CSS_SELECTOR, '#query')          # (By.ID, "query")와 동일함

In [59]:
# send_keys : 특정 문자를 입력시켜주는 함수
search.send_keys('카리나')

### ENTER 키 누르기

In [60]:
# keys : 키보드를 통해 값을 입력할 때 사용하는 함수 (키보드 역할)
from selenium.webdriver.common.keys import Keys

In [61]:
search.send_keys(Keys.ENTER)     # 자동완성으로 다른 사용가능한 키 목록을 볼 수 있음

### 뒤로가기

In [62]:
# 뒤로가기 버튼은 HTML요소가 아니라 브라우저의 고유 기능이므로 driver에서 동작시킴
driver.back()

### ENTER키 대신에 돋보기 검색 버튼 클릭하기

In [63]:
# 다시 브라우저 내에서 검색창에 접근
search = driver.find_element(By.CSS_SELECTOR, '#query') 

# 검색창에 키워드 작성
search.send_keys('오늘의 날씨')

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"#query"}
  (Session info: chrome=137.0.7151.122); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#nosuchelementexception
Stacktrace:
	GetHandleVerifier [0x0x7ff63f14cda5+78885]
	GetHandleVerifier [0x0x7ff63f14ce00+78976]
	(No symbol) [0x0x7ff63ef09bca]
	(No symbol) [0x0x7ff63ef60766]
	(No symbol) [0x0x7ff63ef60a1c]
	(No symbol) [0x0x7ff63efb4467]
	(No symbol) [0x0x7ff63ef88bcf]
	(No symbol) [0x0x7ff63efb122f]
	(No symbol) [0x0x7ff63ef88963]
	(No symbol) [0x0x7ff63ef516b1]
	(No symbol) [0x0x7ff63ef52443]
	GetHandleVerifier [0x0x7ff63f424eed+3061101]
	GetHandleVerifier [0x0x7ff63f41f33d+3037629]
	GetHandleVerifier [0x0x7ff63f43e592+3165202]
	GetHandleVerifier [0x0x7ff63f16730e+186766]
	GetHandleVerifier [0x0x7ff63f16eb3f+217535]
	GetHandleVerifier [0x0x7ff63f1559b4+114740]
	GetHandleVerifier [0x0x7ff63f155b69+115177]
	GetHandleVerifier [0x0x7ff63f13c368+10728]
	BaseThreadInitThunk [0x0x7ffbb963e8d7+23]
	RtlUserThreadStart [0x0x7ffbb9ddc34c+44]


In [None]:
# 이번에는 ID값으로 바로 접근
btn = driver.find_element(By.ID, 'search-btn')

In [None]:
# 해당 요소 클릭
btn.click()

In [None]:
driver.back()

#### XPATH로 절대 경로값 사용
- XPATH는 원하는 요소에 정확히 접근하기 위해 절대적인 경로를 가져오는 명령
- 하나의 요소에 정확히 접근할 때 사용하면 편리하나, 여러개의 요소에 접근해야 하거나 웹 페이지가 유동적으로 많이 변화하는 환경에서는 효율이 떨어질 수 있어서 상황에 맞게 적절히 사용하는 것이 좋음
- 따라서 변동사항이 적은 개별 요소를 추출할 때 사용하면 매우 편리함

In [None]:
search = driver.find_element(By.CSS_SELECTOR, '#query') 

search.send_keys('오늘의 날씨')

In [None]:
btn = driver.find_element(By.XPATH, '//*[@id="search-btn"]')
# 검색 버튼 HTML 코드를 우클릭해서 copy - copyXPATH 클릭 후 붙여넣기
btn.click()

### 스크롤 기능 사용하기
- 일반적으로 웹 페이지 내의 컨텐츠들은 body 태그 안에다 코드를 작성하게 됨
- 따라서 스크롤을 하기 위해서는 스크롤이 가능한 body태그 자체에 접근한 뒤 스크롤 기능을 활용해야 함

In [None]:
# TAG_NAME : 태그명으로 바로 접근 가능함
body = driver.find_element(By.TAG_NAME, 'body')
# find_element(By.CSS_SELECTOR, 'body.wrap-new.api_animation') 로 접근해도 무방함

# END : 키보드로 스크롤을 끝까지 내리는 명령
 # DOWN : 스크롤을 아래 방향으로 한번 클릭(방향키 아래쪽)
body.send_keys(Keys.END)

### 브라우저 창 닫기

In [None]:
# 닫기 버튼도 브라우저 자체에서 제공하는 기능
driver.close()
# close로 창을 닫아도 연결이나 메모리는 그대로 남아있는 상태!

In [None]:
# quit : 모든 창을 닫고 브라우저를 최종 종료(메모리도 모두 삭제)
driver.quit()

### [실습1] 네이버 검색
1. 크롬 브라우저 켜기
2. 네이버로 접속
3. CSS_SELECTOR로 검색창 접근 후 원하는 검색어 입력
4. 돋보기 검색 아이콘 클릭
5. 스크롤 끝까지 내리기
6. 뒤로 가기 버튼 눌러서 다시 메인으로 이동
7. 크롬창 종료(메모리까지 삭제)

In [None]:
from selenium import webdriver as wb

In [None]:
# 1
driver = wb.Chrome()

In [None]:
# 2
driver.get("https://www.naver.com/")

In [None]:
# 3
search = driver.find_element(By.CSS_SELECTOR, '#query')
search.send_keys("장마")

In [None]:
# 4
btn = driver.find_element(By.CSS_SELECTOR, '#search-btn')
btn.click()

In [None]:
# 5
body = driver.find_element(By.TAG_NAME, 'body')
body.send_keys(Keys.END)

In [None]:
# 6 
driver.back()

In [None]:
#7
driver.quit()

### [실습2] 네이버 검색 심화
1. 크롬 브라우저 켜기
2. 네이버로 접속
3. CSS_SELECTOR로 검색창 접근 - 원하는 검색어 입력
4. ENTER키 사용하여 검색
5. 검색 후 상단 '이미지' 탭 클릭
6. 뒤로가기
7. '뉴스'탭 클릭해서 들어가기(CSS_SELECTOR로 경로 잡을 것)
8. 스크롤 맨 밑으로 한 번 내리기
9. Selenium 코드를 활용하여 뉴스 기사 제목만 크롤링하기
10. 크롤링된 기사를 No를 1번부터 인덱스로 설정하여 DF로 만들기
11. 뒤로 가기 두 번 실행하여 다시 네이버 메인으로 이동
12. 크롬창 종료(메모리 삭제)

In [64]:
# 1
driver = wb.Chrome()

In [65]:
# n2
driver.get("https://www.naver.com/")

In [66]:
# 3
search = driver.find_element(By.CSS_SELECTOR, '#query')
search.send_keys("소다팝")

In [70]:
# 4
from selenium.webdriver.common.keys import Keys

In [73]:
search.send_keys(Keys.ENTER)

In [74]:
# 5
btn = driver.find_element(By.XPATH, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a')
btn.click()

In [84]:
# 6
driver.back()

In [96]:
# 7       *****
news_btn = driver.find_element(By.CSS_SELECTOR, 'div.api_flicking_wrap._conveyer_root > div.flick_bx:nth-child(8)')
news_btn.click()

In [100]:
# 8
body = driver.find_element(By.TAG_NAME, 'body')
body.send_keys(Keys.END)

In [103]:
# 9
news = driver.find_elements(By.CSS_SELECTOR, 'span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1')
news

[<selenium.webdriver.remote.webelement.WebElement (session="8290a8c5863b3ad1570da7a26b4e16b1", element="f.C6A597B3315A9833646EC0F94371E818.d.97C355CB15F5FA422BA22A2644B97AAD.e.100309")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8290a8c5863b3ad1570da7a26b4e16b1", element="f.C6A597B3315A9833646EC0F94371E818.d.97C355CB15F5FA422BA22A2644B97AAD.e.100377")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8290a8c5863b3ad1570da7a26b4e16b1", element="f.C6A597B3315A9833646EC0F94371E818.d.97C355CB15F5FA422BA22A2644B97AAD.e.100425")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8290a8c5863b3ad1570da7a26b4e16b1", element="f.C6A597B3315A9833646EC0F94371E818.d.97C355CB15F5FA422BA22A2644B97AAD.e.100495")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8290a8c5863b3ad1570da7a26b4e16b1", element="f.C6A597B3315A9833646EC0F94371E818.d.97C355CB15F5FA422BA22A2644B97AAD.e.100543")>,
 <selenium.webdriver.remote.webelement.WebElement (session="8290a

In [104]:
news[0].text

'스킨즈, ‘케이팝 데몬 헌터스’ 챌린지...소다팝→유어 아이돌 ‘칼각...'

In [105]:
# 10
news_list = []
for i in news :
    news_list.append(i.text)
news_list

['스킨즈, ‘케이팝 데몬 헌터스’ 챌린지...소다팝→유어 아이돌 ‘칼각...',
 '‘케데팝’ 넷플 잡고, 빌보드도 흔들었다[스경X초점]',
 "[이슈] 난리난 '케이팝 데몬헌터스' 글로벌 영화·음원차트 점령(종합)",
 '전세계가 "소다팝!"…\'케이팝 데몬헌터스\' 감독들도 감동한 흥행',
 '[K-EYES]"BTS가 사자보이즈를 알아봤다"넷플릭스가 계정소개 바꾼 이유....',
 '방탄소년단과 케이팝 데몬헌터스 만남 성사되나? 기대감↑',
 "'케이팝 데몬 헌터스' 6일째 글로벌 1위…OST 조회수도 폭발",
 '이름 때문에 우려 컸던 한국 애니, 넷플릭스 글로벌 1위 된 비결',
 "'케데헌' OST 5곡, 빌보드 '핫100' 새로 진입…7곡 동시 차트인",
 "[리뷰M] '케이팝 데몬 헌터스' K팝과 악귀 퇴치의 만남으로 단숨에 글로...",
 '16살 아이와 <케이팝 데몬 헌터스>를 보고 느낀 것',
 '하다하다 칸 광고제까지 휩쓴 K콘텐츠의 파죽지세',
 'K팝이 전 세계를 구마한다, ‘케이팝 데몬 헌터스’ 빌보드 강타',
 "[리뷰] K-POP 성공 방정식 그대로…넷플릭스 '케이팝 데몬 헌터스'",
 "'케이팝 데몬 헌터스' 보이밴드 노래, 방탄소년단 넘었다",
 "'국뽕' 없이 세계 장악한 K-팝 아이돌...'케이팝 데몬 헌터스'가 특별한...",
 'BTS가 세운 미국 스포티파이 기록 깬 케이팝 보이밴드 등장?',
 "무당·저승사자 아이돌 '케이팝 데몬 헌터스' 외국 음원 차트 점령",
 '사자보이즈 vs 헌트릭스, 빌보드 전쟁 시작됐다',
 "'케데헌' 열풍에 역자극 제대로…K팝스타, 챌린지부터 커버까지 [엑's 이...",
 '"컬러에 스며든 미소"…이승연, 핑크빛 여름→에너지 가득한 근황',
 '[SW뮤직] ‘케이팝 데몬 헌터스’ OST, 음원도 터졌다',
 '케이팝 데몬 헌터스·닥터비팡…애니 주인공 된 K팝 아이돌',
 '만질 순 없지만 실존하는 가상 세계 아이돌의 역사',
 '‘케이팝 데몬 헌터스’로 홈런 날린 안효섭, ‘전독시’는

In [112]:
import pandas as pd

In [116]:
# 11
news_list = []
for i in news :
    news_list.append(i.text)
news_list

print(len(news_list))

news_title_dict = {"뉴스 제목" : news_list}
news_df = pd.DataFrame(news_title_dict, index=range(1,31))
news_df.index.name = "No"
news_df

30


Unnamed: 0_level_0,뉴스 제목
No,Unnamed: 1_level_1
1,"스킨즈, ‘케이팝 데몬 헌터스’ 챌린지...소다팝→유어 아이돌 ‘칼각..."
2,"‘케데팝’ 넷플 잡고, 빌보드도 흔들었다[스경X초점]"
3,[이슈] 난리난 '케이팝 데몬헌터스' 글로벌 영화·음원차트 점령(종합)
4,"전세계가 ""소다팝!""…'케이팝 데몬헌터스' 감독들도 감동한 흥행"
5,"[K-EYES]""BTS가 사자보이즈를 알아봤다""넷플릭스가 계정소개 바꾼 이유...."
6,방탄소년단과 케이팝 데몬헌터스 만남 성사되나? 기대감↑
7,'케이팝 데몬 헌터스' 6일째 글로벌 1위…OST 조회수도 폭발
8,"이름 때문에 우려 컸던 한국 애니, 넷플릭스 글로벌 1위 된 비결"
9,"'케데헌' OST 5곡, 빌보드 '핫100' 새로 진입…7곡 동시 차트인"
10,[리뷰M] '케이팝 데몬 헌터스' K팝과 악귀 퇴치의 만남으로 단숨에 글로...


In [119]:
# 11
driver.back()

In [120]:
driver.back()

In [121]:
# 12
driver.quit()