# Selenium
- BeautifulSoup과 달리 파이썬 코드를 통해서 사람이 할 수 있는 웹 브라우저의 모든 기능을 제어할 수 있음
- 사람이 실제로 인터넷을 사용하는 것과 동일한 순서대로 코드를 작성해야함
- Selenium은 동적 페이지에서도 동작하기 위해 페이지가 바뀌는 순간 모든 데이터가 초기화가 되므로 페이지의 변화에 맞게 코드를 작성해서 접근해야함

In [None]:
!pip install selenium

In [1]:
# webdriver : 웹을 제어하는 클래스
from selenium import webdriver as wb
import pandas as pd

## Selenium으로 크롬창 제어하기

### 1) 크롬 브라우저 실행

In [2]:
driver = wb.Chrome()

- 크롬창이 뜨면 **'Chrome이 자동화된 테스트 소프트웨어에 제어되고 있습니다.'** 이 문구를 항상 띄워놔야 코드로 제어할 수 있음

### 2) 네이버 페이지로 이동

In [3]:
# get : driver 객체로 특정 사이트로 이동 명령
# (driver는 기본적으로 크롬 브라우저로 동작하므로 인증을 내포하고 있어 headers 설정이 필요X)
driver.get('https://naver.com/')

- Selenium의 Chrome함수로 만든 driver객체를 통해서 웹 브라우저에 연결해 있기 때문에 그때그때 정보를 요청하면서 화면의 HTML코드에 접근하므로 BS에서 사용한 파싱을 해줄 필요가 없음

### 3) 검색창에 특정 단어 입력
- 컴퓨터에게 검색창을 찾게 명령하기 위해서는 검색창 요소의 태그 및 선택자를 알아야 함

In [4]:
# By : selenium에서 선택자를 구분해주는 함수
from selenium.webdriver.common.by import By

In [5]:
# find_element : selenium이 지원하는 웹의 특정 하나의 요소를 찾아주는 함수
# CSS_SELECTOR : CSS 선택자를 찾아주는 인자
search = driver.find_element(By.CSS_SELECTOR, '#query')

# By.CSS_SELECTOR, '#query' 대신에 By.ID, 'query'  로 작성해도 됨

In [6]:
# send_keys : 특정 문자를 입력시켜주는 함수(여러번 실행하면 텍스트만 추가됨)
search.send_keys('트럼프')

### 4) 키보드 ENTER 누르기

In [7]:
# Keys : 키보드를 제어하는 함수
from selenium.webdriver.common.keys import Keys

In [8]:
# Keys.ENTER : 키보드 ENTER를 누르기
search.send_keys(Keys.ENTER)

### 5) 이전 페이지로 가기(뒤로가기)

In [10]:
# 뒤로가기 버튼은 HTML요소가 아닌 브라우저의 고유 기능
driver.back()

### 6) 돋보기 검색 버튼으로 검색

In [11]:
search = driver.find_element(By.CSS_SELECTOR, '#query')
search.send_keys('오늘 날씨')

In [12]:
btn = driver.find_element(By.CSS_SELECTOR, '#search-btn')
btn.click()   # 클릭

In [13]:
driver.back()

#### XPATH 절대 경로
- XPATH는 원하는 하나의 요소에 정확히 접근하기 위한 절대 경로를 가져오는 명령
- 하나의 요소에 접근할 때 사용하면 편리하나, 여러개의 요소에 접근해야하거나 웹 페이지가 유동적으로 변화하는 환경에서는 효율이 떨어짐
- 따라서 변동이 적은 개별 고정 요소를 추출할 때 사용하거나, 요소에 ID, Class와 같은 구분자가 제대로 붙어있지 않을 때 사용하면 좋음
- HTML 코드에서 우클릭 후 Copy - Copy XPATH 로 복사해서 사용

In [14]:
search = driver.find_element(By.CSS_SELECTOR, '#query')
search.send_keys('오늘 날씨')

# 돋보기 버튼 클릭시 XPATH 사용
btn = driver.find_element(By.XPATH, '//*[@id="search-btn"]')
btn.click()

### 7) 스크롤 기능 사용하기
- 일반적인 웹 페이지의 내용들은 모두 body 태그 내부에 코드를 작성하게 됨
- 즉, 스크롤을 하기 위해서는 스크롤이 가능한 전체 틀인 body 태그 자체를 선택한 뒤 스크롤 기능을 활용할 수 있음

In [15]:
# TAG_NAME : 태그 명으로 찾아주는 인자
body = driver.find_element(By.TAG_NAME, 'body')

# END키 입력(웹 페이지 화면에서 스크롤을 맨 밑으로 내리는 기능)
body.send_keys(Keys.END)

### 8) 브라우저 창 닫기

In [16]:
# 닫기 버튼도 크롬 브라우저에서 제공하는 기본 기능
driver.quit()

## [실습1] 네이버 검색
1. 크롬 브라우저 켜기
2. 네이버로 접속
3. CSS_SELECTOR로 검색창 접근, 그리고 원하는 검색어 입력
4. 돋보기 검색 아이콘 클릭
5. 스크롤 끝까지 내리기
6. 뒤로가기 버튼 눌러서 다시 메인으로 이동
7. 크롬 브라우저 창 종료

In [17]:
# 1
driver = wb.Chrome()

In [18]:
# 2
driver.get('https://naver.com/')

In [19]:
# 3
search = driver.find_element(By.CSS_SELECTOR, '#query')
search.send_keys('미국주식')

In [20]:
# 4
btn = driver.find_element(By.CSS_SELECTOR, '#search-btn')
btn.click()  

In [21]:
# 5
body = driver.find_element(By.TAG_NAME, 'body')
body.send_keys(Keys.END)

In [22]:
# 6
driver.back()

In [23]:
# 7
driver.quit()

## [실습2] 네이버 검색 심화
1. 크롬 브라우저 켜기
2. 네이버로 접속
3. CSS_SELECTOR로 검색창 접근 + 원하는 검색어 입력
4. ENTER키 사용하여 검색
5. 검색 후 상단의 '이미지' 탭 클릭(원하는대로 편하게 경로 잡기)
6. 뒤로가기
7. '뉴스' 탭 클릭해서 들어가기(CSS_SELECTOR로 경로 잡기)
8. 스크롤을 맨 밑으로 내리기
9. Selenium 코드를 활용해 뉴스 기사 제목 크롤링하기(find_elements 활용)
10. 크롤링 된 기사를 No를 1번부터 인덱스 설정하여 데이터프레임으로 만들기
11. 데이터프레임을 csv파일로 저장
12. 뒤로 가기 버튼 두 번 실행하여 메인으로 이동
13. 크롬창 종료

In [24]:
# 1
driver = wb.Chrome()

In [25]:
# 2
driver.get('https://naver.com')

In [26]:
# 3
search = driver.find_element(By.CSS_SELECTOR, '#query')
search.send_keys('몬스터 에너지 드링크')

In [27]:
# 4
search.send_keys(Keys.ENTER)

In [28]:
# 5
# 이미지 탭의 XPATH로 접근
image_tab = driver.find_element(By.XPATH, '//*[@id="lnb"]/div[1]/div/div[1]/div/div[1]/div[1]/a')
# CSS로 선택자를 잡을거면 (By.CSS_SELECTOR, 'a.tab')
image_tab.click()

In [29]:
# 6
driver.back()

In [30]:
# 7
# 뉴스 탭에 들어가기 위해 계층선택자를 사용(8번째 탭인 뉴스 탭을 선택하게 작성)
news_tab = driver.find_element(By.CSS_SELECTOR, 'div.api_flicking_wrap._conveyer_root > div.flick_bx:nth-child(8)')
news_tab.click()

In [33]:
# 8
body = driver.find_element(By.CSS_SELECTOR, 'body')
body.send_keys(Keys.END)

In [34]:
news = driver.find_elements(By.CSS_SELECTOR, 'span.sds-comps-text.sds-comps-text-ellipsis.sds-comps-text-ellipsis-1.sds-comps-text-type-headline1')
news
# 암호화가 되어있어서 바로 컨텐츠가 보이지는 않음

[<selenium.webdriver.remote.webelement.WebElement (session="f0a66af4c0861e1d237773a53e3ce665", element="f.1EFF4E65BD74B037E22B4FCD24B0B472.d.7F668E8EC220985FFCC0C598CE61592B.e.19404")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f0a66af4c0861e1d237773a53e3ce665", element="f.1EFF4E65BD74B037E22B4FCD24B0B472.d.7F668E8EC220985FFCC0C598CE61592B.e.19452")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f0a66af4c0861e1d237773a53e3ce665", element="f.1EFF4E65BD74B037E22B4FCD24B0B472.d.7F668E8EC220985FFCC0C598CE61592B.e.19500")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f0a66af4c0861e1d237773a53e3ce665", element="f.1EFF4E65BD74B037E22B4FCD24B0B472.d.7F668E8EC220985FFCC0C598CE61592B.e.19547")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f0a66af4c0861e1d237773a53e3ce665", element="f.1EFF4E65BD74B037E22B4FCD24B0B472.d.7F668E8EC220985FFCC0C598CE61592B.e.19598")>,
 <selenium.webdriver.remote.webelement.WebElement (session="f0a66af4c0

In [35]:
news[0].text

'각성한 몬스터 비버리지…3분기 실적에서 셀시어스 압도한 비결 [될종목...'

In [37]:
len(news)

20

In [38]:
news_list = [i.text.strip() for i in news]

# <위와 동일한 코드>
# news_list = []
# for i in news :
#     news_list.append(i.text.strip())

In [39]:
news_list

['각성한 몬스터 비버리지…3분기 실적에서 셀시어스 압도한 비결 [될종목...',
 '국내 1위 에너지 드링크 업체 몬스터 에너지, ‘코리안좀비’ 정찬성과...',
 '몬스터 제치고 GS25에서 에너지드링크 1위한 음료의 정체...100만 캔 돌파',
 "버티기 위한 조합… 에너지 음료 '섞어 마시기'가 보여주는 청년 피로사...",
 "음료 시장 주춤한데…'에너지음료' 인기만 고공행진",
 "할리스, 에너지 드링크 결합한 '몬스터 아메리카노' 출시",
 '‘미투’의 반란...‘레드불-몬스터’의 에너지 드링크 전쟁[허태윤의 ...',
 '몬스터 에너지, 코리안 좀비 정찬성과 스폰서십 계약 체결',
 '새로운 창세기, 사피엔스와 그의 친구들 - 채권자 4화',
 '한화생명e스포츠, \'몬스터 에너지\'와 신규 스폰서십 체결 "새로운 시너...',
 '몬스터 에너지, ‘LoL 챔피언’ 한화생명e스포츠와 스폰서십 체결',
 '“에너지 몬스터가 온다” 할리스, ‘몬스터 아메리카노’ 출시',
 '한화생명e스포츠, 몬스터 에너지와 신규 스폰서십 계약 체결',
 '무신사 × 글로벌 e스포츠 구단 젠지, 공식 파트너십 체결',
 'UFC, 몬스터 에너지와 양사 최다금액 다년계약',
 '더벤티, 에너지 드링크 몬스터 에너지와 콜라보 여름 시즌 메뉴 출시',
 '[오늘의 언박싱] 할리스, ‘몬스터 아메리카노’·이디야커피, ‘뚱쿠키...',
 "몬스터 에너지, 2025 젠지 완전체와 함께한 '몬스터 에너지 팬데이' 상황...",
 "몬스터 에너지 X 젠지, '몬스터 에너지 팬데이' 참가자 모집 이벤트 실...",
 '독극물센터 “에너지드링크 섭취 아동 관련 문의 증가” 20%↑']

In [40]:
# 10
news_dict = {"뉴스 제목":news_list}
news_df = pd.DataFrame(news_dict, index=range(1, len(news_list)+1))
news_df.index.name = "No"
news_df

Unnamed: 0_level_0,뉴스 제목
No,Unnamed: 1_level_1
1,각성한 몬스터 비버리지…3분기 실적에서 셀시어스 압도한 비결 [될종목...
2,"국내 1위 에너지 드링크 업체 몬스터 에너지, ‘코리안좀비’ 정찬성과..."
3,몬스터 제치고 GS25에서 에너지드링크 1위한 음료의 정체...100만 캔 돌파
4,버티기 위한 조합… 에너지 음료 '섞어 마시기'가 보여주는 청년 피로사...
5,음료 시장 주춤한데…'에너지음료' 인기만 고공행진
6,"할리스, 에너지 드링크 결합한 '몬스터 아메리카노' 출시"
7,‘미투’의 반란...‘레드불-몬스터’의 에너지 드링크 전쟁[허태윤의 ...
8,"몬스터 에너지, 코리안 좀비 정찬성과 스폰서십 계약 체결"
9,"새로운 창세기, 사피엔스와 그의 친구들 - 채권자 4화"
10,"한화생명e스포츠, '몬스터 에너지'와 신규 스폰서십 체결 ""새로운 시너..."


In [41]:
# 11
news_df.to_csv('몬스터드링크 뉴스기사.csv', encoding='utf-8')

In [None]:
# 12
driver.back()

In [None]:
# 13
driver.quit()

# 한솥 도시락 메뉴 및 가격 정보 크롤링

In [42]:
import time   # 컴퓨터의 시간을 제어하는 모듈

In [43]:
# 크롬 브라우저 켜기
driver = wb.Chrome()

# 한솥 도시락 페이지 요청
driver.get('https://www.hsd.co.kr/menu/menu_list')

- 한솥 도시락 페이지는 반응형 웹으로 브라우저의 크기에 따라 보이는 요소들이 달라짐
- 그 말인즉, 페이지의 크기에 따라 내부 요소들의 구조나 경로가 바뀔 가능성이 있다는 의미
- 우리는 크롤링 시 브라우저 창을 최대화 시켜 구조 변경의 위험을 최소화하여 크롤링을 진행

In [44]:
# 브라우저 화면 최대화
driver.maximize_window()

### 메뉴 이름과 가격 수집

In [45]:
titles = driver.find_elements(By.CSS_SELECTOR, 'h4.h.fz_03')
len(titles)

13

In [46]:
for i in titles :
    print(i.text)

[26.01/월,화요일 할인] 행사 진달래
[26.01/수,목요일 할인] 행사 돈까스도련님 고기고기
[26.01/금요일 할인] 행사 김치 제육 덮밥
[26.01/토요일 할인] 행사 돈까스 카레
[26.01/토요일 할인] 행사 더블 돈까스도련님
[26.01/일요일 할인] 행사 스팸 김치볶음밥
[26.01/일요일 할인] 행사 더블 칠리 찹쌀탕수육도련님
[26.01/매일 할인] 행사 단품 부대찌개
[26.01/매일 할인] 행사 단품 묵은지 김치찌개
[26.01/매일 할인] 행사 미니 찹쌀탕수육
[26.01/매일 할인] 행사 치킨 2조각
[26.01/매일 할인] 행사 토네이도 소세지
[26.01/매일 할인] 행사 스팸 1개


In [47]:
prices = driver.find_elements(By.CSS_SELECTOR, 'strong')
len(prices)

14

In [48]:
for i in prices :
    print(i.text)

7,100
5,900
4,100
4,100
8,500
4,100
6,900
4,200
3,700
1,900
1,500
1,200
800
개인정보처리방침


In [49]:
prices = driver.find_elements(By.CSS_SELECTOR, 'div.item-price > strong')
len(prices)

# HTML 요소 우클릭 - Copy - Copy selector 로 태그 및 선택자를 바로 가져올 수 있음
# (단, 개별 요소에 대한 내용이기 때문에 여러 데이터를 원할때는 범위를 변경할 수 있어야 함!)
#menuList_668 > div > div.item-text > div > strong
#menuList_669 > div > div.item-text > div > strong

13

In [50]:
for i in prices :
    print(i.text)

7,100
5,900
4,100
4,100
8,500
4,100
6,900
4,200
3,700
1,900
1,500
1,200
800


### '더보기' 버튼을 눌러 메뉴를 확장

In [51]:
btn = driver.find_element(By.CSS_SELECTOR, 'a.c_05')
btn.click()

In [52]:
# 더보기 버튼이 몇번이나 있을지 모르기 때문에 while문으로 반복 클릭
while True :
    btn = driver.find_element(By.CSS_SELECTOR, 'a.c_05')
    btn.click()
    time.sleep(2)   # 2초 대기 후 반복 실행
    # 더보기 버튼을 누르고 페이지가 뜨는 시간을 기다려주는 것(기다리는 시간이 없으면
    # 웹 페이지가 뜨기 전에 무한정 버튼을 클릭하게 되어 과부하가 걸릴 수 있고 심하면
    # 공격으로 오인해서 IP가 차단될 수 있음)

ElementNotInteractableException: Message: element not interactable
  (Session info: chrome=143.0.7499.193); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#elementnotinteractableexception
Stacktrace:
Symbols not available. Dumping unresolved backtrace:
	0x7ff6de4e88d5
	0x7ff6de4e8930
	0x7ff6de2c1465
	0x7ff6de31af66
	0x7ff6de30ce7f
	0x7ff6de341fda
	0x7ff6de30c746
	0x7ff6de36ac97
	0x7ff6de30ac29
	0x7ff6de30ba93
	0x7ff6de800620
	0x7ff6de7faf60
	0x7ff6de8196c6
	0x7ff6de505dd4
	0x7ff6de50ed7c
	0x7ff6de4f1ff4
	0x7ff6de4f21a5
	0x7ff6de4d7ed2
	0x7ff8cfaee8d7
	0x7ff8d126c53c


### try-except 예외처리
- 동적 크롤링은 변수 상황이 많기 때문에 예외처리를 정말 많이 사용하게 됨
  - **try** : 일반적으로 동작하는 코드
  - **except** : try문이 동작하지 않는 예외의 경우(에러 발생시) 작동되는 코드