# Selenium

- Beautiful Soup만으로 해결할 수 없는 것들이 있다.

	- 접근할 웹 주소를 알 수 없을 때 (로그인을 해야 한다거나...)

	- 웹페이지에서 자바스크립트를 사용하는 경우 (클릭을 해야하는 경우)

	- facebook, instagram, youtube 처럼 스크롤바를 내리면 계속 컨텐츠가 추가되는 동적 페이지

	- 티켓 예매처럼 날짜를 지정하고 자리를 지정하는 것처럼 웹 브라우저에서 조작이 필요한 경우

</br>

- Selenium은

  - 웹 브라우저를 원격 조작하는 도구이다.

  - 자동으로 URL을 열고 클릭 등을 가능하게 한다.

  - 스크롤, 문자 입력, 화면 캡처 등등 다양한 기능을 가지고 있다.
  

### 🔰 셀레니움 설치

- conda install selenium

In [40]:
# !pip install selenium

In [1]:
!pip list | findstr selenium

selenium                  4.16.0


In [2]:
import selenium

print(selenium.__version__)

4.15.2


### 🔰 selenium webdriver 사용하기

- `chromedriver`

    - 크롬 버전 확인
    - https://chromedriver.chromium.org/downloads
	
    - 위에서 내 크롬 버전에 맞는 드라이버가 없다면 아래의 깃허브 주소로 들어가 download json파일에서 원하는 버전의 드라이버 다운로드 링크를 확인할 수 있다.
    - https://github.com/GoogleChromeLabs/chrome-for-testing/blob/main/data/latest-versions-per-milestone-with-downloads.json

In [43]:
# from selenium import webdriver

# driver = webdriver.Chrome("../driver/chromedriver.exe") # 크롬 드라이버 경로 지정 
# --> AttributeError: 'str' object has no attribute 'capabilities'

# driver.get("https://www.naver.com") # get 명령으로 접근하고 싶은 주소 지정  

- 수업 코드에서는 오류 발생(수업 코드는 더이상 실행되지 않음)

- 참고 사이트 : https://dschloe.github.io/settings/2023/8/chrome_driver_settings_windows/

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service

# Chrome WebDriver의 실행 파일 경로 지정
chrome_driver_path = "../chromedriver-win64/chromedriver.exe"
service = Service(executable_path=chrome_driver_path)
options = webdriver.ChromeOptions()

# Chrome WebDriver 인스턴스 생성 및 실행 파일 경로 지정
driver = webdriver.Chrome(service=service, options=options)

# get() 함수로 접근하려는 웹 주소 지정
# driver.get() --> 빈 창이 열림
driver.get("https://www.naver.com")

In [4]:
driver.quit()

- `webdriver-manager`

	<p>
	위 방식은 하나의 치명적인 단점이 존재한다.</br>
	위의 코드는 매우 잘 작동하지만 Chrome이 새 버전으로 업그레이드될 때마다 ChromeDriver를 다시 다운로드해야 한다. 이 부분을 해결하고자 webdriver-manager 라이브러리가 나왔다.
	</p>

  - pip install webdriver-manager

In [5]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))
driver.get('https://www.naver.com/')

In [6]:
driver.quit()

</br>

-----

# Selenium Basic

- 원래는 웹 브라우저 테스트용으로 만들어진 모듈이다.
- 응용하여 웹 크롤링에 사용하는 것이다.

- 공식문서 참고: https://www.selenium.dev/documentation/
- https://selenium-python.readthedocs.io/locating-elements.html

In [26]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service

chrome_driver_path = "../chromedriver-win64/chromedriver.exe"
service = Service(executable_path=chrome_driver_path)
options = webdriver.ChromeOptions()

driver = webdriver.Chrome(service=service, options=options)
driver.get("https://pinkwink.kr")

### 🔰 화면 크기 설정

- 웹 크롤링하려는 데이터가 스크롤보다 위에 있어 창 화면에 보이지 않으면 에러가 날 수 있다.

- 최대한 한 화면에 많은 데이터가 표시되는 것이 유리하다.

- 화면 최대화 설정

In [8]:
driver.maximize_window()

- 화면 최소화 설정

In [10]:
driver.minimize_window()

- 화면(브라우저 창) 크기 조절

- 현재 driver로 열린 창(화면)에서만 액션을 취할 수 있다.

In [11]:
# driver.set_window_size(1920, 1080)
driver.set_window_size(900, 1080)

- 현재 화면(브라우저 창) 크기

In [12]:
driver.get_window_size()

{'width': 900, 'height': 1080}

In [13]:
driver.get_window_rect()

{'height': 1080, 'width': 900, 'x': 3368, 'y': 236}

- 새로 고침

In [14]:
driver.refresh()

- 뒤로 가기

In [None]:
# 첫번째 게시글 클릭
from selenium.webdriver.common.by import By

driver.find_element(
	By.CSS_SELECTOR, "#content > div.cover-masonry > div > ul > li:nth-child(1)"
).click()

In [15]:
driver.back()

- 앞으로 가기

In [16]:
driver.forward()

In [None]:
# 홈화면으로 돌아가기
driver.find_element(By.CSS_SELECTOR, "#header > h1 > a").click()

### 🔰 Selenium Tag 명령어

- `find_element`

	- find_element(By.CSS_SELECTOR, "") --> find, select_one 
	- find_elements(By.CSS_SELECTOR, "") --> find_all, select

- 클릭

![selenium_click](https://github.com/ElaYJ/Study_EDA/assets/153154981/4be2b585-0c4e-406b-a014-8bf53924ae65)

- `#` : id 속성을 의미
- `.` : class 속성을 의미
- `>` : 자식 태그, 바로 하위 태그를 의미

In [17]:
from selenium.webdriver.common.by import By

first_content = driver.find_element(
	By.CSS_SELECTOR, "#content > div.cover-masonry > div > ul > li:nth-child(1)"
)
first_content.click()

### 🔰 탭 제어

- 새로운 탭 생성

	- 자바스크립트 코드를 사용한다.

In [18]:
# 빈 페이시 생성
driver.execute_script("window.open('');")

In [19]:
driver.execute_script('window.open("https://www.naver.com");')

- 탭 이동

In [20]:
len(driver.window_handles)

3

In [23]:
driver.switch_to.window(driver.window_handles[1])

- 탭 닫기

	- 현재 활성화 되어 있는 탭이 닫힌다.

In [24]:
driver.close()

- 전체 창 닫기

	- close()나 quit() 함수로 닫지 않으면 크롬 창이 계속 열린 상태로 존재하게 된다.

In [25]:
driver.quit()

### 🔰 화면 스크롤

- 자바스크립트 코드를 활용한다.

- 참고 : https://hello-bryan.tistory.com/194

- 스크롤 가능한 높이

	- 자바스크립트 코드를 실행해서 스크롤 가능한 높이를 가져온다.

	- `"return document.body.scrollHeight"`
	
		- html document내 \<body>에서 스크롤 가능한 높이(길이)를 반환해줘

In [27]:
last_height = driver.execute_script("return document.body.scrollHeight")
last_height

5662

- 스크롤 화면 하단으로 이동

In [28]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

- 스크롤 화면 상단으로 이동

In [29]:
driver.execute_script("window.scrollTo(0, 0)")

- 스크린샷

In [30]:
driver.save_screenshot("./result_data/lib_selenium_screenshot.png")

True

- `ActionChanins`
  
    - 참고 문서 : https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common.action_chains

- 특정 태그 지점까지 스크롤 이동

![selenium_actionchains_scroll](https://github.com/ElaYJ/Study_EDA/assets/153154981/fa699fa0-cac8-474f-a702-eaf66adb519e)

In [33]:
driver.find_element(By.CSS_SELECTOR, "#content > div.cover-list > div > ul > li:nth-child(1)")

<selenium.webdriver.remote.webelement.WebElement (session="c7c17e3fdad6657f2a77a2e5657361a0", element="0D69837544E44CF20A6FB29BE46F5238_element_751")>

In [32]:
from selenium.webdriver import ActionChains

action = ActionChains(driver)

some_tag = driver.find_element(By.CSS_SELECTOR, "#content > div.cover-list > div > ul > li:nth-child(1)")
action.move_to_element(some_tag).perform()

In [34]:
driver.quit()

### 🔰 검색어 입력

In [35]:
from selenium.webdriver.chrome.service import Service
from selenium import webdriver

chrome_driver_path = "../chromedriver-win64/chromedriver.exe"
service = Service(executable_path=chrome_driver_path)
options = webdriver.ChromeOptions()

driver = webdriver.Chrome(options=options, service=service)

driver.get("https://www.naver.com")

In [40]:
# {'height': 1080, 'width': 900, 'x': 3368, 'y': 236}
driver.set_window_rect(x=3068, y=235, width=1200, height=1080)

{'height': 1080, 'width': 1200, 'x': 3068, 'y': 235}

- `CSS_SELECTOR`

    - 입력 창에 글자 넣기 

    - 화면에 입력 창이 보이지 않으면 입력할 수 없다.
	
![selenium_search_input_text](https://github.com/ElaYJ/Study_EDA/assets/153154981/3a6cb3b3-65bf-49f9-b13f-e2036a6f9547)

- 네이버 검색창에 검색어 입력

In [41]:
keyword = driver.find_element(By.CSS_SELECTOR, "#query")
keyword.send_keys("파이썬")

- 찾기(돋보기) 버튼 클릭

In [42]:
search_btn = driver.find_element(By.CSS_SELECTOR, "#sform > fieldset > button")
search_btn.click()

- 새로 입력하면 뒤에 추가로 붙음

In [44]:
driver.back()

In [46]:
keyword = driver.find_element(By.CSS_SELECTOR, "#query")
keyword.send_keys("파이썬")

In [47]:
keyword.send_keys("딥러닝")

- 초기화 후 검색어 입력

In [48]:
keyword.clear()
keyword.send_keys("python")

In [49]:
keyword.clear()

- `XPATH`

    - XML Path Language
    
    - CSS_SELECTOR와 완전 동일한 기능

    - xpath는 beautifulsoup4에서 사용할 수 없다.
    - 오직 selenium에서만 활용가능한다.

    - xpath를 이용할 때는 작은 따옴표를 사용할 것!

    </br>
    
    - `//`: 찾고자 하는 태그(id="query")의 최상위

    - `*`: 자손 태그(하위 태그들) 검색 => div, form

    - `/`: 자식 태그(한칸 바로 아래 태그) 검색 => div > form

    - `div[2]`: div 중에서 2번째 태그

In [50]:
driver.find_element(By.XPATH, '//*[@id="query"]').send_keys("xpath")

In [51]:
driver.find_element(By.XPATH, '//*[@id="sform"]/fieldset/button').click()

In [57]:
driver.quit()

In [58]:
chrome_driver_path = "../chromedriver-win64/chromedriver.exe"
service = Service(executable_path=chrome_driver_path)
options = webdriver.ChromeOptions()

driver = webdriver.Chrome(options=options, service=service)
driver.get("https://pinkwink.kr")

In [65]:
driver.set_window_position(x=3268, y=235)
driver.set_window_size(width=1000, height=1080)

- 동적 페이지

	- \<div class="search"> --> \<div class="search on">

![selenium_search_dynamic_page](https://github.com/ElaYJ/Study_EDA/assets/153154981/ba243327-630b-40ce-860f-a17c1d093ce6)

In [72]:
# 1. 돋보기 버튼 선택 : 동적 페이지

from selenium.webdriver import ActionChains

action = ActionChains(driver=driver)

search_tag = driver.find_element(By.CSS_SELECTOR, "#header > div.search")
action.click(search_tag)
action.perform()

In [73]:
# 2. 검색어 입력
driver.find_element(By.CSS_SELECTOR, "#header > div.search.on > input[type=text]").send_keys("딥러닝")

In [74]:
# 3. 검색 버튼 클릭
driver.find_element(By.CSS_SELECTOR, "#header > div.search.on > button").click()

</br>

-----

# Selenium + BeautifulSoup

In [75]:
from bs4 import BeautifulSoup

req = driver.page_source
soup = BeautifulSoup(req, "html.parser")

- 현재 화면의 html 코드 가져오기

In [77]:
driver.page_source

'<html lang="ko"><head>\n                <script src="https://pagead2.googlesyndication.com/pagead/managed/js/adsense/m202401040101/reactive_library_fy2021.js?bust=31080323"></script><script src="https://t1.kakaocdn.net/malibu_prod/normal_wpm.js" async=""></script><script src="https://pagead2.googlesyndication.com/pagead/managed/js/adsense/m202401040101/show_ads_impl_fy2021.js?bust=31080323" id="google_shimpl"></script><script type="text/javascript">if (!window.T) { window.T = {} }\nwindow.T.config = {"TOP_SSL_URL":"https://www.tistory.com","PREVIEW":false,"ROLE":"guest","PREV_PAGE":"","NEXT_PAGE":"","BLOG":{"id":371175,"name":"pinkwink","title":"PinkWink","isDormancy":false,"nickName":"PinkWink","status":"open"},"NEED_COMMENT_LOGIN":false,"COMMENT_LOGIN_CONFIRM_MESSAGE":"","LOGIN_URL":"https://www.tistory.com/auth/login/?redirectUrl=https://pinkwink.kr/search/%25EB%2594%25A5%25EB%259F%25AC%25EB%258B%259D","DEFAULT_URL":"https://pinkwink.kr","USER":{"name":null,"homepage":null,"id":0,"

- 위에서 실행한 "딥러닝" 검색 결과 창에서 포스트 가져오기

![selenium_beautifulsoup](https://github.com/ElaYJ/Study_EDA/assets/153154981/63e98919-6552-4186-a3a2-1832f983ff08)

In [78]:
contents = soup.select(".post-item")
contents

[<div class="post-item">
 <a href="/1447">
 <span class="thum">
 <img alt="" src="//i1.daumcdn.net/thumb/C264x200/?fname=https://blog.kakaocdn.net/dn/vYGHl/btsz9AzkVLv/XEDuxw2WIn0DdpF0IcPrz0/img.png"/>
 </span>
 <span class="title">핑크랩이 데이원컴퍼니의 제로베이스에 데이터분석 과정 수업 개발에 참여했습니다.</span>
 <span class="date">2023. 11. 12. 19:52</span>
 <span class="excerpt">일단, 워낙 데이원컴퍼니의 고유명사처럼 인식되는 패스트캠퍼스부터 시작해야겠네요. 저는 회사이름도 패스트캠퍼스이던 시절, 그 분들이 흔히들 신사역 반지하 시절이라고 이야기하는 시절에 처음 인연을 맺엇습니다. 그 후 패스트캠퍼스는 2021년 사내 회사의 개념으로 CIC(Company In Compayny) 제도로 본사 이름을 데이원컴퍼니, 그리고, 각 CIC 중에 기존의 패스트캠퍼스와 스노우볼, 레모네이드, 콜로서를 두었습니다. 데이원컴퍼니는 이상한 변호사 우영우의 촬영지로 유명한 센터필드에 입주해있으며, 처음 2014년 혹은 2015년부터 2019년까지 누적매출 천억을 성인 교육으로 돌파한 대단한 이력의 회사입니다. 아무튼 우리가 자주 패스트캠퍼스라고 이야기하는 회사는 데이원컴퍼니가 되었고, 그 중 한 C..</span>
 </a>
 </div>,
 <div class="post-item">
 <a href="/1446">
 <span class="thum">
 <img alt="" src="//i1.daumcdn.net/thumb/C264x200/?fname=https://blog.kakaocdn.net/dn/nWJOK/btsAc2O4tOi/3CKxe7CnJXCgUNpyBgCyb1/img.png"/>
 </span>
 <span class=

In [79]:
len(contents)

8

In [80]:
contents[2]

<div class="post-item">
<a href="/1442">
<span class="thum">
<img alt="" src="//i1.daumcdn.net/thumb/C264x200/?fname=https://blog.kakaocdn.net/dn/mqswu/btszojRvW84/iUyoT3foutdwx8x0vWDN7k/img.png"/>
</span>
<span class="title">핑크랩이 2023년 여름. 서울로봇아카데미의 교육을 진행했습니다.</span>
<span class="date">2023. 10. 29. 09:30</span>
<span class="excerpt">올해 2023년도 이제 2개월이 남았네요. 이런 느낌으로 한 해의 끝을 바라보는 것이 벌써 수십년째(헉.ㅠㅠ. 세월...)인데 여전히 한 해에 대한 아쉬움이 남습니다. 그러나 저와 저희 핑크랩(PinkLAB)은 23년을 정말 열심히 살았습니다. 그 중 여름에 진행한 서울로봇아카데미의 한 과정이 기억에 남습니다. 그 과정을 소개하려고 합니다. 핑크랩이 진행한 서울로봇아카데미 과정 서울로봇 아카데미는 서울시가 운영하는 로봇 교육 기관입니다. 서울로봇아카데미는 서울시의 위탁을 받아, 한국로봇산업협회와 한국로봇융합연구원이 서울로봇아카데미를 위탁 운영합니다. 그러니까 서울시가 주최기관이고, 한국로봇산업협회와 한국로봇융합연구원이 주관기관인거죠. 23년 여름에는 위 그림처럼 4개의 과정이 개설되었습니다. 그 중에서 ..</span>
</a>
</div>

In [81]:
driver.quit()