# **Selenium**

## **✅ What is Selenium?**

**Selenium**
- Webdriver라는 API를 통해 운영체제에 설치된 웹 브라우저를 제어하는 함수를 포함한 패키지

**Webdriver**
- Webdriver는 브라우저 종류에 따라 브라우저 제작 업체에서 제공
- 브라우저 종류와 버전별로 Webdriver가 다르게 제공됨
    - selenium 4.10 이전 버전에서는 driver를 직접 다운받아서 실행했어야 함
    - selenium 4.10부터는 따로 driver 다운 없이 Webdriver 객체변수 생성하여 진행 가능
    > service = Service()
    > 
    > options = webdriver.ChromeOptions()
    > 
    > driver = webdriver.Chrome(service=service, options=options)

## **⚙️ Selenium 설치**

In [1]:
# !pip install selenium

## **🗂️ Selenium 패키지**

In [3]:
import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By # 셀레니움 4.0부터 포함된 함수(필수)
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

## **🤓 Webdriver 객체변수 생성 함수**
- 동일한 과정이므로 함수로 사용하면 편함 :)

In [7]:
####### 원래 Procedures #######
# 1. 서비스 객체 생성
# service = Service()

# 2. Option 객체 생성 (브라우저에 해당되는 option을 생성해주어야 함; 나는 Chrome 사용)
# options = webdriver.ChromeOptions()

# 3. Driver 객체 생성 (브라우저에 해당되는 driver 모듈을 사용해주어야 함; 나는 Chrome 사용)
# driver = webdriver.Chrome(service=service, options=options)

In [8]:
####### 크롬 웹드라이버 생성 함수 #######
def create_driver():
    service = Service()
    options = webdriver.ChromeOptions()
    driver = webdriver.Chrome(service=service, options=options)
    return driver

## **🏗️ 2가지 파싱 방법 (Bs4 or Selenium Method)**

### **1️⃣ Html 소스 활용하여 Bs4 객체로 파싱**
- driver를 통해서 브라우저의 html 소스를 가져오기 (driver.page_source 속성 이용)  
- 전달되는 page_source는 javascript가 실행되고 이미지 등의 자원도 모두 마무리된 소스임

In [6]:
# Driver 객체 생성
## driver = create_driver()

# URL 접근
## url = 'https://comic.naver.com/genre/bestChallenge.nhn'
## driver.get(url)

# html 소스 가져오기
## html = driver.page_source

# bs4 객체 생성
## soup = bs4.BeautifulSoup(html, 'html.parser')

# bs4 파싱 하던대로 진행
## 예) soup.find(id='content')

### **2️⃣ Selenium 드라이버 함수 활용하여 파싱**

#### **⬇️ Procedures**

In [5]:
# Driver 객체 생성
## driver = create_driver()

# URL 접근
## url = 'https://comic.naver.com/genre/bestChallenge.nhn'
## driver.get(url)

# Selector 선택
## sel = '#content > div:nth-child(2) > ul > li > div'

# Webelement 객체 생성
## elem = driver.find_elements(By.CSS_SELECTOR, sel)

#### **⚙️ Methods**

##### **⚙️ WebDriver 객체**

<br>

**[findElement]**
- findElement(By) : 코드에서 조건에 맞는 태그 중 처음 나오는 태그(find)
- findElements(By) : 코드에서 조건에 맞는 모든 태그(findAll)

**[By]**
- driver.find_element(By.CLASS_NAME, "information")
- driver.find_element(By.CSS_SELECTOR, "#fname")
- driver.find_element(By.ID, "lname")
- driver.find_element(By.NAME, "newsletter")
- driver.find_element(By.LINK_TEXT, "Selenium Official Page")
- driver.find_element(By.PARTIAL_LINK_TEXT, "Official Page")
- driver.find_element(By.TAG_NAME, "a")
- driver.find_element(By.XPATH, "//input[@value='f']")
    
**[Webdriver 통해 script 코드 직접 실행]**
- driver.execute_script()

##### **⚙️ WebElement 객체**

<br>

**[content 추출 기능]**
- element.text : 내부 text
- element.get_attribute('innerHTML') : 내부 html
- element.get_attribute('innerText') : 내부 text
- element.get_attribute('href') : 내부 href

**[객체 Handling 기능]**
- element.click()
- element.clear()
- element.send_keys('값 입력') : 값은 현재 커서가 있는 곳으로 전달 됨 (커서에 따라 누적해서 전달된다는 의미) 

## **❤️‍🔥 Overall Selenium Process**

In [37]:
# 패키지 임포트
import selenium
from selenium import webdriver
from selenium.webdriver.common.by import By # 셀레니움 4.0부터 포함된 함수(필수)
from selenium.webdriver.chrome.service import Service
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np

In [5]:
# 크롬 웹드라이버 생성 함수
def create_driver():
    service = Service()
    options = webdriver.ChromeOptions()
    driver = webdriver.Chrome(service=service, options=options)
    return driver

In [None]:
# 1. Driver 객체 생성
# driver = create_driver()

In [None]:
# 2. URL 접근
# url = 'https://map.naver.com'
# driver.get(url)

In [None]:
# 3. Actions

# Selector 선택
# sel = '#content > div:nth-child(2) > ul > li > div'

# Webelement 객체 생성
# elem = driver.find_elements(By.CSS_SELECTOR, sel)

# 출력
# elem[0].get_attribute('innerHTML')
# elem[0].get_attribute('innerText')

In [None]:
# 4. 드라이버 종료 (드라이버 계속 켜두면 자원낭비 심함) 
# driver.close()

In [59]:
# Driver 객체 생성
driver = create_driver()

In [60]:
# URL 접근
url = 'https://nid.naver.com/nidlogin.login?mode=form&url=https://www.naver.com/'
driver.get(url) # session 1개 생성 : 네이버사이트

In [68]:
# ID/PW 변수 생성
id_input = 'makino430'
pw_input = '비밀번호'

In [69]:
# ID/PW 입력하는 input 태그에 값을 설정하는 javascript 코드 생성
id_script = "document.getElementsByName('id')[0].value='"+id_input+"'"
pw_script = "document.getElementsByName('pw')[0].value='"+pw_input+"'"

In [74]:
# javascript 코드를 통해서 값을 전달하기
driver.execute_script(id_script)
driver.execute_script(pw_script)

In [75]:
# 로그인 버튼 클릭하기 
xpath = '//*[@id="log.login"]'
login_btn = driver.find_element(By.XPATH, xpath)
login_btn.click()

In [76]:
# 로그인 된 상태에서 메일 페이지 접근
driver.get('http://mail.naver.com')

In [77]:
# driver close
driver.close()