## 셀레니움 웹드라이버 
- 자동적으로 웹을 컨트롤 할 수 있는 스크래핑 Tool 중 하나이다. 
- 주로 동적인 웹사이트를 스크래핑 할 때 많이 사용한다. 

### 1. 셀레니움 설치 및 설정 방법 
1. 크롬 다운로드
2. 크롬드라이버 다운로드 -> https://chromedriver.chromium.org/downloads
    - 크롬 버전에 맞게 크롬드라이버를 받아야함!
    - 계속 다운로드 해야하는 번거로움이 있으므로 여기서는 Undetected Chromedriver를 사용 예정 
        - pip install undetected-chromedriver
3. 크롬드라이버 다운로드 후 원하는 디렉토리에 저장 
4. 크롬드라이버 실행시 저장한 디렉토리 path를 파이썬 파일 실행 후 설정해준다.
5. 셀레니움 실행 
    - pip install selenium

In [None]:
#  Undetected Chromedriver 사용! - 해당 드라이버를 사용하며 path는 필요 없음
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

driver = uc.Chrome()                        # 크롬드라이버 선언
driver.get("https://www.amazon.com")        # 지정된 url로 크롬드라이버로 접속

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

### 2. 셀리니움으로 웹사이트 요소를 찾고 선택하는 방법
- 셀레니움은 여러 요소들을 찾을 수 있다. 
    - name - tag 명 
    - class_name - tag 클래스 명
    - css_selector - CSS 요소 
    - xpath - HTML 경로 
    - ...

In [3]:
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://www.amazon.com/-/ko/dp/B08JXG2518/ref=d_pb_allspark_dp_sims_pao_desktop_session_based_sccl_3_4/137-4205210-2076769?pd_rd_w=YOpxg&content-id=amzn1.sym.6b5008ac-c24a-4aea-a3ea-015a531184f5&pf_rd_p=6b5008ac-c24a-4aea-a3ea-015a531184f5&pf_rd_r=P8KNZZ318D1F1YV7G1C5&pd_rd_wg=D2u0A&pd_rd_r=709f08ca-e3ba-456d-bbc4-8a15fac78a5a&pd_rd_i=B08JXG2518&psc=1"

driver.get(url)        # 지정된 url로 크롬드라이버로 접속

# 데이터 추출 
price = driver.find_element(By.XPATH, '//*[@id="corePrice_desktop"]/div/table/tbody/tr/td[2]/span[1]/span[2]').text  # 가격 추출 
price

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/532.2 (KHTML, like Gecko) Chrome/4.0.221.3 Safari/532.2


### 3. 셀레니움을 사용해서 웹사이트로 데이터 스크래핑 하기 
- 대상: python.org 
- 스크래핑할 데이터: Upcoming Events
    - 날짜 / 이벤트 명 
- 결과물 형태: 딕셔너리 

In [55]:
# solution 1
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://www.python.org/"

driver.get(url)        # 지정된 url로 크롬드라이버로 접속

# 데이터 추출
for i in range(1, 6):
    date_element = driver.find_element(By.XPATH, f'//*[@id="content"]/div/section/div[2]/div[2]/div/ul/li[{i}]/time').text
    event_name_element = driver.find_element(By.XPATH, f'//*[@id="content"]/div/section/div[2]/div[2]/div/ul/li[{i}]/a').text
    
    # 딕셔너리로 저장
    data_dict = {
        i: {
        "time": date_element,
        "name": event_name_element
        },
    }
    
    # 결과물 출력
    print(data_dict)
    
driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Opera/9.21 (Windows 98; U; en)
{1: {'time': '2023-09-21', 'name': 'Big PyData BBQ #5: Large Language Models'}}
{2: {'time': '2023-09-22', 'name': 'PyCon UK 2023'}}
{3: {'time': '2023-09-26', 'name': 'Time series forecasting for business'}}
{4: {'time': '2023-09-27', 'name': 'Python Meeting Düsseldorf'}}
{5: {'time': '2023-09-29', 'name': 'PyCon India 2023'}}


In [56]:
# solution 2
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://www.python.org/"

driver.get(url)        # 지정된 url로 크롬드라이버로 접속

# 데이터 추출
event_time = driver.find_elements(By.CSS_SELECTOR, ".event-widget time")
event_name = driver.find_elements(By.CSS_SELECTOR, ".event-widget li a")

# 딕셔너리 형태로 저장 
events = {}

for n in range(len(event_time)):
    events[n] = {
        "time": event_time[n].text,
        "name": event_name[n].text
    }

# 결과물 출력
print(events)

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; AS; rv:11.0) like Gecko
{0: {'time': '2023-09-21', 'name': 'Big PyData BBQ #5: Large Language Models'}, 1: {'time': '2023-09-22', 'name': 'PyCon UK 2023'}, 2: {'time': '2023-09-26', 'name': 'Time series forecasting for business'}, 3: {'time': '2023-09-27', 'name': 'Python Meeting Düsseldorf'}, 4: {'time': '2023-09-29', 'name': 'PyCon India 2023'}}


### 4. 공백 프로젝트에서 셀레니움 사용하기 & 다른 데이터 스크래핑하기 
- 위키피디아 사이트 스크래핑 
    - interaction.py 파일을 생성
    - 위키피디아 문서 개수 추출 
    - interaction 파일에 코드 작성 

In [12]:
# interaction.py
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://en.wikipedia.org/wiki/Main_Page"

driver.get(url)

# 문서 개수 추출
document_count = driver.find_element(By.CSS_SELECTOR, '#articlecount a')
print(document_count.text)

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/4.0 (compatible; MSIE 5.0; Windows XP) Opera 6.04  [de]
6,717,866


### 5. 셀리니움으로 양식 작성 및 버튼 클릭을 자동화하는 방법 

In [13]:
# 자동 클릭 1
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://en.wikipedia.org/wiki/Main_Page"

driver.get(url)

# 문서 개수의 앵커 태그의 하이퍼링크를 자동 클릭을 통해 제어하기
document_count = driver.find_element(By.CSS_SELECTOR, '#articlecount a')
document_count.click()

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14931


In [15]:
# 자동 클릭 2
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://en.wikipedia.org/wiki/Main_Page"

driver.get(url)

# view history 페이지 자동으로 클릭 
view_history = driver.find_element(By.LINK_TEXT, "View history")
view_history.click()

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (X11; Linux i686; rv:21.0) Gecko/20100101 Firefox/21.0


In [17]:
# 자동 타이핑
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://en.wikipedia.org/wiki/Main_Page"

driver.get(url)

search = driver.find_element(By.NAME, "search")
search.send_keys("Python")

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (X11; U; Linux i686; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.366.2 Safari/533.4


In [20]:
# 자동 엔터키 제어
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://en.wikipedia.org/wiki/Main_Page"

driver.get(url)

search = driver.find_element(By.NAME, "search")
search.send_keys("Python")
search.send_keys(Keys.ENTER)

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36


#### 과제: 아래의 사이트 url에 들어가서 셀레니움을 통해 자동으로 성, 이름, 이메일 주소를 입력 후 자동으로 Sigh Up버튼을 클릭하여라!

In [24]:
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "http://secure-retreat-92358.herokuapp.com/"

driver.get(url)

# 이름 입력 
first_name = driver.find_element(By.NAME, "fName")
first_name.send_keys("Gilbert")

# 성 입력 
last_name = driver.find_element(By.NAME, "lName")
last_name.send_keys("Kim")

# 이메일 입력 
email = driver.find_element(By.NAME, "email")
email.send_keys("kcs4912@gmail.com")

# 버튼 클릭 
button_click = driver.find_element(By.CSS_SELECTOR, "body > form > button")
button_click.click()

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.1 (KHTML, like Gecko) Chrome/6.0.414.0 Safari/534.1


### 6. 쿠키 클리커 프로젝트 
1. 게임 사이트로 가서 게임 방법을 익히기
     - http://orteil.dashnet.org/experiments/cookie/ (classic version)
2. 셀레니움과 파이썬으로 봇을 만들어 최대한 빨리 쿠키를 클릭 
3. 우측 창에서 구매 가능한 업그레이드 아이템이 있는지 5초마다 확인하여, 가장 비싼 아이템을 구매. 각 업그레이드 비용 대비 가진 돈(쿠키)을 확인해야 한다.
    - 예: 쿠키가 103개 있을 때, 할머니 아이템과 커서 아이템 둘 다 구매할 수 있지만, 할머니 아이템이 더 비싸므로 이 아이템을 구매한다. 
4. 게임 경과 5분 후, 봇을 멈추고 ‘1초당 쿠키 개수’를 출력 
5. 성공적으로 봇을 만들었다면, 게임을 더 잘 할 수 있는 방법으로 자유롭게 알고리즘을 수정. 
    - 예: 업그레이드를 확인하는 시간을 5초 대신 1초로 변경해 볼 수 있다. 혹은 구매 가능한 업그레이드 아이템을 전부 구매한다. 변경한 알고리즘으로 더 많은 ‘1초당 쿠키 개수’를 얻었다면, Q&A 게시판에서 알고리즘을 모두에게 공유해 보자.

In [37]:
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://orteil.dashnet.org/experiments/cookie/"
driver.get(url)

Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_3; nl-nl) AppleWebKit/527+ (KHTML, like Gecko) Version/3.1.1 Safari/525.20


In [39]:
# 쿠키 클릭 
cookie = driver.find_element(By.CSS_SELECTOR, "#cookie")
cookie.click()

In [53]:
# 1000번 쿠키 클릭 
for _ in range(0, 3000):
    cookie = driver.find_element(By.CSS_SELECTOR, "#cookie")
    cookie.click()

In [54]:
# 쿠키(돈) 확인
driver.find_element(By.CSS_SELECTOR, "#money").text

'7,184'

In [55]:
# 커서 구매 클릭 - 클릭시 5씩 증가로 변경
driver.find_element(By.CSS_SELECTOR, "#buyCursor").click()

In [45]:
# 할머니 구매 클릭 - 쿠키 7씩 증가 
driver.find_element(By.CSS_SELECTOR, "#buyGrandma").click()

In [46]:
# 팩토리 구매 클릭 - 쿠키 20씩 증가
driver.find_element(By.CSS_SELECTOR, "#buyFactory").click()

In [50]:
# Mine 구매 클릭 - 쿠키 50씩 증가
driver.find_element(By.CSS_SELECTOR, "#buyMine").click()

In [56]:
driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()    