## 셀레니움 웹드라이버 
- 자동적으로 웹을 컨트롤 할 수 있는 스크래핑 Tool 중 하나이다. 
- 주로 동적인 웹사이트를 스크래핑 할 때 많이 사용한다. 

### 1. 셀레니움 설치 및 설정 방법 
1. 크롬 다운로드
2. 크롬드라이버 다운로드 -> https://chromedriver.chromium.org/downloads
    - 크롬 버전에 맞게 크롬드라이버를 받아야함!
    - 계속 다운로드 해야하는 번거로움이 있으므로 여기서는 Undetected Chromedriver를 사용 예정 
        - pip install undetected-chromedriver
3. 크롬드라이버 다운로드 후 원하는 디렉토리에 저장 
4. 크롬드라이버 실행시 저장한 디렉토리 path를 파이썬 파일 실행 후 설정해준다.
5. 셀레니움 실행 
    - pip install selenium

In [None]:
#  Undetected Chromedriver 사용! - 해당 드라이버를 사용하며 path는 필요 없음
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

driver = uc.Chrome()                        # 크롬드라이버 선언
driver.get("https://www.amazon.com")        # 지정된 url로 크롬드라이버로 접속

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

### 2. 셀리니움으로 웹사이트 요소를 찾고 선택하는 방법
- 셀레니움은 여러 요소들을 찾을 수 있다. 
    - name - tag 명 
    - class_name - tag 클래스 명
    - css_selector - CSS 요소 
    - xpath - HTML 경로 
    - ...

In [3]:
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://www.amazon.com/-/ko/dp/B08JXG2518/ref=d_pb_allspark_dp_sims_pao_desktop_session_based_sccl_3_4/137-4205210-2076769?pd_rd_w=YOpxg&content-id=amzn1.sym.6b5008ac-c24a-4aea-a3ea-015a531184f5&pf_rd_p=6b5008ac-c24a-4aea-a3ea-015a531184f5&pf_rd_r=P8KNZZ318D1F1YV7G1C5&pd_rd_wg=D2u0A&pd_rd_r=709f08ca-e3ba-456d-bbc4-8a15fac78a5a&pd_rd_i=B08JXG2518&psc=1"

driver.get(url)        # 지정된 url로 크롬드라이버로 접속

# 데이터 추출 
price = driver.find_element(By.XPATH, '//*[@id="corePrice_desktop"]/div/table/tbody/tr/td[2]/span[1]/span[2]').text  # 가격 추출 
price

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/532.2 (KHTML, like Gecko) Chrome/4.0.221.3 Safari/532.2


### 3. 셀레니움을 사용해서 웹사이트로 데이터 스크래핑 하기 
- 대상: python.org 
- 스크래핑할 데이터: Upcoming Events
    - 날짜 / 이벤트 명 
- 결과물 형태: 딕셔너리 

In [55]:
# solution 1
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://www.python.org/"

driver.get(url)        # 지정된 url로 크롬드라이버로 접속

# 데이터 추출
for i in range(1, 6):
    date_element = driver.find_element(By.XPATH, f'//*[@id="content"]/div/section/div[2]/div[2]/div/ul/li[{i}]/time').text
    event_name_element = driver.find_element(By.XPATH, f'//*[@id="content"]/div/section/div[2]/div[2]/div/ul/li[{i}]/a').text
    
    # 딕셔너리로 저장
    data_dict = {
        i: {
        "time": date_element,
        "name": event_name_element
        },
    }
    
    # 결과물 출력
    print(data_dict)
    
driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Opera/9.21 (Windows 98; U; en)
{1: {'time': '2023-09-21', 'name': 'Big PyData BBQ #5: Large Language Models'}}
{2: {'time': '2023-09-22', 'name': 'PyCon UK 2023'}}
{3: {'time': '2023-09-26', 'name': 'Time series forecasting for business'}}
{4: {'time': '2023-09-27', 'name': 'Python Meeting Düsseldorf'}}
{5: {'time': '2023-09-29', 'name': 'PyCon India 2023'}}


In [56]:
# solution 2
from fake_useragent import UserAgent

import undetected_chromedriver as uc 
from selenium.webdriver.common.by import By

# fake user 사용 
us = UserAgent(verify_ssl=False)
userAgent = us.random
print(userAgent)

# 크롬드라이버 옵션 선언
options = uc.ChromeOptions()

# 크롬드라이버 headless 옵션 
# options.headless=True
# options.add_argument('--headless')   
options.add_argument("--no-sandbox")  

options.add_argument(f'user-agent={userAgent}')  # fake user 설정 
options.add_argument("--load-images=yes")        # 이미지 로드 설정 
options.add_argument("--disable-extensions")     # 비활성화 - 어떤 것을 비활성화 하는지 잘 모르겠음 
options.add_argument("--disable-gpu")            # gpu 가속 사용 제외
options.add_argument("--lang=ja-JP")             # 가짜 플러그인 탑재 - 일본어 설정 
driver = uc.Chrome(options=options)              # 설정된 크롬드라이버 선언

# url 설정 
url = "https://www.python.org/"

driver.get(url)        # 지정된 url로 크롬드라이버로 접속

# 데이터 추출
event_time = driver.find_elements(By.CSS_SELECTOR, ".event-widget time")
event_name = driver.find_elements(By.CSS_SELECTOR, ".event-widget li a")

# 딕셔너리 형태로 저장 
events = {}

for n in range(len(event_time)):
    events[n] = {
        "time": event_time[n].text,
        "name": event_name[n].text
    }

# 결과물 출력
print(events)

driver.close()                              # 크롬드라이버 닫기 - 현재 띄워진 단일 탭을 닫는 역할 
driver.quit()                               # 크롬드라이버 종료 - 전체 브라우저 종료

Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; AS; rv:11.0) like Gecko
{0: {'time': '2023-09-21', 'name': 'Big PyData BBQ #5: Large Language Models'}, 1: {'time': '2023-09-22', 'name': 'PyCon UK 2023'}, 2: {'time': '2023-09-26', 'name': 'Time series forecasting for business'}, 3: {'time': '2023-09-27', 'name': 'Python Meeting Düsseldorf'}, 4: {'time': '2023-09-29', 'name': 'PyCon India 2023'}}
