### selenium
- `https://www.selenium.dev`
- 자동화를 목적으로 만들어진 다양한 브라우져와 언어를 지원하는 라이브러리
- 크롬 브라우져 설치
    - 크롬 브라우져 드라이버 다운로드 (크롬 브라우져와 같은 버전)
        - https://googlechromelabs.github.io/chrome-for-testing/
    - 다운로드한 드라이버 압축 해제
    - chromedriver, chromedriver.exe 생성
    - windows : 주피터 노트북 파일과 동일한 디렉토리에 chromedriver.exe 파일 업로드
    - mac : sudo cp ~/Download/chromedirver /usr/local/bin

In [2]:
# 환경설정
# 1. 크롬 브라우저 설치
# 2. 크롬 브라우저 드라이버 설치 (자동화 위한 다리 역할)
# 3. Selenium 패키지 설치

In [1]:
# !pip install selenium

In [1]:
# import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By

In [2]:
driver = webdriver.Chrome()

In [3]:
# 페이지 이동
driver.get("https://daum.net")

In [4]:
# 브라우져 사이즈 조절
driver.set_window_size(200, 600)

In [5]:
# alert 다루기
driver.execute_script("alert('hello selenium!!!');") # java script 코드 실행 가능

In [6]:
alert = driver.switch_to.alert
alert.accept() # 확인 버튼 눌러 alert msg 제거

In [7]:
# 팝업 닫기 버튼 클릭
driver.find_element(By.CSS_SELECTOR, '.link_close').click()

In [8]:
# 브라우져 스크롤 조절
driver.execute_script("window.scrollTo(200, 300);")

In [9]:
# 브라우져 스크롤 조절
driver.execute_script("window.scrollTo(0, 0);")

In [10]:
# 브라우져 사이즈 조절
driver.set_window_size(800, 800)

In [11]:
# 문자열 입력
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("셀레니움") # id가 q인 엘리먼트 선택 뒤 입력

In [12]:
# 문자열 입력
driver.find_element(By.CSS_SELECTOR, "#q").clear()

In [13]:
# 검색 버튼 클릭
driver.find_element(By.CSS_SELECTOR, '.btn_ksearch').click() # 클래스가 btn_ksearch인 엘리먼트 선택해 click event 발생시킴

In [14]:
# 브라우져 종료
driver.quit() # 100mb 넘게 브라우저가 차지하고 있던 메모리 반환. 그냥 x로 끄면 메모리에 남아있으므로

### 텍스트 데이터 가져오기
- TED 사이트 : `https://www.ted.com`

In [15]:
# 브라우져를 실행하여 테드 사이트 열기
driver = webdriver.Chrome()
driver.get("https://www.ted.com/talks")

# 태그 확인할 땐 열린 드라이버 탭 말고 새로운 탭으로 해야 파이썬과 브라우저 간의 연결이 끊기지 X

In [16]:
# CSS Selector를 이용하여 HTML 태그와 태그 사이의 text 데이터 가져오기
driver.find_element(By.CSS_SELECTOR, ".text-textPrimary-onLight").text # select_one과 같은 의미

'TED Talks: Discover ideas worth spreading'

In [18]:
# 제목 데이터 가져오기
selector = '.container > section > .relative > div:nth-child(2) > div > div'
contents = driver.find_elements(By.CSS_SELECTOR, selector) # select와 같은 의미
len(contents)

24

In [20]:
contents

[<selenium.webdriver.remote.webelement.WebElement (session="3b384e00356b4dbc772c935e0b585730", element="f.9A7CAF7F25F8ED0C8D9FF0B9A04944F6.d.A976337F13D59F48F106AACE89D3C697.e.76")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3b384e00356b4dbc772c935e0b585730", element="f.9A7CAF7F25F8ED0C8D9FF0B9A04944F6.d.A976337F13D59F48F106AACE89D3C697.e.77")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3b384e00356b4dbc772c935e0b585730", element="f.9A7CAF7F25F8ED0C8D9FF0B9A04944F6.d.A976337F13D59F48F106AACE89D3C697.e.78")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3b384e00356b4dbc772c935e0b585730", element="f.9A7CAF7F25F8ED0C8D9FF0B9A04944F6.d.A976337F13D59F48F106AACE89D3C697.e.79")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3b384e00356b4dbc772c935e0b585730", element="f.9A7CAF7F25F8ED0C8D9FF0B9A04944F6.d.A976337F13D59F48F106AACE89D3C697.e.80")>,
 <selenium.webdriver.remote.webelement.WebElement (session="3b384e00356b4dbc772c935e0

In [21]:
# 가장 처음 텍스트 데이터 가져오기
contents[0].find_element(By.CSS_SELECTOR, '.text-textPrimary-onLight').text

'Why are women still taken less seriously than men?'

In [22]:
# 전체 제목 데이터 가져오기
titles = []
for content in contents:
    title = content.find_element(By.CSS_SELECTOR, '.text-textPrimary-onLight').text
    titles.append(title)
titles[:3], len(titles)

(['Why are women still taken less seriously than men?',
  'The unsung heroes fighting malnutrition',
  'How to lead with radical candor'],
 24)

In [24]:
# 링크 데이터 크롤링 (속성(attribute)값 가져오는 방법)
links = []
selector = '[data-testid="TalkGrid Talk Item"]'
for content in contents:
    link = content.find_element(By.CSS_SELECTOR, selector).get_attribute("href") # .get과 같은 의미
    links.append(link)
links[-3:]

['https://www.ted.com/talks/ali_abu_awwad_and_ami_dar_an_israeli_and_a_palestinian_talk_peace_dignity_and_safety',
 'https://www.ted.com/talks/zainab_usman_how_sci_fi_informs_our_climate_future_and_what_to_do_next',
 'https://www.ted.com/talks/maryam_banikarim_life_s_an_obstacle_course_here_s_how_to_navigate_it']

In [25]:
driver.quit()

### 3. Headless
- 브라우져를 화면에 띄우지 않고 메모리상에서만 올려서 크롤링하는 방법 
- window가 지원되지 않는 환경에서 사용이 가능
- chrome version 60.0.0.0 이상부터 지원 합니다.

In [26]:
# 현재 사용중인 크롬 버전 확인
driver = webdriver.Chrome()
version = driver.capabilities["browserVersion"]
print(version)
driver.quit()

122.0.6261.112


In [None]:
# headless 사용
options = webdriver.ChromeOptions()
options.add_argument('headless')
driver = webdriver.Chrome(options=options)
driver.get("https://www.ted.com/talks")
text = driver.find_element(By.CSS_SELECTOR, ".text-textPrimary-onLight").text
driver.quit()
print(text)

In [39]:
# 리눅스 환경 등 서버컴퓨터엔 윈도우 없으므로.. 셀레니움 사용 위해 Headless 사용