### selenium
- `https://www.selenium.dev`
- 브라우저의 자동화를 목적으로 만들어진 다양한 브라우저와 언어를 지원하는 라이브러리
- 브라우저를 파이썬 코드로 컨트롤해서 브라우저에 있는 데이터를 수집

- 환경설정
    - 크롬 브라우저 설치
    - 크롬 브라우저 드라이버 다운로드 (크롬 브라우저와 같은 버전) -> 크롬 브라우저와 파이썬 코드 연결
        - 다운로드한 드라이버 압축 해제
        - chromedriver, chromedriver.exe 생성
        - windows : 주피터 노트북 파일과 동일한 디렉토리에 chromedriver.exe 파일 업로드
        - mac : sudo cp ~/Download/chromedirver /usr/local/bin
    - selenum 패키지 설치
    - optional) 크롬 브라우저의 드라이버 파일을 환경변수로 등록하면 쉽게 사용 가능

In [1]:
# install selenium
# !pip install selenium

In [1]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By

In [2]:
# 1. 브라우저 띄우기
driver = webdriver.Chrome()

In [3]:
# 2. 페이지 이동
driver.get("https://daum.net")

In [4]:
# 3. 브라우저 사이즈 조절
driver.set_window_size(200, 600)

In [5]:
# 4. 브라우져 스크롤 조절(Javascript 코드 실행)
driver.execute_script("window.scrollTo(200, 300);")

In [6]:
# 5. alert 다루기
driver.execute_script("alert('hello selenium!');")

In [7]:
alert = driver.switch_to.alert # alert 객체 정의
alert.accept()

In [15]:
driver.execute_script("window.scrollTo(0, 000);")

In [9]:
!pip list | grep selenium

selenium                      4.3.0


In [9]:
# 6. input 창에 문자열 입력
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("파이썬") # input 창의 id = 'q'

In [10]:
# 7. 검색 버튼 클릭
driver.find_element(By.CSS_SELECTOR, '.inner_search > .ico_pctop.btn_search').click() 
# 콤마로 구분 시 or 조건이 적용되고 붙여서 입력 시 and 조건 적용

In [16]:
# 8. 브라우져 종료
driver.quit()

-> 위의 코드를 한 셀에 통합하여 브라우저를 자동화할 수 있음

### 텍스트 데이터 가져오기
- TED 사이트 : `https://www.ted.com`

In [17]:
# 1. 브라우저 열기 테드 사이트 열기
driver = webdriver.Chrome()

In [18]:
# 2. 페이지 이동
driver.get("https://www.ted.com/talks")

In [19]:
# 3. 제목 데이터 텍스트 가져오기
# CSS Selector를 이용하여 HTML 태그와 태그 사이의 text 데이터 가져오기
sub_title = driver.find_element(By.CSS_SELECTOR, "#banner-secondary").text
print(sub_title)

Join TED Recommends to get the best ideas, selected just for you


In [20]:
# 4. select box에서 한국어 메뉴 클릭 데이터 가져오기
# 이벤트 발생 기능(값 입력, 클릭 이벤트등)은 화면에 해당 엘리먼트가 보여야 함
driver.find_element(By.CSS_SELECTOR, '#languages [lang="ko"]').click() 
# 부등호(계층적 선택) 사용하려면 #languages > optgroup > [lang="ko"]

In [22]:
# 5. 전체 데이터의 제목과 링크 데이터 가져오기
contents = driver.find_elements(By.CSS_SELECTOR, "#browse-results > .row > .col") # 여러개를 찾을 때는 find_elements
len(contents)

36

In [28]:
title = contents[0].find_element(By.CSS_SELECTOR, '.media__message .ga-link').text # 하나만 찾을 때는 find_element
title

'스페인어의 역사 - 일란 스타반스(Ilan Stavans)'

In [30]:
# 링크 데이터 크롤링 (속성(attribute)값 가져오는 방법) : get_attribute()
link = contents[0].find_element(By.CSS_SELECTOR, '.media__message .ga-link').get_attribute('href')
link

'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko'

In [31]:
# 6. 데이터 프레임으로 만들기
data = []
for content in contents:
    data.append({
        'title': content.find_element(By.CSS_SELECTOR, '.media__message .ga-link').text,
        'link' : contents[0].find_element(By.CSS_SELECTOR, '.media__message .ga-link').get_attribute('href')
    })

In [32]:
df = pd.DataFrame(data)
df.head()

Unnamed: 0,title,link
0,스페인어의 역사 - 일란 스타반스(Ilan Stavans),https://www.ted.com/talks/ilan_stavans_a_brief...
1,암흑 물질의 수수께끼를 해결하는 방법,https://www.ted.com/talks/ilan_stavans_a_brief...
2,알코올은 어떻게 숙취를 일으킬까요?,https://www.ted.com/talks/ilan_stavans_a_brief...
3,가장 살기 좋은 나라는 어디일까?,https://www.ted.com/talks/ilan_stavans_a_brief...
4,높은 고도가 당신의 몸에 미치는 영향 - 앤드류 러버링(Andrew Lovering),https://www.ted.com/talks/ilan_stavans_a_brief...


In [33]:
driver.quit()

### 3. Headless
- 브라우저를 화면에 띄우지 않고 메모리 상에서만 브라우저를 실행하여 크롤링하는 방법
    - 메모리 사용이 줄어들지는 않음
- window가 지원되지 않는 환경에서 selenium 사용이 가능
- chrome version 60.0.0.0 이상부터 지원

In [34]:
# 현재 사용중인 크롬 버전 확인
driver = webdriver.Chrome()
version = driver.capabilities["browserVersion"]
print(version)
driver.quit()

104.0.5112.81


In [35]:
# headless 사용
options = webdriver.ChromeOptions()
options.add_argument('headless')

driver = webdriver.Chrome(options=options)
driver.get("https://www.ted.com/talks")
text = driver.find_element(By.CSS_SELECTOR, "#banner-secondary").text

driver.quit()
print(text)

Join TED Recommends to get the best ideas, selected just for you
