## selenium

### 크롤링 방법  

- requests: json
    1. 웹페이지의 API 트래픽 분석해서 데이터 수집: naver stock
    2. 공식적으로 제공하는 API를 application key 받아서 데이터 수집: naver api(papago, trend)
- requests: html, bs(css selector)
    3. 웹페이지의 html 코드 받아서 데이터 수집: gmarket
- selenium: browser > python
    4. 브라우저를 파이썬 코드로 컨트롤해서 데이터 수집: ted

**크롤링할때 좋은 순서: 2 > 1 > 3 > 4** 

### selenium
- `https://www.selenium.dev`
- 자동화를 목적으로 만들어진 다양한 브라우져와 언어를 지원하는 라이브러리
- 브라우저를 파이썬 코드로 컨트롤 해서 브라우저에 있는 데이터를 수집

#### 환경설정
- 크롬 브라우져 설치
- 크롬 브라우져 드라이버 다운로드 (**크롬 브라우져와 같은 버전**)
    - 크롬브라우져와 파이썬코드 연결
    - opt: 크롬 브라우져의 드라이버 파일을 환경변수로 등록하면 조금 쉽게 사용
- selenium 패키지 설치


In [7]:
# install selenium
# !pip install selenium

In [2]:
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By

In [18]:
# 브라우저 띄우기
driver = webdriver.Chrome()

In [19]:
# 페이지 이동
driver.get("https://daum.net")

In [12]:
# 브라우져 사이즈 조절
driver.set_window_size(200, 600)

In [13]:
# 브라우져 스크롤 조절(자바스크립트 코드 실행)
driver.execute_script("window.scrollTo(200, 300);")

In [14]:
# alert 다루기
driver.execute_script("alert('hello selenium!!!');")

In [15]:
# alert 창 제거
alert = driver.switch_to.alert
alert.accept()

In [9]:
!pip list | grep selenium

selenium                      4.3.0


In [16]:
driver.execute_script("window.scrollTo(0, 0);")

In [20]:
# input 창에 문자열 입력
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("AIVLE")

In [21]:
# 검색 버튼 클릭
# ico_pctop btn_search
# 계층적 구조
driver.find_element(By.CSS_SELECTOR, '.inner_search > .ico_pctop.btn_search').click()

In [24]:
# 브라우져 종료
driver.quit()

In [23]:
# 브라우저 자동화
driver = webdriver.Chrome()
driver.get("https://daum.net")
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("AIVLE")
driver.find_element(By.CSS_SELECTOR, '.inner_search > .ico_pctop.btn_search').click()
driver.quit()

### 텍스트 데이터 가져오기
- TED 사이트 : `https://www.ted.com/talks`

In [6]:
# 브라우져를 실행하여 테드 사이트 열기
driver = webdriver.Chrome()
driver.get("https://www.ted.com/talks")

In [7]:
# CSS Selector를 이용하여 HTML 태그와 태그 사이의 text 데이터 가져오기
sub_title = driver.find_element(By.CSS_SELECTOR, "#banner-secondary").text
sub_title

'Join TED Recommends to get the best ideas, selected just for you'

In [9]:
# 셀렉트 박스를 선택후 데이터 가져오기
# 한국어 선택
driver.find_element(By.CSS_SELECTOR, '#languages [lang="ko"]').click()

In [10]:
# 전체 데이터의 제목과 링크 데이터 수집
contents = driver.find_elements(By.CSS_SELECTOR, "#browse-results > .row > .col")
len(contents)

36

In [14]:
# 가장 처음 텍스트 데이터 가져오기
title = contents[0].find_element(By.CSS_SELECTOR, 'h4 > .ga-link').text
link = contents[0].find_element(By.CSS_SELECTOR, 'h4 > .ga-link').get_attribute("href")
title, link

('스페인어의 역사 - 일란 스타반스(Ilan Stavans)',
 'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko')

In [19]:
# 전체 제목 데이터 가져오기
data = []
for content in contents:
    data.append({
        "title": content.find_element(By.CSS_SELECTOR, 'h4 > .ga-link').text,
        "link": content.find_element(By.CSS_SELECTOR, 'h4 > .ga-link').get_attribute("href")
    })
data[:3], len(data)

([{'title': '스페인어의 역사 - 일란 스타반스(Ilan Stavans)',
   'link': 'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko'},
  {'title': '암흑 물질의 수수께끼를 해결하는 방법',
   'link': 'https://www.ted.com/talks/chanda_prescod_weinstein_the_search_for_the_invisible_matter_that_shapes_the_universe?language=ko'},
  {'title': '알코올은 어떻게 숙취를 일으킬까요?',
   'link': 'https://www.ted.com/talks/judy_grisel_how_does_alcohol_cause_hangovers?language=ko'}],
 36)

In [20]:
driver.quit()

### 3. Headless
- 브라우져를 화면에 띄우지 않고 메모리상에서만 올려서 크롤링하는 방법 
- window가 지원되지 않는 환경에서 selenium 사용이 가능
- chrome version 60.0.0.0 이상부터 지원 합니다.

In [21]:
# 현재 사용중인 크롬 버전 확인
driver = webdriver.Chrome()
version = driver.capabilities["browserVersion"]
print(version)
driver.quit()

104.0.5112.79


In [22]:
# headless 사용
options = webdriver.ChromeOptions()
options.add_argument('headless')

driver = webdriver.Chrome(options=options)

driver.get("https://www.ted.com/talks")
text = driver.find_element(By.CSS_SELECTOR, "#banner-secondary").text
driver.quit()
print(text)

Join TED Recommends to get the best ideas, selected just for you


In [25]:
# data > train(8h) > model(ram) > computer off
# model > ssd(hdd)

In [26]:
import pickle
# ram > ssd
# with open("model.pkl", "wb") aas file:
#     pickle.dump(model, file)

In [27]:
# ssd > ram
# with open("model.pkl", "rb") as file:
#    load_model = pickle.load(file)