### 웹크롤링 방법
- 동적 페이지: json -> response.json() ->dict, list -> DataFrame
- 정적 페이지: html -> bs -> css-selector -> text -> DataFrame
- selenium을 이용한 크롤링
    - 동적 페이지, 정적 페이지, API의 방법으로 데이터를 수집할 수 없을 때 사용
    - 파이썬 코드로 컨트롤할 수 있는 자동화된 브라우저를 띄워 크롤링할 페이지로 이동한 후에 브라우저에 있는 정보를 수집
    - 웹서비스 테스트 자동화를 목적으로 만들어진 패키지, 다양한 언어 및 브라우저 지원

- 크롤링 방식에 따른 속도
    - 동적 페이지(json, api) > 정적 페이지(html) >>> selenium(browser)

- 설정
    - 패키지 인스톨: !pip install selenium
    - 크롬 드라이버 다운로드
    - 압축해제
    - 현재 디렉토리로 파일 이동

In [1]:
import pandas as pd
from selenium import webdriver

In [5]:
# 브라우저 열기
driver = webdriver.Chrome()

In [6]:
# 페이지 이동
driver.get("https://daum.net")

In [7]:
# 브라우저 사이즈 조절
driver.set_window_size(900,1000)

In [None]:
# 브라우저 종료: 메모리 100M 절약
driver.quit()

### ted 사이트에서 영상 목록 데이터 수집

In [19]:
# 1. 브라우저 열기
driver = webdriver.Chrome()

In [20]:
# 2. 테드 사이트로 이동
driver.get("https://ted.com/talks")

In [26]:
# 3. 타이틀 문자열 데이터 수집

# select = find_element_by_css_selector
# select_one = find_element_by_css_selector
driver.find_element_by_css_selector("#banner-secondary").text

  driver.find_element_by_css_selector("#banner-secondary").text


'Join TED Recommends to get the best ideas, selected just for you'

In [25]:
# import warnings
# warnings.filterwarnings("ignore")

In [30]:
# 4. 영상의 제목 데이터 수집

# 여러개의 영상 elements 선택
selector = "#browse-results > div.row > div"
elements = driver.find_elements_by_css_selector(selector)
len(elements)

  elements = driver.find_elements_by_css_selector(selector)


36

In [38]:
# 하나의 element에서 필요한 데이터 수집

# bs: attr -> .get("href")
# selenium: .get_attribute("href")
element = elements[0]
datum = {
    "title": element.find_element_by_css_selector("h4 > .ga-link").text,
    "link": element.find_element_by_css_selector("h4 > .ga-link").get_attribute("href")
}
datum



{'title': 'Climate action needs new frontline leadership',
 'link': 'https://www.ted.com/talks/ozawa_bineshi_albert_climate_action_needs_new_frontline_leadership'}

In [42]:
%%time
data = []
for element in elements:
    data.append({
        "title": element.find_element_by_css_selector("h4 > .ga-link").text,
    "link": element.find_element_by_css_selector("h4 > .ga-link").get_attribute("href")
    })
df = pd.DataFrame(data)
df.tail()



CPU times: total: 172 ms
Wall time: 1.17 s


Unnamed: 0,title,link
31,"The myth of Anansi, the trickster spider",https://www.ted.com/talks/emily_zobel_marshall...
32,A different understanding of American patriotism,https://www.ted.com/talks/deval_patrick_a_diff...
33,4 ways to redefine power at work to include wo...,https://www.ted.com/talks/rha_goddess_and_deep...
34,How to boost nature-based solutions to climate...,https://www.ted.com/talks/zac_goldsmith_how_to...
35,Which animal has the best eyesight?,https://www.ted.com/talks/thomas_w_cronin_whic...


In [48]:
# 5. 셀렉트 박스의 한국어 클릭
driver.find_element_by_css_selector('[lang="ko"]').click()

# 6. 출력된 영상의 제목 데이터 수집
selector = "#browse-results > div.row > div"
elements = driver.find_elements_by_css_selector(selector)
data = []
for element in elements:
    data.append({
        "title": element.find_element_by_css_selector("h4 > .ga-link").text,
    "link": element.find_element_by_css_selector("h4 > .ga-link").get_attribute("href")
    })
df = pd.DataFrame(data)
df.tail()

  driver.find_element_by_css_selector('[lang="ko"]').click()
  elements = driver.find_elements_by_css_selector(selector)


Unnamed: 0,title,link
31,일기 예보는 얼마나 정확할까요?,https://www.ted.com/talks/mona_chalabi_how_acc...
32,시력 보존의 과학,https://www.ted.com/talks/joshua_chu_tan_the_s...
33,자율주행 택시 시대가 다가오고 있습니다,https://www.ted.com/talks/aicha_evans_your_sel...
34,자연의 요새: 선인장은 어떻게 수분을 유지하고 포식자를 쫓아내는가 - 루카스 C. ...,https://www.ted.com/talks/lucas_c_majure_natur...
35,슬픈 이야기를 재밌게 만드는 법 - 조디 홀스턴 라우,https://www.ted.com/talks/jodie_houlston_lau_h...


In [49]:
# 페이지 이동
driver.get("https://daum.net")

In [52]:
driver.find_element_by_css_selector("#q").send_keys("kt")

  driver.find_element_by_css_selector("#q").send_keys("kt")


In [54]:
driver.find_element_by_css_selector(".ico_pctop.btn_search").click()

  driver.find_element_by_css_selector(".ico_pctop.btn_search").click()


In [55]:
driver.quit()

### summary
- web: client-server > url
- status code: 200, 300, 400, 500
- 동적 페이지: json, api
- 정적 페이지: html > css-selector
    - 이미지 데이터 수집
- selenium: 브라우저를 띄워 데이터를 수집
- api > 동적 페이지(json) > 정적 페이지 >>> selenium