### 웹크롤링 방법
- 동적 페이지 : json : response.json() : dict, list : DataFrame
- 정적 페이지 : html : bs : css-selecter : text : DataFrame
- selenium 을 이용한 크롤링
    - 동적페이지, 정적페이지, API의 방법으로 데이터를 수집할수 없을때 사용
    - 파이썬 코드로 컨트롤 할 수 있는 자동화된 브라우져를 띄워서 실제 크롤링할 페이지로 이동한 후에 브라우져에 있는 정보를 수집
    - 웹서비스 테스트 자동화를 목적으로 만들어진 패키지, 다양한 언어로 사용 가능, 다양한 브라우져를 지원
- 동적페이지(json, api) > 정적페이지(html) >>> selenium(browser)
- 설정 : 크롬 브라우져 설치, 크롬드라이버 다운로드, seleniumn 설치
    - 패키지 인스톨 : '!pip install selenium'
    - 크롬 드라이버 다운로드
    - 압축해제
    - 현재 디렉토리로 파일 이동

In [2]:
# !pip install selenium

In [4]:
import pandas as pd
from selenium import webdriver

In [5]:
# 브라우져 열기

In [6]:
driver = webdriver.Chrome()

In [7]:
# 페이지 이동

In [8]:
driver.get('https://daum.net')

In [9]:
# 브라우져 사이즈 조절

In [10]:
driver.set_window_size(200, 400)

In [13]:
# 브라우져 종료 : 메모리 100M 절약

In [12]:
driver.quit()

### ted 사이트에서 영상 목록 데이터 수집

In [14]:
# 1. 브라우져 열기

In [21]:
driver = webdriver.Chrome()

In [15]:
# 2. Ted 사이트로 이동하기

In [22]:
driver.get('https://ted.com/talks')

In [18]:
# 3. 타이틀 문자열 데이터 수집하기

In [None]:
# select : find_elements_by_css_selector
# select_one : find_element_by_css_selector

In [28]:
import warnings
warnings.filterwarnings("ignore")

In [29]:
driver.find_element_by_css_selector('#banner-secondary').text

'Join TED Recommends to get the best ideas, selected just for you'

In [19]:
# 4. 영상의 제목 데이터 수집하기

In [42]:
selector = '#browse-results > div.row > div'
elements = driver.find_elements_by_css_selector(selector)
len(elements)

36

In [None]:
# 하나의 element에서 필요한 데이터 수집

In [None]:
# bs : attr : .get("href")
# selenium : .get_attribute("href")

In [37]:
element = elements[0]
data = {
    'title' : element.find_element_by_css_selector('h4 > .ga-link').text,
    'link' : element.find_element_by_css_selector('h4 > .ga-link').get_attribute('href'),
}
data

{'title': 'Climate action needs new frontline leadership',
 'link': 'https://www.ted.com/talks/ozawa_bineshi_albert_climate_action_needs_new_frontline_leadership'}

In [41]:
datas = []
for element in elements :
    datas.append({
        'title' : element.find_element_by_css_selector('h4 > .ga-link').text,
        'link' : element.find_element_by_css_selector('h4 > .ga-link').get_attribute('href'),
    })
df = pd.DataFrame(datas)
df.tail(2)

Unnamed: 0,title,link
34,How to boost nature-based solutions to climate...,https://www.ted.com/talks/zac_goldsmith_how_to...
35,Which animal has the best eyesight?,https://www.ted.com/talks/thomas_w_cronin_whic...


In [20]:
# 5. 셀렉트 박스의 한국어 클릭하기

In [43]:
driver.find_element_by_css_selector('[lang="ko"]').click()

In [None]:
# 6. 출력된 영상의 제목 데이터 수집하기

In [44]:
selector = '#browse-results > div.row > div'
elements = driver.find_elements_by_css_selector(selector)

datas = []
for element in elements :
    datas.append({
        'title' : element.find_element_by_css_selector('h4 > .ga-link').text,
        'link' : element.find_element_by_css_selector('h4 > .ga-link').get_attribute('href'),
    })
df = pd.DataFrame(datas)
df.tail(2)

Unnamed: 0,title,link
34,자연의 요새: 선인장은 어떻게 수분을 유지하고 포식자를 쫓아내는가 - 루카스 C. ...,https://www.ted.com/talks/lucas_c_majure_natur...
35,슬픈 이야기를 재밌게 만드는 법 - 조디 홀스턴 라우,https://www.ted.com/talks/jodie_houlston_lau_h...


In [45]:
# 페이지 이동

In [46]:
driver.get('https://daum.net')

In [47]:
driver.find_element_by_css_selector('#q').send_keys('kt')

In [49]:
driver.find_element_by_css_selector('.ico_pctop.btn_search').click()

In [50]:
driver.quit()

### Summary
- web : client-server : url
- status code : 200, 300, 400, 500
- 동적페이지 : json : api
- 정적페이지 : html : css-selector
    - 이미지 데이터 수집
- selenium : 브라우져를 띄워서 데이터 수집
- api > 동적페이지(json) > 정적페이지 >>> selenium