### selenium
- 브라우져의 자동화 목적으로 만들어진 다양한 브라우져와 언어를 지원하는 라이브러리
- 브라우져를 파이썬 코드로 컨트롤 해서 브라우져에 있는 데이터를 수집

#### 크롤링 방법
- 1. requests : json : 웹페이지의 API 트래픽을 분석해서 데이터 수집 : naver stock
- 2. requests : json : 공식적으로 제공하는 API를 application key 받아서 데이터 수집 : naver api(papago, trend)
- 3. requests : html, BeautifulSoup(css selector) : 웹페이지의 html 코드 받아서 데이터 수집 : gmarket
- 4. selenium : browser - python : 브라우져를 파이썬 코드로 컨트롤 해서 데이터 수집 : ted
- 크롤링할때 좋은 순서 :(제일좋음) 2 > 1 > 3 > 4

In [3]:
# 코랩 쓰면 selenium 쓰기 어려움

#### 환경설정
- 크롬 브라우져 설치
- 크롬 브라우져 드라이버 다운로드 : 크롬 브라우져와 같은 버전 : 크롬브라우져와 파이썬코드 연결
    - https://chromedriver.chromium.org/downloads
    - 메이저 버전만 확인하면 됨
- selenium 패키지 설치
- opt. : 크롬 브라우져의 드라이버 파일을 환경변수로 등록하면 조금 쉽게 사용


In [4]:
# !pip install selenium

In [5]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [7]:
# 1. 브라우져 띄우기
driver = webdriver.Chrome()

In [8]:
# 2. 페이지 이동
driver.get("https://daum.net")

In [9]:
# 3. 브라우져 사이즈 조절
driver.set_window_size(200,600)

In [10]:
# 4. 브라우져 스크롤 조절(자바스크립트 코드 실행)
driver.execute_script("window.scrollTo(200,300);")

In [11]:
# 5. alert 다루기
driver.execute_script("alert('hello selenium!');")

In [12]:
alert = driver.switch_to.alert

In [13]:
alert.accept()

In [14]:
driver.execute_script("window.scrollTo(0,0);")

In [15]:
# 6. input 창에 문자열 입력
driver.find_element(By.CSS_SELECTOR,"#q").send_keys("파이썬")

In [16]:
# 7. 검색 버튼 클릭
driver.find_element(By.CSS_SELECTOR,".inner_search > .ico_pctop.btn_search").click()

In [17]:
# 8. 브라우져 종료
driver.quit()

In [18]:
# 브라우져 자동화
driver = webdriver.Chrome()
driver.get("https://daum.net")
driver.set_window_size(200,600)
driver.execute_script("window.scrollTo(200,300);")
driver.execute_script("alert('hello selenium!');")
alert = driver.switch_to.alert
alert.accept()
driver.execute_script("window.scrollTo(0,0);")
driver.find_element(By.CSS_SELECTOR,"#q").send_keys("파이썬")
driver.find_element(By.CSS_SELECTOR,".inner_search > .ico_pctop.btn_search").click()
driver.quit()

In [19]:
# 간단하게 머신러닝 사용

In [21]:
df = pd.read_csv("premierleague.csv")
df.head(2)

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81


In [22]:
feature = df[["gf","ga"]]
target = df[["points"]]

In [23]:
feature

Unnamed: 0,gf,ga
0,106,27
1,68,28
2,74,36
3,84,38
4,62,38
5,74,51
6,36,39
7,44,58
8,56,60
9,39,47


In [24]:
target

Unnamed: 0,points
0,100
1,81
2,77
3,75
4,70
5,63
6,54
7,49
8,47
9,44


In [25]:
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(feature,target)

In [26]:
# 데이터 예측 : 득점 80, 실점 36
np.round(model.predict([[80,36]]))

array([[79.]])

In [27]:
# warning 메시지 안뜨게
import warnings
warnings.filterwarnings("ignore")

In [28]:
# 모델 메모리에 저장되어 있는 상태 (모델을 하드디스크에 저장해서 사용)
# data > train(8h) > model(ram) > computer off
# model > ssd(hdd)

In [29]:
# ram > ssd
import pickle
with open("model.pkl","wb") as file:
    pickle.dump(model,file)

In [31]:
# ssd > ram
with open("model.pkl","rb") as file:
    load_model = pickle.load(file)

In [32]:
np.round(load_model.predict([[80,36]]))

array([[79.]])

### 텍스트 데이터 수집
- TED 사이트 : https://ted.com/talks

In [33]:
# 1. 브라우져 열기
driver = webdriver.Chrome()

In [35]:
# 2. 페이지 이동
driver.get("https://ted.com/talks")

In [38]:
# 3. 제목 데이터 텍스트 수집
sub_title = driver.find_element(By.CSS_SELECTOR,"#banner-secondary").text
#banner-secondary
sub_title

'Join TED Recommends to get the best ideas, selected just for you'

In [41]:
# 4. select box에서 한국어 메뉴 클릭

# languages [lang="ko"]
driver.find_element(By.CSS_SELECTOR, '#languages [lang="ko"]').click()

In [42]:
# 5. 전체 데이터의 제목과 링크 데이터 수집
elements = driver.find_elements(By.CSS_SELECTOR,"#browse-results > .row > div")
len(elements)

36

In [46]:
element = elements[0]
title = element.find_element(By.CSS_SELECTOR,' h4 >.ga-link').text
link = element.find_element(By.CSS_SELECTOR,' h4 >.ga-link').get_attribute("href")
title, link

('스페인어의 역사 - 일란 스타반스(Ilan Stavans)',
 'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko')

In [47]:
# 6. 데이터 프레임으로 만들기

In [58]:
data = []
for element in elements:
    data.append({
        title : element.find_element(By.CSS_SELECTOR,' h4 >.ga-link').text,
        link : element.find_element(By.CSS_SELECTOR,' h4 >.ga-link').get_attribute("href"),   
    })
df = pd.DataFrame(data)

In [60]:
df.tail(2)

Unnamed: 0,스페인어의 역사 - 일란 스타반스(Ilan Stavans),https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko
34,두려움을 극복하기 위한 올림픽 챔피언의 사고방식,https://www.ted.com/talks/allyson_felix_an_oly...
35,바퀴벌레를 없애는 것은 왜 이렇게 어려울까요? - 아메야 곤달레카르,https://www.ted.com/talks/ameya_gondhalekar_wh...


In [61]:
driver.quit()

#### Headless
- 브라우져를 화면에 띄우지 않고 메모리 상에서만 브라우져를 실행하여 크롤링하는 방법
- window가 지원되지 않는 환경에서 selenium 사용 가능
- 크롬 버전 : 60 이상부터 지원

In [63]:
#크롬 버젼 확인
driver = webdriver.Chrome()
version = driver.capabilities["browserVersion"]
driver.quit()
version

'104.0.5112.79'

In [65]:
options= webdriver.ChromeOptions()
options.add_argument("headless")

driver = webdriver.Chrome(options=options)

driver.get("https://ted.com/talks")
sub_title = driver.find_element(By.CSS_SELECTOR,"#banner-secondary").text
driver.quit()

sub_title

'Join TED Recommends to get the best ideas, selected just for you'