## selenium
- 브라우저의 자동화 목적으로 만들어진 다양한 브라우져와 언어를 지원하는 라이브러리
- 브라우저를 python 코드로 컨트롤해서 브라우저에 있는 데이터를 수집

### 크롤링 방법
- 웹페이지 API트래픽을 분석해서 데이터 수집: naver stock
- 공식적으로 제공하는 API를 application key를 받아서 데이터 수집: naver api
- requests : html, beatufulsoup(css selector): 웹페이지의 html 코드 받아서 데이터 수집: gmarket
- selenium: browser -python:브라우저를 파이썬 코드로 컨트롤 해서 데이터 수집:ted
- 크롤링시 좋은 순서: 2> 1 > 3 > 4

### 환경 설정
- 크롬 브라우저 설치
- 크롬 브라우저 드라이버 다운로드
- selenium 패키지 설치
- opt. : 크롬 브라우저의 드라이버 파일을 환경변수로 등록하면 쉽게 사용

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from webdriver_manager.microsoft import EdgeChromiumDriverManager

In [2]:
# 1. 브라우저 띄우기
driver =webdriver.Chrome(service=Service(ChromeDriverManager().install()))

In [3]:
url=f'https://www.daum.net'
driver.get(url)

In [4]:
#3. 브라우저 사이즈 조절
driver.set_window_size(200,600)

In [5]:
# 4.브라우저 스크롤 조절(자바스크립트 코드 실행)
driver.execute_script("window.scrollTo(200,600)")

In [6]:
# 5. alert 다루기
driver.execute_script("alert('Hello 노무현')")

In [7]:
alert = driver.switch_to.alert
alert.accept()

In [8]:
driver.execute_script("window.scrollTo(0,0)")

In [9]:
# 6 input창에 입력

In [10]:
driver.find_element(By.CSS_SELECTOR,"#q").send_keys("파이썬")

In [11]:
# 7. 검색버튼 클릭
driver.find_element(By.CSS_SELECTOR,".inner_search>.ico_pctop.btn_search").click()

In [12]:
# 8. 브라우저 종료
driver.quit()

In [13]:
# 브라우저 자동화
driver =webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get(url)
driver.set_window_size(200,600)
driver.execute_script("window.scrollTo(200,600)")
driver.execute_script("alert('Hello 노무현')")
alert = driver.switch_to.alert
alert.accept()
driver.execute_script("window.scrollTo(0,0)")
driver.find_element(By.CSS_SELECTOR,"#q").send_keys("파이썬")
driver.find_element(By.CSS_SELECTOR,".inner_search>.ico_pctop.btn_search").click()
driver.quit()

In [14]:
# 간단하게 머신러닝

In [15]:
%ls premierleague.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Desktop\python\크롤링 디렉터리

2022-08-05  오후 12:03               477 premierleague.csv
               1개 파일                 477 바이트
               0개 디렉터리  131,793,563,648 바이트 남음


In [16]:
df = pd.read_csv("premierleague.csv")
df.tail(2)

Unnamed: 0,name,gf,ga,points
18,Stoke City,35,68,33
19,West Bromwich Albion,31,56,31


In [17]:
feature = df[['gf','ga']]
target = df['points']

In [18]:
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(feature,target)

In [19]:
# 데이터 예측: 득점
np.round(model.predict([[80,36]]))

array([79.])

In [20]:
#Warning 메세지 삭제
import warnings
warnings.filterwarnings('ignore')

In [21]:
# model 저장--> 하고끄면 운지니깐

In [22]:
import pickle

In [23]:
# ram>SSD
with open('model.pkl','wb') as file:
    pickle.dump(model,file)

In [24]:
# ssd>ram

In [25]:
with open('model.pkl','rb') as file:
    load_model= pickle.load(file)

In [26]:
np.round(load_model.predict([[50,20]]))

array([72.])

## 텍스터 데이터 수집
- TED 사이트:https://ted.com/talks

In [32]:
url=f'https://ted.com/talks'

In [40]:
driver =webdriver.Chrome(service=Service(ChromeDriverManager().install()))
driver.get(url)

In [41]:
sub_title = driver.find_element(By.CSS_SELECTOR,"#banner-secondary").text
sub_title

'Join TED Recommends to get the best ideas, selected just for you'

In [43]:
# select box에서 한국어 메뉴 클릭
# [lang='ko']
driver.find_element(By.CSS_SELECTOR,'#languages [lang="ko"]').click()

In [44]:
# 5. 전체 데이터의 제목과 링크 데이터 수집
elements = driver.find_elements(By.CSS_SELECTOR,'#browse-results > .row > div')
len(elements)

36

In [49]:
element = elements[0]
title = element.find_element(By.CSS_SELECTOR,'h4 >.ga-link').text
link = element.find_element(By.CSS_SELECTOR,'h4 >.ga-link').get_attribute('href')
title,link

('스페인어의 역사 - 일란 스타반스(Ilan Stavans)',
 'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko')

In [51]:
# 데이터 프레임으로 만들기

data =[]
for element in elements:
    data.append({
        'title':element.find_element(By.CSS_SELECTOR,'h4 >.ga-link').text,
        'link':element.find_element(By.CSS_SELECTOR,'h4 >.ga-link').get_attribute('href')
    })
df = pd.DataFrame(data)
df.tail(2)

Unnamed: 0,title,link
34,두려움을 극복하기 위한 올림픽 챔피언의 사고방식,https://www.ted.com/talks/allyson_felix_an_oly...
35,바퀴벌레를 없애는 것은 왜 이렇게 어려울까요? - 아메야 곤달레카르,https://www.ted.com/talks/ameya_gondhalekar_wh...


In [52]:
driver.quit()

# Headlsee
- 브라우저를 화면에 띄우지 않고 메모리 상에서만 브라우저를 실항하여 크롤링
- 윈도우가 지원되지 않는 환경에서 selenium 사용가능
- 크롬 버전 60이상부터 지원

In [53]:
driver =webdriver.Chrome(service=Service(ChromeDriverManager().install()))
version = driver.capabilities['browserVersion']
driver.quit()
version

'104.0.5112.80'

In [61]:
options = webdriver.ChromeOptions()
options.add_argument("headless")

driver =webdriver.Chrome(service=Service(ChromeDriverManager().install()),options=options)

driver.get(url)
sub_title = driver.find_element(By.CSS_SELECTOR,"#banner-secondary").text
driver.quit()
sub_title

'Join TED Recommends to get the best ideas, selected just for you'