#### Selenium
- 브라우저의 자동화 목적으로 만들어진 다양한 브라우져와 언어를 지원하는 라이브러리
- 브라우저를 파이썬 코드로 컨트롤 해서 브라우저에 있는 데이터 수집
- 단점 : 데이터 수집 속도가 느려짐
- 그럼에도 사용하는 이유는 실제 브라우저를 사용하기 때문에 requests로 수집하지 못하는 데이터 수집 가능

#### 크롤링 방법
- 1. requests > json : 웹페이지의 API 트래픽 분석해서 데이터 수집 : naver stock
- 2. requests > json : 공식적으로 제공하는 API를 application key 받아서 데이터 수집 : naver API(papago, trend)
- 3. requests > html, BeautifulSoup(css selector) : 웹페이지 html 코드 받아서 데이터 수집
- 4. selenium : browser - python : 브라우저를 파이썬 코드로 컨트롤해서 수집 : ted
- 크롤링 시 좋은 순서 : 2 > 1(html(코드 내에 필요없는 코드 많음..)과 json 코드의 양 차이) > 3 > 4

#### 환경설정
- 크롬 브라우져 설치
- 크롬 브라우져 드라이버 다운로드 : 크롬 브라우져 버전과 일치
- selenium 패키지 설치
- .opt : 크롬 브라우져의 드라이버 파일을 환경변수로 등록하면 조금 쉽게 사용

In [2]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.3.0-py3-none-any.whl (981 kB)
Collecting trio-websocket~=0.9
  Downloading trio_websocket-0.9.2-py3-none-any.whl (16 kB)
Collecting trio~=0.17
  Downloading trio-0.21.0-py3-none-any.whl (358 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.1.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0
  Downloading h11-0.13.0-py3-none-any.whl (58 kB)
Installing collected packages: outcome, h11, wsproto, trio, trio-websocket, selenium
Successfully installed h11-0.13.0 outcome-1.2.0 selenium-4.3.0 trio-0.21.0 trio-websocket-0.9.2 wsproto-1.1.0


In [3]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [19]:
# 1. 브라우저 띄우기
driver = webdriver.Chrome()

In [20]:
# 2. 페이지 이동
driver.get("https://daum.net")

In [21]:
# 3. 브라우저 사이즈 조절(브라우저는 파이썬 코드로만 컨트롤하는게 좋음 에러날 수 있음)
driver.set_window_size(200, 600)

In [22]:
# 4. 브라우저 스크롤 조절(JS 코드 실행)
driver.execute_script("window.scrollTo(200, 300);")

In [23]:
# 5. alert 다루기(alert창이 뜨면 작동 안됨)
driver.execute_script("alert('hello selenium!');") # alert 창 띄우기

In [24]:
alert = driver.switch_to.alert

In [25]:
alert.accept()

In [26]:
driver.execute_script("window.scrollTo(0, 0);")

In [27]:
# 6. input 창에 문자열 입력
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("파이썬")

In [30]:
# 7. 검색 버튼 클릭
driver.find_element(By.CSS_SELECTOR, ".inner_search > .ico_pctop.btn_search").click()

In [31]:
# 8. 브라우저 종료
driver.quit()

In [32]:
# 브라우저 자동화
driver = webdriver.Chrome()
driver.get("https://daum.net")
driver.set_window_size(200, 600)
driver.execute_script("alert('hello selenium!');")
alert = driver.switch_to.alert
alert.accept()
driver.execute_script("window.scrollTo(0, 0);")
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("파이썬")
driver.find_element(By.CSS_SELECTOR, ".inner_search > .ico_pctop.btn_search").click()
driver.quit()

In [33]:
# 간단하게 머신러닝 사용

In [34]:
%ls premierleague.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Webcrawing\20220805 디렉터리

2022-08-05  오후 12:03               477 premierleague.csv
               1개 파일                 477 바이트
               0개 디렉터리  134,178,185,216 바이트 남음


In [37]:
df = pd.read_csv("premierleague.csv")
df.head()

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [None]:
# 득점과 실점 데이터 입력 시 승점 데이터 예측 

In [40]:
feature = df[["gf", "ga"]]
target = df["points"]
feature, target

(     gf  ga
 0   106  27
 1    68  28
 2    74  36
 3    84  38
 4    62  38
 5    74  51
 6    36  39
 7    44  58
 8    56  60
 9    39  47
 10   45  55
 11   45  61
 12   48  68
 13   44  64
 14   34  54
 15   28  58
 16   37  56
 17   28  56
 18   35  68
 19   31  56,
 0     100
 1      81
 2      77
 3      75
 4      70
 5      63
 6      54
 7      49
 8      47
 9      44
 10     44
 11     44
 12     42
 13     41
 14     40
 15     37
 16     36
 17     33
 18     33
 19     31
 Name: points, dtype: int64)

In [41]:
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(feature, target)

In [44]:
# 데이터 예측 : 득점 80, 실점 36 
np.round(model.predict([[80, 36]]))
# 결과 : Tottenham Hotspur은 득점을 80점으로 더 하더라도 승점이 79점이기 때문에 Manchester United(승점 : 81)는 못이길 것이다

array([79.])

In [46]:
# warning 메시지 안뜨게
import warnings
warnings.filterwarnings("ignore")

In [None]:
# data > train(8h) > model(ram) > computer off (모델 날라감)
# model > ssd(hdd)에 저장해서 사용

In [48]:
import pickle

In [50]:
# ram > ssd
with open("model.pkl", "wb") as file:
    pickle.dump(model, file)

In [51]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Webcrawing\20220805 디렉터리

2022-08-05  오후 12:15    <DIR>          .
2022-08-05  오후 12:15    <DIR>          ..
2022-08-05  오전 11:00    <DIR>          .ipynb_checkpoints
2022-08-05  오전 10:31             5,165 00_kakao_address.ipynb
2022-08-05  오전 11:02           123,970 01_crawling_images.ipynb
2022-08-05  오후 12:15            16,423 02_selenium.ipynb
2022-07-18  오후 09:56        11,775,488 chromedriver.exe
2022-08-05  오전 10:21    <DIR>          data
2022-08-05  오전 09:58            31,275 gmarket.csv
2022-08-05  오후 12:15               480 model.pkl
2022-08-05  오후 12:03               477 premierleague.csv
               7개 파일          11,953,278 바이트
               4개 디렉터리  134,221,737,984 바이트 남음


In [52]:
# ssd > ram
with open("model.pkl", "rb") as file:
    load_model = pickle.load(file)

In [53]:
np.round(load_model.predict([[80, 36]]))

array([79.])

#### 텍스트 데이터 수집
- 테드 사이트 : https://ted.com/talks

In [None]:
# 1. 브라우저 열기

In [56]:
driver = webdriver.Chrome()

In [57]:
# 2. 페이지 이동

In [58]:
driver.get("https://ted.com/talks")

In [None]:
# 3. 제목 데이터 텍스트 수집

In [67]:
sub_title = driver.find_element(By.CSS_SELECTOR, "#banner-secondary").text
sub_title

'Join TED Recommends to get the best ideas, selected just for you'

In [68]:
# 4. select box에서 한국어 메뉴 클릭

In [80]:
driver.find_element(By.CSS_SELECTOR, '#languages [lang="ko"]').click()
# languages > [lang="ko"]

In [81]:
# 5. 전체 데이터의 제목과 링크 데이터 수집

In [82]:
elements = driver.find_elements(By.CSS_SELECTOR, "#browse-results > .row > div")
len(elements)

36

In [83]:
element = elements[0]
title = element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").text
link = element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").get_attribute("href")
title, link

('스페인어의 역사 - 일란 스타반스(Ilan Stavans)',
 'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko')

In [None]:
# 6. 데이터 프레임으로 만들기

In [86]:
data = []
for element in elements:
    data.append({
        "title" : element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").text,
        "link" : element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").get_attribute("href"),
    })
df = pd.DataFrame(data)
df.tail(2)

Unnamed: 0,title,link
34,두려움을 극복하기 위한 올림픽 챔피언의 사고방식,https://www.ted.com/talks/allyson_felix_an_oly...
35,바퀴벌레를 없애는 것은 왜 이렇게 어려울까요? - 아메야 곤달레카르,https://www.ted.com/talks/ameya_gondhalekar_wh...


In [87]:
driver.quit()

#### Headless
- 브라우저를 화면에 띄우지 않고 메모리 상에서만 브라우저를 실행하여 크롤링하는 방법
- window가 지원되지 않는 환경에서 selenium 사용 가능
- 크롬 버전 : 60 이상부터 사용 가능

In [91]:
# 크롬 버전 확인
driver = webdriver.Chrome()
version = driver.capabilities["browserVersion"]
driver.quit()
version

'103.0.5060.134'

In [94]:
options = webdriver.ChromeOptions()
options.add_argument("headless")

driver = webdriver.Chrome(options=options)

driver.get("https://ted.com/talks")
sub_title = driver.find_element(By.CSS_SELECTOR, "#banner-secondary").text
driver.quit()

sub_title

'Join TED Recommends to get the best ideas, selected just for you'