### selenium
- 브라우저의 자동화 목적으로 만들어진 다양한 브라우저와 언어를 지원하는 라이브러리
- 브라우저를 파이썬 코드로 컨트롤 해서 브라우저에 있는 데이터 수집 

### 크롤링 방법
- 1. requests : JSON : 웹페이지의 API 트래픽을 분석해서 데이터 수집 : naver stock
- 2.  requests : JSON : 공식 API를 application key를 받아서 데이터 수집 : naver api(papago, trend)
- 3. requests : HTML, BeautifulSoup(css-selector) : 웹페이지의 html 코드 받아서 데이터 수집 : gmarket
- 4. selenium : browser - python : 브라우저를 파이썬 코드로 컨트롤 해서 데이터 수집 : ted
- 크롤링할 때 좋은 순서 : 2 > 1 > 3 > 4

#### 환경설정
- 크롬 브라우저 설치
- 크롬 브라우저 드라이버 다운로드 : 크롬 브라우저와 같은 버전 : 크롬 브라우저 - 파이썬 코드 연결
- selenium 패키지 설치 
- opt. : 크롬 브라우저의 드라이버 파일을 환경변수로 등록하면 좀 더 쉽게 selenium 사용 가능 

In [27]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [28]:
# 1. 브라우저 띄우기
driver = webdriver.Chrome()

In [29]:
# 2. 페이지 이동 
driver.get('https://daum.net')

In [30]:
# 3. 브라우저 사이즈 조절 
driver.set_window_size(200, 600)

In [31]:
# 4. 브라우저 스크롤 조절 (javascript 코드 실행)
driver.execute_script('window.scrollTo(200,300);')

In [32]:
# 5. alert 다루기
driver.execute_script("alert('hello selenium!');")

In [33]:
alert = driver.switch_to.alert
alert.accept()

In [34]:
driver.execute_script('window.scrollTo(0,0);')

In [35]:
# 6. input 창에 문자열 입력 
# driver.find_element(By.CSS_SELECTOR, "#q") # 검색창 선택
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("파이썬") # 문자열 입력

In [37]:
# 7. 검색 버튼 클릭 
#driver.find_element(By.CSS_SELECTOR, ".ico_pctop.btn_search") # .ico_pctop.btn_search 이거만 쓰면 다른 데 또 저게 있는지 실행이 안됨
driver.find_element(By.CSS_SELECTOR, ".inner_search > .ico_pctop.btn_search").click()

In [38]:
# 8. 브라우저 종료
driver.quit()

In [39]:
# 브라우저 자동화
driver = webdriver.Chrome()
driver.get('https://daum.net')
driver.set_window_size(200, 600)
driver.execute_script('window.scrollTo(200,300);')
driver.execute_script("alert('hello selenium!');")
alert = driver.switch_to.alert
alert.accept()
driver.execute_script('window.scrollTo(0,0);')
driver.find_element(By.CSS_SELECTOR, "#q").send_keys("파이썬")
driver.find_element(By.CSS_SELECTOR, ".inner_search > .ico_pctop.btn_search").click()
driver.quit()

In [None]:
# 간단하게 머신러닝 사용 

In [40]:
%ls premierleague.csv

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 7C6C-FC35

 C:\Users\User\Downloads\AIVLE SCHOOL\웹크롤링\day3 디렉터리

2022-08-05  오후 12:04               477 premierleague.csv
               1개 파일                 477 바이트
               0개 디렉터리  133,875,924,992 바이트 남음


In [49]:
df = pd.read_csv('premierleague.csv')
df.head(5) # 이름, 득점, 실점, 승점 

Unnamed: 0,name,gf,ga,points
0,Manchester City,106,27,100
1,Manchester United,68,28,81
2,Tottenham Hotspur,74,36,77
3,Liverpool,84,38,75
4,Chelsea,62,38,70


In [None]:
# 득점, 실점을 입력하면 승점을 입력하는 인공지능 만들기 

In [42]:
feature = df[['gf', 'ga']]
target = df['points']

In [44]:
from sklearn.linear_model import LinearRegression # 회귀
model = LinearRegression().fit(feature, target)

In [48]:
# 데이터 예측 : 득점 80, 실점 36
np.round(model.predict([[80, 36]]))
# 득점이 80이고 실점이 36이면 승점이 79 => 득80 실 36이더라도 맨유(81) 못이김

array([79.])

In [50]:
## warning message 안뜨게 하기
import warnings
warnings.filterwarnings('ignore')

In [None]:
# data를 train하는데 8시간 걸림 > model은 ram(메모리)에 저장 > coumputer off => model 날아감!
# 그래서 model > ssd나 hdd에 저장해서 사용

In [52]:
import pickle

In [57]:
# ram > ssd
with open("model.pkl", "wb") as file:
    pickle.dump(model, file)

In [58]:
# ssd > ram
with open("model.pkl", "rb") as file:
    load_model = pickle.load(file)

#### 텍스트 데이터 수집
- TED 사이터 : https://ted.com/talks

In [None]:
# 1. 브라우저 열기

In [64]:
driver = webdriver.Chrome()

In [None]:
# 2. 페이지 이동

In [65]:
driver.get("https://ted.com/talks")

In [None]:
# 3. 제목 데이터 텍스트 수집

In [66]:
sub_title = driver.find_element(By.CSS_SELECTOR,"#banner-secondary").text
sub_title

'Join TED Recommends to get the best ideas, selected just for you'

In [None]:
# 4. select box에서 한국어 메뉴 클릭

In [68]:
driver.find_element(By.CSS_SELECTOR,"#languages [lang='ko']").click()

In [69]:
# 5. 전제 데이터의 제목과 링크 데이터 수집 (find_element = select_one , find_elements = select)
elements = driver.find_elements(By.CSS_SELECTOR, "#browse-results > .row > div")
len(elements) # 36개 = 잘 선택됐다!

36

In [72]:
element = elements[0]
element.find_element(By.CSS_SELECTOR, ".ga-link").text
# 제대로 안나옴 why? ga-link를 가진 게 많아서!

'5:04'

In [73]:
title = element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").text
title

'스페인어의 역사 - 일란 스타반스(Ilan Stavans)'

In [74]:
link = element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").get_attribute("href")
link

'https://www.ted.com/talks/ilan_stavans_a_brief_history_of_spanish?language=ko'

In [None]:
# 6. DataFrame으로 만들기 

In [75]:
data = []
for element in elements:
    data.append({
        'title': element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").text,
        'link': element.find_element(By.CSS_SELECTOR, "h4 > .ga-link").get_attribute("href"),
    })
df = pd.DataFrame(data)
df.tail(2)

Unnamed: 0,title,link
34,두려움을 극복하기 위한 올림픽 챔피언의 사고방식,https://www.ted.com/talks/allyson_felix_an_oly...
35,바퀴벌레를 없애는 것은 왜 이렇게 어려울까요? - 아메야 곤달레카르,https://www.ted.com/talks/ameya_gondhalekar_wh...


#### Headless
- 브라우저를 화면에 띄우지 않고 메모리 상에서만 브라우저를 실행하여 크롤링하는 방법
- window가 지원되지 않는 환경에서 selenium 사용 가능 (서버 컴퓨터의 경우...)
- 크롬 버전 : 60 이상부터 지원 
- 브라우저를 화면에 띄우진 않지만 더 빠르거나 그렇진 않음...

In [77]:
# 크롬 버전 확인
driver = webdriver.Chrome()
version = driver.capabilities['browserVersion']
driver.quit()
version

'104.0.5112.81'

In [81]:
options = webdriver.ChromeOptions() # headless 설정 
options.add_argument("headless") # 브라우저 기능 추가 : 어떤 기능이 있는지는 selenium 사이트에서 보기  

driver = webdriver.Chrome(options=options)

driver.get("https://ted.com/talks")
sub_title = driver.find_element(By.CSS_SELECTOR,"#banner-secondary").text
driver.quit()
sub_title

'Join TED Recommends to get the best ideas, selected just for you'