# GUIDE
- [대기하기](#대기-하기)  
    - https://selenium-python.readthedocs.io/waits.html#explicit-waits


In [4]:
# pip install selenium
# pip install webdriver-manager

# [Selenium](https://www.selenium.dev/)

- **웹 브라우저 제어 도구**
    - 원래는 웹 어플리케이션 자동 테스트를 위한 목적으로 만들어진 프레임워크.
    - 웹브라우저를 프로그램을 이용해 제어할 수 있다.
- Request 모듈의 문제점    
    - Javascript를 이용한 AJAX 기법의 비동기적 요청 처리 페이지 크롤링이 힘들다.
    - 로그인 후 요청이 가능한 페이지들에 대한 크롤링이 번거롭다.
    - Selenium을 활용하면 이 두가지 모두 쉽게 처리할 수 있다.
    
- Selenium 단점 
    - 속도가 느림
- 설치
    - 파이썬 패키지 설치
    - `conda install selenium`
    - `pip install selenium`
- [튜토리얼](https://selenium-python.readthedocs.io/)    

In [1]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.8.2-py3-none-any.whl (6.9 MB)
     ---------------------------------------- 6.9/6.9 MB 17.7 MB/s eta 0:00:00
Collecting trio-websocket~=0.9
  Downloading trio_websocket-0.10.2-py3-none-any.whl (17 kB)
Collecting trio~=0.17
  Downloading trio-0.22.0-py3-none-any.whl (384 kB)
     ------------------------------------- 384.9/384.9 kB 25.0 MB/s eta 0:00:00
Collecting exceptiongroup>=1.0.0rc9
  Downloading exceptiongroup-1.1.1-py3-none-any.whl (14 kB)
Collecting sortedcontainers
  Downloading sortedcontainers-2.4.0-py2.py3-none-any.whl (29 kB)
Collecting outcome
  Downloading outcome-1.2.0-py2.py3-none-any.whl (9.7 kB)
Collecting async-generator>=1.9
  Downloading async_generator-1.10-py3-none-any.whl (18 kB)
Collecting wsproto>=0.14
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
     ---------------------------------------- 58.3/58.3 kB 3.0 MB/s eta 0:00:00
Installi

## 드라이버

- 드라이버 : 웹브라우저를 제어하는 프로그램
    - 웹 브라우저별로 제공된다.
    - 위에서 설치한 selenium 패키지의 드라이버객체를 이용해 이 드라이버를 제어하게 된다.
    
### 설치
1. **DriverManager 이용**
    - `pip install webdriver-manager` 

2. **Hard coding**
    1. 브라우져별로 드라이버를 다운로드 받는다.
        - https://www.selenium.dev/documentation/webdriver/getting_started/install_drivers/#quick-reference
    2. Local 컴퓨터에 설치된 크롬브라우져 버전에 맞는 드라이버 선택


## Selenium 기본 

In [1]:
import selenium

selenium.__version__

'4.8.2'

### DriverManager를 이용

In [9]:
# ChromeDriverManager().install()  # 처음에는 다운로드후 그 다음은 그냥 경로 반환

'C:\\Users\\kgmyh\\.wdm\\drivers\\chromedriver\\win32\\112.0.5615\\chromedriver.exe'

In [11]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver

In [12]:
service = Service(executable_path=ChromeDriverManager().install())  # 처음 실행시 다운로드 받는다. home/.wdm 디렉토리 아래.
driver = webdriver.Chrome(service=service)

In [13]:
driver.close()

### Chrome Driver 경로 지정

In [14]:
# 직접 크롬 드라이버 설치 후
from selenium.webdriver.chrome.service import Service
from selenium import webdriver

service = Service(executable_path="./chromedriver/chromedriver.exe")
driver = webdriver.Chrome(service=service)

In [15]:
# 페이지 요청
driver.get('http://daum.net')
driver.implicitly_wait(5) # 페이지 로딩(dom tree완성)될 때까지 최대 5초간 기다린다. (먼저되면 끝남. sleep()은 지정된 시간만큼)
print('a0')

a0


In [16]:
driver.quit() #driver.close()

# 주요 메소드
### Driver 속성
- page_source : 현재 페이지의 html 소스를 반환
- page_source로 html을 받아서 BeautifulSoup으로 크롤링할 원소를 찾을 수 있다.

### Driver의 Element 조회 메소드
- BeautifulSoup을 이용하지 않고 셀레늄 자체 parser를 이용할 수 있다.
- 조회결과 : WebElement
- find_element_xxxx : 조건을 만족하는 요소 하나를 찾는다.
    - find_element_by_id()
        - 태그의 id속성으로 element 조회
    - find_element_by_class_name()
        - 태그의 class속성으로 element 조회
    - find_element_by_css_selector()
        - css selector로 element 조회
    - find_element_by_name()
        - 입력 태그의 name 속성으로 element 조회    
- find_element**s**_xxx : 조건을 만족하는 모든 요소를 찾는다.
    - find_elements_by_id()
    - find_elements_by_class_name()
    - find_elements_by_css_selector()
    - find_elements_by_name()    

### WebElement (조회결과) 메소드 / 속성
- 메소드
    - get_attribute('속성명') : 태그의 속성값 조회
    - send_keys("문자열") : 입력폼에 문자열 값을 입력.
    - click() : element를 클릭
    - submit() : element가 Form인 경우 폼 전송
    - clear() : element가 입력폼인 경우 텍스트를 지운다.
    - 위 조회 메소드들 : 하위의 elements들 조회
- 속성
    - text : 태그내의 텍스트
    - tag_name : 태그이름 

In [1]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium import webdriver

from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

In [None]:
service = Service(executable_path=ChromeDriverManager().install())  # 처음 실행시 다운로드 받는다. home/.wdm 디렉토리 아래.
driver = webdriver.Chrome(service=service)

In [18]:
driver.get('https://naver.com')

In [50]:
# 이미지 캡처
if False:
    """
    img = driver.get_screenshot_as_png()
    with open('test.png', 'wb') as f:
        f.write(img)
    """

"\nimg = driver.get_screenshot_as_png()\nwith open('test.png', 'wb') as f:\n    f.write(img)\n"

In [19]:
# 이미지 캡처
driver.get_screenshot_as_file('naver_main.png')

True

In [20]:
html = driver.page_source
print(html[:300])

<html lang="ko" data-dark="false" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"><head><script async="" type="text/javascript" src="https://ssl.pstatic.net/tveta/libs/ndpsdk/prod/ndp-core.js"></script> <meta charset="u


In [22]:
# 자바스크립트 함수 호출
driver.execute_script('alert(10)')

In [23]:
# alert 처리 - 테스트중 alert이 뜨는 경우 없애지 않으면 다음 작업을 못한다. alert/confirm 다 없앤다.
alert = driver.switch_to.alert
alert.accept()

In [36]:
# driver.switch_to?

In [24]:
# window 사이즈 조절
# 셀레니움은 현재 보이는 것에 대한 이벤트(클릭)등을 지원한다. (페이지테스트목적이니까 사람이 안보이는 부분을 클릭할 수는 없잖아) 그래서 테스트시 강제로 키우거나 줄일 경우가 있다. 
driver.set_window_size(500,400)

In [25]:
# 브라우저 창 최대화
driver.maximize_window()

In [26]:
# 화면 크기
print(driver.get_window_size())

{'width': 2064, 'height': 1119}


In [30]:
# 스크롤 이동
driver.execute_script('window.scrollTo(300,400)') #가로스크롤위치, 세로스크롤위치

In [29]:
driver.execute_script('window.scrollTo(300,0)')
# driver.execute_script('window.scrollTo(300,0)') #검색으로 돌아가려로 ^^

In [33]:
# input 태그에 문자열 입력 - naver는 #query, daum은 #q
driver.find_element(By.ID, "query").send_keys('파이썬')

In [34]:
driver.find_element(By.ID, "query").click()

In [35]:
driver.find_element(By.ID, 'search_btn').click()

In [36]:
# input 에 입력된 것 지우기
driver.find_element(By.ID, 'nx_query').clear()

In [37]:
# 브라우저 종료
driver.quit()

In [38]:
# 위의것 한 cell에
from selenium.webdriver import Chrome
driver = Chrome()
driver.get('http://daum.net')
img = driver.get_screenshot_as_png()
with open('test.png', 'wb') as f:
    f.write(img)
html = driver.page_source
driver.get('https://naver.com')
# driver.set_window_size(1024,400)
driver.find_element(By.ID, "query").send_keys('파이썬')
driver.find_element(By.ID, 'search_btn').click()
driver.find_element(By.ID, 'nx_query').clear()
driver.quit()

## TODO : 셀레늄으로 구글 검색
- driver.find_element_by_name(name) : 입력 태그의 name 속성으로 조회

In [45]:
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys  # 엔터, 탭 같은 키보드 치기.

In [40]:
service = Service(executable_path=ChromeDriverManager().install())  # 처음 실행시 다운로드 받는다. home/.wdm 디렉토리 아래.
driver = webdriver.Chrome(service=service)

In [58]:
# headless
# options = ChromeOptions()
# options.add_argument('headless')
# options.add_argument('window-size=1920x1080')

# driver = Chrome(options=options) 

In [41]:
# 구글로 접속
driver.get('http://www.google.co.kr')

In [43]:
# 원하는 태그(Element) 찾기
e = driver.find_element(By.NAME, 'q')

In [47]:
# 검색어 입력
e.send_keys('Python')

In [48]:
# 엔터
e.send_keys(Keys.ENTER)

In [62]:
# 엔터시 저장하겠다고 명시 한것.
btn = driver.find_element_by_name('btnK')
btn.click()

In [50]:
# 검색 결과 조회
links = driver.find_elements(By.CSS_SELECTOR, '#rso .yuRUbf > a')
titles = driver.find_elements(By.CSS_SELECTOR, '#rso  .yuRUbf > a > h3')
for link, title in zip(links, titles):
    print(link.get_attribute('href'), title.text, sep=' - ')

https://www.python.org/ - Welcome to Python.org
https://namu.wiki/w/Python - Python - 나무위키
https://wikidocs.net/43 - 1. 파이썬 시작하기 - 왕초보를 위한 Python
https://ko.wikipedia.org/wiki/%ED%8C%8C%EC%9D%B4%EC%8D%AC - 파이썬 - 위키백과, 우리 모두의 백과사전
https://aws.amazon.com/ko/what-is/python/ - Python란 무엇인가요? - Python 언어 설명 - AWS
https://realpython.com/ - Real Python: Python Tutorials
https://www.edwith.org/sogang_python - 기초 PYTHON 프로그래밍 강좌소개 - edwith
https://code.visualstudio.com/docs/python/python-tutorial - Get Started Tutorial for Python in Visual Studio Code


In [51]:
driver.close()

## 브라우저의 headless 모드를 이용.
- Headless 브라우저 
    - 브라우저의 창을 띄우지 않고 실제 브라우저와 동일하게 동작하도록 하는 방식
    - CLI 기반의 OS (리눅스 서버)를 지원하기 위한 브라우저
    - 크롬은 버전 60부터 headless 모드 지원
- selenium에서 headless 모드
    - webdriver option에 headless 설정

In [61]:
# 메모리도 절약되는 듯.
from selenium import webdriver
import time

options = webdriver.ChromeOptions()
options.add_argument('--headless')
# options.add_argument("disable-gpu") #이건 해결된 듯. 크롬 60에서 문제

service = Service(executable_path=ChromeDriverManager().install())  # 처음 실행시 다운로드 받는다. home/.wdm 디렉토리 아래.
driver = webdriver.Chrome(service=service, options=options)

driver.maximize_window()
driver.implicitly_wait(3)
driver.get('http://naver.com')
time.sleep(1)
driver.get_screenshot_as_file('naver_main_headless.png')  # 스크린 샷은 하기 전에 잠깐 멈춰야 한다.

driver.quit()

# 대기 하기

## Explicit Wait
- 특정 조건/상황을 만족할 때 까지 대기
- `WebDriverWait(driver, 초).until(expected_contition)` 구문 사용
- expected_condition 함수
     - selenium.webdriver.support.expected_conditions 모듈에 정의된 함수 사용.
         - https://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.support.expected_conditions
     
## Implicit Wait
- 현재 페이지에 없는 element나 elememt들이 loading 되기를 설정한 시간만큼 기다린다. 
- 설정한 시간 이내에 elements가 loading되면 대기가 종료된다.
- `implicit_wait(초)` 구문 사용
- 한번 설정하면 설정된 WebDriver가 close될때 까지 그 설정이 유지된다.
- https://selenium-python.readthedocs.io/waits.html

### 예)
```python
driver.implicitly_wait(5) 
# 페이지 로딩(dom tree완성)될 때까지 최대 5초간 기다린다. (로딩이 되면 5초가 되지 않아도 대기를 끝낸다.)
```
<hr>

```python
from selenium.webdriver.support import expected_conditions as EC

...

try:
    # element가 반환될 때 까지 최대 10초 기다린다.
    element = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.ID, "myDynamicElement"))
    )
finally:
    driver.quit()
```

## 다음 로그인 후 메일 목록 가져오기

In [65]:
from selenium.webdriver import Chrome
with open('account.txt') as f:
    id = f.readline().strip()
    pwd = f.readline().strip()
    
driver = Chrome() #맥은 경로 지정해야 한다.
url = 'https://logins.daum.net/accounts/signinform.do'

driver.get(url)
id_input = driver.find_element_by_id('id')
pwd_input = driver.find_element_by_id('inputPwd')
login_btn = driver.find_element_by_id('loginBtn')

id_input.send_keys(id)
pwd_input.send_keys(pwd)
login_btn.click()
mail_url = 'https://mail.daum.net'
driver.get(mail_url)
html_doc = driver.page_source
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
a_titles = soup.select('div#mailList ul a.link_subject')
for num, a_tag in enumerate(a_titles, start=1):
    print(num, a_tag.text.strip(),a_tag.get('href'), sep='-')
driver.close()   

In [43]:
from selenium.webdriver import Chrome
driver = Chrome() #맥은 경로 지정해야 한다.

In [44]:
with open('account.txt') as f:
    id = f.readline().strip()
    pwd = f.readline().strip()

In [45]:
url = 'https://logins.daum.net/accounts/signinform.do'
driver.get(url)

In [46]:
id_input = driver.find_element_by_id('id')
pwd_input = driver.find_element_by_id('inputPwd')
login_btn = driver.find_element_by_id('loginBtn')

id_input.send_keys(id)
pwd_input.send_keys(pwd)

In [47]:
login_btn.click()

In [48]:
# 메일 목록 가져오기
mail_url = 'https://mail.daum.net'
driver.get(mail_url)

In [49]:
html_doc = driver.page_source
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

In [51]:
a_titles = soup.select('div#mailList ul a.link_subject')
for num, a_tag in enumerate(a_titles, start=1):
    print(num, a_tag.text.strip(),a_tag.get('href'), sep='-')

1-제목없음-#INBOX/K000000000Eb1mI
2-[정보기획팀] K‧PUSH+ 메세지 전송 정책 변경 안내-#INBOX/K000000000Eb1lM
3-[아마존웹서비스] 101세미나에 함께 해주셔서 감사합니다 + AWS Builders 프로그램 안내-#INBOX/K000000000Eb1b8
4-[장소 : GS타워 25층] 강당 AWS 101 세미나│등록 확인 안내-#INBOX/K000000000Eb1ak
5-AWS 101 세미나│등록 확인 안내-#INBOX/K000000000Eb1ag
6-FW: 베리베베홍대점입니다 !-#INBOX/K000000000Eb0yS
7-Fwd:[CIO 뉴스레터] “블록체인 변곡점에 대비하라”··· 앞선 기업들의 행보는?-#INBOX/K000000000Eb0rG
8-Fwd:[CIO 뉴스레터] 깃허브 인수로 본 오픈소스의 미래-#INBOX/K000000000Eb0rE
9-Fwd:[ITWorld 뉴스레터] 안드로이드만의 특성 살린 생산성 앱 6가지-#INBOX/K000000000Eb0rD
10-제목없음-#INBOX/K000000000Eb0l0
11-다음앱 2018년 신년운세 결과입니다.-#INBOX/K000000000Eb0OB
12-익숙함이 능률을 저하시킨다-#INBOX/K000000000EazvX
13-Fwd:[ITWorld 뉴스레터] “웹과 앱의 경계 없어진???” 웹어셈블리가 약속하는 차세대 앱 환??-#INBOX/K000000000EazsE
14-http://directwebremoting.org/dwr/introduction/getting-started.html-#INBOX/K000000000Eauf2
15-이한출판사-#INBOX/K0000000002ajxK


In [35]:
driver.close()

## G:네이버 로그인 - 캡차땜시 안된다 
- copy & paste로 하면 된다. (안됬는데 되네..)
- 네이버는 2018년 부터 사용자가 소프트웨어적 입력을 이용한 로그인을 막기 위해 Captcha 시스템을 적용함
    - 매크로 방지를 위해 이상 접근으로 감지 되면 확인을 위해 랜덤 이미지를 보여주고 입력하게 하는 방식
    

## pyperclip 패키지
- 클립보드를 이용해 copy & paste 지원

In [37]:
#클립보드
# https://codetorial.net/pyperclip/index.html
!pip install pyperclip

Collecting pyperclip
  Downloading pyperclip-1.8.0.tar.gz (16 kB)
Building wheels for collected packages: pyperclip
  Building wheel for pyperclip (setup.py): started
  Building wheel for pyperclip (setup.py): finished with status 'done'
  Created wheel for pyperclip: filename=pyperclip-1.8.0-py3-none-any.whl size=8696 sha256=70d6ac70ad989babca3a5c5516850ecbcdff04c9fad3bddd6f8c00c8397144b4
  Stored in directory: c:\users\playdata\appdata\local\pip\cache\wheels\e5\5e\f7\441179ddf6ac56f36cb1d84d94f35beedd5da15986ce3d321d
Successfully built pyperclip
Installing collected packages: pyperclip
Successfully installed pyperclip-1.8.0


In [None]:
import pyperclip
pyperclip.copy('hello') #클립보드에 저장 (이거후 메모장등에 ctr-v하면 hello가 나온다.)

In [38]:
txt = pyperclip.paste()
print(txt)

hello


In [39]:
import pyperclip
import time
from selenium.webdriver import Chrome
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

In [40]:
def copy_input(driver, element, txt):
    pyperclip.copy(txt)
    element.click() #포커스 옮기기
    #control-v 누르고 control 올리고
#     ActionChains()명령어 모은다.
#     ActionChains().perform() -> 모은 Action들을 chain으로 묶인 순서대 실행한다. (paste를 element에 넣어야 하므로 직접 control-v를 누른다.)
    ActionChains(driver).key_down(Keys.CONTROL).send_keys('v').key_up(Keys.CONTROL).perform()
    time.sleep(1)

In [41]:
url = 'https://nid.naver.com/nidlogin.login'
browser = Chrome()
browser.get(url)
id_input = browser.find_element_by_id('id')
pwd_input = browser.find_element_by_id('pw')
#submit 버튼
btn = browser.find_element_by_css_selector('input[type=submit]')

In [None]:
# 캡차나온다.
# id_input.send_keys(id)
# pwd_input.send_keys(pwd)

In [42]:
copy_input(browser, id_input, id)
copy_input(browser, pwd_input, pwd)
btn.click()

In [None]:
browser.close()

# TODO 셀레늄을 이용한 무한 스크롤

In [None]:
# 무한 스크롤 처리
from selenium.webdriver import Chrome
import time

url = "https://www.youtube.com/?gl=KR&hl=ko"
driver = Chrome()
driver.get(url)

### 무한스크롤
#  execute_script("자바스크립트 코드") : 자바스크립트 코드. JS 코드에서 return 하는 값을 매개변수로 받을 수 있다.
# Javascript 함수
#  - scrollTo(x, y) : 스크롤바의 위치를 이동시킨다. 상하는 y값만 좌우는 x값만 설정
#  - document.documentElement.scrollHeight: 스크롤패인의 높이를 반환. documentElement 대신 body를 하기도 한다. (크롬은 안됨)

# 현재 스크롤 높이 저장 변수

scrollpane_height = driver.execute_script('return document.documentElement.scrollHeight') # 이동 전 스크롤패인의 높이
print(scrollpane_height)
while True:
    # 스크롤의  스크롤패인의 높이만큼 이동시킨다. (내려간다)
    driver.execute_script('window.scrollTo(0, document.documentElement.scrollHeight)')
    # 내려가는 동안 약간의 간격을 줘 기다리게 한다.
    time.sleep(1)
    new_scrollpane_heigh = driver.execute_script('return document.documentElement.scrollHeight') # 이동후 현재 스크롤패인의 높이
    print(new_scrollpane_heigh)
    if scrollpane_height == new_scrollpane_heigh:
        # 스크롤바의 이동이 없었던 것이므로 반복문을 빠져나온다.
        break
    scrollpane_height = new_scrollpane_heigh



In [20]:
# 스크롤 pagedown으로 50번만 내리기 (예전버전)
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Chrome()
# 유튜브 접속
browser.get("https://youtube.com")
browser.implicitly_wait(2) #연결 기다리기
# body 태그 조회
elem = browser.find_element_by_tag_name("body")
# 스크롤 내릴 횟수 지정
num_of_pagedowns = 50

# PAGE_DOWN 
while num_of_pagedowns:
    elem.send_keys(Keys.PAGE_DOWN) # 키보드의 page_down을 body에 전송 => 스크롤이 내려간다.
    time.sleep(0.2) #너무 빨리 실행되기 때문에 잠시 멈추게 한다.
    num_of_pagedowns-=1
# 브라우저 닫기
browser.quit()    

## 다음 로그인

In [None]:
from selenium.webdriver import Chrome
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
import time

driver = Chrome() #맥은 경로 지정해야함.
with open('pwd.txt') as f:
    pwd = f.readline()

url = 'https://logins.daum.net/accounts/signinform.do'
driver.get(url) 

time.sleep(1)
# WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "inputPwd")))
id_input = driver.find_element_by_id('id')
pwd_input = driver.find_element_by_id('inputPwd')
login_btn = driver.find_element_by_id('loginBtn')

id_input.send_keys('kgmyh')
pwd_input.send_keys(pwd)
login_btn.click()

# 또는 다음과 같이 처리
# import time 

# 여기서 잠깐 멈춰야 한다. 로그인후 메인 페이지가 나오기 전에 아래가 실행되면서 간격이 생기는 듯하다.
time.sleep(1)

# TODO : naver에 접속해서 로그인 하기. -- captcha로 막혀 있다. 보안문자 입력하게 함. => 다음은 괜찮음
- url : https://nid.naver.com/nidlogin.login
- cf) 보안문자 입력은 직접한다.

In [26]:
from selenium.webdriver import Chrome
browser = Chrome()

In [27]:
browser.get('https://nid.naver.com/nidlogin.login')

In [28]:
id_input = browser.find_element_by_name('id')
pwd_input = browser.find_element_by_name('pw')
form = browser.find_element_by_tag_name('form')

id_input.clear()
pwd_input.clear()
id_input.send_keys('ikgmyh')
pwd_input.send_keys('uky1258!3')



In [29]:
form.submit()

## 트립어드바이저
- 한페이지

In [63]:
import time

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup 

# 댓글 많은 식당을 선택한다.
url = 'https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d4078612-Reviews-Manjok_Ohyang_Jokbal_City_Hall-Seoul.html'

#options는 headless일때. 아니면 크기 조절은 set_window_size()로 한다.
options = ChromeOptions()
# options.add_argument('headless') #화면 나오지 않게
# options.add_argument('window-size=1920x1080')
# driver = Chrome(options=options)

driver = Chrome()
driver.set_window_size(width=1920, height=1080)
print(driver.get_window_size())

print(driver.get_window_size())
driver.implicitly_wait(3)
driver.get(url)

wc = WebDriverWait(driver, 10)
more_link = wc.until(
        EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'span.ulBlueLinks'))
    )
more_link[0].click()

#클릭 완료를 기다린다.
time.sleep(0.5)

page = driver.page_source
# driver.quit()

soup = BeautifulSoup(page, 'lxml')
comment_tag_list = soup.select('p.partial_entry')
comment_list = []
for tag in comment_tag_list:
    comment_list.append(tag.get_text())

print(comment_list)
driver.close()

{'width': 1555, 'height': 883}
{'width': 1555, 'height': 883}
['맛있어요! 회식으로 갔었는데 맛도 가격도 괜찮아서 집에갈때 포장해갔네요.그래도 따뜻할 때 먹는게 젤 맛있어요.서비스로 주시는 떡국도 좋았네요.다만 대기가 있어서 일찍 가시는 편을 추천합니다.', '만족오향족발 시청점 정말 맛있어요배달시켜 먹었는데 부드럽고 쫄깃하고마늘소스에 찍어먹으면 느끼하지도 않고유명한 이유가 있어요', '족발을 자주 먹지는 않지만 장충동 족발집도 자주 가고 이곳 저곳 많이 다녀봤어요 근데 여기가 제일 맛있고 생각나는 곳이에요!! 사람이 많은만큼 자리도 많고 직원들도 깔끔하게 유니폼 입고 친절하신거같아서 좋아요 음식도 따뜻하게 유지될 수 있도록 신경도 많이 쓰시고! 가격이 조금만 더 저렴했으면 더 자주갔겠지만 가끔 먹으러가기엔 괜찮아요', '넘쳐나는 손님들을 생각하면 서비스도 훌륭한 편이고, 맛도 특별히 흠잡을 곳이 없음. 특히 따뜻하게 먹을 수 있도록 그릇을 데워주는 것이 인상적이었음.', '여전히 바쁘고 많은 사람들이 찾지만 정작 기다림에 보답하는지는 잘 모르겠다. 다소 평범해진 느낌에 커진 규모를 감당하지 못하는 느낌.', '예전에 비해 체인점이 너무 많이 늘어나서 저는 개인적으로 더 좋아요 그리고 족발이 부드럽고 맛있고 막국수도 맛있고 양도 상당해서 다 좋아요', '족발을 별로 안좋아하는데 여기꺼는 먹을 수 있어요. 만두국나오는 것도 좋고 족발맛도 다른 곳과는 조금 다른 듯 합니다. 친구가 추천해줬어요.', '직영점이 이곳 저곳 많이 생겨 맛을 볼수 있는 기회를 쉽게 얻을 수 있어 좋지만 본점에서 처음 느낀 그 감동은 점차 사라지고 그 맛도 떨어지는 기분. 평타 보단 조금 더 맛있지만 본점도, 직영점도 생각보단 이제 감동을 찾을 맛이 떨어지는 기분입니다. ', '프랜차이즈 사업 시작하고나선 옛날같지 않은느낌. 2층 다락방 시절부터 줄서서 먹었지만 그때의 맛을 바라는건 스스로 생각해도 무리인감이있으나 아쉬움이 드는것도 어쩔수

In [62]:
len(comment_list)

8

## 페이지 넘기기

In [70]:
import time

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

from bs4 import BeautifulSoup 

url = 'https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d3200324-Reviews-Jungsik-Seoul.html'
driver = Chrome()
driver.get(url)
for _ in range(30):   # while 로 돌린뒤 Exception 나며 빠져 나오게. 다 돌면 버튼 조회가 안된다.
    next_btn = driver.find_element_by_css_selector('a.nav.next')
#     wait = WebDriverWait(driver, 10)
#     next_btn = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#taplc_location_reviews_list_resp_rr_resp_0 > div > div:nth-child(13) > div > div > a.nav.next.ui_button.primary.cx_brand_refresh_phase2')))
    # print(next_btn.text)
    next_btn.click()
    time.sleep(2) #위의 wait는 두번째 부터 안먹는다. one page application이어서 버튼이 계속 남아있다. 그래서 대기기 안된다.

ElementClickInterceptedException: Message: element click intercepted: Element <a class="nav next ui_button primary disabled  cx_brand_refresh_phase2">...</a> is not clickable at point (597, 656). Other element would receive the click: <div class="unified ui_pagination ">...</div>
  (Session info: chrome=84.0.4147.89)


In [80]:
import time

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions

from selenium.common.exceptions import ElementClickInterceptedException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# WaitWebDriver는 처음 로딩후에만 사용한다. 이미 있는 element에 내용만 들어가는 경우는 내용이 나올때 까지기다리지 않으므로 결국 time.sleep()을 사용해야 할 것 같다.
url = 'https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d3200324-Reviews-or50-Jungsik-Seoul.html'

# options = ChromeOptions()
# options.add_argument('headless')
# options.add_argument('window-size=1920x1080')

# driver = Chrome(options=options)

url = 'https://www.tripadvisor.co.kr/Restaurant_Review-g294197-d17423735-Reviews-Jangseng_Geongangwon-Seoul.html'


driver = Chrome()
driver.get(url)
driver.maximize_window()
wait = WebDriverWait(driver, 10)
#마지막 페이지 번호 - div.pageNumbers > a:last-child
a_tag = wait.until(EC.presence_of_element_located([By.CSS_SELECTOR,'div.pageNumbers > a:last-child']))
print(a_tag.text)

last_page = int(a_tag.text.strip())
#댓글들을 저장할 리스트
comment_list = []
for i in range(last_page):
    
    # 더보기 링크 클릭
    attempt = 0
    while attempt != 3:  #최대시도횟수
        try:
            more_btn = wait.until(EC.presence_of_all_elements_located([By.CSS_SELECTOR, 'span.taLnk.ulBlueLinks']))
            more_btn[0].click()
            break  #클릭을 정상처리한 경우 더 시도 하지 않고 반복문 나온다.
        except:
            #클릭실패 - 잠시 기다렸다 다시 시도.
            time.sleep(0.5)
            print("더보기 클릭 시도 횟수:", attempt)
            attempt += 1
    
    # 댓글 조회
    time.sleep(1) #댓글 내용이 모두 나오길 기다린다.
    comment_tag_list = driver.find_elements_by_css_selector('p.partial_entry')
    for tag in comment_tag_list:
        comment_list.append(tag.text)  #댓글 텍스트 조회
    
    # 다음 버튼 클릭 : a.nav.next.taLnk.ui_button.primary
    time.sleep(1.5)
    next_btn = driver.find_element_by_css_selector('a.nav.next')
    try:
        next_btn.click()
    except ElementClickInterceptedException: # 다돈 것. 다음 버튼이 없으므로
        break
    
    print(i, end=' ')
    time.sleep(1) #다음 페이지로 이동할 때 까지의 기다린다.

#for문 종료
# driver.close()    

 

5
0 1 2 3 

In [81]:
print(len(comment_list))
# for i in range(40):
#     print(comment_list[i])

47
