# 브라우저를 제어해서 크롤링하기
- ```selenium``` 라이브러리 사용

## 특정 사이트에서 검색 결과 가져오기
<데이터 가져오기 주요 함수들>
1. find_element_by_id() / find_elements_by_id()
2. find_element_by_name() / find_elements_by_name()
3. find_element_by_tag_name() / find_elements_by_tag_name()
4. find_element_by_class_name() / find_elements_by_class_name()
5. find_element_by_css_selector() / find_elements_by_css_selector()
6. find_element_by_xpath
    - XPATH 문법에 대한 이해 필요!!
    
<참고> assert로 driver.page_source에서 특정 키워드 확인하기
- ex) title에 "Python"이 포함되어 있지 않으면 프로그램을 종료
    ```
    assert "Python" in driver.title
    ```
- ex) driver.page_source에 "No results found."라는 문자열이 있으면 프로그램을 종료
    ```
    assert "No results found." not in driver.page_source
    ```

In [1]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('http://www.python.org')
# title에 "Python"이 포함되어 있지 않으면 프로그램을 종료
assert "Python" in driver.title

elem = driver.find_element_by_id('id-search-field')
elem.clear()

# key 이벤트 전송
elem.send_keys('python')

# Enter 입력
elem.send_keys(Keys.RETURN)
# driver.page_source에 "No results found."라는 문자열이 있으면 프로그램을 종료
assert "No results found." not in driver.page_source

# 명시적으로 일정 시간을 기다릴 수 있음(3초 기다림)
time.sleep(3)

# Chrome 브라우저 닫기
driver.quit()

In [2]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('http://www.python.org')
# title에 "Python"이 포함되어 있지 않으면 프로그램을 종료
assert "Python" in driver.title

elem = driver.find_element_by_id('id-search-field')
# key 이벤트 전송
elem.send_keys('python')

# Enter 입력
elem.send_keys(Keys.RETURN)
# driver.page_source에 "No results found."라는 문자열이 있으면 프로그램을 종료
assert "No results found." not in driver.page_source

# 명시적으로 일정 시간을 기다릴 수 있음(3초 기다림)
time.sleep(3)

h3s = driver.find_elements_by_tag_name('h3')
for h3 in h3s:
    print(h3.text)

# Chrome 브라우저 닫기
driver.quit()


Results
Python Documentation by Version
Download Python for Other Platforms
Release – Python 2.5.3
Python 2.5.4 Release
Release – Python 2.5.4
Python 2.5.3 Release
Python 2.5 Release
Python 2.5.2 Release
Sunsetting Python 2
Python 2.5.1 Release
Release – Python 2.5.0
Release – Python 3.1.4
Release – Python 2.5.2
Python 3.1.4 Release
Python 3.1.3 Release
Release – Python 2.5.1
Python 3.2.1 Release
Release – Python 2.7.9rc1
Python 3.0 Release
Python 3.2.5 Release


In [None]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('http://www.python.org')
print(driver.title)
print(driver.current_url)

assert "Python" in driver.title

search = driver.find_element_by_name('q')
search.clear()
search.send_keys('python')
search.send_keys(Keys.RETURN)

time.sleep(2)

assert "No results found." not in driver.page_source

driver.quit()

In [3]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('http://www.python.org')
print(driver.title)
print(driver.current_url)

assert "Python" in driver.title

search = driver.find_element_by_name('q')
search.clear()
search.send_keys('python')
search.send_keys(Keys.RETURN)

time.sleep(2)

assert "No results found." not in driver.page_source

data = driver.find_elements_by_css_selector('ul > li > h3 > a')
for d in data:
    print(d.text)
    
driver.quit()

Welcome to Python.org
https://www.python.org/
Python Documentation by Version
Download Python for Other Platforms
Python 2.5.3
Python 2.5.4 Release
Python 2.5.4
Python 2.5.3 Release
Python 2.5 Release
Python 2.5.2 Release
Sunsetting Python 2
Python 2.5.1 Release
Python 2.5.0
Python 3.1.4
Python 2.5.2
Python 3.1.4 Release
Python 3.1.3 Release
Python 2.5.1
Python 3.2.1 Release
Python 2.7.9rc1
Python 3.0 Release
Python 3.2.5 Release


## Headless Chrome과 PhantomJS 익히기
- ```Headless Chrome```과 ```PhatomJS```는 화면에 크롬 브라우저를 띄우지 않고, 내부적으로 코드를 실행해서 결과만을 출력해주는 용도로 사용한다.

<참고>
- 앞으로 나올 최신 버전의 selenium 라이브러리에서는 PhantomJS를 지원하지 않을 예정이다.
    - 따라서 PhantomJS는 그냥 참고로만 알아두자.
- 그러나 Headless Chrome은 자주 사용되므로 잘 알아두자!!

### PhantomJS 사용
- 앞으로 나올 최신 버전의 selenium 라이브러리에서는 PhantomJS를 지원하지 않을 예정이므로 warning 메세지를 출력한다.

In [4]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.PhantomJS('C:/chrome_webdriver/phantomjs-2.1.1-windows/bin/phantomjs')

driver.get('http://www.python.org')
print(driver.title)
print(driver.current_url)

assert "Python" in driver.title

search = driver.find_element_by_name('q')
search.clear()
search.send_keys('python')
search.send_keys(Keys.RETURN)

time.sleep(2)

assert "No results found." not in driver.page_source

data = driver.find_elements_by_css_selector('ul > li > h3 > a')
for d in data:
    print(d.text)
    
driver.quit()



Welcome to Python.org
https://www.python.org/
Python Documentation by Version
Download Python for Other Platforms
Python 2.5.3
Python 2.5.4 Release
Python 2.5.4
Python 2.5.3 Release
Python 2.5 Release
Python 2.5.2 Release
Sunsetting Python 2
Python 2.5.1 Release
Python 2.5.0
Python 3.1.4
Python 2.5.2
Python 3.1.4 Release
Python 3.1.3 Release
Python 2.5.1
Python 3.2.1 Release
Python 2.7.9rc1
Python 3.0 Release
Python 3.2.5 Release


### Headless Chrome 사용

In [5]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'

# Headless Chrome 옵션
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080') # 크롬 브라우저 화면 조정
options.add_argument('disable-gpu') # 그래픽 카드 사용 x
# 크롤링할 페이지에서 head를 Headless Chrome이라고 판단해서, 크롤링을 차단시키는 것을 방지해주기 위한 옵션 (즉, 크롤링이 막힐 떄 시도해볼만 함)
options.add_argument("User-Agent:  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36")
options.add_argument("lang=ko_KR") # head에 사용자가 지금 사용하고 있는 언어를 지정

driver = webdriver.Chrome(chromedriver, options = options)

driver.get('http://www.python.org')
print(driver.title)
print(driver.current_url)

assert "Python" in driver.title

search = driver.find_element_by_name('q')
search.clear()
search.send_keys('python')
search.send_keys(Keys.RETURN)

time.sleep(2)

assert "No results found." not in driver.page_source

data = driver.find_elements_by_css_selector('ul > li > h3 > a')
for d in data:
    print(d.text)
    
driver.quit()

Welcome to Python.org
https://www.python.org/
Python Documentation by Version
Download Python for Other Platforms
Python 2.5.3
Python 2.5.4 Release
Python 2.5.4
Python 2.5.3 Release
Python 2.5 Release
Python 2.5.2 Release
Sunsetting Python 2
Python 2.5.1 Release
Python 2.5.0
Python 3.1.4
Python 2.5.2
Python 3.1.4 Release
Python 3.1.3 Release
Python 2.5.1
Python 3.2.1 Release
Python 2.7.9rc1
Python 3.0 Release
Python 3.2.5 Release


# 실전 크롤링

## 실전 예제 1: 브라우저를 제어해서 Daum 뉴스 기사 제목 가져오기

In [6]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('https://www.daum.net/')

# "카페, 메일, 뉴스, ..." 등과 같이 여러 개의 카테고리 중, "뉴스" 카테고리를 선택하여 클릭
new_category = driver.find_element_by_css_selector("ul.list_mainsvc > li > a[data-tiara-layer='news']")
new_category.click()

time.sleep(2)

# 페이지 맨 위에 있는 메인 article 1개(첫 번째꺼)를 크롤링
main_article = driver.find_element_by_css_selector("div.item_issue > div > strong > a")
main_article.click()

time.sleep(2)

title = driver.find_element_by_css_selector('h3.tit_view')
content = driver.find_element_by_css_selector('div#harmonyContainer')
print(title.text, content.text)

driver.quit()

안철수 "결자해지"..서울시장 재도전 ◆ 안철수 서울시장 출마 ◆
안철수 국민의당 대표가 내년 4월 예정된 서울시장 재보궐선거 출마를 공식 선언했다.
안 대표는 20일 오전 국회에서 기자회견을 열고 "정권교체는 절체절명의 시대적 과제"라면서 "반드시 이겨 정권교체의 기반을 만들겠다"고 출마의 변을 밝혔다.
2017년 대선, 2018년 서울시장 선거에 잇따라 출마했던 안 대표가 직접 서울시장 선거에 뛰어들면서 내년 재보선을 약 4개월 보름 정도 앞두고 선거 초반 판세가 급격하게 요동칠 것으로 보인다. 정치권에서는 안 대표의 출마에 대해 중도층 확장성과 실제 득표력에 대한 분석이 엇갈리는 가운데 제1야당인 국민의힘과 후보 단일화 과정이 최대 변수가 될 것이라는 전망이 나온다. 안 대표는 이날 기자회견에서 "무도한 정권의 심장에 직접 심판의 비수를 꽂지 않고서는 아무것도 바뀌지 않는다는 사실을 절감했다"는 격한 표현을 앞세웠다.
또 야권 단일화가 필수라는 점을 강조하며 "안철수가 이기는 선거가 아니라 전체 야당이 이기는 선거를 하겠다"면서 "대한민국 서울의 시민 후보, 야권 단일 후보로 당당히 나서 정권의 폭주를 멈추는 견인차 역할을 하겠다"고 말했다. 야권 단일화를 위한 기자들의 질문에 대해서는 "김종인 국민의힘 비대위원장뿐 아니라 정권교체에 동의하는 어떤 분이라도 만나 연대와 협력을 하겠다"고 밝혔다.
국민의힘 합류 의사가 있느냐는 기자들의 질문에는 "정권교체를 이루기 위해서는 야권이 힘을 합해야 하고 야권 단일후보로 맞서 싸워야만 한다"고 말해 부정적 입장을 표명했다. 다만 '통합경선'에 대해서는 "공정한 경쟁이 되기만 한다면 어떤 방식도 좋다"고 말해 여지를 남겼다.
그동안 서울시장 선거 출마가 아니라 대선에 출마하겠다고 언급해왔던 안 대표는 갑자기 생각이 바뀐 데 대해 '결자해지론'을 들고나왔다. 안 대표는 "결자해지, 묶은 사람이 풀어야 한다는 말씀에 참으로 송구스러웠다"면서 10년 전 자신이 박원순 전 서울시장과 이뤄낸 단일화가 현 상황을 만들어냈다고 

<참고>
- 주요 함수: 요소 내용 가져오기
    - head 태그 관련: get_attribute('text')
    - body 태그 관련: text

In [7]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('disable-gpu')
options.add_argument('lang=ko_KR')
driver = webdriver.Chrome(chromedriver, options = options)

driver.get('https://news.v.daum.net/v/20201219154202721')

# head 태그 관련
head_title = driver.find_element_by_css_selector('head > title')
print(head_title.get_attribute('text'))
# body 태그 관련
title = driver.find_element_by_css_selector('h3.tit_view')
print(title.text)

content = driver.find_element_by_css_selector('div#harmonyContainer')
print(content.text)

driver.quit()

"하루 1천명대 확진자 더 늘수도..1명이 1.2명 감염시켜"
"하루 1천명대 확진자 더 늘수도..1명이 1.2명 감염시켜"
임시선별진료소에 줄 선 시민들. (사진=이한형 기자/자료사진)
코로나19 신규 확진자가 연일 1천 명을 넘어서는 가운데 방역당국은 "1명의 감염자가 1.2명을 감염시키고 있다"며 "현 추세가 당분간 이어질 것"이라고 내다봤다.
임숙영 중앙방역대책본부 상황총괄단장은 19일 오후 정례 브리핑에서 "최근 코로나19 감염재생산지수가 1.2를 조금 상회하는 것으로 파악하고 있다"며 "1명의 감염자가 1.2명을 감염시킨다는 의미"라고 말했다.
임 단장은 신규 확진자가 연일 1천 명을 넘은 것과 관련해 "지역사회에 누적된 감염원이 매우 크다"면서 "누적된 감염원에 비례해 확진자 규모가 커지는 것이다"고 설명했다.
이어 "수도권 임시 선별검사소에서 오늘 기준으로 총 286명의 확진자를 찾아냈다"며 "이렇게 선제적으로 감염원을 찾아내게 되면 당분간 현재 수준의 확진자 수 규모가 지속되지 않을까 생각하고 있다"고 내다봤다.
임 단장은 현 상황을 '3차 대유행의 위기'라면서 요양시설과 요양병원을 주의 시설로 꼽았다.
임 단장은 "요양시설이나 요양병원의 경우, 집단생활을 하시는 어르신들은 고령이면서 기저질환을 가진 경우가 대부분"이라며 "한번 감염되면 중증으로 진행될 가능성이 크다"고 지적했다.
또 "일단 1명이라도 감염이 발생하면 대규모의 집단발병으로 전환되는 경우가 많은데 감염된 분들에게도 치명적이지만 중환자 병상과 의료 인력의 소모도 비교되지 않게 크다"고 설명했다.
(사진=황진환 기자/자료사진)
임 단장은 연말연시를 앞두고 각종 모임, 행사가 많아지는 점에 대해서도 우려를 표했다.
임 단장은 "최근 이동량이 줄었다고는 하지만 젊은 층 중심의 호텔, 파티룸 등 숙박시설과 스키장에서 모임과 이동이 매우 많은 상황"이라며 "최근에 감염 위험이 큰 장소는 국민들께서 이번 주말에 만나기로 한 곳"이라고 말했다.
이어 "대유행 상황에서 가까운 친구나 지인 누구도

In [8]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('disable-gpu')
options.add_argument('lang=ko_KR')
driver = webdriver.Chrome(chromedriver, options = options)

driver.get('https://news.v.daum.net/v/20201219154202721')

navigation = driver.find_element_by_css_selector("div[role = 'navigation']")
print(navigation.text)
print('-' * 80)
    
title = driver.find_element_by_css_selector('h3.tit_view')
print(title.text)

content = driver.find_element_by_css_selector('div#harmonyContainer')
print(content.text)

driver.quit()

홈
사회
정치
경제
국제
문화
IT
랭킹
연재
포토
TV
1boon
갤러리
서울
서울 -1 ℃
--------------------------------------------------------------------------------
"하루 1천명대 확진자 더 늘수도..1명이 1.2명 감염시켜"
임시선별진료소에 줄 선 시민들. (사진=이한형 기자/자료사진)
코로나19 신규 확진자가 연일 1천 명을 넘어서는 가운데 방역당국은 "1명의 감염자가 1.2명을 감염시키고 있다"며 "현 추세가 당분간 이어질 것"이라고 내다봤다.
임숙영 중앙방역대책본부 상황총괄단장은 19일 오후 정례 브리핑에서 "최근 코로나19 감염재생산지수가 1.2를 조금 상회하는 것으로 파악하고 있다"며 "1명의 감염자가 1.2명을 감염시킨다는 의미"라고 말했다.
임 단장은 신규 확진자가 연일 1천 명을 넘은 것과 관련해 "지역사회에 누적된 감염원이 매우 크다"면서 "누적된 감염원에 비례해 확진자 규모가 커지는 것이다"고 설명했다.
이어 "수도권 임시 선별검사소에서 오늘 기준으로 총 286명의 확진자를 찾아냈다"며 "이렇게 선제적으로 감염원을 찾아내게 되면 당분간 현재 수준의 확진자 수 규모가 지속되지 않을까 생각하고 있다"고 내다봤다.
임 단장은 현 상황을 '3차 대유행의 위기'라면서 요양시설과 요양병원을 주의 시설로 꼽았다.
임 단장은 "요양시설이나 요양병원의 경우, 집단생활을 하시는 어르신들은 고령이면서 기저질환을 가진 경우가 대부분"이라며 "한번 감염되면 중증으로 진행될 가능성이 크다"고 지적했다.
또 "일단 1명이라도 감염이 발생하면 대규모의 집단발병으로 전환되는 경우가 많은데 감염된 분들에게도 치명적이지만 중환자 병상과 의료 인력의 소모도 비교되지 않게 크다"고 설명했다.
(사진=황진환 기자/자료사진)
임 단장은 연말연시를 앞두고 각종 모임, 행사가 많아지는 점에 대해서도 우려를 표했다.
임 단장은 "최근 이동량이 줄었다고는 하지만 젊은 층 중심의 호텔, 파티룸 등 숙박시설과 스키장에

## 실전 예제 2: 브라우저를 제어해서 Twitter 사이트 로그인 하기

In [9]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

# Twitter 계정 ID/pw 파일 불러오기
with open('twitter_account.txt', 'rt') as f:
    user_id = f.readline().strip()
    user_pw = f.readline().strip()

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('https://twitter.com/')

time.sleep(2)

# 로그인 ID 입력
id_input = driver.find_element_by_name('session[username_or_email]')
id_input.clear()
id_input.send_keys(user_id)
# 로그인 pw 입력
pw_input = driver.find_element_by_name('session[password]')
pw_input.clear()
pw_input.send_keys(user_pw)

# Enter 입력
pw_input.send_keys(Keys.RETURN)

time.sleep(2)

# Twitter 글 추출
data = driver.find_elements_by_css_selector('div.css-1dbjc4n.r-1jgb5lz.r-1ye8kvj.r-13qz1uu')
for item in data:
    print(item.text, '\n')
    
print(driver.current_url)
print(driver.title)

driver.quit()

Home
What’s happening?

Tweet
Your Home Timeline
문재인
@moonriver365
·
Dec 19
<연등회> 유네스코 등재의 기쁨을 
함께 나눕니다.
143
2.7K
5.9K
엘소드(ELSWORD)
@ELSWORD_KOG
"의무도 책임도 아니야. 이것이 내 의지"
 
엘소드 신규 캐릭터 노아
1라인 3차 전직 업데이트 완료!
https://i.nx.com/9dO
 
오늘 오후 6시부터
모험가님댁에 넥슨캐시 노아드릴 눈치게임 시작!
노아를 위한 첫 겨울맞이 이벤트와
강화데이도 놓치지 마세요!
 
#엘소드_노아_너는_내가_지켜줄게
노아 1라인 업데이트 자세히 보기
nexon.com
5
788
651
Promoted
대한민국 청와대
@TheBlueHouseKR
·
Dec 18
김정숙 여사는 오늘, 서울에서 열린 2020 KWBL휠체어농구리그 시상식에서 영상축사를 통해 코로나19로 인해 무관중으로 리그를 마친 휠체어농구인들을 격려했습니다. 김정숙 여사의 영상축사를 KWBL휠체어농구리그 경기 하이라이트와 함께 전합니다.

전문보기 ☞ https://www1.president.go.kr/articles/9697
24
731
1.4K
문재인
@moonriver365
·
Dec 18
오늘 우리의 오랜 친구 인도네시아와 
‘포괄적 경제 동반자 협정(CEPA)’에 
정식 서명했습니다. 
이로써 정부 출범 직후 신남방국가 중 
유일하게 ‘특별 전략적 동반자 관계’를 
맺은 인도네시아와 
더욱 가깝고 특별한 친구가 되었습니다.

https://facebook.com/moonbyun1/posts/3218875061552157…
177
2.4K
5.4K
문재인
@moonriver365
·
Dec 18
마크롱 대통령님 
@EmmanuelMacron
,
2주전 통화에서 대통령님과
코로나 극복 의지를 다짐했는데,
갑작스런 대통령님의 
코로나 확진 소식에 
안타까운 마음뿐입니다.

대통령님의 빠른 쾌유를 빌며
프랑스의 코로나 상황도 
조속히 진정되기를 바

# 동적 웹 페이지 크롤링하기

## 특정 태그 일정 시간 기다리기 기능
<예시>
```
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

element = WebDriverWait(driver, 3).until(
        EC.presence_of_element_located((By.ID, 'alex-area'))
    )
```
```
from selenium.common.exceptions import TimeoutException

    try:
        element = WebDriverWait(driver, 3).until(
            EC.presence_of_element_located((By.ID, 'alex-area'))
        )
        more_button = driver.find_element_by_css_selector('a')
        more_button.click()
        count += 1
        
    except TimeoutException:
        loop = False
```

## 특정 태그 존재 여부 확인 기능
```
from selenium.webdriver.common.by import By
```
- 해당 태그가 존재하는지 확인
    - ex) (By.ID, 'alex-area')
- 태그 선택 방법
    1. By.CLASS_NAME: class name
    2. By.CSS_SELECTOR: css selector
    3. By.ID: id
    4. By.NAME: name
    5. By.TAG_NAME: tag name
    
## 키보드/마우스 동작 자동화
```
from selenium import webdriver

hidden_submenu = driver.find_element_by_css_selector('.nav #submenu1')

actions = webdriver.ActionChains(driver)
actions.click(hidden_submenu)
actions.perform()

또는 다음과 같이 한 줄로 코드를 구현해도 된다.

webdriver.ActionChains(driver).click(hidden_submenu).perform()
```
- ActionChains() 관련 홈페이지: https://www.selenium.dev/selenium/docs/api/py/webdriver/selenium.webdriver.common.action_chains.html?highlight=move_to_element#selenium.webdriver.common.action_chains.ActionChains.move_to_element

## 실습 예제: Daum 뉴스 기사의 댓글 가져오기
<참고>
- 다음 뉴스 사이트 변경 관련 크롤링과 관련해서, 업데이트 사항을 공유드립니다.
    - 최근, 다음 사이트 자체에서 더보기 버튼을 한번만 노출하고, 전체 댓글은 안보여주도록 사이트 자체를 바꾼 것으로 보입니다.
    - 더보기 버튼 관련 태그도 변경이 있었습니다.
        - 크롤링 코드를 많은 분들께서 테스트하다보니, 크롤링 자체를 막기 위함으로 보여집니다.
    - 다만, 동적 크롤링 기술이 정상 동작하는지는 업데이트한 코드로 최대 댓글 20개까지 가능은 하니, 관련 기술을 익히고, 테스트까지 해보는데에는 문제가 없습니다.

In [10]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import time

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)
driver.get('https://news.v.daum.net/v/20201220162549447')

loop, count = True, 0

# 1. '더보기' 버튼이 안 나올 때까지 '더보기' 버튼을 클릭해서, 모든 댓글들이 보여지게끔 처리
while loop and count < 10:
    # '더보기' 버튼이 있는 경우에 대한 처리
    try:
        # 해당 태그가 있는지 확인(5초)
        element = WebDriverWait(driver, 5).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#alex-area > div > div > div > div.cmt_box > div.alex_more > button'))
        )
        # '더보기' 버튼 클릭
        more_button = driver.find_element_by_css_selector('#alex-area > div > div > div > div.cmt_box > div.alex_more > button')
        webdriver.ActionChains(driver).click(more_button).perform()
        count += 1
        
        # 다음 '더보기' 버튼이 나올 때까지 기다려주기
        time.sleep(2)
        
    # '더보기' 버튼이 없는 경우에 대한 처리
    except TimeoutException:
        loop = False

# 2. 댓글 가져오기
comment_box = driver.find_element_by_css_selector('ul.list_comment')
comment_list = comment_box.find_elements_by_tag_name('li')
for idx, comment in enumerate(comment_list):
    print(str(idx + 1) + '.', comment.find_element_by_css_selector('div p').text)
        
driver.quit()

1. 기레기 국민일보
2. 공수처장의 절대 검찰과 아무 인연이 없어야 한다. 
공수처는 곧 검찰개혁의 상징이다.
3. 검사출신은 얼씬도마라
같은통속이돼서  무슨일꾸미려고?
4. 검찰개혁이 본질인데 조직이기가 강한 검찰 출신이 제대로 개혁하겠냐
5. 공수처를 물로 보나?
공수처가 검찰의 1중대인가?
왜 공수처장이 검찰 출신이어야 하나?
금태섭, 조응천을 보고 뭔가 느끼는 것이 없나?
공수처장이 검사출신이면 공수처는 대검 공수처가 되는 것이다.
6. 기더기들발악을하네
7. 어짜피 되지도 못하는데
해괴한 변명하며 사퇴질하네~^^
넌~~안돼^^
8. 윤석열 사태를 보고도
검사출신이 공수처 가는게 상식적이라고 생각하는
인간이 이상한 인간아닌가?
9. 검찰이 엄청난 권력이구나 대통령보다 더하구나
10. 당연히 이분법이지 그럼 검찰당이랑 협상해야하냐??
11. 조중동 + 국민일보 = 언론개혁
12. 당근 판검사 출신은 절대 안돼지 윤짜장과 똑가틀 텐데
13. 검사동일체를 주장하는 검찰에 동화된 이들을 공수처장에 앉혀놓으면, 
퍽이나 검찰 비리를 제대로 수사할 수 있겠다.
14. 하여간 검사놈들은 다 썩었어 뒤에서 말이나하고 기레기하고 유착해서 비겁하고 더럽고 아니면 쪼르르 토왜한테 달려가국짐에 붙어 국개허고 김웅처럼 그러면서 혼자 정의로운척 깨끗한척은 다해 제일 더럽고 부패한게 국민은 다 아는데 지들만 부정해 골수까지 썩어서
15. 절대 검찰 출신은 안 됨!!!!
16. 공수처장되서 검찰옹호하고 현정부및 여당대표 탄압하려했는데 그게 아니어서 사퇴한다는?
17. 공수처를 검찰출신으로 하면 무슨의미가 있겠냐? ㅋㅋㅋ


# 데이터를 선택하는 또 다른 기법: XPATH
- 마크업에서 요소를 정의하기 위해 path 경로를 사용하는 방법
- ```find_element_by_xpath()```, ```find_elements_by_xpath()``` 메서드로 검색 가능
    - / : 절대경로를 나타냄
    - // : 문서 내에서 검색
    - //@href : href 속성이 있는 모든 태그 선택
    - //a[@href='http://google.com'] : a 태그의 href 속성에 http://google.com 속성값을 가진 모든 태그 선택 
    - (//a)[3] : 문서의 세 번째 링크 선택
    - (//table)[last()] : 문서의 마지막 테이블 선택
    - (//a)[position() < 3] : 문서의 처음 두 링크 선택
    - //table/tr/* 모든 테이블에서 모든 자식 tr 태그 선택
    - //div[@*] 속성이 하나라도 있는 div 태그 선택
- [XPATH 문법 상세 참고](https://wkdtjsgur100.github.io/selenium-xpath/)

<참고>
- 요즘에는 css selector를 많이 사용하지만, 예전 크롤링 코드들은 xpath를 사용한 경우도 있을 것이다.
    - 따라서 xpath에 대해서도 알아두도록 하자.
- 또한 XPATH는 BeautifulSoup에서는 지원하지 않는다.
    - 따라서 XPATH는 Selenium과 PhantomJS에서만 사용한다.

## 실습 예제 1: Daum 뉴스 기사 제목 가져오기

In [11]:
from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
options.add_argument("disable-gpu")
options.add_argument("User-Agent:  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36")
options.add_argument("lang=ko_KR")

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver, options = options)

driver.get('https://news.v.daum.net/v/20201220165943147')

## 1. head 사용
# 문서 내 태그 검색
head_title1 = driver.find_element_by_xpath('//title') # 문서 내의  어떤 태그든지 가능
print(head_title1.get_attribute('text'))
# 절대 경로
head_title2 = driver.find_element_by_xpath('/html/head/title')
print(head_title2.get_attribute('text'))
# html 태그 내에서 다시 검색
head_title3 = driver.find_element_by_xpath('/html//title')
print(head_title3.get_attribute('text'))

## 2. body 사용
title1 = driver.find_element_by_xpath("//h3[@class='tit_view']")
print(title1.text)

title2 = driver.find_element_by_xpath('//*[@id="cSub"]/div/h3')
print(title2.text)

driver.quit()

[현장연결] 중대본 "거리두기 3단계 상향 없이 확산세 꺾을 수 있도록 노력"
[현장연결] 중대본 "거리두기 3단계 상향 없이 확산세 꺾을 수 있도록 노력"
[현장연결] 중대본 "거리두기 3단계 상향 없이 확산세 꺾을 수 있도록 노력"
[현장연결] 중대본 "거리두기 3단계 상향 없이 확산세 꺾을 수 있도록 노력"
[현장연결] 중대본 "거리두기 3단계 상향 없이 확산세 꺾을 수 있도록 노력"


## 실습 예제 2: Facebook 계정 로그인하기

In [12]:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import time

# Facebook 계정 ID/pw 파일 불러오기
with open('facebook_account.txt', 'rt') as f:
    user_id = f.readline().strip()
    user_pw = f.readline().strip()

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('https://www.facebook.com/')

# 계정 ID 입력 태그
id_input = "//*[@id='email']"
# 계정 pw 입력 태그
pw_input = "//*[@id='pass']"
# '로그인' 버튼 입력 태그
login_btn = "//*[@id='u_0_b']"

id_tag = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.XPATH, id_input))
)
pw_tag = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.XPATH, pw_input))
)
login_btn_tag = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.XPATH, login_btn))
)

# 계정 ID 및 pw 입력
id_tag.clear()
id_tag.send_keys(user_id)

pw_tag.clear()
pw_tag.send_keys(user_pw)

# '로그인' 버튼 클릭
login_btn_tag.click()

time.sleep(5)

driver.quit()

## 실습 예제 3: Seeko 뉴스게시판 "기사 제목" 및 "조회 수" 가져오기

In [13]:
from selenium import webdriver

chromedriver = 'C:/chrome_webdriver/chromedriver'
driver = webdriver.Chrome(chromedriver)

driver.get('https://seeko.kr/bbs/board.php?bo_table=mainnews')

titles = driver.find_elements_by_xpath("//div[@class='wr-subject']")
hits = driver.find_elements_by_xpath("//div[@class='wr-hit hidden-xs']")

article_data = []
for num in range(len(titles)):
    article_data.append([titles[num].text, hits[num].text])

print(article_data)

driver.quit()

[['스파이더맨처럼 손 소독제를 뿌릴 수 있는 팔찌 1', '37'], ['스마트폰의 발열을 해소해주는 케이스', '27'], ['2021년형 LG 그램 공개', '30'], ['검은사막…감은사막?', '25'], ['맥세이프가 들어간 스탠드형 무선 충전기', '39'], ['드비알레의 저렴한(?) 노캔 무선 이어폰', '25'], ['마음대로 조합하는 모듈형 게임 컨트롤러', '53'], ['아이폰 12 시리즈를 위한 마그네틱 무선 이어폰', '36'], ['람보르기니 감성이 담긴 무선 헤드폰', '67'], ['우리 댕댕이용 스마트워치', '43'], ['아뵤~! 케이스티파이 x 이소룡', '44'], ['1억7천만원짜리 마이크로 LED TV', '59'], ['디즈니플러스의 한국 상륙 작전', '37'], ['마음대로 붙이고 뗄 수 있는 모듈형 무선 충전기', '85'], ['추억을 느낄 수 있는 캡콤 레트로 스테이션', '33']]
