### selenium 모듈
- 웹 어플리케이션 테스트를 위한 프레임워크 : 홈페이지 테스트용으로 사용
- 사용자가 아닌 프로그램이 웹 브라우저를 제어할 수 있도록 지원
- 웹 브라우저마다 클라이언트 프로그램(Web Driver)이 별도로 필요(웹 브라우저 <-> 프로그램간 통신 목적)
- 크롤링 보다는 웹을 제어하는 목적이 더 큼
- pip install selenium으로 설치
- web driver 설치(크롬 버전 확인) : https://chromedriver.chromium.org/downloads
- 압축 해제한 후 chromedrive.exe를 적당한 경로로 이동
- selenium 모듈 호출 후 설치한 web driver 경로를 지정

### 이벤트로 제어하기 : 브라우저를 직접 제어하기 때문에 직접 컨트롤하여 마우스 클릭, 키보드 입력, 자바 스크립트 이벤트 처리 가능
- 마우스 클릭 : click()
- 키보드 입력 : send_keys()
- 자바스크립트 삽입 : execute_script()
- 입력 양식 전송 : submit()
- 스크린샷 : screenshot(파일이름)
- 글자 지움 : clear()
- 뒤로 가기 : back()
- 앞으로 가기 : forward()

### 셀레니움 함수
- find_element_by_id : id속성을 사용하여 접근
- find_element(s)_by_calss_name : 클래스를 사용하여 접근
- find_element(s)_by_name : name 속성을 사용하여 접근
- find_element(s)_by_xpath : xpath 속성을 사용하여 접근
- find_element(s)_by_link_text : 앵커태그(a)에 사용되는 텍스트로 접근
- find_element(s)_by_partial_link_text : 앵커태그(a)에 사용되는 일부 텍스트로 접근
- find_element(s)_by_tag_name : 태그를 사용하여 접근
- find_element(s)_by_css_selector : CSS 선택자를 사용하여 접근

In [1]:
! pip install selenium



In [6]:
# 네이버 사이트 불러오기
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import warnings
warnings.filterwarnings('ignore')

url = 'https://naver.com'
path = 'C:/tool/chromedriver.exe'
driver = webdriver.Chrome(path)
driver.get(url)

In [7]:
print(driver.current_url)

https://www.naver.com/


In [8]:
driver.close()

In [10]:
# 브라우저 창을 띄우지 않고 수행
options = webdriver.ChromeOptions()
options.add_argument('headless') # headless모드 브라우저가 뜨지 않고 실행됩니다.
driver = webdriver.Chrome('C:/tool/chromedriver.exe',options=options)
driver.get('https://google.com')
print(driver.current_url)
driver.close()

https://www.google.com/


In [12]:
# 브라우저 최소화/최대화
driver = webdriver.Chrome(path)
driver.get('https://google.com')
driver.maximize_window() # 창 최대화
driver.close()

In [None]:
driver.minimize_window() 

In [14]:
# implicit Waits(암묵적 대기) : 찾으려는 element가 로드될 때까지 지정한 시간만큼 대기할 수 있도록 설정
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome(path)
driver.get('https://google.com')

try: 
    element = WebDriverWait(driver, 5).until(
    EC.presence_of_element_located((By.CLASS_NAME, 'gLFyf')))
finally:
    driver.quit()

In [16]:
from time import sleep
driver = webdriver.Chrome(path)
driver.get('https://naver.com')

# 검색창 XPath //*[@id="query"]
search_box = driver.find_element_by_xpath('//*[@id="query"]')
search_box.send_keys('빅데이터')
search_box.send_keys(Keys.RETURN)

elements = driver.find_elements_by_xpath('//*[@id="main_pack"]/section/div/div/div/div/h3/a')

for element in elements:
    print(element.text)
    print(element.text, file=open('test_set1.txt','w', encoding='utf-8'))
sleep(3)
driver.close()
# //*[@id="main_pack"]/section[2]/div/div[2]/div[1]/div[1]/h3/a

빅데이터란
빅데이터
빅데이터


In [22]:
import time
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
driver.maximize_window()
driver.find_element_by_class_name('link_login').click()  # class="link_login" 클릭
time.sleep(1)
driver.back() # 뒤로가기(back)
driver.forward()  # 앞으로 가기(forward)
driver.refresh() # 새로고침을 실행
time.sleep(2)
driver.back()
elem = driver.find_element_by_id('query') 
elem.send_keys(Keys.ENTER)
els = driver.find_elements_by_tag_name('a') # 이해안감
for e in els:
    print(e.get_attribute('href'))
driver.close()
print(len(els)) # 86개

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#lnb
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#content
https://www.naver.com/
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://help.naver.com/support/alias/search/word/word_29.naver
https://help.naver.com/support/alias/search/word/word_29.naver
https://help.naver.com/support/alias/search/word/word_29.naver
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
http

In [24]:
import time
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
driver.maximize_window()
driver.find_element_by_class_name('link_login').click()
time.sleep(1)
driver.back()
elem = driver.find_element_by_id('query')
elem.send_keys(Keys.ENTER)
els = driver.find_elements_by_tag_name('a')
for i, e in enumerate(els):
    if i < 5:
        print(e.get_attribute('href'))
    else:
        pass
driver.refresh()
driver.get('https://daum.net')
driver.close()

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#lnb
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#content
https://www.naver.com/
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#


In [None]:
# Q. 다음사이트에서 빅데이터 관련 검색하여 출력한 후 구글 페이지로 이동

In [28]:
driver = webdriver.Chrome(path)
driver.get('http://daum.net')
driver.maximize_window()

search_box = driver.find_element_by_xpath('//*[@id="q"]')
search_box.send_keys('빅데이터')
search_box.send_keys(Keys.ENTER)

# driver.find_element_by_xpath('//*[@id="pediaColl"]/div[2]/ul/li[1]/div/div/div[1]/a').click()
els = driver.find_elements_by_xpath('//*[@id="pediaColl"]')
for i in els:
    print(i.text)
    
driver.refresh()
driver.get('http://google.com')
time.sleep(1)
driver.close()

백과사전
빅데이터
빅데이터(big data)란 복잡하고 다양한 대규모 데이터세트 자체는 물론 이 데이터세트로부터 정보를 추출하고 결과를 분석하여 더 큰 가치를 창출하는 기술을 뜻한다. 수치 데이터 등 기존의 정형화된 정보뿐 아니라 텍스트 ・ 이미지 ・ 오디오 ・ 로그기...
경제금융용어 700선
빅데이터
빅데이터의 등장 오늘날 정보 통신 분야에서의 화두는 단연 빅데이터이다. 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미한다. 아래 그림에서 보여주듯 1분 동안 구글에서...
국립중앙과학관：빅데이터 과학관
왜 한국을 ‘이 세상에서 가장 흥미로운 장소’라고 하는가? , 빅 데이터
가장 작은 데이터 단위는 0 혹은 1을 나타낼 수 있는 비트(bit)며, 8개의 비트가 모여 1바이트(byte)가 된다. 이후 1,024를 곱할 때마다 킬로바이트(KB) · 메가바이트(MB) · 기가바이트(GB) · 테라바이트(TB) · 페타바이트(PB) · 엑사바이트(EB) · ...
재미있는 영어 인문학 이야기 2
백과사전 더보기


In [29]:
import time
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
driver.maximize_window()

# selector는 > 사용하여 자식으로 이동가능
driver.find_element_by_css_selector('#NM_FAVORITE > div.group_nav > ul.list_nav.NM_FAVORITE_LIST > li:nth-child(2) > a').click()
# div id="ct" > div > section class="main_content"> div class="main_brick"
elements = driver.find_elements_by_css_selector('#ct > div > section.main_content > div.main_brick > div > div> div > div > div > div> a > div> div')

for i,e in enumerate(elements):
    if i < 5:
        print(e.text)
    else:
        pass
driver.close()      

‘황대헌처럼 ‘치킨 연금’”…최민정 돌발 발언에 BBQ 회장 한 말
윤석열 제외 이재명·심상정·안철수 "언론자율규제기구 찬성"
서민 교수, 文 저격 “적폐청산 ‘내로남불’”…김정숙 여사엔 “어찌나 패션쇼 해댔는지”
'3% 표심' 강원도, 대선 전략적 요충지 부상
'최민정 막판 질주' 여자 쇼트트랙 3천m 계주 값진 은메달
