#### selenium 모듈
- 웹 어플리케이션 테스트를 위한 프레임워크 : 홈페이지 테스트용으로 사용
- 사용자가 아닌 프로그램이 웹 브라우저를 제어할 수 있도록 지원
- 웹 브라우저마다 클라이언트 프로그램(Web Driver)이 별도로 필요(웹 브라우저 <-> 프로그램간 통신 목적)
- 크롤링 보다는 웹을 제어하는 목적이 더 큼
- pip install selenium 으로 설치
- web driver 설치(크롬 버전 확인) : https://chromedriver.chromium.org/downloads
- 압축 해제한 후 chromedrive.exe를 적당한 경로로 이동
- selenium 모듈 호출 후 설치한 web driver 경로를 지정

이벤트로 제어하기 : 브라우저를 직접 제어하기 때문에 직접 컨트롤하여 마우스 클릭, 키보드 입력, 자바스크립트 이벤트 처리 가능
- 마우스 클릭: click()
- 키보드 입력: send_keys()
- 자바스크립트 삽입: execute_script()
- 입력 양식 전송: submit()
- 스크린샷: screenshot(파일이름)
- 글자 지움: clear()
- 뒤로 가기: back()
- 앞으로 가기: forward()

#### 셀레니움 함수
- find_element_by_id : id 속성을 사용하여 접근
- find_element(s)_by_class_name : 클래스를 사용하여 접근
- find_element(s)_by_name : name 속성을 사용하여 접근
- find_element(s)_by_xpath : xpath 속성을 사용하여 접근
- find_element(s)_by_link_text : 앵커태그(a)에 사용되는 일부 텍스트로 접근
- find_element(s)_by_partial_link_text : 앵커태그(a)에 사용되는 일부 텍스트로 접근
- find_element(s)_by_tag_name : 태그를 사용하여 접근
- find_element(s)_by_css_selector : CSS 선택자를 사용하여 접근

In [41]:
import time
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.keys import Keys
import warnings
warnings.filterwarnings('ignore')


In [42]:
# 네이버 사이트 불러오기
url = 'https://www.naver.com'
path = './dataset/chromedriver.exe'
driver = webdriver.Chrome(path)
driver.get(url)

In [43]:
print(driver.current_url)

https://www.naver.com/


In [44]:
driver.close()

In [45]:
# 브라우저 창을 띄우지 않고 수행
options = webdriver.ChromeOptions()
options.add_argument('headless')
driver = webdriver.Chrome('./dataset/chromedriver.exe',options=options)
driver.get('https://google.com')
print(driver.current_url)
driver.close()

https://www.google.com/


In [46]:
# 브라우저 최소화/최대화
driver = webdriver.Chrome(path)
driver.get('https://google.com')
driver.maximize_window()

In [47]:
driver.minimize_window()

In [48]:
# Implict Waits(암묵적 대기) : 찾으려는 element가 로드될 때까지 지정한 시간만큼 대기할 수 있도록 설정
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome(path)
driver.get('https://google.com')

try:
    element = WebDriverWait(driver,5).until(
    EC.presence_of_element_located((By.CLASS_NAME,'gLFyf'))
    )
finally:
    driver.quit()

In [49]:
from time import sleep
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
search_box = driver.find_element_by_xpath('//*[@id="query"]')
search_box.send_keys('빅데이터')
search_box.send_keys(Keys.RETURN)

elements = driver.find_elements_by_xpath('//*[@id="main_pack"]/section[2]/div/div/div/div/h3/a')

for element in elements:
    print(element.text)
    print(element.text, file=open('test_set.txt','a',encoding='utf-8'))
sleep(3)
driver.close()

빅데이터란
빅데이터
빅데이터


In [51]:
import time
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
driver.maximize_window()
driver.find_element_by_class_name('link_login').click()
time.sleep(1)
driver.back()
driver.forward()
driver.refresh()
time.sleep(2)
driver.back()
elem = driver.find_element_by_id('query')
elem.send_keys(Keys.ENTER)
els = driver.find_elements_by_tag_name('a')
for e in els:
    print(e.get_attribute('href'))
driver.close()

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#lnb
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#content
https://www.naver.com/
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://help.naver.com/support/alias/search/word/word_29.naver
https://help.naver.com/support/alias/search/word/word_29.naver
https://help.naver.com/support/alias/search/word/word_29.naver
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
http

In [52]:
import time
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
driver.maximize_window()
driver.find_element_by_class_name('link_login').click()
time.sleep(1)
driver.back()
elem = driver.find_element_by_id('query')
elem.send_keys(Keys.ENTER)
els = driver.find_elements_by_tag_name('a')
for i, e in enumerate(els):
    if i < 5:
        print(e.get_attribute('href'))
    else:
        pass
driver.refresh()
driver.get('http://daum.net')
driver.close()

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#lnb
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#content
https://www.naver.com/
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=#


In [16]:
# Q. 다음사이트에서 빅데이터 관련 검색하여 출력한 후 구글페이지로 이동
driver = webdriver.Chrome(path)
driver.get('http://daum.net')
driver.maximize_window()
search_box = driver.find_element_by_xpath('//*[@id="q"]')
search_box.send_keys('빅데이터')
search_box.send_keys(Keys.ENTER)
driver.find_element_by_xpath('//*[@id="pediaColl"]/div[2]/ul/li[1]/div/div/div[1]/a').click()
els = driver.find_elements_by_xpath('//*[@id="pediaColl"]')
for i in els:
    print(i.text)
driver.refresh()
driver.get('http://google.com')
time.sleep(1)
driver.close()

  driver = webdriver.Chrome(path)
  search_box = driver.find_element_by_xpath('//*[@id="q"]')
  driver.find_element_by_xpath('//*[@id="pediaColl"]/div[2]/ul/li[1]/div/div/div[1]/a').click()
  els = driver.find_elements_by_xpath('//*[@id="pediaColl"]')


백과사전
빅데이터
빅데이터(big data)란 복잡하고 다양한 대규모 데이터세트 자체는 물론 이 데이터세트로부터 정보를 추출하고 결과를 분석하여 더 큰 가치를 창출하는 기술을 뜻한다. 수치 데이터 등 기존의 정형화된 정보뿐 아니라 텍스트 ・ 이미지 ・ 오디오 ・ 로그기...
경제금융용어 700선
빅데이터
빅데이터의 등장 오늘날 정보 통신 분야에서의 화두는 단연 빅데이터이다. 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미한다. 아래 그림에서 보여주듯 1분 동안 구글에서...
국립중앙과학관：빅데이터 과학관
왜 한국을 ‘이 세상에서 가장 흥미로운 장소’라고 하는가? , 빅 데이터
가장 작은 데이터 단위는 0 혹은 1을 나타낼 수 있는 비트(bit)며, 8개의 비트가 모여 1바이트(byte)가 된다. 이후 1,024를 곱할 때마다 킬로바이트(KB) · 메가바이트(MB) · 기가바이트(GB) · 테라바이트(TB) · 페타바이트(PB) · 엑사바이트(EB) · ...
재미있는 영어 인문학 이야기 2
백과사전 더보기


In [53]:
import time
driver = webdriver.Chrome(path)
driver.get('https://naver.com')
driver.maximize_window()
driver.find_element_by_css_selector('#NM_FAVORITE > div.group_nav > ul.list_nav.NM_FAVORITE_LIST > li:nth-child(2) > a').click()
elements = driver.find_elements_by_css_selector('#ct > div > section.main_content > div.main_brick > div > div> div > div > div > div> a > div> div')
for i, e in enumerate(elements):
    if i < 5:
        print(e.text)
    else:
        pass
driver.close()





[속보]황대헌, 추월 시도하다 실격…쇼트트랙 500m 결승행 무산


In [3]:
# [과제] 한빛미디어 사이트 로그인한 후 마일리지 점수 2000을 출력하세요(셀레니움 이용 브라우저 제어방식으로 진행)
import time
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup

driver = webdriver.Chrome('./dataset/chromedriver.exe')
driver.get('https://www.hanbit.co.kr/')
time.sleep(2) # 로딩 기다림

driver.find_element_by_class_name('login').click()
time.sleep(1)

m_id = ''
m_passwd = ''
driver.find_element_by_id('m_id').send_keys(m_id)
driver.find_element_by_id('m_passwd').send_keys(m_passwd)
driver.find_element_by_id('login_btn').click()
time.sleep(1)

driver.get('https://www.hanbit.co.kr/myhanbit/myhanbit.html')
time.sleep(1)
html = driver.page_source
bs = BeautifulSoup(html, 'html.parser')
mil = bs.select_one('dl.mileage_section1 > dd > span').text
print(mil)

driver.close()

  driver = webdriver.Chrome('./dataset/chromedriver.exe')
  ele = driver.find_element_by_class_name('login')
  ele_id = driver.find_element_by_id('m_id')
  ele_pw = driver.find_element_by_id('m_passwd')
  ele_in = driver.find_element_by_id('login_btn')


2,000


In [3]:
# [도전과제] 네이버 로그인 후 메일 리스트 출력하기
# 로그인 과정 - pyperclip 이용 (기존 방식 사용 불가..)

import time
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

# !pip install pyperclip
import pyperclip

driver = webdriver.Chrome('./dataset/chromedriver.exe')

def cp(ele,txt):
    pyperclip.copy(txt)
    ele.click()
    ac = ActionChains(driver).key_down(Keys.CONTROL).send_keys('v').key_up(Keys.CONTROL).perform()
    time.sleep(1)

driver.get('https://www.naver.com')
driver.find_element_by_class_name('link_login').click()

id = ''
pw = ''
ele_id = driver.find_element_by_id('id')
ele_pw = driver.find_element_by_id('pw')

cp(ele_id,id)
cp(ele_pw,pw)
driver.find_element_by_id('log.login').click()

driver.get('https://mail.naver.com')
time.sleep(1)
html = driver.page_source
bs = BeautifulSoup(html, 'html.parser')

def printmail():
    sendlist = bs.find_all('div', class_= 'name _ccr(lst.from)') # 보낸 이
    titlelist = bs.find_all('div', class_= 'subject') # 메일 
    for i in range(len(sendlist)):
        print(sendlist[i].find('a').get_text())
        print(titlelist[i].find('strong').get_text())
        print()

# 메일 추출을 사용자 함수로 만들었기 때문에, 다음 페이지로 이동하는 사용자 함수나 for문과 함께 사용하면
# 전체 메일을 추출할 수 있다. (page element를 알아보고 그걸 클릭하면 가능하겠습니다.)
printmail()
# driver.close()

  driver = webdriver.Chrome('./dataset/chromedriver.exe')
  driver.find_element_by_class_name('link_login').click()
  ele_id = driver.find_element_by_id('id')
  ele_pw = driver.find_element_by_id('pw')
  driver.find_element_by_id('log.login').click()


네이버
메일 제목:새로운 환경에서 로그인 되었습니다.

창업신문
메일 제목:[무료교육] “1인 무점포 성공창업” 이런 아이템이라면 가능할 것 같습니다

네이버
메일 제목:새로운 환경에서 로그인 되었습니다.

한빛출판네트워크
메일 제목:[한빛출판네트워크] 가입해주셔서 감사합니다.

Netflix
메일 제목:기억하시나요?

Netflix
메일 제목:조남현 님의 취향에 맞는 영화 등록 알림

Netflix
메일 제목:조남현 님께 추천하는 인기 콘텐츠

Steam
메일 제목:Steam 찜 목록의 Far Cry® 4 및 다른 한 개의 제품이 지금 할인 중입니다!

Twitch
메일 제목:믿을조: 지금 바로 Twitch에서 새로운 사람들과 채팅해 보세요!

Netflix
메일 제목:조남현 님께 추천하는 인기 콘텐츠

비씨카드
메일 제목:TOP point - 조남현님의 소멸 예정 포인트를 알려드립니다 (70594020)

Netflix
메일 제목:조남현 님의 취향에 맞는 영화 등록 알림

교보문고
메일 제목:[교보문고] 조남현님, 주문하신 상품은 모두 잘 받으셨나요?

대한상의자격평가사업단
메일 제목:2월 뉴스레터

Netflix
메일 제목:조남현 님의 취향에 맞는 다큐시리즈 등록 알림



In [None]:
# java script 사용
import time
import selenium
from selenium import webdriver

path = 'C:/tool/chromedriver.exe'
driver = webdriver.Chrome(path)
driver.get('https://www.naver.com')
driver.maximize_window()
time.sleep(1)
element = driver.find_element_by_class_name('link_login')
element.click()
id  = ''
pw = ''

# execute_script 함수를 사용하면 자바스크립트 코드를 실행
# js는 getElementById('id').value로 값을 가져올 수 있다.
driver.execute_script("document.getElementById('id').value=\'" + id + "\'") # text
time.sleep(1)
driver.execute_script("document.getElementById('pw').value=\'" + pw + "\'")
time.sleep(1)

element = driver.find_element_by_class_name('btn_login')
element.click()
print(driver.page_source)

In [21]:
# 이거 안됨
# import time
# import selenium
# from selenium import webdriver
# from bs4 import BeautifulSoup
# from selenium.webdriver.common.keys import Keys
# import pyautogui

# driver = webdriver.Chrome('./dataset/chromedriver.exe')
# driver.get('https://mail.naver.com')
# id = 'chonh31'
# pw = 'cnh1048016!'
# ele_id = driver.find_element_by_id('id')
# ele_pw = driver.find_element_by_id('pw')
# def idpw(ele,txt):
#     ele.click()
#     for i in txt:
#         pyautogui.press(i)

# idpw(ele_id,id)
# idpw(ele_pw,pw)
# pyautogui.press('enter')


  driver = webdriver.Chrome('./dataset/chromedriver.exe')
  ele_id = driver.find_element_by_id('id')
  ele_pw = driver.find_element_by_id('pw')
