In [1]:
# webbrowser : 브라우저로 특정 페이지를 여는 모듈
import webbrowser
# requests : 인터넷에서 파일과 웹 페이지를 다운로드 하는 모듈
import requests
# bs4 : HTML을 구문분석(parsing)하는 라이브러리
from bs4 import BeautifulSoup as BS
# selenium.webdriver : 웹 브라우저를 띄우고 제어하는 라이브러리
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
# urlopen으로 직접 열 수도 있는데.. requests로 다운받아놓는게 더 안전
from urllib.request import urlopen
import pyinputplus as pyip
from pathlib import Path

In [2]:
# webbroswer.open()함수 활용
# 주소의 법칙을 알면 pyinputplus 및 git bash(sys.argv[])와 연계 가능
findAddress = pyip.inputStr(prompt='찾는 주소를 입력해주세요.')
webbrowser.open(f'https://map.naver.com/v5/search/{findAddress}/place')

찾는 주소를 입력해주세요.

True

In [3]:
# request.get()함수는 다운로드할 url 문자열 → Response객체로 반환
res = requests.get('https://automatetheboringstuff.com/files/rj.txt')
# 다운로드 성공 여부 확인을 위해 res.raise_for_status() 메서드 활용
res.raise_for_status()
print(res.text[:250])

The Project Gutenberg EBook of Romeo and Juliet, by William Shakespeare

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Projec


In [4]:
path = Path.cwd() / 'result_attachments' / 'walnut2'
# 이진파일 쓰기 모드로 열어야 → mode='wb'
with open(path / 'Romeo and Juliet.txt', mode='wb') as playFile:
    # res.iter_content() 메서드 이용하여 반복문을 돌 때 마다 chunk를 반환 → 각 chunk는 바이트 자료형
    for chunk in res.iter_content(100000):
        playFile.write(chunk)

In [5]:
res = requests.get('https://nostarch.com')
res.raise_for_status()
# html = urlopen(url)을 통해 res.text 대신 html 집어넣는 것도 가능하긴 한데..
# requests 모듈을 통해 Response 객체를 받은 후 text 속성을 이용하는 아래 방법이 더 좋은듯
bsObj = BS(res.text, 'html.parser')
type(bsObj)

bs4.BeautifulSoup

In [6]:
# BeautifulSoup 객체에서의 메서드들 → find, find_all, select(선택자 패턴) 등
# bsObj.select('div') → 이름이 div인 모든 요소
# bsObj.select('#author') → id 속성이 author인 요소
# bsObj.select('.notice') → CSS class 속성의 이름이 notice인 요소
# bsObj.select('div span') → <div> 요소 내 존재하는 요소 중 이름이 <span>인 모든 요소
# bsObj.select('input[name]') → 이름이 <input>인 요소 중 name 속성 값이 있는 모든 요소
# bsObj.select('input[type="button"]') → 이름이 <input>인 요소 중 type 속성 값이 button인 경우
# 다양한 선택자 패턴 결합 가능

In [7]:
# 선택자 패턴으로 div 추출, text 메서드 활용
bsObj.select('div a')[0], bsObj.select('div')[0].text.strip()

(<a class="element-invisible element-focusable" href="#main-content">Skip to main content</a>,
 'Skip to main content')

In [8]:
# get() 메서드를 활용하여 해당 속성 값을 반환
bsObj.select('#skip-link')[0], bsObj.select('#skip-link')[0].get('id')

(<div id="skip-link">
 <a class="element-invisible element-focusable" href="#main-content">Skip to main content</a>
 </div>,
 'skip-link')

In [9]:
# attr 속성을 활용할 경우 키-값 형태의 딕셔너리로 속성 값 반환
bsObj.select('div')[0].get('id'), bsObj.select('div')[0].attrs

('skip-link', {'id': 'skip-link'})

In [10]:
# find_all()을 활용하여 해당 사이트의 책 이미지들 가져오기
# list comprehension과 간편 조건문 이용하여 책 제목들 추출
[x.get('title') for x in bsObj.find_all('img', {'class':'img-responsive'}) if x.get('title') is not None]

['The Book of Recursion',
 'Engineering in Plain Sight Cover',
 'How to Hack Like a Legend Cover',
 'Hacking APIs Cover',
 'The Art of Mac Malware Cover',
 'Open Circuits Cover',
 'Open Circuits Cover',
 'Engineering in Plain Sight Cover',
 'The LEGO Engineer Cover',
 'Python for Kids, 2nd Edition Cover',
 'Python Crash Course 3rd Edition Cover',
 'Cybersecurity for Small Networks Cover',
 'Learn Physics with Functional Programming Cover',
 'Python Tools for Scientists Cover',
 'The Rust Programming Language, 2E Cover',
 'Dead Simple Python Cover',
 'How to Hack Like a Legend Cover',
 'AVR Workshop Cover',
 'Mastering LEGO® MINDSTORMS Cover',
 'Getting Started with LEGO® MINDSTORMS Cover',
 'Black Hat GraphQL Cover',
 'Ada & Zangemann Cover',
 'MySQL Crash Course Cover',
 'Modeling and Simulation in Python Cover',
 'Dive Into Data Science cover',
 'Practical Julia Cover',
 'The Art of Machine Learning Cover',
 'Codebreaking Cover',
 'JavaScript Crash Course Cover',
 'PHP Crash Course C

In [11]:
# Options() 및 add_argument() 활용하여 여러 옵션 추가 가능(by 업무 자동화 - bhban)
options = Options()
# add_argument 안에 'headless' 넣으면 헤드리스 자동화 가능
options.add_argument('--window-size=1600,900')
# 책 대신 원래 쓰던 방식 활용 → ChromeDriverManager().install()을 통해 직접 설치
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

[WDM] - Downloading: 100%|██████████| 6.58M/6.58M [00:00<00:00, 11.9MB/s]


In [12]:
# get() 메서드에 링크 주소 전달하여 컨트롤
driver.get('https://inventwithpython.com')
# page_source 속성으로 selenium 드라이버에서 page객체 생성 가능 → 이걸 통해 BeautifulSoup에서 활용 가능
page = driver.page_source
bsObj = BS(page, 'html.parser')

In [13]:
bsObj.select('div a')[0].get('id')

'navbarDropdownReadMenuLink'

In [15]:
# 페이지에서 요소를 찾는 메서드로 driver.find_element 활용 가능
# By.CLASS_NAME, By.ID, By.CSS_SELECTOR, By.LINK_TEXT, By.NAME, By.TAG_NAME, By.XPATH 등
try:
    elems = driver.find_elements(By.CLASS_NAME, 'cover-thumb')
    print(elems[0].tag_name)
except:
    print('There is no elements.')

img


In [16]:
elems = driver.find_elements(By.CLASS_NAME, 'dropdown-toggle')
elems[0].text

'Read for Free'

In [18]:
elems = driver.find_elements(By.CLASS_NAME, 'cover-thumb')
# get_attribute() 메서드 이용하여 name 속성에 해당하는 값 추출
elems[1].get_attribute('alt')

'Cover of Python Programming Exercises, Gently Explained'

In [19]:
try:
    # By.LINK_TEXT 활용하여 해당 텍스트가 있는 곳을 찾을 수가 있으며,
    linkElem = driver.find_element(By.LINK_TEXT, 'Read Online for Free')
    # click() 메서드를 통해 클릭 가능
    linkElem.click()
except:
    print('There is no elements.')

In [20]:
try:
    # By.PARTIAL_LINK_TEXT도 활용 가능
    linkElem = driver.find_element(By.PARTIAL_LINK_TEXT, 'Free to read')
    linkElem.click()
except:
    print('There is no elements.')

In [21]:
driver.get('https://login.metafilter.com')
# By.ID를 통해 id가 'user_name'인 것을 찾고
userElem = driver.find_element(By.ID, 'user_name')
# send_keys() 메서드를 통해 내용 입력
# id 등을 지울 때는 clear() 메서드를 활용하면 될듯
userElem.send_keys('id12345')
pwElem = driver.find_element(By.ID, 'user_pass')
pwElem.send_keys('password12345')
# submit() 메서드를 통해 로그인을 진행(로그인 버튼을 찾아서 클릭하는 걸 간단히 하는 개념)
pwElem.submit()

In [22]:
driver.get('https://nostarch.com')
# By.TAG_NAME을 'html'로 설정하여 사이트 자체를 컨트롤할 수 있게 만들고
elem = driver.find_element(By.TAG_NAME, 'html')
# 'Keys.'를 활용한 특수 키를 지정하여 원하는 방법으로 진행
# Keys.DOWN, Keys.UP, Keys.LEFT, Keys.RIGHT, Keys.ENTER, Keys.RETURN, Keys.HOME, Keys.END, Keys.PAGE_DOWN, Keys.PAGE_UP
# Keys.ESCAPE(ESC키), Keys.BACK_SPACE, Keys.DELETE, Keys.TAB 등
elem.send_keys(Keys.END)

In [23]:
# driver.back(), driver.forward(), driver.refresh(), driver.quit() 등 driver 객체를 직접 컨트롤 하는 것도 가능
driver.quit()