DOM(Document Object Model)의 정의
 - HTML, XML 문서의 프로그래밍 인터페이스 : 구조화된 표현 및 프로그래밍 언어가 DOM 접근 할 수 있는 방법을 제공
 - 트리 구조로 형성되어 있음 : 부모 노드(위쪽), 자식노드(아래쪽)
 - HTML에서 노드는 head ,body ,h1 ,script 등의 태그뿐만 아니라 태그 내 텍스트나 속성 모두 노드에 속함
 - BeautifulSoup 모듈의 함수를 활용하여 노드를 기준으로 원하는 데이터 추출

In [None]:
html = """
<html>
<head>
    <title>crawler</title>
</head>
<body>
    <p class="a" align="center"> text1</p>
    <p class="b" align="center"> text2</p>
    <p class="c" align="center"> text3</p>
    <div>
        <img src="/source" width="300" height="200">
    </div>
</body>
</html>
"""

from bs4 import BeautifulSoup

bs = BeautifulSoup(html,'html.parser')
contents = bs.find('body')

for child in contents.children:
    print(child)

In [None]:
# body의 자손은 p, div, img
for d in contents.descendants:
    print(d)

In [None]:
img_tag = contents.find('img')
print(img_tag)
print(img_tag.parent) # 자식노드를 통해 부모노드를 찾기

In [None]:
contents = bs.find('body')
print(img_tag.find_parent('body'),'\n')
print(img_tag.find_parent('div'))

In [None]:
p_tag = bs.find('p',class_='b') # b class 조건을 줘서 b class만 출력
print(p_tag)

In [None]:
from urllib import request as req
from bs4 import BeautifulSoup
res = req.urlopen('https://naver.com')
bs = BeautifulSoup(res,'html.parser')
print(bs.find('a'), '\n')
print(bs.find(class_='link_newsstand'),'\n')
print(bs.find('a',{'class':'link_newsstand'}),'\n') #딕셔너리 형태로 클래스명 주기
eles = bs.find_all('a',{'class':['link_newsstand','btn_more','btn_sort.sort_on']}) #클래스가 여러 개 일때는 대괄호로 묶어줌
for i in eles:
    print(i.text)

In [None]:
hlists = bs.findAll({'h1','h2','h3','h4','h5','h6'},limit=9)
for i in hlists:
    print(i, '\n')

In [None]:
# 과제
# 사이트에서 필요한 정보를 가져와서 출력
from urllib import request as req
from bs4 import BeautifulSoup as bs

dt = req.urlopen('https://www.dataq.or.kr/www/sub/a_07.do')
data = bs(dt,'html.parser')
r = data.findAll('div',class_="tab-content border-right border-bottom border-left")
for i in r:
    print(i.text.strip())

In [None]:
# 정규표현식과 bs4
from urllib.request import urlopen
from bs4 import BeautifulSoup as bs
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bts = bs(html,'html.parser')
image = bts.findAll('img',{'src':re.compile('\.\.\/img\/gifts\/img.*\.jpg')})
for i in image:
    print(i['src'])

In [None]:
# 한빛 네트워크 사이트 로그인 후 점수 가져오기
import time
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup as bs
from getpass import getpass

driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver')
driver.get('https://www.hanbit.co.kr/')
element = driver.find_element_by_class_name('login')
element.click()
m_id = input('id : ')
m_passwd = getpass('pw : ')

element = driver.find_element_by_id('m_id')
element.send_keys(m_id)
time.sleep(1)
element = driver.find_element_by_id('m_passwd')
element.send_keys(m_passwd)
time.sleep(1)

element = driver.find_element_by_class_name('btn_login')
element.click()
time.sleep(1)
newpage = driver.find_element_by_class_name('myhanbit')
newpage.click()

ele = bs(driver.page_source, 'html.parser')
print(ele.select_one('#container > div > div.sm_mymileage > dl.mileage_section1 > dd > span').text,'점')
driver.close()

In [None]:
# 과제
# 로그인 후 Support > 공지사항 가져오기(자바스크립트 사용)

import selenium
from selenium import webdriver
import time
from getpass import getpass

driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver')
driver.get('https://www.hanbit.co.kr')

login_button = driver.find_element_by_xpath('//*[@id="wrap_nav"]/ul[2]/li[1]/a')
login_button.click()

id1 = getpass('아이디를 입력하세요 : ')
pw = getpass('비밀번호를 입력하세요 : ')

driver.execute_script("document.getElementsByName('m_id')[0].value=\'"+id1+"\'") # m_id라는 id를 가진 element에 id1이라는 값을 대입
# driver.execute_script(f"document.getElementsById('m_id').value='{id1}'")
driver.execute_script("document.getElementsByName('m_passwd')[0].value=\'"+pw+"\'")

driver.find_element_by_xpath('//*[@id="login_btn"]').click()
# driver.execute_script(f"document.getElementsById('login_btn').click()")
driver.find_element_by_xpath('//*[@id="gnb"]/ul/li[4]/a').click()
# driver.execute_script(f"document.querySelector('selector 경로').click()")
total = driver.find_elements_by_xpath('//*[@id="container"]/div[2]/div[2]/ul/li/a')
# driver.execute_script(f"return document.querySelectorAll('selector 경로')")
for i in total:
    print(i.text)

In [None]:
from bs4 import BeautifulSoup as bs
driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver')
driver.get("https://www.hanbit.co.kr/member/login.html")

dt = bs(driver.page_source,'html.parser')
pd =driver.find_elements_by_xpath('')
pd

In [None]:
# 과제
# 네이버 로그인 후 메일 목록 10개 가져오기 (execute_script 사용)
from selenium import webdriver
import selenium
from getpass import getpass
import time

driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver')
driver.get('https://naver.com')

login_button = driver.find_element_by_xpath('//*[@id="account"]/a')
login_button.click()

id1 = getpass('id : ')
pw = getpass('pw : ')

driver.execute_script("document.getElementsByName('id')[0].value=\'"+id1+"\'")
# driver.execute_script(f"document.getElementById('id').value='{id1}'" # id 는 고유한 값
driver.execute_script("document.getElementsByName('pw')[0].value=\'"+pw+"\'")
# driver.execute_script(f"document.getElementById('pw').value='{pw}'"

driver.find_element_by_xpath('//*[@id="log.login"]').click()
time.sleep(1)
driver.find_element_by_xpath('//*[@id="NM_FAVORITE"]/div[1]/ul[1]/li[1]/a').click()

mail_list = driver.find_elements_by_xpath('//*[@id="list_for_view"]/ol/li/div/div[2]/a[1]/span/strong')
for i , v in enumerate(mail_list):
    if i < 10:
        print(v.text,'\n')

In [None]:
# driver.execute_script("document.getElementById('id').value='{id}'" #Id는 하나의 고유한 값을 가져와서 따로 처리할게 없음
# driver.execute_script("document.getElementByName('id')[0].value=\'"{id}"\'" #Name 은 여러 개의 값을 불러와서 [0]인덱스를 붙여줌

In [None]:
# 구글플레이에서 인기 영화제목 출력(requests + bs4)
from bs4 import BeautifulSoup as bs
import requests

st = requests.get("https://play.google.com/store/movies/top?hl=ml&gl=KR")
dt = bs(st.text,'html.parser')
total = dt.find_all('div',attrs={'class':'WsMG1c nnK0zc'})
for i in total:
    print(i.text)

In [None]:
# 구글플레이에서 인기 영화제목 출력(requests + bs4)
from bs4 import BeautifulSoup as bs
import requests

st = requests.get("https://play.google.com/store/movies/top?hl=ml&gl=KR")
dt = bs(st.text,'html.parser')
total = dt.select('#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > div > c-wiz > div > div > div.RZEgze > div > div > div.bQVA0c > div > div > div.b8cIId.ReQCgd.Q9MA7b > a > div')
for i in total:
    print(i.text)
    #fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > div > c-wiz > div > div > div.RZEgze > div > div > div.bQVA0c > div > div > div.b8cIId.ReQCgd.Q9MA7b > a > div
    #fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > div:nth-child(2) > c-wiz > div > div > div.RZEgze > div > div > div.bQVA0c > div > div > div.b8cIId.ReQCgd.Q9MA7b > a > div

In [None]:

# 구글 플레이에서 인기 영화 제목 200개 출력(selenium + bs4)
from selenium import webdriver
import time
from bs4 import BeautifulSoup

driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver')
driver.maximize_window()
driver.get('https://play.google.com/store/movies/top')


# driver.execute_script('window.scrollTo(0,document.body.scrollHeight)') # 화면 가장 아래로 스크롤 내리기
# driver.execute_script('window.scrollTo(0,1080)') # 1080 위치로 스크롤 내리기

interval = 2 #  2초에 한 번씩 스크롤 내리기

# 현재 문서 높이를 가져와서 저장
prev_height = driver.execute_script('return document.body.scrollHeight')

# 반복 수행
while True:
    driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
    # 페이지 로딩 대기
    time.sleep(interval)
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    prev_height = curr_height
print('스크롤 완료')

dt = bs(driver.page_source,'html.parser')
total = dt.find_all('div',attrs={'class':'WsMG1c nnK0zc'})
print(len(total))
for i in total:
    print(i.text)

In [None]:
# Q. 구글 플레이에서 인기 영화 제목 200개 출력(selenium + bs4)
from selenium import webdriver

driver = webdriver.Chrome('C:/tool/chromedriver.exe')
driver.maximize_window()

url = 'https://play.google.com/store/movies/top'
driver.get(url)

# 숫자만큼 스크롤 내리기(1080)
# driver.execute_script('window.scrollTo(0,1080)')

# 화면 가장 아래로 스크롤 내리기 (scrollHeight 만큼!)
# driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

import time
interval = 2 # 2초에 한 번씩 스크롤 내리기

# 현재 문서 높이를 가져와서 저장
prev_height = driver.execute_script('return document.body.scrollHeight')

# 반복 수행
while True:
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    # 페이지 로딩 대기
    time.sleep(interval)
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    else:
        prev_height = curr_height
bs = BeautifulSoup(driver.page_source, 'html.parser')
titles = bs.select('.WsMG1c.nnK0zc')
for title in titles:
    print(title.text)

In [None]:
# headless chrome # 화면에 표시하지 않고 실행
from selenium import webdriver
options = webdriver.ChromeOptions()
options.headless = True # 화면에 표시하지 않음 = True
options.add_argument('window-size=1920x1080') #윈도우 사이즈 지정
driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver',options=options)
driver.maximize_window()

url = 'https://play.google.com/store/movies/top'
driver.get(url)

# 숫자만큼 스크롤 내리기(1080)
# driver.execute_script('window.scrollTo(0,1080)')

# 화면 가장 아래로 스크롤 내리기 (scrollHeight 만큼!)
# driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

import time
interval = 2 # 2초에 한 번씩 스크롤 내리기

# 현재 문서 높이를 가져와서 저장
prev_height = driver.execute_script('return document.body.scrollHeight')

# 반복 수행
while True:
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    # 페이지 로딩 대기
    time.sleep(interval)
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    else:
        prev_height = curr_height
bs = BeautifulSoup(driver.page_source, 'html.parser')
titles = bs.select('.WsMG1c.nnK0zc')
for title in titles:
    print(title.text)

In [47]:
# 과제
# 할인된 가격이 적용되는 영화만 출력(할인 전 가격, 할인 후 가격, 링크)

# 제목 : 삼국지 : 무신 조자룡
# 할인 전 금액 : ₩10,000
# 할인 후 금액 : ₩5,000
# 링크 : https:/
import time
import selenium
from selenium import webdriver
from bs4 import BeautifulSoup as bs

interval = 2

options = webdriver.ChromeOptions()
options.headless = True # 화면에 표시하지 않음 = True
options.add_argument('window-size=1920x1080') #윈도우 사이즈 지정
options.add_argument('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36')



driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver',options=options)
driver.get('https://play.google.com/store/movies/top')

prev_height = driver.execute_script('return document.body.scrollHeight')

while True:
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    # 페이지 로딩 대기
    time.sleep(interval)
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    else:
        prev_height = curr_height
bsr = bs(driver.page_source,'html.parser')
discount = bsr.select('#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz> div > div > div.RZEgze > div > div > div.Z2nl8b > div > div.zYPPle > div > button > div > span.SUZt4c.djCuy')
for i in discount:
    total = i.find_parent('div',class_='RZEgze')
    title = total.find('div',{"class" :"b8cIId ReQCgd Q9MA7b"})
    bprice = total.find('span',class_="SUZt4c djCuy")
    aprice = total.find('span',class_="VfPpfd ZdBevf i5DZme")
    link = total.find('a')['href']
    q = 'https://play.google.com'
    # q = driver.current_url # 인기 영화 까지 포함이 되어 있음
    print('제목 : {}\n할인 전 금액 : {}\n할인 후 금액 : {}\n링크 : {}{}\n'.format(title.text,bprice.text,aprice.text,q,link))

driver.close()
    

#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz > div > div > div.RZEgze > div > div > div.Z2nl8b > div > div.zYPPle > div > button > div > span.VfPpfd.ZdBevf.i5DZme > span
#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz:nth-child(14) > div > div > div.RZEgze > div > div > div.Z2nl8b > div > div.zYPPle > div > button > div > span.VfPpfd.ZdBevf.i5DZme > span
#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz:nth-child(14) > div > div > div.RZEgze > div > div > div.Z2nl8b > div > div.zYPPle > div > button

#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz:nth-child(14) > div > div > div.RZEgze > div
#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz:nth-child(15) > div > div > div.RZEgze > div
#fcxH9b > div.WpDbMd > c-wiz > div > c-wiz > div > div > c-wiz > c-wiz > c-wiz > div > div.ZmHEEd > c-wiz:nth-child(14) > div > div > div.RZEgze > div > div > div.bQVA0c > div > div > div.b8cIId.ReQCgd.Q9MA7b > a > div

# div class='k6AFYd' #부모 노드
# span class="VfPpfd ZdBevf i5DZme" #자식 노드
# 자식 노드를 찾아서 부모 노트까지 출력해 텍스트만 출력


제목 : 스파이더맨: 파 프롬 홈 (자막판)
할인 전 금액 : ₩1,800
할인 후 금액 : ₩900
링크 : https://play.google.com/store/movies/details/%EC%8A%A4%ED%8C%8C%EC%9D%B4%EB%8D%94%EB%A7%A8_%ED%8C%8C_%ED%94%84%EB%A1%AC_%ED%99%88_%EC%9E%90%EB%A7%89%ED%8C%90?id=zsehQ83TtjI

제목 : 마크맨
할인 전 금액 : ₩7,000
할인 후 금액 : ₩5,000
링크 : https://play.google.com/store/movies/details/%EB%A7%88%ED%81%AC%EB%A7%A8?id=4IfZtOlXxuA.P

제목 : 내가 죽기를 바라는 자들
할인 전 금액 : ₩14,900
할인 후 금액 : ₩9,900
링크 : https://play.google.com/store/movies/details/%EB%82%B4%EA%B0%80_%EC%A3%BD%EA%B8%B0%EB%A5%BC_%EB%B0%94%EB%9D%BC%EB%8A%94_%EC%9E%90%EB%93%A4?id=Urp3ar5o70g.P

제목 : 삼국지: 무신 조자룡
할인 전 금액 : ₩10,000
할인 후 금액 : ₩5,000
링크 : https://play.google.com/store/movies/details/%EC%82%BC%EA%B5%AD%EC%A7%80_%EB%AC%B4%EC%8B%A0_%EC%A1%B0%EC%9E%90%EB%A3%A1?id=BliyeZrAeRc.P

제목 : 라이더스 오브 저스티스
할인 전 금액 : ₩10,000
할인 후 금액 : ₩7,000
링크 : https://play.google.com/store/movies/details/%EB%9D%BC%EC%9D%B4%EB%8D%94%EC%8A%A4_%EC%98%A4%EB%B8%8C_%EC%A0%80%EC%8A%A4%ED%8B%B0%EC%8A%A4?id=Kq5hvBpcYA8.P



In [None]:

###############################################################
from selenium import webdriver

options = webdriver.ChromeOptions()
options.headless = True # 화면에 표시하지 않음 = True
options.add_argument('window-size=1920x1080') #윈도우 사이즈 지정
options.add_argument('Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36')

driver = webdriver.Chrome(executable_path='/Users/tool/chromedriver',options=options)
driver.maximize_window()

url = 'https://www.whatismybrowser.com/detect/what-is-my-user-agent'
driver.get(url)

detected_value = driver.find_element_by_id('detected_value')
print(detected_value.text)
driver.quit()

In [None]:
#과제 페이지 로딩 완료 기다리기. time.sleep() 말고
