DOM(Document Object Model)의 정의
- HTML, XML 문서의 프로그래밍 인터페이스 : 구조화된 표현 및 프로그래밍 언어가 DOM 구조에 접근할 수 있는 방법을 제공
- 트리 구조로 형성되어 있음 : 부모 노드(위쪽), 자식 노드(아래쪽)
- HTML에서 노드는 \<head>, \<body>, \<h1>, \<script> 등의 태그뿐만 아니라 태그 내 텍스트나 속성 모두 노드에 속함
- BeautifulSoup 모듈의 함수를 활용하여 노드를 기준으로 원하는 데이터 추출

In [1]:
html="""
<html>
<head>
    <title>crawler</title>
</head>
<body>
    <p class="a" align="center"> text1</p>
    <p class="b" align="center"> text2</p>
    <p class="c" align="center"> text3</p>
    <div>
        <img src="/source" width="300" height="200">
    </div>
</body>
</html>
"""

from bs4 import BeautifulSoup

bs = BeautifulSoup(html,'html.parser')
contents = bs.find('body')

for child in contents.children:
    print(child)



<p align="center" class="a"> text1</p>


<p align="center" class="b"> text2</p>


<p align="center" class="c"> text3</p>


<div>
<img height="200" src="/source" width="300"/>
</div>




In [2]:
# body의 자손은 p, div, img
for d in contents.descendants:
    print(d)



<p align="center" class="a"> text1</p>
 text1


<p align="center" class="b"> text2</p>
 text2


<p align="center" class="c"> text3</p>
 text3


<div>
<img height="200" src="/source" width="300"/>
</div>


<img height="200" src="/source" width="300"/>






In [4]:
img_tag = contents.find('img')
print(img_tag)
print(img_tag.parent)

<img height="200" src="/source" width="300"/>
<div>
<img height="200" src="/source" width="300"/>
</div>


In [5]:
contents = bs.find('body')
print(img_tag.find_parent('body'),'\n')
print(img_tag.find_parent('div'))

<body>
<p align="center" class="a"> text1</p>
<p align="center" class="b"> text2</p>
<p align="center" class="c"> text3</p>
<div>
<img height="200" src="/source" width="300"/>
</div>
</body> 

<div>
<img height="200" src="/source" width="300"/>
</div>


In [6]:
p_tag = bs.find('p',class_='b')
print(p_tag)

<p align="center" class="b"> text2</p>


In [11]:
from urllib import request as req
from bs4 import BeautifulSoup
res = req.urlopen('https://naver.com')
bs = BeautifulSoup(res,'html.parser')
print(bs.find('a'),'\n')
print(bs.find(class_='link_newsstand'),'\n')
print(bs.find('a',{'class':'link_newsstand'}),'\n')
# 클래스가 여러개인 경우
eles = bs.find_all('a',{'class':['link_newsstand','btn_sort','btn_sort.sort_on']}) 
for e in eles:
    print(e.text)

<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a> 

<a class="link_newsstand" data-clk="title" href="http://newsstand.naver.com/" target="_blank">뉴스스탠드</a> 

<a class="link_newsstand" data-clk="title" href="http://newsstand.naver.com/" target="_blank">뉴스스탠드</a> 

뉴스스탠드
구독한 언론사
전체언론사


In [14]:
hlists = bs.findAll({'h1','h2','h3','h4','h5','h6'},limit=3)
for h in hlists:
    print(h, '\n')

<h1 class="logo_default">
<a class="logo_naver" data-clk="top.logo" href="/"><span class="blind">네이버</span></a>
</h1> 

<h2 class="blind">뉴스스탠드</h2> 

<h2 class="blind">주제별 캐스트</h2> 



In [None]:
# 과제 : urllib + bs4 조합으로 다음을 수행하세요
# Q. "https://www.dataq.or.kr/www/sub/a_07.do" 사이트에서 필요한 정보를 
# 가져와서 출력

In [16]:
# 정규표현식과 bs4
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html,'html.parser')
images = bs.find_all('img',{'src':re.compile('\.\.\/img\/gifts/img.*\.jpg')})
for image in images:
    print(image['src'])

../img/gifts/img1.jpg
../img/gifts/img2.jpg
../img/gifts/img3.jpg
../img/gifts/img4.jpg
../img/gifts/img6.jpg


In [27]:
# 한빛 네크워크 사이트 로그인 후 점수 가져오기
import time
import selenium
from selenium import webdriver

driver = webdriver.Chrome('C:/tool/chromedriver.exe')
driver.get('https://www.hanbit.co.kr/')
element = driver.find_element_by_class_name('login')
element.click()
m_id = 'amicokb'
m_passwd = '*'

element = driver.find_element_by_id('m_id')
element.send_keys(m_id)
time.sleep(1)
element = driver.find_element_by_id('m_passwd')
element.send_keys(m_passwd)
time.sleep(1)

element = driver.find_element_by_class_name('btn_login')
element.click()

driver.get('https://www.hanbit.co.kr/myhanbit/myhanbit.html')
source = driver.page_source
bs = BeautifulSoup(source, 'html.parser')
a = bs.select_one('#container > div > div.sm_mymileage > dl.mileage_section1 > dd > span')
print(a.text,'점')
time.sleep(3)
driver.close()

2,000 점


In [None]:
# 과제(자바스크립트 사용)
# Q. 한빛 네트워크 로그인 후 공지사항 가져와서 출력하기

In [None]:
# 과제
# Q. 네이버 로그인 후 메일 목록 10개 가져오기(execute_script 사용)

In [34]:
# Q. 구글 플레이에서 인기 영화 제목 30개 출력(requests + bs4)
import requests
from bs4 import BeautifulSoup

headers = {
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    ,'Accept-Language':'ko-KR.ko'
}

url = 'https://play.google.com/store/movies/top'
# url = 'https://play.google.com/store/movies/top?hl=ml&gl=KR'

res = requests.get(url)
# res = requests.get(url,headers=headers)
res.raise_for_status()
bs = BeautifulSoup(res.text,'html.parser')
movies = bs.find_all('div',attrs={'class':'WsMG1c nnK0zc'})

print(len(movies))
for m in movies:
    print(m.text)


30
Nobody
Werewolves Within
Wrath Of Man
Demon Slayer - Kimetsu no Yaiba The Movie: Mugen Train (English Dubbed Version)
Till Death
Closed for Storm
Demon Slayer - Kimetsu no Yaiba The Movie: Mugen Train (Original Japanese Version)
A Quiet Place
Mortal Kombat (2021)
Cruella
Rick and Morty
Dragon Ball Super
Queen of the South
Yellowstone
The Office
The Owl House
Cowboy Bebop
Manifest
Naruto Shippuden Uncut
NCIS: Los Angeles
Mortyplicity
Mort Dinner Rick Andre
A Rickconvenient Mort
El Final
A Prueba de Balas
Plata o Plomo
El Zorro en la Gallinera
Echoes Of The Past
Separate Tides
Session #3 Honky Tonk Women


In [37]:
# Q. 구글 플레이에서 인기 영화 제목 200개 출력(selenium + bs4)
from selenium import webdriver

driver = webdriver.Chrome('C:/tool/chromedriver.exe')
driver.maximize_window()

url = 'https://play.google.com/store/movies/top'
driver.get(url)

# 1080 위치로 스크롤 내리기
# driver.execute_script('window.scrollTo(0,1080)') 
# 화면 가장 아래로 스크롤 내리기
# driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

import time
interval = 2 # 2초에 한번씩 스크롤 내리기

# 현재 문서 높이를 가져와서 저장
prev_height = driver.execute_script('return document.body.scrollHeight')

# 반복 수행
while True:
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    # 페이지 로딩 대기
    time.sleep(interval)
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    prev_height = curr_height
print('스크롤 완료')

bs = BeautifulSoup(driver.page_source,'html.parser')
movies = bs.find_all('div',attrs={'class':'WsMG1c nnK0zc'})

print(len(movies))
for m in movies:
    print(m.text)


스크롤 완료
200
노바디
콰이어트 플레이스 (자막판)
Cruella
캐시트럭
어벤져스 : 엔드게임 (자막판)
고질라 VS. 콩
크루즈 패밀리: 뉴 에이지
너의 이름은. (자막판)
테넷
어벤져스 : 인피니티 워 (자막판)
라야와 마지막 드래곤
날씨의 아이 (자막)
킬러의 보디가드
스파이더맨: 파 프롬 홈 (자막판)
소울
해리포터와 마법사의 돌
목소리의 형태 (자막판)
베놈   Venom
킬러의 보디가드 무삭제 특별판 (자막판)
캡틴 아메리카 : 시빌 워 (자막판)
형님 아내2 (무삭제)
조커
잭 스나이더의 저스티스 리그
겨울왕국 2 (더빙판)
건마의 신:어린 아내의 알바
스파이더맨 : 뉴 유니버스
어벤져스 (자막판)
위대한 쇼맨 (자막판)
몬스터 헌터 Monster Hunter
원더우먼 1984
기생충
레디 플레이어 원
겨울왕국 2 (자막판)
어벤져스 : 에이지 오브 울트론 (자막판)
분노의 질주: 홉스 & 쇼
라라랜드 (자막판)
50가지 그림자:해방 (자막판)
존 윅-리로드
어벤져스 : 엔드게임 (더빙판)
씽 (더빙판)
미나리
캡틴 아메리카: 윈터 솔져 (자막판)
일탈여행: 프라이빗 아일랜드
미스트
모아나 (자막판)
캡틴 마블 (자막판)
어벤져스 : 인피니티 워 (더빙판)
해리포터와 비밀의방
스파이더맨: 홈커밍  (자막판)
주토피아 (더빙판)
아이언맨 2
마크맨
일본 막장 불륜 호텔
너의 이름은. (더빙판)
분노의 질주 7
모탈 컴뱃
아바타
닥터 스트레인지 (자막판)
해리포터와 아즈카반의 죄수
50가지 그림자: 심연
가디언즈 오브 갤럭시
토르 : 라그나로크 (자막판)
아이언맨
엄마의 남자
모아나 (더빙판)
스캔들
쥬라기 월드 : 폴른 킹덤
헝거게임: 더 파이널
알라딘 (2019) (자막판)
몬스터 호텔 3 (더빙판)
분노의 질주: 더 익스트림
코코 (자막판)
존윅 3: 파라벨룸
내가 죽기를 바라는 자들
나쁜 녀석들 : 포에버 Bad Boys for Life
메이즈 러너: 데스 큐어 (자막판)
노매드랜드
인터스텔라
주토피아 (자막판)
해리포터와 불의잔
포드 V

In [38]:
# headless chrome
from selenium import webdriver

options = webdriver.ChromeOptions()
options.headless = True
options.add_argument('window-size=1920x1080')


driver = webdriver.Chrome('C:/tool/chromedriver.exe',options=options)
driver.maximize_window()

url = 'https://play.google.com/store/movies/top'
driver.get(url)

# 1080 위치로 스크롤 내리기
# driver.execute_script('window.scrollTo(0,1080)') 
# 화면 가장 아래로 스크롤 내리기
# driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

import time
interval = 2 # 2초에 한번씩 스크롤 내리기

# 현재 문서 높이를 가져와서 저장
prev_height = driver.execute_script('return document.body.scrollHeight')

# 반복 수행
while True:
    driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    # 페이지 로딩 대기
    time.sleep(interval)
    curr_height = driver.execute_script('return document.body.scrollHeight')
    if curr_height == prev_height:
        break
    prev_height = curr_height
print('스크롤 완료')

bs = BeautifulSoup(driver.page_source,'html.parser')
movies = bs.find_all('div',attrs={'class':'WsMG1c nnK0zc'})

print(len(movies))
for m in movies:
    print(m.text)


스크롤 완료
200
노바디
콰이어트 플레이스 (자막판)
Cruella
캐시트럭
어벤져스 : 엔드게임 (자막판)
고질라 VS. 콩
크루즈 패밀리: 뉴 에이지
너의 이름은. (자막판)
테넷
어벤져스 : 인피니티 워 (자막판)
라야와 마지막 드래곤
날씨의 아이 (자막)
킬러의 보디가드
스파이더맨: 파 프롬 홈 (자막판)
소울
해리포터와 마법사의 돌
목소리의 형태 (자막판)
베놈   Venom
킬러의 보디가드 무삭제 특별판 (자막판)
캡틴 아메리카 : 시빌 워 (자막판)
형님 아내2 (무삭제)
조커
잭 스나이더의 저스티스 리그
겨울왕국 2 (더빙판)
건마의 신:어린 아내의 알바
스파이더맨 : 뉴 유니버스
어벤져스 (자막판)
위대한 쇼맨 (자막판)
몬스터 헌터 Monster Hunter
원더우먼 1984
기생충
레디 플레이어 원
겨울왕국 2 (자막판)
어벤져스 : 에이지 오브 울트론 (자막판)
분노의 질주: 홉스 & 쇼
라라랜드 (자막판)
50가지 그림자:해방 (자막판)
존 윅-리로드
어벤져스 : 엔드게임 (더빙판)
씽 (더빙판)
미나리
캡틴 아메리카: 윈터 솔져 (자막판)
일탈여행: 프라이빗 아일랜드
미스트
모아나 (자막판)
캡틴 마블 (자막판)
어벤져스 : 인피니티 워 (더빙판)
해리포터와 비밀의방
스파이더맨: 홈커밍  (자막판)
주토피아 (더빙판)
아이언맨 2
마크맨
일본 막장 불륜 호텔
너의 이름은. (더빙판)
분노의 질주 7
모탈 컴뱃
아바타
닥터 스트레인지 (자막판)
해리포터와 아즈카반의 죄수
50가지 그림자: 심연
가디언즈 오브 갤럭시
토르 : 라그나로크 (자막판)
아이언맨
엄마의 남자
모아나 (더빙판)
스캔들
쥬라기 월드 : 폴른 킹덤
헝거게임: 더 파이널
알라딘 (2019) (자막판)
몬스터 호텔 3 (더빙판)
분노의 질주: 더 익스트림
코코 (자막판)
존윅 3: 파라벨룸
내가 죽기를 바라는 자들
나쁜 녀석들 : 포에버 Bad Boys for Life
메이즈 러너: 데스 큐어 (자막판)
노매드랜드
인터스텔라
주토피아 (자막판)
해리포터와 불의잔
포드 V

In [40]:
# headless chrome
from selenium import webdriver

options = webdriver.ChromeOptions()
options.headless = True
options.add_argument('window-size=1920x1080')
options.add_argument('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36')

driver = webdriver.Chrome('C:/tool/chromedriver.exe',options=options)
driver.maximize_window()

url = 'https://www.whatismybrowser.com/detect/what-is-my-user-agent'
driver.get(url)

detected_value = driver.find_element_by_id('detected_value')
print(detected_value.text)
driver.quit()

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/91.0.4472.124 Safari/537.36


In [None]:
# 과제
# Q. 할인된 가격이 적용되는 영화만 출력(할인 전 가격, 할인 후 가격, 링크)

제목 : 삼국지: 무신 조자룡
할인 전 금액 : ₩10,000
할인 후 금액 : ₩5,000
링크 :  https://play.google.com/store/movies/details/%EC%82%BC%EA%B5%AD%EC%A7%80_%EB%AC%B4%EC%8B%A0_%EC%A1%B0%EC%9E%90%EB%A3%A1?id=BliyeZrAeRc.P
---------------------------------------------------------------------------------------------------------