### BeautifulSoup 을 이용하여, 웹 스크래핑 하기

In [None]:
from bs4 import BeautifulSoup

html_text = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>테스트</title>
</head>
<body>
    <h1>제목</h1>
    <p>문장 입니다.</p>
    <img src="img/test.png" alt="이미지">
</body>
</html>
'''

# BeautifulSoup 객체 생성
# - html 문서, parser 지정
bs = BeautifulSoup(html_text, 'html.parser')
print( type(bs) )
print( bs.prettify() )


### 가져온 웹페이지의 태그 및 컨텐츠 가져오기

In [7]:
from bs4 import BeautifulSoup

html_text = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>테스트</title>
</head>
<body>
    <h1>제목</h1>
    <p>문장 입니다.</p>
    <img src="img/test.png" alt="이미지">
</body>
</html>
'''
# BeautifulSoup 객체 생성
# - html 문서, parser 지정
bs = BeautifulSoup(html_text, 'html.parser')

# title 태그 가져오기
print( f'bs.title : {bs.title}' )                   # title 태그
print( f'bs.title.name : {bs.title.name}' )         # 태그명
print( f'bs.title.string : {bs.title.string}' )     # 태그 안의 문자열
print( f'type(bs.title) : {type(bs.title)}')

# h1 태그 가져오기
print( f'bs.h1 : {bs.h1}')
# p 태그 가져오기
print( f'bs.p : {bs.p}')
# img 태그 가져오기
print( f'bs.img : {bs.img}')
print( f'bs.img - src : {bs.img["src"]}')       # img 의 src 속성값


bs.title : <title>테스트</title>
bs.title.name : title
bs.title.string : 테스트
type(bs.title) : <class 'bs4.element.Tag'>
bs.h1 : <h1>제목</h1>
bs.p : <p>문장 입니다.</p>
bs.img : <img alt="이미지" src="img/test.png"/>
bs.img - src : img/test.png


### 태그, 태그명, 속성값 접근하기

In [None]:
from bs4 import BeautifulSoup

html_text = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <title>테스트</title>
</head>
<body>
    <h1>제목</h1>
    <p>문장 입니다.</p>
    <img src="img/test.png" alt="이미지">
    <ul>
        <li>테스트1<strong>강조내용</strong></li>
        <li>테스트2</li>
        <li>테스트2</li>
    </ul>
</body>
</html>
'''
# BeautifulSoup 객체 생성
# - html 문서, parser 지정
bs = BeautifulSoup(html_text, 'html.parser')


print('ul 태그 가져오기')
print( bs.ul )

print('attrs - 속성 확인하기')
print( bs.img.attrs )

print('--- string ---')
print(type(bs.p.string), ':', bs.p.string)
print(type(bs.ul.string), ':', bs.ul.string)
print(type(bs.ul.li.string), ':', bs.ul.li.string)

print('--- text ---')
print(type(bs.p.text), ':', bs.p.text)
print(type(bs.ul.text), ':', bs.ul.text)
print(type(bs.ul.li.text), ':', bs.ul.li.text)

print('--- contents ---')
print(type(bs.p.contents), ':', bs.p.contents)
print(type(bs.ul.contents), ':', bs.ul.contents)
print(type(bs.ul.li.contents), ':', bs.ul.li.contents)



### 부모, 자식, 형제 요소 접근

In [None]:
from bs4 import BeautifulSoup

html_text = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <title>테스트</title>
</head>
<body>
    <h1>제목</h1>
    <p>문장 입니다.</p>
    <img src="img/test.png" alt="이미지">
    <ul>
        <li>테스트1<strong>강조내용</strong></li>
        <li>테스트2</li>
        <li>테스트2</li>
    </ul>
</body>
</html>
'''
# BeautifulSoup 객체 생성
bs = BeautifulSoup(html_text, 'html.parser')

print('첫번째 li 태그 가져오기')
print( bs.li )

print('li 태그의 부모 요소 접근')
print( bs.li.parent )

print('ul 태그의 자식 요소 접근')
print( bs.ul.children )
for item in bs.ul.children:
    print(item)
    
    
print('li의 다음 자식요소')
print( bs.li.next_sibling )
print( bs.li.next_sibling.next_sibling )
print( bs.li.next_siblings )

for item in bs.li.next_siblings:
    print(item)
    

    


### 함수를 통해서 태그를 가져오기

In [25]:
# html 요청해서 가져오기
import urllib.request
url = 'http://192.168.0.200:8080'
res = urllib.request.urlopen(url)
result = res.read().decode('utf-8')


from bs4 import BeautifulSoup
bs = BeautifulSoup( result, 'html.parser' )
print( type( bs.find('h1') ))
print( type( bs.find_all('li') ))
print('-------------------------------')
print( bs.find('h1') )
print( bs.find('li') )
print( bs.find_all('li') )
print('-------------------------------')
print( bs.select('ul li') )
for item in bs.select('ul li'):
    print(item.text)
    

<class 'bs4.element.Tag'>
<class 'bs4.element.ResultSet'>
-------------------------------
<h1>게시판 프로젝트</h1>
<li>SPRING BOOT 2.7.7</li>
[<li>SPRING BOOT 2.7.7</li>, <li>MySQL</li>, <li>Mybatis 3.0</li>, <li>Thymeleaf</li>]
-------------------------------
[<li>SPRING BOOT 2.7.7</li>, <li>MySQL</li>, <li>Mybatis 3.0</li>, <li>Thymeleaf</li>]
SPRING BOOT 2.7.7
MySQL
Mybatis 3.0
Thymeleaf


다음 영화 정보 사이트에서 영화 랭킹정보 추출하기

In [32]:
import urllib.request
from bs4 import BeautifulSoup

url = 'https://movie.daum.net/ranking/reservation'
res = urllib.request.urlopen(url)
result = res.read().decode('utf-8')

bs = BeautifulSoup( result, 'html.parser' )

# select() 함수로 영화 제목, 평점, 예매율, 개봉일 가져오기
titles = bs.select('.tit_item > .link_txt')
points = bs.select('.txt_append > .info_txt > .txt_grade')
rates = bs.select('.txt_append > .info_txt > .txt_num')
open_dates = bs.select('.txt_info > .txt_num')

movie_titles = []
movie_points = []
movie_rates = []
movie_open_dates = []

for item in titles:
    movie_titles.append( item.text )
    # print(item.text)
for item in points:
    movie_points.append( item.text )
    # print(item.text)
for item in rates:
    movie_rates.append( item.text )
    # print(item.text)
for item in open_dates:
    movie_open_dates.append( item.text )
    # print(item.text)
    
    
count = len(movie_titles)

for i in range(count):
    print('#################################')
    print('영화 제목 :', movie_titles[i])
    print('평점 :', movie_points[i])
    print('예매율 :', movie_rates[i])
    print('개봉일 :', movie_open_dates[i])

###


#################################
영화 제목 : 인디아나 존스: 운명의 다이얼
평점 : 9.0
예매율 : 22.4%
개봉일 : 23.06.28
#################################
영화 제목 : 엘리멘탈
평점 : 8.7
예매율 : 19.9%
개봉일 : 23.06.14
#################################
영화 제목 : 스파이더맨: 어크로스 더 유니버스
평점 : 8.6
예매율 : 10.5%
개봉일 : 23.06.21
#################################
영화 제목 : 귀공자
평점 : 8.1
예매율 : 9.7%
개봉일 : 23.06.21
#################################
영화 제목 : 2022 영탁 단독 콘서트 - 탁쇼
평점 : 0.0
예매율 : 9.5%
개봉일 : 23.06.28
#################################
영화 제목 : 범죄도시3
평점 : 6.6
예매율 : 8.7%
개봉일 : 23.05.31
#################################
영화 제목 : 여름날 우리
평점 : 7.9
예매율 : 4.1%
개봉일 : 23.06.28
#################################
영화 제목 : 애스터로이드 시티
평점 : 6.0
예매율 : 2.9%
개봉일 : 23.06.28
#################################
영화 제목 : 플래시
평점 : 7.9
예매율 : 1.4%
개봉일 : 23.06.14
#################################
영화 제목 : 명탐정코난: 하이바라 아이 이야기 ~흑철의 미스터리 트레인
평점 : 8.9
예매율 : 1.3%
개봉일 : 23.06.23
#################################
영화 제목 : 샤이닝
평점 : 8.0
예매율 : 1.0%
개봉일 : 23.06.28
#####################

### 교보문고 사이트에서 "파이썬" 도서 목록 추출하기

In [40]:
import urllib.request
from bs4 import BeautifulSoup

data = { 'keyword' : '파이썬' }
params = urllib.parse.urlencode(data)

url = f'https://search.kyobobook.co.kr/search?{params}'
res = urllib.request.urlopen(url)
result = res.read().decode('utf-8')
# print(result)

bs = BeautifulSoup( result, 'html.parser' )

# 도서 정보 
# - 제목
# - 저자
# - 출판사
# - 가격

# - 제목
# titles = bs.select('.prod_info > span:last-child')
titles = bs.select('.prod_info > span[id^="cmdtName"]')
# - 저자
authors = bs.select('.author')
# - 출판사
publishers = bs.select('.prod_publish > .text')
# - 가격
prices = bs.select('.prod_price > .price > .val')

print(titles)
print(authors)
print(publishers)
print(prices)

print(len(titles))
print(authors)
print(publishers)
print(prices)


[<span id="cmdtName_S000202672010">파이썬을 활용한 머신러닝 해석 가능성</span>, <span id="cmdtName_S000202666213">파이썬으로 쉽게 배우는 자료구조</span>, <span id="cmdtName_S000001901673">작심 3일 파이썬 Python</span>, <span id="cmdtName_S000202026988">빅데이터분석기사 실기 한권완성 파이썬(Python)(2023)</span>, <span id="cmdtName_S000000833178">초보자를 위한 파이썬(Python) 200제</span>, <span id="cmdtName_S000200134737">파이썬 딥러닝 케라스(Python Deep Learning Keras)</span>, <span id="cmdtName_S000000833256">파이썬 딥러닝 파이토치(Python Deep Learning PyTorch)</span>, <span id="cmdtName_S000001810298">처음 시작하는 파이썬</span>, <span id="cmdtName_S000201323866">파이썬과 Qt6로 GUI 애플리케이션 만들기</span>, <span id="cmdtName_S000201976878">제대로 빠르게 파이썬 입문</span>, <span id="cmdtName_S000200031876">파이썬 클린 코드</span>, <span id="cmdtName_S000200087194">데이터 과학을 위한 파이썬과 R</span>, <span id="cmdtName_S000001834626">파이썬 스킬 업</span>, <span id="cmdtName_S000061585752">클린 코드, 이제는 파이썬이다</span>, <span id="cmdtName_S000202036491">객체지향 파이썬 프로그래밍 2/e</span>, <span id="cmdtName_S000001985960">파이썬으로 시작하는 

In [None]:
import urllib.request
from bs4 import BeautifulSoup

data = { 'keyword' : '파이썬' }
params = urllib.parse.urlencode(data)

url = f'https://search.kyobobook.co.kr/search?{params}'
res = urllib.request.urlopen(url)
result = res.read().decode('utf-8')
# print(result)

bs = BeautifulSoup( result, 'html.parser' )

# 도서 정보 
# - 제목
# - 저자
# - 출판사
# - 가격

# - 제목
# titles = bs.select('.prod_info > span:last-child')
titles = bs.select('.prod_info > span[id^="cmdtName"]')
# - 저자
authors = bs.select('.author')
# - 출판사
publishers = bs.select('.prod_publish > .text')
# - 가격
prices = bs.select('.prod_price > .price > .val')

print(titles)
print(authors)
print(publishers)
print(prices)

print(len(titles))
print(authors)
print(publishers)
print(prices)


[<span id="cmdtName_S000202672010">파이썬을 활용한 머신러닝 해석 가능성</span>, <span id="cmdtName_S000202666213">파이썬으로 쉽게 배우는 자료구조</span>, <span id="cmdtName_S000001901673">작심 3일 파이썬 Python</span>, <span id="cmdtName_S000202026988">빅데이터분석기사 실기 한권완성 파이썬(Python)(2023)</span>, <span id="cmdtName_S000000833178">초보자를 위한 파이썬(Python) 200제</span>, <span id="cmdtName_S000200134737">파이썬 딥러닝 케라스(Python Deep Learning Keras)</span>, <span id="cmdtName_S000000833256">파이썬 딥러닝 파이토치(Python Deep Learning PyTorch)</span>, <span id="cmdtName_S000001810298">처음 시작하는 파이썬</span>, <span id="cmdtName_S000201323866">파이썬과 Qt6로 GUI 애플리케이션 만들기</span>, <span id="cmdtName_S000201976878">제대로 빠르게 파이썬 입문</span>, <span id="cmdtName_S000200031876">파이썬 클린 코드</span>, <span id="cmdtName_S000200087194">데이터 과학을 위한 파이썬과 R</span>, <span id="cmdtName_S000001834626">파이썬 스킬 업</span>, <span id="cmdtName_S000061585752">클린 코드, 이제는 파이썬이다</span>, <span id="cmdtName_S000202036491">객체지향 파이썬 프로그래밍 2/e</span>, <span id="cmdtName_S000001985960">파이썬으로 시작하는 