# BeautifulSoup
* 유명한 스크래핑/크롤링 패키지
* 주로 HTML과 XML에서 데이터 추출시 사용
* www.crummy.com/software/BeautifulSoup

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
url = 'https://www.hanbit.co.kr/store/books/new_book_list.html'
res = requests.get(url)

In [3]:
# requests 패키지를 통해 응답받은 html소스를 
# BeautifulSoup 패키지의 html.parser/lxml를 이용해서
# DOM 계층구조로 변환
html = BeautifulSoup(res.text, 'html.parser')

In [4]:
# 변환한 문서내용 출력
print(html)

<!DOCTYPE html>

<html lang="ko">
<head>
<!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
<meta charset="utf-8"/>
<title>한빛출판네트워크</title>
<link href="https://www.hanbit.co.kr/images/common/hanbit.ico" rel="shortcut icon"/>
<meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
<meta content="website" property="og:type"/>
<meta content="한빛출판네트워크" property="og:title"/>
<meta content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀" property="og:description"/>
<meta content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" property="og:image"/>
<meta content="https://www.hanbit.co.kr/store/books/new_book_list.html" property="og:url"/>
<link href="https://www.hanbit.co.kr/store/books/new_book_list.html" rel="canonical">
<meta content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" name="keywords"/>
<meta content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워

In [5]:
# 들여쓰기를 적용해서 보기 좋게 문서내용 출력
print(html.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <!--[if lte IE 8]>
<script>
  location.replace('/support/explorer_upgrade.html');
</script>
<![endif]-->
  <meta charset="utf-8"/>
  <title>
   한빛출판네트워크
  </title>
  <link href="https://www.hanbit.co.kr/images/common/hanbit.ico" rel="shortcut icon"/>
  <meta content="IE=Edge" http-equiv="X-UA-Compatible"/>
  <meta content="website" property="og:type"/>
  <meta content="한빛출판네트워크" property="og:title"/>
  <meta content="더 넓은 세상, 더 나은 미래를 위한 아시아 출판 네트워크 :: 한빛미디어, 한빛아카데미, 한빛비즈, 한빛라이프, 한빛에듀" property="og:description"/>
  <meta content="https://www.hanbit.co.kr/images/hanbitpubnet_logo.jpg" property="og:image"/>
  <meta content="https://www.hanbit.co.kr/store/books/new_book_list.html" property="og:url"/>
  <link href="https://www.hanbit.co.kr/store/books/new_book_list.html" rel="canonical">
   <meta content="한빛미디어,한빛아카데미,한빛비즈,한빛라이프,한빛에듀,리얼타임,대관서비스,책,출판사,IT전문서,IT활용서,대학교재,경제경영,어린이/유아,실용/여행,전자책,자격증,교육,세미나,강의,ebook,정보교과서" name="keywords"/>
   <meta conte

In [6]:
# 변환한 문서내용에서 title 요소 추출
# html.요소명
print(html.title)

<title>한빛출판네트워크</title>


In [7]:
# 요소의 문자 내용 추출
# html.요소명.string
print(html.title.string)

한빛출판네트워크


In [8]:
# 변환한 문서내용에서 p 요소 추출
print(html.p)

<p v-html="book.name"></p>


In [9]:
# 변환한 문서내용에서 title 요소들 추출
# find_all(요소명)
print(html.find_all('p'))

[<p v-html="book.name"></p>, <p class="b_int">
                {{ bookSummary.author }} 지음<br/>
                {{ bookSummary.publishingCompany }} | {{ bookSummary.date }}
                </p>, <p class="b_type">
<span>{{ bookSummary.bookType }}</span>
</p>, <p class="book_tit"><a href="/store/books/look.php?p_code=B2263537763">IT CookBook, 정보보안 이론과 실제(3판)</a></p>, <p class="book_writer">Mark Stamp </p>, <p class="book_tit"><a href="/store/books/look.php?p_code=B4793001395">사라진 개발자들</a></p>, <p class="book_writer">캐시 클라이먼 </p>, <p class="book_tit"><a href="/store/books/look.php?p_code=B3101735444">보이지 않는 위협</a></p>, <p class="book_writer">김홍선 </p>, <p class="book_tit"><a href="/store/books/look.php?p_code=B8810210113">투자의 구원자들</a></p>, <p class="book_writer">로빈 위글스워스 </p>, <p class="book_tit"><a href="/store/books/look.php?p_code=B4094798240">1학년 받아쓰기</a></p>, <p class="book_writer">하유정 </p>, <p class="book_tit"><a href="/store/books/look.php?p_code=B3019959799">IT CookBook, HTML5 웹 프

In [12]:
# css 선택자로 특정 요소의 텍스트 추출
# DOM객체.select(CSS선택자/xpath경로)
for title in html.select('p.book_tit a'):
    print(title.text)

IT CookBook, 정보보안 이론과 실제(3판)
사라진 개발자들
보이지 않는 위협
투자의 구원자들
1학년 받아쓰기
IT CookBook, HTML5 웹 프로그래밍 입문(4판)
파이썬 크래시 코스
바다에서 보낸 어느 멋진 주말
불안이 많은 아이
STEM CookBook, 경영경제수학 첫걸음
관찰 가능성 엔지니어링
논리력을 키우는 영어 글쓰기
만화로 보는 피스톨 스토리
IT CookBook, 난생처음 데이터 분석 with 파이썬
나이가 든다는 착각
사실은 이것도 디자인입니다
육각형 개발자
AI 전쟁
일터로 간 뇌과학
UML다이어그램을 활용한 소프트웨어 창의 설계


### 한빛미디어 사이트에서 store 메뉴의 전체도서목록 크롤링

In [49]:
brands, titles, authors, pdates, prices = [],[],[],[],[]

In [50]:
url = 'https://www.hanbit.co.kr/store/books/full_book_list.html'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'}

In [51]:
res = requests.get(url, headers=headers)
html = BeautifulSoup(res.text, 'lxml')

In [52]:
# 도서브랜드 추출
for brand in html.select('table.tbl_type_list td:first-child'):
    # print(brand.text)
    brands.append(brand.text)

In [53]:
# 도서제목 추출
for title in html.select('table.tbl_type_list td:nth-child(2) a'):
    # print(title.text)
    titles.append(title.text)

In [54]:
# 저자 추출
for author in html.select('table.tbl_type_list td:nth-child(3)'):
    # print(author.text)
    authors.append(author.text)

In [55]:
# 출간일 추출
for pdate in html.select('table.tbl_type_list td:nth-child(4)'):
    # print(pdate.text)
    pdates.append(pdate.text)

In [56]:
# 가격 추출
for price in html.select('table.tbl_type_list td:last-child'):
    # print(price.text)
    prices.append(price.text)

In [57]:
print(len(brands), len(titles), len(authors), len(pdates), len(prices))

50 50 50 50 50


### 도서 상세정보 링크 추출

In [63]:
bkdetails = []

for detail in html.select('table.tbl_type_list td:nth-child(2) a'):
    # print(detail['href'])
    bkdetails.append(detail['href'])