In [1]:
from bs4 import BeautifulSoup

# 테스트용 HTML 코드
html2 = """
<html>
 <head>
  <title>작품과 작가 모음</title>
 </head>
 <body>
  <h1>책 정보</h1>
  <p id="book_title">노인과 바다</p>
  <p id='author'>헤밍웨이</p>
    
  <p id="book_title">잡식동물의 딜레마</p>
  <p id='author'>마이클 폴란</p>
  
  <p id="book_title">위대한 개츠비</p>
  <p id='author'>F. 스콧 피츠제럴드</p>
  
  <p id="book_title">해리포터:마법사의 돌</p>
  <p id='author'>J.K.롤링</p>
 </body>  
</html>
"""

In [2]:
# HTML parsing
soup2 = BeautifulSoup(html2)
soup2

<html>
<head>
<title>작품과 작가 모음</title>
</head>
<body>
<h1>책 정보</h1>
<p id="book_title">노인과 바다</p>
<p id="author">헤밍웨이</p>
<p id="book_title">잡식동물의 딜레마</p>
<p id="author">마이클 폴란</p>
<p id="book_title">위대한 개츠비</p>
<p id="author">F. 스콧 피츠제럴드</p>
<p id="book_title">해리포터:마법사의 돌</p>
<p id="author">J.K.롤링</p>
</body>
</html>

In [3]:
# 3번째 방법
soup2.title

<title>작품과 작가 모음</title>

In [4]:
soup2.body.h1

<h1>책 정보</h1>

In [5]:
# 2번째 방법 find_all
soup2.find_all('p')

[<p id="book_title">노인과 바다</p>,
 <p id="author">헤밍웨이</p>,
 <p id="book_title">잡식동물의 딜레마</p>,
 <p id="author">마이클 폴란</p>,
 <p id="book_title">위대한 개츠비</p>,
 <p id="author">F. 스콧 피츠제럴드</p>,
 <p id="book_title">해리포터:마법사의 돌</p>,
 <p id="author">J.K.롤링</p>]

 만약 위의 요소에서 책 제목과 작가를 분리해서 가져오고 싶다면
 
 아래처럼 find()나 find_all()을 활용할때 '태그'뿐 만 아니라
 
 태그 내의 '속성(attribute)'도 함께 지정하면 대부분(95%)정도 원하는 결과를 얻을 수 있다.

- `BeautifulSoup.find_all('태그', '속성')`

- `BeautifulSoup.find('태그', '속성')`

In [6]:
# book_title 만 가져오기
book_titles = soup2.find_all('p',{'id':'book_title'})

In [7]:
# author 만 가져오기
soup2.find_all('p',{'id':'author'})

[<p id="author">헤밍웨이</p>,
 <p id="author">마이클 폴란</p>,
 <p id="author">F. 스콧 피츠제럴드</p>,
 <p id="author">J.K.롤링</p>]

In [8]:
# 만약 태그를 제외하고 해당하는 내용만 뽑고 싶다면?
from bs4 import BeautifulSoup
soup2 = BeautifulSoup(html2,'lxml')
book_titles = soup2.find_all('p',{'id' : 'book_title'})
authors = soup2.find_all('p',{'id':'author'})

for book, author in zip(book_titles, authors):
    print(book.get_text() + '::' + author.get_text())

노인과 바다::헤밍웨이
잡식동물의 딜레마::마이클 폴란
위대한 개츠비::F. 스콧 피츠제럴드
해리포터:마법사의 돌::J.K.롤링


Beautiful Soup에서도 `BeautifulSoup.select('태그 및 속성')`을 통해 CSS 선택자를 지원한다.

`BeautifulSoup.select()`의 인자로 '태그 및 속성'을 단계적으로 입력하면 원하는 요소를 찾을 수 있다.

예를 들어 앞선 html2 변수에 할당된 HTML소스에서 body 태그 요소 내에 h1 태그 요소를 가지고 오려면 아래와 같이 작성하면 된다.

In [9]:
soup2

<html>
<head>
<title>작품과 작가 모음</title>
</head>
<body>
<h1>책 정보</h1>
<p id="book_title">노인과 바다</p>
<p id="author">헤밍웨이</p>
<p id="book_title">잡식동물의 딜레마</p>
<p id="author">마이클 폴란</p>
<p id="book_title">위대한 개츠비</p>
<p id="author">F. 스콧 피츠제럴드</p>
<p id="book_title">해리포터:마법사의 돌</p>
<p id="author">J.K.롤링</p>
</body>
</html>

In [10]:
# css의 select의 방식을 활용
soup2.select('h1')

[<h1>책 정보</h1>]

In [11]:
soup2.select('body h1')

[<h1>책 정보</h1>]

In [12]:
soup2.select('body p')

[<p id="book_title">노인과 바다</p>,
 <p id="author">헤밍웨이</p>,
 <p id="book_title">잡식동물의 딜레마</p>,
 <p id="author">마이클 폴란</p>,
 <p id="book_title">위대한 개츠비</p>,
 <p id="author">F. 스콧 피츠제럴드</p>,
 <p id="book_title">해리포터:마법사의 돌</p>,
 <p id="author">J.K.롤링</p>]