In [1]:
import requests

html = requests.get("https://www.google.co.kr").text
html[0:100]

'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content'

In [2]:
## HTML 코드 구문을 이해하고 요소별로 코드를 분류하는 작업을 'Parsing'이라고 칭함
## Beautiful Soup 라이브러리를 통해 파싱을 더 쉽게 한다

In [4]:
from bs4 import BeautifulSoup

#테스트용 html 코드
html = """<html><body><div><span>\
            <a href=http://www.naver.com>naver</a>\
            <a href=http://www.google.com>google</a>\
            <a href=http://www.daum.net>daum</a>\
        </span></div></body></html>"""

# BeautifulSoup를 이용해 HTML소스 파싱
soup = BeautifulSoup(html, 'lxml') # lxml은 HTML소스를 처리하기 위한 parser
soup

<html><body><div><span> <a href="http://www.naver.com">naver</a> <a href="http://www.google.com">google</a> <a href="http://www.daum.net">daum</a> </span></div></body></html>

In [5]:
print(soup.prettify())

<html>
 <body>
  <div>
   <span>
    <a href="http://www.naver.com">
     naver
    </a>
    <a href="http://www.google.com">
     google
    </a>
    <a href="http://www.daum.net">
     daum
    </a>
   </span>
  </div>
 </body>
</html>


In [7]:
soup.find('a') # a 태그 요소 반환(가장 첫번째)

<a href="http://www.naver.com">naver</a>

In [8]:
soup.find('a').get_text() # a 태그 요소 중에서 택스트만 출력

'naver'

In [9]:
soup.find_all("a") # a 태그 요소 반환(모두 반환)

[<a href="http://www.naver.com">naver</a>,
 <a href="http://www.google.com">google</a>,
 <a href="http://www.daum.net">daum</a>]

In [10]:
site_names = soup.find_all("a")
for name in site_names:
    print(name.get_text())

naver
google
daum


In [23]:
from bs4 import BeautifulSoup

html2 = """
<html>
<head>
<title>작품과 작가 모음</title>
</head>
 <body>
 <h1>책 정보</h1>
 <p id="book_title">토지</p>
 <p id="author">박경리</p>
 
 <p id="book_title">태백산맥</p>
 <p id="author">조정래</p>
 
 <p id="book_title">감옥으로부터의 사색</p>
 <p id="author">신영복</p>
 
</body>
</html>
"""

soup2 = BeautifulSoup(html2, "lxml")

In [15]:
soup2.title # 타이틀

<title>작품과 작가 모음</title>

In [16]:
soup2.body

<body>
<h1>책 정보</h1>
<p id="book_title">토지</p>
<p id="autoir">박경리</p>
<p id="book_title">태백산맥</p>
<p id="autoir">조정래</p>
<p id="book_title">감옥으로부터의 사색</p>
<p id="autoir">신영복</p>
</body>

In [17]:
soup2.body.h1

<h1>책 정보</h1>

In [18]:
soup2.find_all("p")

[<p id="book_title">토지</p>,
 <p id="autoir">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="autoir">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="autoir">신영복</p>]

In [21]:
soup2.find_all("p", {"id":"book_title"})

[<p id="book_title">토지</p>,
 <p id="book_title">태백산맥</p>,
 <p id="book_title">감옥으로부터의 사색</p>]

In [24]:
soup2.find_all("p", {"id":"author"})

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [25]:
book_titles = soup2.find_all("p", {"id":"book_title"})
book_authors = soup2.find_all("p", {"id":"author"})

for book_title, author in zip(book_titles, book_authors):
    print(book_title.get_text() + "/" + author.get_text()) # 책 제목과 작가 요소 추출

토지/박경리
태백산맥/조정래
감옥으로부터의 사색/신영복


In [26]:
# find, find_all 말고도 CSS select(선택자)를 이용하는 방법 있음
soup2.select("body h1")

[<h1>책 정보</h1>]

In [27]:
soup2.select("body p")

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [28]:
soup2.select("p")

[<p id="book_title">토지</p>,
 <p id="author">박경리</p>,
 <p id="book_title">태백산맥</p>,
 <p id="author">조정래</p>,
 <p id="book_title">감옥으로부터의 사색</p>,
 <p id="author">신영복</p>]

In [32]:
soup2.select("p#author") # 태그#id_속성값 으로 해당하는 값 출력

[<p id="author">박경리</p>, <p id="author">조정래</p>, <p id="author">신영복</p>]

In [None]:
%%writefile HTML_example_site.html
<!doctype html>
<html>
    <head>
    <meta charset="utf-8">
    <title>사이트 모음</title>
    </head>
<body>
<p id = "title"><b>자주 가는 사이트 모음</b></p>

## 