# BeautifulSoup 활용

In [11]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://www.daangn.com/hot_articles')
bs = BeautifulSoup(html.read(), 'html.parser')
print(bs.h1)

<h1 class="head-title" id="hot-articles-head-title">
      
      
      중고거래 인기매물
  </h1>


In [13]:
html_example = '''
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>BeautifulSoup 활용</title>
</head>
<body>
<h1 id="heading">Heading 1</h1>
<p>Paragraph</p>
<span class="red">BeautifulSoup Library Examples!</span>
<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>
<div id="text_id2">
Example page
<p>g</p>
</div>
<h1 id="footer">Footer</h1>
</body>
</html>
'''

In [14]:
soup = BeautifulSoup(html_example, 'html.parser')

print(soup.title) # <title> 태그 전체를 가져옴
print(soup.title.text) # <title>태그의 텍스트만 리턴
print(soup.title.get_text()) # .text와 동일한 기능

<title>BeautifulSoup 활용</title>
BeautifulSoup 활용
BeautifulSoup 활용


In [15]:
# 태그명.parent: 해당 태그를 포함하고 있는 부모
print(soup.title.parent)

<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>BeautifulSoup 활용</title>
</head>


In [16]:
# 태그를 사용하여 요소에 직접 접근하기 <body> 태그에 접근
print(soup.body)

<body>
<h1 id="heading">Heading 1</h1>
<p>Paragraph</p>
<span class="red">BeautifulSoup Library Examples!</span>
<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>
<div id="text_id2">
Example page
<p>g</p>
</div>
<h1 id="footer">Footer</h1>
</body>


In [17]:
print(soup.h1)                 
# <h1>태그 접근 동일한 태그가 여러 개 있는 경우, 첫 번째 요소를 추출
print(soup.h1.get_text())

<h1 id="heading">Heading 1</h1>
Heading 1


In [18]:
print(soup.a)    # <a> 태그 접근 / 첫 번째 <a> 태그 요소 추출

<a class="external_link" href="www.google.com">google</a>


# BeautifulSoup 기초: find() 함수

In [19]:
# find() 함수 파라미터
# find(tag, attrs, recursive, text, keywords)

NameError: name 'find' is not defined

In [20]:
print(soup.find('div'))

<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>


In [23]:
print(soup.find('div', {'id':'text_id2'}))

<div id="text_id2">
Example page
<p>g</p>
</div>


In [24]:
div_text = soup.find('div', {'id':'text_id2'})
print(div_text.get_text())


Example page
g



In [22]:
div_first = soup.find('div', {'id':'class1'})
print(div_first)
print()
print(div_first.text)

<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>


class1's first paragraph
naver
class1's second paragraph
Page1
class1's third paragraph



In [27]:
href_link = soup.find('a', {'class':'internal_link'}) # 딕셔너리 형태
href_link = soup.find('a', class_='internal_link') # class는 파이썬 예약어
print(href_link)
# print(href_link['href']) # <a>태그 내부 href속성의 값(url)을 추출
# print(href_link.get('href')) # ['href']와 동일 기능
# print(href_link.text) # <a> Page1 </a>태그 내부의 텍스트(Page1) 추출

<a class="internal_link" href="/pages/page1.html">Page1</a>


In [28]:
# <a> 태그 내부의 모든 속성의 값 가져오기: dict의 values() 호출
print(href_link.attrs.values()) # 모든 속성값 추출
values = list(href_link.attrs.values()) # dictionary의 값들을 리스트로 변경
print(values[0], values[1])

dict_values([['internal_link'], '/pages/page1.html'])
['internal_link'] /pages/page1.html


In [25]:
# • href 속성의 값이 ‘www.google.com’인 항목 검색
href_value = soup.find(attrs={'href' : 'www.google.com'})
print(href_value)
print(href_value.text)

<a class="external_link" href="www.google.com">google</a>
google


In [29]:
# <span class="red">BeautifulSoup Library Examples!</span>
span_tag = soup.find('span')
print('span tag:', span_tag)
print('attrs:', span_tag.attrs) # attribute 속성 추출
print('value:', span_tag.attrs['class']) # class 속성의 값 추출
print('text:', span_tag.text)

span tag: <span class="red">BeautifulSoup Library Examples!</span>
attrs: {'class': ['red']}
value: ['red']
text: BeautifulSoup Library Examples!


# find_all() 함수

In [32]:
princeList = bs.find_all(text='the prince')
print('the prince count: ', len(princeList))

the prince count:  0


In [33]:
div_tags = soup.find_all('div')
print(div_tags) # 전체 div 태그를 모두 검색 (리스트 형태로 반환)

[<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>, <div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>, <div id="text_id2">
Example page
<p>g</p>
</div>]


In [34]:
print(len(div_tags))
print(div_tags[2])

3
<div id="text_id2">
Example page
<p>g</p>
</div>


In [37]:
# 모든 <a>태그 검색 및 속성 보기
links = soup.find_all('a')
for alink in links:
    print(alink)
    print('url:{0}, text:{1}'.format(alink['href'], alink.get_text()))
    print()

<a class="external_link" href="www.google.com">google</a>
url:www.google.com, text:google

<a class="external_link" href="www.naver.com">naver</a>
url:www.naver.com, text:naver

<a class="internal_link" href="/pages/page1.html">Page1</a>
url:/pages/page1.html, text:Page1



In [38]:
link_tags = soup.find_all('a', {'class':['external_link', 'internal_link']})
print(link_tags)

[<a class="external_link" href="www.google.com">google</a>, <a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]


In [39]:
p_tags = soup.find_all('p', {'id': ['first', 'third']})
for p in p_tags:
    print(p)

<p id="first">class1's first paragraph</p>
<p id="third">class1's third paragraph</p>


# select() 함수

In [40]:
# 직접 파일 경로를 제어 가능

In [41]:
head = soup.select_one('head')
print(head)

<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>BeautifulSoup 활용</title>
</head>


In [42]:
h1 = soup.select_one('h1') # 첫 번째 <h1>태그 선택
print(h1)

<h1 id="heading">Heading 1</h1>


In [43]:
# <h1>태그의 id가 "footer"인 항목 추출
heading = soup.select_one('h1#footer')
print(heading)

<h1 id="footer">Footer</h1>


In [44]:
# • 클래스 이름 검색: 태그.클래스이름 – <a class=“internal_link”> 검색
class_link = soup.select_one('a.internal_link')
print(class_link)

<a class="internal_link" href="/pages/page1.html">Page1</a>


In [45]:
print(class_link.text)
print(class_link['href'])

Page1
/pages/page1.html


In [47]:
# 계층적 접근
# 계층적 하위 태그 접근 #1 - (상위태그 > 하위태그) 형식으로 접근
link1 = soup.select_one('div#link > a.external_link')
print(link1)

<a class="external_link" href="www.google.com">google</a>


In [48]:
# 계층적 하위 태그 접근 #2 - (상위태그 하위태그) 형식으로 접근
link2 = soup.select_one('div#class1 p#second')
print(link2)
print(link2.text)

<p id="second">class1's second paragraph</p>
class1's second paragraph


In [50]:
# select() 함수 - 모든 <h1> 태그 검색
h1_all = soup.select('h1')
print(h1_all)

[<h1 id="heading">Heading 1</h1>, <h1 id="footer">Footer</h1>]


In [52]:
#모든 url 링크 검색 # html문서의 모든 <a> 태그의 href 값 추출
url_links = soup.select('a')
for link in url_links:
    print(link['href'])

www.google.com
www.naver.com
/pages/page1.html


In [54]:
# <div id=“class1”> 내부의 모든 url 검색
div_urls = soup.select('div#class1 > a')
print(div_urls)

print(div_urls[0]['href'])

[<a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]
www.naver.com


In [55]:
# 여러 항목 검색하기 - <h1>태그의 id가 ”heading”과 “footer”를 모두 검색
# 쉼표(,)로 나열함
# <h1 id="heading”>과 <h1 id="footer”> 항목 가져오기
h1 = soup.select('#heading, #footer')
print(h1)

[<h1 id="heading">Heading 1</h1>, <h1 id="footer">Footer</h1>]


In [56]:
# <a>태그의 class이름이 “external_link”와 ”internal_link” 모두 검색
url_links = soup.select('a.external_link, a.internal_link')
print(url_links)

[<a class="external_link" href="www.google.com">google</a>, <a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]


In [57]:
national_anthem = '''
<!DOCTYPE html>
<html lang="en">
<head>
<title>애국가</title>
</head>
<body>
<div>
<p id="title">애국가</p>
<p class="content">
동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br>
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
</p>
<p class="content">
남산 위에 저 소나무 철갑을 두른 듯 바람서리 불변함은 우리 기상일세.<br>
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
</p>
<p class="content">
가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br>
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
</p>
<p class="content">
이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br>
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
</p>
</div>
</body>
</html>
'''

In [62]:
# 제목과 가사 내용 추출
bs4 = BeautifulSoup(national_anthem, 'html.parser')
print(bs4.select_one('p#title').text)

애국가


In [60]:
contents = bs4.select('p.content')
for content in contents:
    print(content.text)


동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.


남산 위에 저 소나무 철갑을 두른 듯 바람서리 불변함은 우리 기상일세.
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.


가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.


이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.

