# BeautifulSoup 라이브러리
 - HTML 문서나 XML 문서를 탐색해서 원하는 부분만 쉽게 추출
 - BeautifulSoup 객체 생성
  - soup = BeautifulSoup(HTML/XML 문서, 구문 분석기)
    - 구문 분석기 : html.parser, lxml, html5lib 등

In [None]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://www.daangn.com/hot_articles')
bs = BeautifulSoup(html.read(), 'html.parser')


In [5]:
html_example = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>BeautifulSoup 활용</title>
</head>
<body>
    <h1 id="heading">Heading 1</h1>
    <p>Paragraph</p>
    <span class="red">BeautifulSoup Library Examples!</span>
    <div id="link">
        <a class="external_link" href="www.google.com">google</a>
        <div id="class1">
            <p id="first">class1's first paragraph</p>
            <a class="external_link" href="www.naver.com">naver</a>
            <p id="second">class1's second paragraph</p>
            <a class="internal_link" href="/pages/page1.html">Page1</a>
            <p id="third">class1's third paragraph</p>
        </div>
    </div>
    <div id="text_id2">
        Example page
        <p>g</p>
    </div>
    <h1 id="footer">Footer</h1>
</body>
</html>
'''

### 태그를 사용하여 요소에 직접 접근하기

In [6]:
# <title> 태그에 접근(soup.태그명)
soup = BeautifulSoup(html_example, 'html.parser')

print(soup.title)            # <title> 태그 전체를 가져옴
print(soup.title.text)       # <title>태그의 텍스트만 리턴
print(soup.title.get_text()) # .text와 동일한 기능

<title>BeautifulSoup 활용</title>
BeautifulSoup 활용
BeautifulSoup 활용


In [7]:
# 태그명.parent: 해당 태그를 포함하고 있는 부모
print(soup.title.parent)

<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>BeautifulSoup 활용</title>
</head>


In [8]:
# <body>태그에 접근
print(soup.body)

<body>
<h1 id="heading">Heading 1</h1>
<p>Paragraph</p>
<span class="red">BeautifulSoup Library Examples!</span>
<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>
<div id="text_id2">
        Example page
        <p>g</p>
</div>
<h1 id="footer">Footer</h1>
</body>


In [9]:
# <h1>태그 접근 : 동일한 태그가 여러 개 있는 경우, 첫 번째 요소를 추출
print(soup.h1)
print(soup.h1.get_text())

<h1 id="heading">Heading 1</h1>
Heading 1


In [10]:
# <a> 태그 접근 : 첫 번째 <a> 태그 요소 추출
print(soup.a)

<a class="external_link" href="www.google.com">google</a>


### BeautifulSoup 기초

#### find() 함수
 - 파라미터 : find(tag(태그), attrs(속성), recursive, text, keywords)
 - 해당 조건에 맞는 맨 처음 검색 결과만 추출
 - 이름, 속성, 속성값을 이용하여 원하는 태그를 찾을 수 있음

In [11]:
print(soup.find('div'))

<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>


In [13]:
# 여러 <div> 태그 중 특정 속성을 가지는 항목 추출 : 딕셔터리 형태로 입력
print(soup.find('div', {'id':'text_id2'}))
               # tag    속성    속성값
               # <div id="text_id2">

print(soup.find('div',attrs={'id':'text_id2'}))          

<div id="text_id2">
        Example page
        <p>g</p>
</div>
<div id="text_id2">
        Example page
        <p>g</p>
</div>


In [14]:
# 추출된 요소에서 텍스트만 가져옴 : .text 또는 get_text()
div_text = soup.find('div', {'id':'text_id2'})

print(div_text.get_text())


        Example page
        g



In [17]:
div_first=soup.find('div',attrs={'id':'class1'})
print(div_first)
print()
print(div_first.text)

<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>


class1's first paragraph
naver
class1's second paragraph
Page1
class1's third paragraph



In [23]:
# <a>태그 및 <a> 태그의 href 속성 추출
# <a class="internal_link" href="/pages/page1.html">Page1</a>

# href 속성으로 찾기
href_link2 = soup.find('a', {'href':'/pages/page1.html'})
href_link2 = soup.find('a', href='/pages/page1.html')  

# class 속성으로 찾기
href_link = soup.find('a', {'class':'internal_link'})   # 딕셔너리 형태
href_link = soup.find('a', class_='internal_link')      # class는 파이썬 예약어라서 '_'추가


print(href_link)
print(href_link2)

# print(href_link['href'])      # <a>태그 내부 href속성의 값(url)을 추출
# print(href_link.get('href'))  # ['href']와 동일 기능
# print(href_link.text)         # <a> Page1 </a>태그 내부의 텍스트(Page1) 추출

<a class="internal_link" href="/pages/page1.html">Page1</a>
<a class="internal_link" href="/pages/page1.html">Page1</a>


In [31]:
# <a> 태그 내부의 모든 속성의 값 가져오기: dict의 values() 호출
print(href_link.attrs.values())     # 모든 속성값 추출

dict_values([['internal_link'], '/pages/page1.html'])


In [29]:
values = list(href_link.attrs.values()) # dictionary의 값들을 리스트로 변경
print(values[0], values[1])

['internal_link'] /pages/page1.html


In [32]:
# href 속성의 값이 ‘www.google.com’인 항목 검색
href_value = soup.find(attrs={'href' : 'www.google.com'}) # 태그생략시 'attrs=' 명시
print(href_value)
print(href_value.text)

<a class="external_link" href="www.google.com">google</a>
google


In [34]:
# span 태그의 속성 가져오기
# <span class="red">BeautifulSoup Library Examples!</span>

span_tag=soup.find('span')

print('span tag:', span_tag)
print('attrs:', span_tag.attrs) # attribute(속성) 추출, 딕셔너리형태로 리턴

print('value:', span_tag.attrs['class']) # class 속성의 값 추출
print('text:', span_tag.text)

span tag: <span class="red">BeautifulSoup Library Examples!</span>
attrs: {'class': ['red']}
value: ['red']
text: BeautifulSoup Library Examples!


#### find_all() 함수
 - 검색된 모든 태그를 리턴(리스트 형태)
 - 파라미터 : find_all(tag, attrs, recursive, text, limit, keywords)
 - tag: HTML 태그, 태그 이름으로 이루어진 리스트 전달
 - attrs: 속성, 파이썬 딕셔너리를 받음 (or 속성)
 - recursive: 재귀 검색
   - True: 모든 문서에서 태그를 검색(자식, 자식의 자식을 검색)
   - False: 최상의 태그만 검색
 - text: 텍스트 콘텐츠와 일치하는 문장 검색
 – limit: 일치하는 검색어를 몇 개까지 찾을 것인지 설정
   - limit = None : 제한 없음 (모두 검색)
   - limit = 1 : find() 메소드와 동일
 - keyword: BeautifulSoup 자체 기능과 중복

In [37]:
bs.find_all('span', {'class': {'green', 'red'}}) # ‘green’ or ‘red’

[]

In [38]:
princeList = bs.find_all(text='the prince')
print('the prince count: ', len(princeList))

the prince count:  0


In [39]:
# 모든 div 태그 검색
div_tags = soup.find_all('div')
print(div_tags)         # 전체 div 태그를 모두 검색 (리스트 형태로 반환)

[<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>, <div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>, <div id="text_id2">
        Example page
        <p>g</p>
</div>]


In [40]:
print(len(div_tags))
print(div_tags[2])

3
<div id="text_id2">
        Example page
        <p>g</p>
</div>


In [41]:
# 모든 <a>태그 검색 및 속성 보기
links = soup.find_all('a')

for alink in links:
    print(alink)
    print('url:{0}, text:{1}'.format(alink['href'], alink.get_text()))
    print()

<a class="external_link" href="www.google.com">google</a>
url:www.google.com, text:google

<a class="external_link" href="www.naver.com">naver</a>
url:www.naver.com, text:naver

<a class="internal_link" href="/pages/page1.html">Page1</a>
url:/pages/page1.html, text:Page1



In [45]:
# 특정 태그 중 여러 속성값을 한 번에 검색

# <a>태그에서 class 속성값이 ‘external_link’, ‘internal_link’것만 검색 
# => 리스트 형태로 추가
link_tags = soup.find_all('a', {'class':['external_link', 'internal_link']})
print(link_tags)

print()
# <p>태그의 id값이 ‘first’, ‘third’인 항목 검색
p_tags = soup.find_all('p', {'id': ['first', 'third']})
print(p_tags)
for p in p_tags:
    print(p)

[<a class="external_link" href="www.google.com">google</a>, <a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]

[<p id="first">class1's first paragraph</p>, <p id="third">class1's third paragraph</p>]
<p id="first">class1's first paragraph</p>
<p id="third">class1's third paragraph</p>


### select(), select_one() 함수
#### select() 함수
 - CSS selector로 tag객체를 찾아 리턴
 - 조건에 맞는 모든 태그를 리턴
   - find_all()과 유사

#### select_one() 함수
 - 조건에 맞는 첫 번째 태그만 리턴
   - find()와 유사

##### select_one()과 find() 차이점
 - find()
   - 하위 태그를 찾을 때, 반복적으로 코드를 작성
   - soup.find(‘div’).find(‘p’)
 - select()
   - 하위 태그를 찾을 때, 직접 하위 경로 지정
   - soup.select_one(‘div > p’)

##### select() 함수 사용법
 - 형태 : select(selector, namespaces=None, limit=None, **kwargs)
 - select(‘태그’)
   - 해당 태그를 포함하는 모든 요소 리턴
 - select(‘태그#id이름’) 또는 select(‘#id이름’)
   - 태그 내부의 id이름을 이용하여 검색: #id
 - select(‘태그.클래스이름’) 또는 select(‘.클래스이름’)
   - 특정 태그에 포함된 클래스명 검색: 태그 이름은 생략 가능
   - .클래스이름
 - select(‘상위태그 > 하위태그1 > 하위태그2’)
   - 계층적으로 하위 태그 접근
 - select(‘태그[속성1=값1]’)
   - 특정 태그의 속성과 속성값을 이용한 검색

#### select_one() 함수 예제

In [47]:
# <head>태그 검색
head = soup.select_one('head')
print(head)

<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>BeautifulSoup 활용</title>
</head>


In [50]:
# 첫번째 <h1>태그 검색
h1 = soup.select_one('h1')
print(h1)

<h1 id="heading">Heading 1</h1>


In [51]:
# <h1>태그의 id 검색 : #id
# <h1>태그의 id가 "footer＂인 항목 추출
heading = soup.select_one('h1#footer')  # '#'=>id를 의미
print(heading)

<h1 id="footer">Footer</h1>


In [49]:
head = soup.select_one('#footer')
print(head)

<h1 id="footer">Footer</h1>


In [53]:
# 클래스 이름 검색 : 태그.클래스이름
# <a class=“internal_link”> 검색

class_link = soup.select_one('a.internal_link') # a의 'internal_link' class를 의미
print(class_link)
print(class_link.text)
print(class_link['href'])

<a class="internal_link" href="/pages/page1.html">Page1</a>
Page1
/pages/page1.html


In [57]:
# 계층적 하위 태그 접근
# (상위태그 > 하위태그) 형식으로 접근

link1 = soup.select_one('div#link > a.external_link')
print(link1)

print()

# (상위태그 하위태그) 형식으로 접근
link2 = soup.select_one('div#class1 p#second')
print(link2)
print(link2.text)

<a class="external_link" href="www.google.com">google</a>

<p id="second">class1's second paragraph</p>
class1's second paragraph


#### select() 함수 예제

In [58]:
# 모든 <h1> 태그 검색
h1_all = soup.select('h1')
print(h1_all)

[<h1 id="heading">Heading 1</h1>, <h1 id="footer">Footer</h1>]


In [59]:
# 모든 url 링크 검색

# html문서의 모든 <a> 태그의 href 값 추출
url_links = soup.select('a')
for link in url_links:
    print(link['href'])

www.google.com
www.naver.com
/pages/page1.html


In [75]:
# <div id=“class1”> 내부의 모든 url 검색
div_urls = soup.select('div#class1 > a')
print(div_urls)

print()

print(div_urls[0]['href'])

[<a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]

www.naver.com


In [63]:
# 여러 항목 검색하기

# <h1>태그의 id가 ”heading”과 “footer”를 모두 검색 => 쉼표(,)로 나열함
# <h1 id="heading”>과 <h1 id="footer”> 항목 가져오기
h1 = soup.select('#heading, #footer')
print(h1)

[<h1 id="heading">Heading 1</h1>, <h1 id="footer">Footer</h1>]


In [64]:
# <a>태그의 class이름이 “external_link”와 ”internal_link” 모두 검색
url_links = soup.select('a.external_link, a.internal_link')
print(url_links)

[<a class="external_link" href="www.google.com">google</a>, <a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]


[<a class="external_link" href="www.google.com">google</a>, <a class="external_link" href="www.naver.com">naver</a>, <a class="internal_link" href="/pages/page1.html">Page1</a>]


In [66]:
national_anthem = '''
<!DOCTYPE html>
<html lang="en">
<head>
    <title>애국가</title>
</head>
<body>
    <div>
        <p id="title">애국가</p>
        <p class="content">
            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
        </p>
        <p class="content">
            남산 위에 저 소나무 철갑을 두른 듯 바람서리 불변함은 우리 기상일세.<br>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
        </p>
        <p class="content">
            가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
        </p>
        <p class="content">
            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br>
        </p>
    </div>
</body>
</html>
'''

In [67]:
# 제목과 가사 내용 추출

# 제목
bs4 = BeautifulSoup(national_anthem, 'html.parser')
print(bs4.select_one('p#title').text)

애국가


In [70]:
# 가사
contents = bs4.select('p.content')

print(contents)
print()

for content in contents:
    print(content.text)

[<p class="content">
            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.<br/>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br/>
</p>, <p class="content">
            남산 위에 저 소나무 철갑을 두른 듯 바람서리 불변함은 우리 기상일세.<br/>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br/>
</p>, <p class="content">
            가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.<br/>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br/>
</p>, <p class="content">
            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.<br/>
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.<br/>
</p>]


            동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세.
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.


            남산 위에 저 소나무 철갑을 두른 듯 바람서리 불변함은 우리 기상일세.
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.


            가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편단심일세.
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.


            이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세.
            무궁화 삼천리 화려 강산 대한 사람 대한으로 길이 보전하세.

