In [1]:
from bs4 import BeautifulSoup
 
html = '''<!DOCTYPE html>
<html>
<head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">
    Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister brother" id="link3">Tillie</a>;
    and they lived at the bottom of a well.
</p>
</body>
</html>
'''
 
soup = BeautifulSoup(html, 'html.parser')

In [2]:
# element
print(soup.title) # <title>The Dormouse's story</title>
print(soup.find('title')) # <title>The Dormouse's story</title>

<title>The Dormouse's story</title>
<title>The Dormouse's story</title>


In [3]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [4]:
soup.body.p

<p class="title"><b>The Dormouse's story</b></p>

In [5]:
# tag
print(soup.title.name) # title

title


In [6]:
# text
print(soup.title.string) # The Dormouse's story
print(soup.title.get_text()) # The Dormouse's story

The Dormouse's story
The Dormouse's story


###### 텍스트를 반환하는 것은 .string 아니면 .get_text()이다.

In [7]:
# single element
print(soup.a.get_text()) # Elsie
print(soup.find('a').get_text()) # Elsie

Elsie
Elsie


###### 단일 원소만을 찾을 때에는 soup이라는 것에 .을 붙여서 뒤에 a태그를 달거나, find를 이용한다.

In [8]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [9]:
soup.find('a')

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [10]:
# multi element
print(soup.find_all('a')) # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]
print(soup.find_all('a')[0].get_text()) # Elsie
print(soup.find_all('a')[1].get_text()) # Lacie

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]
Elsie
Lacie


###### 맨 처음은 a 태그를 모두 찾는 것, 그리고 두번째는 찾은 a태그들 중에서 첫번째 것의 텍스트를 반환하는 것, 마지막은 두번째 a태그의 텍스트를 반환

In [12]:
# attribute
print(soup.a['class']) # ['sister']
print(soup.a.get('class')) # ['sister']
print(soup.a['href']) # http://example.com/elsie
print(soup.a.attrs['href']) # http://example.com/elsie

['sister']
['sister']
http://example.com/elsie
http://example.com/elsie


###### 어트리뷰트를 활용하는 것이다. 첫번째와 두번째는 a태그의 클래스(어트리뷰트) 명을 반환하는 것이고,
###### 세번째 네번쨰는 역시 a태그의 href(어트리뷰트)를 반환한다.

In [14]:
# find by id
print(soup.find(id='link1')) # <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
print(soup.find('', {'id':'link1'})) # <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


###### id를 이용해 해당 내용을 파싱하는 방법
###### 첫번째는 id에 특정 값인 link1을 줘서 찾고, 두번쨰는 해당 자료가 존재하는 차원에서 id의 키와 밸류를 활용해서 찾고 있다.

In [15]:
# find by class
print(soup.find_all(class_='sister')) # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]
print(soup.find_all('', {'class':'sister'})) # [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]
[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister brother" href="http://example.com/tillie" id="link3">Tillie</a>]


###### 이것은 클래스를 통해서 내용을 찾는 방법이다. 위의 id를 활용해 찾는 방법과 유사하다.
###### 직접 클래스명을 지정하고, 또는 특정 태그의 클래스를 지정해서 내용을 찾는 일이 가능하다.