# 对象种类
Beautiful Soup将复杂HTML文档转化成一个复杂的树形结构，每个节点都是Python对象，所有对象可以归纳为4中：Tag、NavigableString、BeautifulSoup、Comment

- tag
- 可以遍历的字符串
- BeautifulSoup
- 注释以及特殊字符串

# 1 tag
Tag 对象与XML或HTML原文档中的tag相同

In [11]:
from bs4 import BeautifulSoup

#-------------------------- tag
"""
tag 的基本属性
- name
- attributes
"""

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag) # bs4.element.Tag

#------------------------- Name

print(tag.name) # b

# 修改tag name
tag.name = "blockquote" 
print(tag)

#------------------------- Attributes
"""
一个tag中可能有很多属性 
tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” .
tag的属性的操作方法与字典相同:
"""
print(tag['class']) # 像字典一样访问
print(tag.attrs) # 返回属性列表
tag['class'] = 'vergbold' # 修改属性值
tag['id'] = 1 # 增加属性值
print(tag) # <blockquote class="vergbold" id="1">Extremely bold</blockquote>

del tag['id'] # 删除属性

#------------------------ 多值属性
"""
HTML 4定义了一系列可以包含多个值的属性.在HTML5中移除了一些,
却增加更多.最常见的多值的属性是 class (一个tag可以有多个CSS的class). 
还有一些属性 rel , rev , accept-charset , headers , accesskey . 在Beautiful Soup中多值属性的返回类型是list:
"""
css_soup = BeautifulSoup('<p class="body strikeout"></p>')
print(css_soup.p['class']) # ['body', 'strikeout']

b
<blockquote class="boldest">Extremely bold</blockquote>
['boldest']
{'class': ['boldest']}
<blockquote class="vergbold" id="1">Extremely bold</blockquote>
['body', 'strikeout']


## 2 可以遍历的字符串
字符串常被包含在tag内，Beautiful Soup用NavigableString类来包装tag中字符串

In [17]:
from bs4 import BeautifulSoup 
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b

print(tag.string)  # Extremely bold
print(type(tag.string)) # <class 'bs4.element.NavigableString'>

#--- 替换 string
tag.string.replace_with('No longer bold')
print(tag) # <b class="boldest">No longer bold</b>

Extremely bold
<class 'bs4.element.NavigableString'>
<b class="boldest">No longer bold</b>


## 3  BeautifulSoup
BeautifulSoup对象表示的是一个文档的全部内容，大部分时候，可以吧它当作Tag对象，它支持方法比较多。

因为BeautifulSoup对象并不是真正的HTML或XML的tag所以它并没有name和attribute属性。但有时查看它的 .name 属性是很方便的,所以 BeautifulSoup 对象包含了一个值为 “[document]” 的特殊属性 .name

In [18]:
from bs4 import BeautifulSoup 
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')

print(soup.name) # [document]

[document]


## 4 注释及特殊字符串
Tag , NavigableString , BeautifulSoup 几乎覆盖了html和xml中的所有内容,但是还有一些特殊对象.容易让人担心的内容是文档的注释部分:

In [19]:
from bs4 import BeautifulSoup 
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"

soup = BeautifulSoup(markup)
comment = soup.b.string
print(type(comment))


<class 'bs4.element.Comment'>
