# 对象的种类
- Tag NavigableString BeautifulSoup Comment

## Tag

In [1]:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'lxml')
tag = soup.b
type(tag)

bs4.element.Tag

### Tag最重要的属性：Name 和 Attributes

In [2]:
tag.name

'b'

In [3]:
tag.name = "blockquote"
tag

<blockquote class="boldest">Extremely bold</blockquote>

一个tag可能有多个属性，tag```<b class="boldest">```有一个"class"属性，值为"boldest",tag的属性操作和字典相同

In [4]:
tag["class"]

['boldest']

In [5]:
tag.attrs

{'class': ['boldest']}

tag的属性可以被添加、删除或修改，tag的属性操作和字典相同

In [6]:
tag["class"] = 'very bold'
tag["id"] = 1
tag

<blockquote class="very bold" id="1">Extremely bold</blockquote>

In [7]:
del tag["class"]
del tag["id"]
tag

<blockquote>Extremely bold</blockquote>

### 多值属性

- 最常见的是class, 一个tag可以有多个CSS的class
- 在BeautifulSoup中多值属性的返回类型是list

In [8]:
css_soup = BeautifulSoup('<p class="bold strikeout"></p>', 'lxml')
css_soup.p['class']

['bold', 'strikeout']

- 如果某个属性看起来好像有多个值，但在任何版本的HTML中都没有被定义为多值属性，那么BeautifulSoup会将这个属性作为字符串返回

In [9]:
id_soup = BeautifulSoup('<p id="my id"></p>', 'lxml')
id_soup.p["id"]

'my id'

- 将tag转换成字符串时，多值属性会合并为一个值

In [10]:
rel_soup = BeautifulSoup('<p>Back to the <a rel="index">homepage</a></p>', 'lxml')
rel_soup.a['rel']

['index']

In [11]:
rel_soup.a['rel'] = ['index', 'contents']
rel_soup.p

<p>Back to the <a rel="index contents">homepage</a></p>

- 如果转换的文档是XML格式，那么tag中不包含多值属性

In [12]:
xml_soup = BeautifulSoup('<p class="body strikeout"></p>', 'xml')
xml_soup.p['class']

'body strikeout'

## NavigableString（可以遍历的字符串）

### 字符串常被包含在tag内，BeautifulSoup用NavigableString类来包装tag中的字符串

In [13]:
tag.string

'Extremely bold'

In [14]:
type(tag.string)

bs4.element.NavigableString

### python3通过str()方法可以直接将NavigableString对象转换成Unicode字符串

In [15]:
unicode_string = str(tag.string)
type(unicode_string)

str

### tag中的字符串不能编辑，但是可以被替换成其他的字符串，用replace_with()方法

In [16]:
tag.string.replace_with("No longer bold")
tag

<blockquote>No longer bold</blockquote>

### NavigableString对象支持遍历文档树和搜索文档树中定义的大部分属性，并非全部，尤其是一个字符串不能包含其他内容，字符串不支持```.contents```或```.string```属性或find()方法

如果想在Beautiful Soup之外使用NavigableString对象，需要调用str()方法，将该对象转换成普通的Unicode字符串，否则就算Beautiful Soup方法已经执行结束，该对象的输出也会带有对象的引用地址，这样会浪费内存。

## BeautifulSoup

BeautifulSoup对象表示的是一个文档的全部内容，大部分时候，可以把它当作Tag对象，支持遍历文档树和搜索文档树中描述的大部分方法

BeautifulSoup对象包含一个值为"[document]"的特殊属性.name

In [17]:
soup.name

'[document]'

## comment(注释以及特殊字符串)

前面三类对象几乎覆盖了html和xml中的所有内容，但是还有一些特殊对象，容易让人担心的内容是文档的注释部分：

In [18]:
markup = "<b><!--Hey, buddy. Want to by a used praser?--></b>"
soup = BeautifulSoup(markup, 'lxml')
comment = soup.b.string
type(comment)

bs4.element.Comment

In [19]:
comment

'Hey, buddy. Want to by a used praser?'

- comment是一个特殊类型的NavigableString对象
- 但是当它出现在html文档中时， Comment对象会使用特殊的格式输出

In [20]:
soup.b.prettify()

'<b>\n <!--Hey, buddy. Want to by a used praser?-->\n</b>'

## BeautifulSoup中定义的其他类型都可能会出现在XML文档中：CData、ProcessingInstruction、Declaration、Doctype与Comment对象类似，都是NavigableString的子类，只是添加了一些额外的方法的字符串独享

In [21]:
from bs4 import CData
cdata = CData("A CDATA block")
comment.replace_with(cdata)
soup.b.prettify()

'<b>\n <![CDATA[A CDATA block]]>\n</b>'