### Python Dictionary - 字典

一种可变的数据结构，用于存储键（Key）和对应的值（Value）。字典是一种无序的集合，其中每个元素都由一个唯一的键来标识。

字典的特点包括：

- 键-值对：字典中的每个元素都由一个键和对应的值组成。键是唯一的，用于标识和访问值。
- 无序性：字典中的元素没有固定的顺序。你无法通过索引访问字典中的元素，而是通过键来获取对应的值。
- 可变性：字典是可变的，可以添加、修改和删除键值对。

#### 字典的创建

字典的创建使用花括号 `{}`。

#### 字典的操作：增，删，改，访问

增 和 改：

`empty_dict["new_key"] = 1`

删：

`del my_dict["key"]`；

`my_dict.pop("key")` 方法

访问：

`print(my_dict["some_key"])`

#### 判断字典中是否存在某个词条

1. `"some_key" in my_dict`   --> `str in dict`
2. `dictionary.get("some_key") is not None`
3. `"some_key" in my_dict.keys()`  --> `str in list`

#### 字典的遍历

1. `for key in my_dict`
2. `for key, value in my_dict.items()`
3. `for key in my_dict.keys()`
4. `for value in my_dict.values()`

#### 嵌套字典

#### 字典的合并 - a.update(b)
        
> 数组的合并 - a.extend(b)

### 字符串的进阶操作

#### 字符的转义

转义字符是一种特殊的字符序列，用于表示一些特殊字符或具有特殊含义的字符。

1. 转义引号：

```python
string1 = "He said, \"Hello!\""
print(string1)  # 输出：He said, "Hello!"
```

2. 转义换行符：

```python
string2 = "Line 1\nLine 2"
print(string2)
```

3. 转义制表符：

```python
string3 = "Column 1\tColumn 2"
print(string3)  # 输出：Column 1    Column 2
```

4. 转义反斜杠自身：

```python
string4 = "This is a backslash: \\"
print(string4)  # 输出：This is a backslash: \
```

这些转义序列允许用户在字符串中插入特殊字符，而不会引发语法错误或产生不正确的结果。

#### format 方法 `"{}".format(x)`

#### 格式字符串 `f"{x}"`

#### `chr` 和 `ord`

#### 字符串比较大小

### HTML 中的转义

语法：`&name;` 或者 `&#hex;`

在 HTML 中，有一些特殊字符需要进行转义，以确保它们能够正确显示而不干扰 HTML 结构。

```html
&amp;    表示字符 &（和号）
&lt;     表示字符 <（小于号）
&gt;     表示字符 >（大于号）
&quot;   表示字符 "（双引号）
&apos;   表示字符 '（单引号）
```

也可以使用 16 进制的字符编码：

```html
&#x20;   表示字符 空格
&#xA;    表示字符 换行
&#x27;   表示字符 '（单引号）
&#x3C;   表示字符 <（小于号）
&#x3E;   表示字符 >（大于号）
```

### Python 中的进制转换

#### 内置进制转换函数 十进制转其它进制 - hex bin oct

#### 内置进制转换函数 其它进制转十进制 - int("0xff", 16)

#### 十进制转非常用进制 - 自己写函数

#### URL 中的转义方式

对于 URL 转义，常用的方式是使用百分号（%）进行编码。在 URL 中，某些字符具有特殊含义或保留用途，因此需要进行转义以确保它们在 URL 中能够正确表示。

使用百分号编码保留字符：

- 空格：编码为 %20 或 +
- `#`：编码为 %23
- `?`：编码为 %3F
- `=`：编码为 %3D
- `/`：编码为 %2F

规律为，百分号加两位十六进制数编码任意 ASCII 字符。

字母、数字和部分符号通常不需要转义。

对于非 ASCII 字符，在 URL 中传输时，需要进行编码以确保其在网络传输过程中的正确性和可靠性。

一般步骤：

1. 将非 ASCII 字符转换为其对应的 UTF-8 字节序列。
2. 将每个字节转换为两位十六进制数。
3. 在每个字节的十六进制数前加上百分号（%）作为前缀。

例如，假设要编码的字符是 "é"，其对应的 UTF-8 字节序列为 \xc3\xa9。然后，将每个字节转换为两位十六进制数，即 c3 和 a9。最后，在每个十六进制数前加上百分号，编码后的结果是 %C3%A9。

#### Python：quote, unquote

在 Python 中，可以使用 `urllib.parse` 模块中的 quote() 函数进行 URL 编码。

```python
from urllib.parse import quote

string = "é"
encoded_string = quote(string)
print(encoded_string)  # 输出：%C3%A9
```

可以使用 `urllib.parse` 模块中的 unquote() 函数对已编码的 URL 进行解码。

```python
from urllib.parse import unquote

encoded_string = "%C3%A9"
decoded_string = unquote(encoded_string)
print(decoded_string)  # 输出：é
```

### 实操

In [9]:
import requests

resp = requests.get("https://www.w3school.com.cn/tags/index.asp")
print(resp.text[0:3000])

# 目标：提取出所有的 HTML 标签和描述，放入一个 Python dictionary 数据结构。



<!DOCTYPE html>
<html lang="zh-cn">
<head>

<!-- Global site tag (gtag.js) - Google Analytics -->
<script async src="https://www.googletagmanager.com/gtag/js?id=UA-878633-1"></script>
<script>
  window.dataLayer = window.dataLayer || [];
  function gtag(){dataLayer.push(arguments);}
  gtag('js', new Date());

  gtag('config', 'UA-878633-1');
</script>

<meta charset="utf-8">
<meta name="robots" content="all" />
<meta name="author" content="w3school.com.cn" />

<link rel="stylesheet" type="text/css" href="/c8.css" />

<link rel="icon" type="image/png" sizes="16x16" href="/ui2019/logo-16-red.png">
<link rel="icon" type="image/png" sizes="32x32" href="/ui2019/logo-32-red.png">
<link rel="icon" type="image/png" sizes="48x48" href="/ui2019/logo-48-red.png">
<link rel="icon" type="image/png" sizes="96x96" href="/ui2019/logo-96-red.png">
<link rel="apple-touch-icon-precomposed" sizes="180x180" href="/ui2019/logo-180.png">


<title>HTML 标签参考手册</title>

</head>

<body class="html">

<div id="