# 第三讲：Python 基础：数据结构

**2023-03-24 v2.1**

**2022-09-18 v2.0**

**2022-04-05 v1.2**

**2022-03-27 v1.1**

**2022-03-24 v1.0**

**yeh@czust.edu.cn**

## 序列类型

### 字符串

字符串是**不可变**的序列对象，由单引号 (`'`) 或双引号 (`"`) 界定

> Python 序列以 0 为索引起点，序列 `seq` 中的第一个成员是 `seq[0]`
>
> **索引**的语法是用方括号 (`[]`) 表示的

In [None]:
# 不可变对象无法更改成员
a_str = "这很合理"

# 查看成员
print(a_str[0])

In [None]:
# 尝试修改成员
a_str[0] = "那"

反斜杠 (`\`) 是**转义字符**，`r `引导的原始字符串对转义字符不作转义

In [None]:
# 转义字符
a = '我的\n世界'
b = r'我的\n世界'
print(a)
print(b)

三引号 (`'''`或`"""`) 字符串可以表示多行文本，多用来在代码中插入*文档*，因此又叫**文档字符串** (docstring)

In [None]:
# 文档字符串

'''从这里开始撰写文档
文内换行如实保留
    缩进 空格什么的都保留
'''

内置函数 `len()`可以获取序列的长度，当然包括字符串的长度

#### 字符串格式化

- 老方法：`%`格式化符号
- 新方法：`str.format()`方法
- 新新方法：`f''`字符串

```python
# 字符串格式化

name = '全てのエヴァンゲリオン'

print('さようなら %s！' % name)
print('さようなら {}！'.format(name))
print(f'さようなら {name}！')
```

> 各有利弊

- `%` 现在几乎用得不多了，除了那些特别怀念 C 语言的人
- `format()` 是的优势是允许多次重复使用参数
- `f` 字符串的优势是直观易读，不用跳着看代码

```python
# format()可以重复使用参数
print("{0}是{1}的{0}".format("中国", "中国人民"))
```

> 其实还有一个 `format()` 函数
>
> 使用方法是 `format(被格式化的量, '格式化模版字符串')`

#### 常用字符串方法

- `str.lower()`全体大写字符转为小写，`str.upper()`全体小写字符转为大写
- `str.lstrip()`删除字符串起首空格字符，`str.rstrip()`删除字符串结尾空格字符，`str.strip()`删除字符串起首**和**结尾空格字符
- `str.startswith(s)`判断是否以`s`起首，`str.endswith(s)`判断是否以`s`结尾
- `str.split(s)`以`s`为分隔符拆分字符串为序列，`str.join(seq)`以`str`为分隔符组装序列`seq`为字符串
- `str.find(s, start=0, end=len(str))`在字符串`str`中查找字符串`s`，`start`和`end`指定范围
- 各种`str.isalpha()`、`str.isdigit()`、`str.isspace()`等判断是否包含/仅包含某些字符的函数

In [None]:
# 举例

# 打碎指环
ring = 'ash nazg durbatulûk ash nazg gimbatul ash nazg thrakatulûk agh burzum-ishi krimpatul'
seq = ring.split(' ')

# 再接起来
print('\n'.join(seq))

### 字节串

字节串 (`bytes`) 与字符串的形式类似，但是在引号前面有一个 `b` 前缀

```python
# 字节串

my_bytes = b"Hello, world!"
```

字节串中只允许使用 ASCII 字符

字节串通常和十六进制表示息息相关，可以用内置方法相互转换

此外，字节串可以解码为字符串；反之，字符串可以编码为字节串

```python
# 解码到字符串
my_str = my_bytes.decode('utf-8')
# 编码成字节串
my_str.encode('utf-8')
```

可以简单的理解为

- 字符串有利于人类通信
- 字节串有利于计算机通信

字节串还有许多方法与字符串的方法功能类似 (甚至命名都一样)

In [None]:
my_bytes = b"Hello, world!"
my_str = my_bytes.decode('utf-8')

In [None]:
my_str

In [None]:
my_str.encode('utf-8')

### 列表

列表 (list) 是 Python 内建数据结构之一，用方括号`[`和`]`定界、用逗号`,`分隔里面的元素

与字符串类似，列表也

- 用`[]`访问元素
- 元素索引从`0`开始
- 用`len()`获取长度

但是与字符串不同，列表是**可变对象**

In [None]:
# 列表元素用逗号分隔
# 这里演示了整数型的元素
fib = [1, 1, 2, 3, 5, 8, 13,] # 最后允许悬垂一个逗号哦

In [None]:
len(fib)

In [None]:
fib[-1]

In [None]:
fib[6] = 4

In [None]:
fib

In [None]:
# 可变性
del fib[6]

In [None]:
# 甚至是不同类型的元素
bucket = ['Hi', 404, False, 3.141592]

# 访问元素
favs = ['One Last Kiss', 'Beautiful World', 'Komm, süsser Tod', '紅蓮の弓矢']
print(favs[3])  # 从0往右计数
print(favs[-1]) # -1表示倒数(往左计数)第1

#### 列表赋值

赋值语句改变的只是标识符的绑定，并不是拷贝整个列表给新的标识符

In [None]:
# 列表赋值
list_a = [1, 2, 3, 4]
list_b = list_a

# 改变原列表的元素
list_a[0] = 0
# 再看新列表
list_b

Python 列表实际上是指向一个动态数组的指针，这个动态数组的元素又是指向不同对象的指针

In [None]:
# Python的列表实现方式: 数组还是链表?

test_list = [None] * 100000

%timeit test_list[0]
%timeit test_list[50000]
%timeit test_list[-1]

#### 常用列表方法

- `list.append(e)`附加，在列表末尾添加一个元素`e`，**原位操作**
- `list.extend(iter)`延伸，在列表末尾添加一个可迭代容器`iter`内的元素
- `list.insert(i, e)`插入，在列表指定位置`i`添加一个元素`e`，插入后其他元素右移
- `list.remove(e)`移除，删除列表中指定的元素`e`的首现例
- `list.pop(i)`弹出，删除列表中指定位置`i`的元素并返回该元素，省略`i`则弹出最右端的元素
- `list.count(e)`计数，返回列表内指定元素`e`的个数
- `list.sort()`排序，对列表进行排序，**原位操作**
- `list.reverse()`逆转，对列表进行逆序排列，**原位操作**

In [None]:
# 举例
list_a = [2, 4, 6, 8]

In [None]:

list_a.append(10)

In [None]:
list_a

In [None]:
# 弹出元素
list_a.pop()

In [None]:
# 延伸列表
list_b = [1, 3, 5, 7]

In [None]:
list_a.extend(list_b)

In [None]:
list_a + list_b

In [None]:
# 原位操作 vs 非原位操作
list_ab = [2, 4, 6, 8, 1, 3, 5, 7]
# 非原位排序 sorted(list)
print(sorted(list_ab))
print(list_ab)
# 原位排序 list.sort()
print(list_ab.sort())
print(list_ab)

### 元组

元组 (tuple) 也是序列的一种，属于不可变对象

元组通常用圆括号`(`和`)`定界、逗号`,`分隔元素

> 没有歧义的情况下，元组的括号可以省略

语法样式

In [None]:
a_tuple = (1, 2)
type(a_tuple)

元组的大多数行为与**列表**类似，除了元组的**不可变**性质

In [None]:
a_tuple = ('计算机科学', '软件工程', '通信工程', '物联网工程', '人工智能')
# 访问元素
print(a_tuple[0])
# 获取长度
print(len(a_tuple))
# 但是无法修改元素
a_tuple[4] = '大数据'

在需要修改元组里内容的场合下，最好是使用列表

In [None]:
# 幸好可以转换类型
from_tuple = list(a_tuple)
from_tuple.extend(a_tuple)
# 别忘了元组也是可迭代容器，所以能作为`list.extend()`的参数
from_tuple

元组可以直接用逗号 (`,`) 分隔表示

元组支持解包操作，元组的解包使用一个星号 (`*`)

In [None]:
# 元组解包
print(*a_tuple, sep=';')

In [None]:
print(1, 2)

In [None]:
*a_tuple

`zip()`函数可以将多个序列组合成一个元组

In [None]:
list_a = [2, 4, 6, 8]
list_b = [1, 3, 5, 7]
zipped = zip(list_a, list_b)

In [None]:
zipped

In [None]:
comb = list(zipped)
comb

In [None]:
print(*comb, sep='\n')

### 序列小结

字符串、列表、元组和范围都是序列

序列是一种可迭代的容器，容器内放置元素

| 类型   | 可变 | 元素访问 | 元素存在 | 序列长度 | 切片      | 删除  |
| ------ | ---- | -------- | -------- | -------- | --------- | ----- |
| 字符串 | 否   | `[]`     | `in`     | `len()`  | `[i:j:k]` |       |
| 列表   | 是   | `[]`     | `in`     | `len()`  | `[i:j:k]` | `del` |
| 元组   | 否   | `[]`     | `in`     | `len()`  | `[i:j:k]` |       |
| 范围   | 否   | `[]`     | `in`     | `len()`  | `[i:j:k]` |       |

序列索引的起点从 `0` 开始

负值表示从末尾反向计算，即当 `i` 是负值时 `seq[i] == seq[len(seq)+i]`

- 索引 `seq[i]`
- 切片 `seq[start:stop]`或`seq[start:stop:step]`

In [None]:
# 序列的 in 操作示例

my_str = '字符串'
my_list = ['a', 'c', 'g']
my_tuple = ('d', 'o', 'g', 'e')
my_range = range(3, 12)

print('字' in my_str)
print('n' not in my_list)
print('d' in my_tuple)
print(6 in my_range)

In [None]:
my_tuple[::2]

## 映射类型

### 字典

字典(dictionary)是~~无序的~~可变对象，它将可散列值映射到任意对象

> 从 Python 3.7 开始，字典按插入顺序存储，因此是有序的

字典由键 (key) 和 值(value) 组成一组映射，键必须是**可散列值**

通常由字符串和整型值充当字典的键，而不用浮点型

In [None]:
# 创建空字典

a_dict = {}
type(a_dict)

In [None]:
a_dict = dict()

字典可以从字面量创建

In [None]:
# 这里的键是字符串，字符串是可散列值
a_dict = {'a': 'apple', 'o': 'orange', 'g': 'grape'}

In [None]:
a_dict['p']

In [None]:
another_dict = {1: 'hello', 2: 'world'}

In [None]:
another_dict[1]

In [None]:
hash('a')

In [None]:
# 用键索引值
print(a_dict['a'])

# 支持转换到序列类型
print(list(a_dict))
print(list(a_dict.values()))

删除字典的项，可以用 `del` 关键字

In [None]:
del a_dict['o']

In [None]:
a_dict

In [None]:
a_dict['g'] = 'hello'

#### 字典内置方法

- `dict.get(k)`返回键`k`对应的值
- `dict.pop(k)`弹出键`k`对应的值
- `dict.items()`返回由**键值对**元组组成的列表
- `dict.keys()`返回由**键**组成的列表
- `dict.values()`返回由**值**组成的列表

#### 新增字典运算符

- 归并 `|`
- 更新 `|=`

In [None]:
dict_old = {'name': 'John', 'lastUpdate': '2021-08-23'}
dict_new = {'lastUpdate': '2021-08-26', 'location': 'Shanghai'}
dict_old |= dict_new
print(dict_old)
{'name': 'John', 'lastUpdate': '2021-08-26', 'location': 'Shanghai'}

## 无索引类型

### 集合

集合 (set) 是一个有区别的可散列 (hashable) 对象的**无序**集

- “有区别”意味着集合中的不存在相同的成员
- 集合不记录元素的位置或插入的顺序
- 集合不支持索引、切片或其他类似序列的行为

In [None]:
# 集合字面量
primes = {2, 3, 5, 7, 11, 13}
type(primes)

# 集合常见操作
print(2 in primes)
print(len(primes))

In [None]:
primes

#### 集合内置方法

- `set.add(e)`添加元素，若已有该元素则不添加
- `set.pop()`弹出一个随机元素
- `set.remove(e)`移除一个指定元素，若不存在则抛出异常
- `set.union(a_set)`求并集，参数`a_set`可以是任意可迭代对象，可以多个集合求并集
- `set.intersection(a_set)`求交集，可以多个集合求交集
- `set.difference(a_set)`求差集，前者(`set`)差后者(`a_set`)

In [None]:
a = [1, 1, 2]
list(set(a))

In [None]:
# 添加元素到集合
primes = {2, 3, 5, 7, 11, 13}
primes.add(17)
print(primes)

In [None]:
# 弹出随机元素
popped = primes.pop()
print(popped)
print(primes)

In [None]:
# 求并集(错误示范)
primes.union(popped)
print(primes)

In [None]:
# 求并集
whole = primes.union((popped,))
print(whole)

## 解包和打包

解包 (unpacking) 是指把一个容器拆成成员，打包 (packing) 是指把一组成员收集成容器

解包运算符 `*` 最初只能用在元组，后来扩展到其他可迭代对象，例如列表

**没有打包运算符**

使用解包/打包操作，可以让代码更易读、更优雅

### 解包原理

基本工作原理是多重赋值，将元组放在赋值号 (`=`) 右侧，而将需要接受成员值的一组标识符放在赋值号左侧

In [None]:
# 元组的圆括号其实并非必须
# 我们已经知道Python可以多重赋值
x, y = 3, 4
# 但其实赋值号右侧的是元组，等价于
x, y, *_ = (3, 4, 5, 6)
# 此时x被赋值为3，y被赋值为4

In [None]:
_

现在推广到其他可迭代对象

In [None]:
# 字符串
a, b, c = '天地人'
# 列表
a, b, c = [1, 2, 3]
# 字典
a, b, c = {'like': '👍', 'fav': '❤️', 'share': '🔗'}
# 生成器表达式
a, b, c = (x ** 2 for x in range(3))
# 集合也可以用，但是因为集合的无序性，并不实用

解包运算符 `*` 可以用来在单个变量中打包多个值，打包后的变量类型是列表，例如

In [None]:
# 元组
*a, = 1, 2, 3
# 字符串
*a, = '天地人'
# 还可以混用其他标识符
*a, b = '天地人'

In [None]:
a, *b = '天地人'

In [None]:
# 如果不带解包运算符的标识符用尽了右侧成员，则被打包的标识符为空
*a, b, c, d = '天地人'

In [None]:
a

In [None]:
# 因此用生成器表达式很容易产生一个序列
*squared, = (x ** 2 for x in range(10))

结合`zip()`函数，可以拆分已组合成元组的多个列表

In [None]:
list_a, list_b = zip(*comb)

In [None]:
list(list_a)

In [None]:
list_b

### `*` 运算实践

#### 常见用法1

获取一个可迭代对象中，除部分明确赋值以外的其余值，例如

In [None]:
# 假设有一组成绩排名
ranks = {'1': 100, '2': 78, '3': 64, '4': 62, '5': 43}
# 用字典的方法获取成绩
first, *_, last = ranks.values()
# 轻松得到第一名和最后一名的成绩，其余值用解包运算符收集，以供后用

In [None]:
first

这种用法可以按需求选择是保留还是弃置用解包运算符收集的值

#### 常见用法2

解包运算的标识符可以代入可迭代对象，起到合并作用

In [None]:
a_list = [1, 2, 3]
a_tuple = (4, 5, 6)
merged_list = [*a_list, *a_tuple, *range(7, 10)]
merged_list

In [None]:
# 比较下面的写法
merged_list = a_list + list(a_tuple) + list(range(7, 10))
merged_list

#### 常见用法3

用于函数签名中的不定长度的位置参数

In [None]:
def func(*params):
    for param in params:
        print(param)

func('你好')
func('你好', '但我不太好')

### `**` 运算实践

`**` 运算符称为**字典解包运算符** (dictionary unpacking operator)，自从 PEP448 引进以来，可以用在函数调用、推导式和生成器表达式等场合

In [None]:
top_five = {'1': 100, '2': 78, '3': 64, '4': 62, '5': 43}
# 合并到新的字典
my_all = {**top_five, '6': 40, '7': 38, '8': 24}
my_all

`**` 运算符用在函数签名时表示不定长度的键值对参数

In [None]:
def func(**params):
    for param, value in params.items():
        print(param, value)

func(first_name='王')
func(first_name='王', last_name='中王')

## 数据结构小结

| 数据结构       | 有序性     | 可变性 | 构造器            | 示例                                   |
| -------------- | ---------- | ------ | ----------------- | -------------------------------------- |
| 列表 (`list`)  | 有序       | 可变   | `[]` 或 `list()`  | `['d', 'o', 'g', 'e']`                 |
| 元组 (`tuple`) | 有序       | 不可变 | `()` 或 `tuple()` | `('d', 'o', 'g', 'e')`                 |
| 字典 (`dict`)  | 按插入顺序 | 可变   | `{}` 或 `dict()`  | `{'d':100, 'o':111, 'g':103, 'e':101}` |
| 集合 (`set`)   | 无序       | 可变   | `{}` 或 `set()`   | `{'d', 'o', 'g', 'e'}`                 |
| 字符串 (`str`) | 有序       | 不可变 | `""` 或 `''`      | `'doge'`                               |

## 课后作业

**截止日期：2023-03-31 00:00**

### 1. 简答

简述经过下面的一系列操作之后，为何 `a` 的值变成了 `[2, 2, 3]`

```python
>>> a = [1, 2, 3]
>>> b = a
>>> b[0] = 2
>>> a
[2, 2, 3]
```

[comment]: 答案写在这里



### 2. Python 禅文本分析

读取 *Python禅* 的文本文件。利用所学到的 Python 数据结构及其内置方法，统计其中出现的不同单词的总数。注意

- **不用处理**文本中的标点、空格
- 相同的单词重复出现**只算一个词**
- 小心处理空格等无益于统计的字符

> 用 `import this` 可以打印 *Python禅*

**思路提示**

使用各种序列数据的常用方法，例如：
- `str.replace`可以替换字符
- `str.split`把字符串按分隔符拆分成列表
- `set.difference`求集合的差集

In [None]:
import this
import codecs

# “禅”的文本已经为你准备好了🤔
zen = codecs.encode(this.s, 'rot13')
# 请继续

### 3. 淘宝搜索建议

在淘宝商城的搜索框，输入字符串之后，它会贴心地给出商品建议。例如当我输入“Python”：

![tb](./image/tb.png)

对于我们开发人员来说，更贴心的莫过于淘宝开放了商品建议的数据接口，只要使用以下API即可获取商品建议：

`https://suggest.taobao.com/sug?code=utf-8&q={key}`

其中`key`是要检索的商品关键字。还是以“Python”为例：

https://suggest.taobao.com/sug?code=utf-8&q=Python

不妨点击以上链接，网络正常的情况下，应该能顺利获得商品搜索建议

返回的格式是 JSON，一种非常流行的数据交换格式

浏览器中的 JSON 格式显示很不友好

**作业要求**

本题要求**打印**淘宝商品建议结果，查询商品**自拟**，**格式**如下：

```
https://suggest.taobao.com/sug?code=utf-8&q=Python
python作业
python代编程
python教程
python编程从入门到实战
python接单
python爬虫
python教程自学全套
python数据分析
python安装
python程序设计
```

**思路提示**

- 使用`requests`库的`get()`方法获取搜索建议
- 返回结果可以用`.json()`方法转为字典格式
- 使用Python内置函数`print()`打印最终结果
- 无需使用循环控制语句，结合本讲课程内容解答此题

In [None]:
# 导入依赖的库
import requests

# 关键词
key = ''
# 组合出查询API
query_str = f'https://suggest.taobao.com/sug?code=utf-8&q={key}'

# 请继续