# 第二章 Python数据结构

Python中常见的数据结构统称为容器。  

三类主要的容器
- 序列（如列表和元组）
- 映射（如字典）
- 集合

## 2.1 字符串
- 字符串（String）是字符的序列，创建字符串需用一对单引号或一对双引号引起来
- 使用单引号：可以用单引号指示字符串，如'Quote me on this'。所有的空白，即空格和制表符都照原样保留
- 使用双引号：双引号与单引号的字符串在使用上完全相同
- 使用三引号：利用三引号可以指示一个多行的字符串。可以在三引号中自由地使用单引号和双引号

In [2]:
a = "hello"
b = 'world'
c = '''
hello 
world
'''
print(a)
print(b)
print(c)

hello
world

hello 
world



有时候字符串中含有一些特殊的符号，如“\”“‘”等，需要借用转义符才能“依原样”显示

In [4]:
'What's your name?'

SyntaxError: invalid syntax (179670048.py, line 1)

In [3]:
'What\'s your name?'

"What's your name?"

In [5]:
"Waht's your name?"

"Waht's your name?"

![image.png](attachment:image.png)

- 如果想按“原样”输出字符串，即不需要转义符来处理字符串，则称字符串为自然字符串。  
- 输出自然字符串可以通过给字符串加上前缀r或R来指定
- 如果不想让反斜杠发生转义，可以在字符串前面添加一个r，表示按原始字符输出

In [12]:
print("Newlines are indicated by \n")

Newlines are indicated by 



In [13]:
print(r"Newlines are indicated by \n")

Newlines are indicated by \n


In [10]:
print('C:\some\name')

C:\some
ame


In [11]:
print(r'C:\some\name')

C:\some\name


字符串一旦被创建就不能再修改，它是一个整体。可以根据字符串的索引读出或者取出字符串中的一部分

Python中的字符串有两种索引方式：
- 从左往右，从0开始依次增加
- 从右往左，从-1开始依次减少

Python中的切片也叫分片，就是从给定的字符串中分离出不分内容，在Python中用冒号分隔两个索引来表示，形式如下：  
变量名[开始索引:结束索引]  
截取的范围是左闭右开，即不包含stop

In [None]:
s = "Python"
s[1:2]  # 取索引1到2但不含2的字符，即提取索引为1的字符

'y'

In [None]:
s[1:]  # 冒号后可以生了，表示从索引1开始到字符串结束

'ython'

In [None]:
s[:3]  # 冒号前可以省略，表示从字符串开始到索引3结束，但取不到索引为3的字符

'Pyt'

In [18]:
s[:]  # 冒号前后都可以省略，表示从字符串开始到结束

'Python'

字符串也可以运算，可以通过“+”运算符将字符串连接在一起，或者用*远算符重复

In [19]:
print('str' + 'ing', 'my' * 3)

string mymymy


常见的字符串运算符如下：
![image.png](attachment:image.png)

有时字符串还需要一些加工处理，如首字母大写、除去字符串前后的空格等
![image.png](attachment:image.png)

In [20]:
s = "Hello World !"
c = s.capitalize()  # 首字母大写

In [21]:
c

'Hello world !'

In [None]:
id(s), id(c)  # id()函数用于查询变量的存储地址

(4548385328, 4452554160)

In [None]:
s.casefold()  # casefold()函数用于将字符串转换为小写，它比lower()函数更彻底

'hello world !'

In [None]:
s.lower()  # lower()函数用于将字符串转换为小写

'hello world !'

In [25]:
s.upper()  # upper()函数用于将字符串转换为大写

'HELLO WORLD !'

In [26]:
s = "111222asasas78asas"

In [27]:
s.count("as")  # count()函数用于统计字符串中某个子串出现的次数

5

In [None]:
s.encode(encoding='gbk')  # encode()函数用于将字符串转换为字节串

b'111222asasas78asas'

In [29]:
s.find("as")  # find()函数用于查找子串在字符串中的位置，如果找不到则返回-1

6

In [30]:
s = "This is {0} and {1} is good ! {word1} are {word2}"
s

'This is {0} and {1} is good ! {word1} are {word2}'

In [1]:
it = ["Python", "Java"]
it

['Python', 'Java']

In [2]:
" ".join(it)  # join()函数用于将列表中的元素连接成一个字符串

'Python Java'

In [3]:
'\n\t aaa \n\t aaa \n\t'.strip()  # strip()函数用于删除字符串前后的空格

'aaa \n\t aaa'

In [4]:
'\n\t aaa \n\t aaa \n\t'.rstrip()  # rstrip()函数用于删除字符串右边的空格

'\n\t aaa \n\t aaa'

In [5]:
'\n\t aaa \n\t aaa \n\t'.lstrip()  # lstrip()函数用于删除字符串左边的空格

'aaa \n\t aaa \n\t'

In [6]:
'xx你好'.replace('xx', '小明')

'小明你好'

In [7]:
'1,2,3,4,5,6,7'.split(',')  # split()函数用于将字符串分割成列表

['1', '2', '3', '4', '5', '6', '7']

In [5]:
# 字符串格式化付下
x1 = 'Yubg'
x2 = 40

In [9]:
print('He said his name is %s.' %x1)

He said his name is Yubg.


In [10]:
print(f"He said his name is {x1}")

He said his name is Yubg


In [11]:
print('He said he was %d.' %x2)

He said he was 40.


In [12]:
print(f'He said his name is {x1}.')

He said his name is Yubg.


## 2.2 列表
- 列表（List）是程序中常见的类型。Python的列表功能相当强大，可以作为栈（先进后出表）、队列（先进先出表）等使用。
- list只需要在中括号[]中添加列表的项（元素），以半角逗号隔开每个元素即可

In [13]:
s = [1, 2, 3, 4, 5]

In [14]:
s

[1, 2, 3, 4, 5]

In [15]:
s[0]  # 列表中的元素可以通过索引来访问，索引从0开始

1

In [16]:
s[2]

3

In [17]:
s[-1]  # 索引也可以是负数，表示从右往左数

5

In [18]:
s[-2]

4

In [19]:
s[1:3]  # 列表切片，表示从索引1到索引3（不包括索引3）的元素

[2, 3]

In [20]:
s[1:]

[2, 3, 4, 5]

In [21]:
s[:-2]  # 列表切片，表示从索引0到索引-2（不包括索引-2）的元素

[1, 2, 3]

![image.png](attachment:image.png)

In [22]:
s = [1, 3, 2, 4, 6, 1, 2, 3]
s

[1, 3, 2, 4, 6, 1, 2, 3]

In [23]:
s.append(0)  # 在末尾追加元素
s

[1, 3, 2, 4, 6, 1, 2, 3, 0]

In [24]:
s.extend([1, 2, 3, 4])  # 合并列表
s

[1, 3, 2, 4, 6, 1, 2, 3, 0, 1, 2, 3, 4]

In [25]:
s.insert(0, 100)  # 在指定位置插入元素
s

[100, 1, 3, 2, 4, 6, 1, 2, 3, 0, 1, 2, 3, 4]

In [26]:
s.remove(100)  # 删除指定元素
s

[1, 3, 2, 4, 6, 1, 2, 3, 0, 1, 2, 3, 4]

In [27]:
print(s.pop(0))  # 删除指定索引上的元素，并返回该元素的值

1


In [28]:
s

[3, 2, 4, 6, 1, 2, 3, 0, 1, 2, 3, 4]

In [29]:
s.pop()  # 删除最后一个元素，并返回该元素的值

4

In [30]:
s

[3, 2, 4, 6, 1, 2, 3, 0, 1, 2, 3]

In [31]:
s.index(3)  # 找出第一个等于3的索引

0

In [32]:
s.count(1)  # 统计元素等于1的个数

2

In [33]:
s

[3, 2, 4, 6, 1, 2, 3, 0, 1, 2, 3]

In [34]:
s.sort()  # 排序
s

[0, 1, 1, 2, 2, 2, 3, 3, 3, 4, 6]

In [35]:
s.sort(reverse=True)  # 逆序排序
s

[6, 4, 3, 3, 3, 2, 2, 2, 1, 1, 0]

In [36]:
k = s.copy()  # 复制，k和s的存储地址不同
k

[6, 4, 3, 3, 3, 2, 2, 2, 1, 1, 0]

In [37]:
k.clear()  # 清空列表
k

[]

In [38]:
s

[6, 4, 3, 3, 3, 2, 2, 2, 1, 1, 0]

In [39]:
m = s # 赋值，m和s的存储地址相同
m

[6, 4, 3, 3, 3, 2, 2, 2, 1, 1, 0]

In [40]:
m.clear()  # 清除m会影响s
m

[]

In [41]:
s

[]

## 2.3 元组
元组（Tuple）跟列表很像，只不过使用的是小括号()，并且元组中的元素一旦确定就不可更改。下面两种方式都是定义一个tuple。

In [42]:
t = (1, 2, 3, 4, 5)
t

(1, 2, 3, 4, 5)

In [43]:
y = 1, 2, 3, 4, 5
y

(1, 2, 3, 4, 5)

在Python中，如果多个变量用半角逗号隔开，则默认将多个变量按tuple的形式组织起来，因此在Python中两个变量相互交换值可以想下面这样操作。

In [44]:
x, y = 1, 2

In [45]:
x

1

In [46]:
y

2

In [47]:
x, y = y, x


In [48]:
x

2

In [49]:
y

1

元组与列表的取值方式相同  

元组常用函数如下：
- tuple.count(x)：统计x在tuple出现的次数
- tuple.index(x)：查找第一个x元素的位置


In [50]:
t = 1, 1, 1, 1, 2, 2, 3, 1, 1, 1
t

(1, 1, 1, 1, 2, 2, 3, 1, 1, 1)

In [51]:
t.count(1)

7

In [52]:
t.index(2)  # 查找t中第一个等于2值的索引

4

## 2.4 字典
字典（Dict）又叫键值对。前面简单地介绍过这种数据类型。可以如下定义一个dict。

In [53]:
d = {1: 10, 2: 20, "a": 12, 5: "hello"}
d

{1: 10, 2: 20, 'a': 12, 5: 'hello'}

In [54]:
d1 = dict(a=1, b=2, c=3)
d1

{'a': 1, 'b': 2, 'c': 3}

In [55]:
d2 = dict([['a', 12], [5, 'a4'], ['hel', 'rt']])  # 将二元列表转化为字典
d2

{'a': 12, 5: 'a4', 'hel': 'rt'}

字典中每一项中以半角逗号，每一项包含key和value，并以冒号隔开，但字典中的元素（键值对）是无序的。

In [56]:
d = {1: 10, 2: 20, "a": 12, 5: "hello"}
d

{1: 10, 2: 20, 'a': 12, 5: 'hello'}

In [57]:
d[1]  # 取键名为1的值

10

In [58]:
d["a"]  # 取键名为a的值

12

In [59]:
d.get(5)  # 取键名为5的值，若不存在则返回None

'hello'

In [60]:
d.get('a')

12

In [61]:
d.get('b', "不存在")

'不存在'

dict操作函数

In [62]:
d = {1: 10, 2: 20, "a": 12, 5: "hello"}
d

{1: 10, 2: 20, 'a': 12, 5: 'hello'}

In [63]:
dc = d.copy()  # 复制字典
dc

{1: 10, 2: 20, 'a': 12, 5: 'hello'}

In [64]:
dc.clear()  # 清空字典  
dc

{}

In [99]:
d

{2: 20, 'a': 12, 5: 'hello', 'c': 10, '1': 'yubg'}

In [65]:
d.items()  # 获取字典的项列表

dict_items([(1, 10), (2, 20), ('a', 12), (5, 'hello')])

In [66]:
d.keys()  # 获取字典的键列表

dict_keys([1, 2, 'a', 5])

In [67]:
d.values()  # 获取字典的值列表

dict_values([10, 20, 12, 'hello'])

In [68]:
d.pop(1)  # 删除并抛出key=1的项

10

In [69]:
d

{2: 20, 'a': 12, 5: 'hello'}

In [70]:
d_0 = {'c': 10, '1': 'yubg'}
d.update(d_0)  # 合并两个字典。也可以使用dict(d, **d_0)方法
d

{2: 20, 'a': 12, 5: 'hello', 'c': 10, '1': 'yubg'}

字典合并还可以使用dict(list(d.items())+list(d_0.items()))方法

## 2.5 集合
集合（Set）的表现形式跟字典很像，都用大括号{表示}。这种数据类型是大多数程序语言都有的功能，它不能保存重复的数据，即它具有过滤重复数据的功能

In [71]:
s = {1, 2, 3, 4, 5, 5, 5, 5, 5, 5}
s

{1, 2, 3, 4, 5}

对于一个数组或者元组来说，可以用set函数去重

In [72]:
L = [1, 2, 3, 4, 5, 5, 5, 5, 5]
T = 1, 1, 1, 1, 2, 2, 3, 1, 1, 1

In [73]:
L

[1, 2, 3, 4, 5, 5, 5, 5, 5]

In [74]:
T

(1, 1, 1, 1, 2, 2, 3, 1, 1, 1)

In [75]:
SL = set(L)
SL

{1, 2, 3, 4, 5}

In [76]:
ST = set(T)
ST 

{1, 2, 3}

注意：集合和字典中元素一样是无序的，不能用set[i]这样的方式获取其元素

集合操作函数

In [77]:
s1 = set("abcdefg")
s2 = set("defghijkl")

In [78]:
s1

{'a', 'b', 'c', 'd', 'e', 'f', 'g'}

In [79]:
s2

{'d', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'}

In [80]:
s1 - s2 # 取出s1中不包含s2的部分

{'a', 'b', 'c'}

In [81]:
s2 - s1

{'h', 'i', 'j', 'k', 'l'}

In [82]:
s1 | s2  # 取出s1和s2的并集

{'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'}

In [83]:
s1 & s2  # 取出s1和s2的交集

{'d', 'e', 'f', 'g'}

In [84]:
s1 ^ s2  # 取出s1和s2的并集但不包括交集部分

{'a', 'b', 'c', 'h', 'i', 'j', 'k', 'l'}

In [85]:
'a' in s1

True

In [86]:
'a' in s2

False

![image.png](attachment:image.png)

list、tuple、dict、set数据类型的运算

In [87]:
L = [i for i in range(1, 11)]
S = set(L)
T = tuple(L)
D = dict(zip(L, L))

In [88]:
L

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [89]:
S

{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

In [90]:
T

(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

In [91]:
D

{1: 1, 2: 2, 3: 3, 4: 4, 5: 5, 6: 6, 7: 7, 8: 8, 9: 9, 10: 10}

In [92]:
3 in L, 3 in S, 3 in T, 3 in D

(True, True, True, True)

In [93]:
3 not in L, 3 not in S, 3 not in T, 3 not in D

(False, False, False, False)

In [94]:
L + L

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [95]:
S + S  # set不能连接，因此会报错

TypeError: unsupported operand type(s) for +: 'set' and 'set'

In [None]:
T + T

(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

In [None]:
D + D  # dict不能连接，因此会报错

TypeError: unsupported operand type(s) for +: 'dict' and 'dict'

In [None]:
L * 3

[1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10]

In [None]:
S * 3 # set不能用*运算，因此会报错

TypeError: unsupported operand type(s) for *: 'set' and 'int'

In [None]:
D * 3  # dict不能用*运算，因此会报错

TypeError: unsupported operand type(s) for *: 'dict' and 'int'

In [None]:
len(L), len(S), len(T), len(D)

(10, 10, 10, 10)

对于list、tuple、dict、set这三种数据类型有相同的操作函数可以使用

In [None]:
L = [1, 2, 3, 4, 5]
T = 1, 2, 3, 4, 5
S = {1, 2, 3, 4, 5}

In [None]:
len(L), len(T), len(S)  # 求长度

(5, 5, 5)

In [None]:
min(L), min(T), min(S)  # 求最小值

(1, 1, 1)

In [None]:
max(L), max(T), max(S)  # 求最大值

(5, 5, 5)

In [None]:
sum(L), sum(T), sum(S)  # 求和

(15, 15, 15)

In [None]:
def add1(x):  # 定义一个函数
    return x + 1  # 让给输入的参数加1输出

In [None]:
list(map(add1, L)), list(map(add1, T)), list(map(add1, S))  # 将函数应用与每一项

([2, 3, 4, 5, 6], [2, 3, 4, 5, 6], [2, 3, 4, 5, 6])

In [None]:
for i in L:  # 迭代（tuple与set都可以迭代）
    print(i)

1
2
3
4
5


In [None]:
i = iter(L)  # 获取迭代器，（ tuple与set都可以获取迭代器）
next(i)

1

In [None]:
next(i)

2

In [None]:
next(i)

3

In [None]:
i.__next__()

4

In [None]:
i.__next__()

5

In [None]:
ix.__next__()  # 此时会报错，因为迭代器已经迭代完了

NameError: name 'ix' is not defined

对于dict类型，常用操作有如下几种

In [None]:
d = {1: 2, 3: 4, 'a': '2sd', 'er': 34}
d

{1: 2, 3: 4, 'a': '2sd', 'er': 34}

In [None]:
for i in d:  # 迭代
    print(i, d[i])

1 2
3 4
a 2sd
er 34


In [None]:
i = iter(d)  # 取迭代器
k = next(i)
k, d[k]

(1, 2)

In [None]:
k = next(i)
k, d[k]

(3, 4)

## 2.6 实战体验：提取特定的字符

In [None]:
"""
提取字符串"xxxxxxxxxxxx5 [50, 0, 51]>,xxxxxxxxx"中的50,0,51    
"""
str = "xxxxxxxxxxxx5 [50, 0, 51]>,xxxxxxxxx"
lst = str.split('[')[1].split(']')[0].split(',')
print(lst)

['50', ' 0', ' 51']


分解说明如下：

In [None]:
list = str.split('[')  # 将字符串str按照'['进行分割，得到一个list
print(list)

['xxxxxxxxxxxx5 ', '50, 0, 51]>,xxxxxxxxx']


In [None]:
str.split('[')[1].split(']')  # 将list中的第二个元素按照']'进行分割，得到一个list

['50, 0, 51', '>,xxxxxxxxx']

In [None]:
str.split('[')[1].split(']')[0]  # 选取上述结果列表中的第一个元素

'50, 0, 51'

In [None]:
str.split('[')[1].split(']')[0].split(',')  # 将上述列表中第一个元素按照','进行分割，得到一个list

['50', ' 0', ' 51']