# Python数据结构

顾名思义，数据结构是能够将数据组合在一起的一种结构。

在数据科学领域，很多情况下需要将数据进行有序排列。例如我们统计了大学某班 50 人的数学成绩，那么创建 50 个变量例如 XiaoMing = 99, XiaoHu = 86 .... 无疑是非常繁琐的。这时我们可以通过数据结构整合这些数据，例如在上一节中以方括号标识的列表 [ 99, 86, 77 .... ]，这将会使我们的程序大大简化。

Python 中常用的数据结构有：

- 列表 `List`: 用于保存有序项集合的变量，以方括号标识。
- 元组 `Tuple`: 用于保存有序项集合的常量，以圆括号标识。
- 字典 `Dict`: 用于保存无序（键，值）项集合的变量，以花括号标识。
- 集合 `Set`: 用于保存无序项集合的变量，以花括号标识。

瑞士计算机科学家 Niklaus Wirth 曾说过 "程序 = 数据结构 + 算法"，这个公式在 40 年后的今天仍然成立。掌握 Python 中常用的数据结构是我们设计程序的一大基石。

在本节中我们将尝试设计一个学生成绩管理系统，实现对学生成绩的增、删、查、改功能。

## 1.2.1 列表

列表是用于保存有序项集合的变量，通过方括号创建。列表是最容易理解的数据结构，它就像一个任务清单，任务清单的每一项都是一个单独的任务。

下面我们创建一个含有四个整数的列表。

In [None]:
l = [1, 2,3, 4]
l[3]
l[0]

列表支持以下操作：
- 增：通过函数 append 可以向列表内增加元素
- 删：通过关键字 del 可以删除列表内元素
- 查：通过关键字 [ ] 可以查找列表某个位置元素
- 改：通过赋值符号 = 可以修改某个位置的元素

列表的优点是：
- 快速向尾部添加元素
- 快速遍历所有元素
- 节省占用计算机内容空间(序列在内存中地址是连续的)

### 1.2.1.1 查找元素

我们通过 [ ] 关键字查找列表中某个位置的元素。

例如 l[0] 可以获取列表中首个元素，l[1] 可以获取列表中第 2 个元素。同时它还支持倒序查找，例如 l[-1] 表示倒数第一个元素（末尾的元素）

In [None]:
## 查找 首个 元素
print(l[0])
## 查找第 2 个元素
print(l[1])
## 查找倒数第1 元素
print(l[-1])
## 查找倒数第 2 个元素
print(l[-2])

[ ] 关键字也可以通过 “切片” 的形式获取含有多个元素的子列表

例如 l[0:2] 代表列表从中第 0 个元素 到 第 2 个元素（左闭右开 [ )，不包括第 2 个元素）

In [None]:
print(l[0:2])

In [None]:
## 查找第 1 到 最后 的元素子列表
print(l[1:-1])

### 1.2.1.2 修改元素

通过 [ ] 关键字同样可以修改列表中某个位置的元素，类似的它也支持倒序以及切片的形式。

In [None]:
l[0] = -1
print(l)

In [None]:
l = [1,2,3,4]
print(l)
l[0:3] = [-1,-2]
print(l)

In [None]:
# 切片方式赋值与后面的元素长度 不是必须 长度一致
l = [1,2,3,4]
l[0:2] = [0,0,0,0]
print(l)

### 1.2.1.3 增加元素

通过 `append` 函数可以实现向列表尾部添加新的元素。注意是向尾部添加数据

In [None]:
l = [1,2,3,4]
l.append(5)
l.append(6)
l.append([7,8,9]) ## append默认只能添加一个元素 如果添加列表的话 最后一个元素是一个大列表
print(l)

通过 `extend`函数可以向序列尾部添加多个元素



In [None]:
l.extend([7,8,9])
print(l)

### 1.2.1.4 删除元素

通过 del 关键字可以删除列表某个位置的元素

In [None]:
l = [1,2,3,4]
del l[1]
print(l[1])

In [None]:
del l[0:2]
print(l)

### 1.2.1.5 小例子

在熟悉了列表的增删查找功能后，我们就可以尝试以此为基础搭建我们的学生成绩管理系统

Task 1. 在上一次期末考试中，XiaoHu 考了数学 65 分，语文 55 分；XiaoMing 考了数学 80 分，语文92 分；XiaoWei 考了数学 95 分，语文 98 分，以此建立学生成绩管理系统。

Task 2. 在本次期末考试中，XiaoHu 考了数学 95 分，语文 85 分；XiaoMing 考了数学 75 分，语文 71 分；XiaoWei 考了数学 92 分，语文 93 分，以此对之前的成绩进行更新。

Task 3. 由于 XiaoMing 的成绩出现了大幅度下滑，家长决定要 XiaoMing 转学到另一所高中，以此在系统中删除 XiaoMing 的信息。

Task 4. 学校新转来的学生 Cryin 本次考试成绩为 数学 87 分，语文 88 分，在系统中录入 Cryin 的成绩。

In [1]:
## Task 1 建立学生信息管理系统

## 首先建立一个 “名字” 列表记录哪个学生在列表的哪个位置。
names = ['XiaoHu', 'XiaoMing', 'XiaoWei']

## 根据名字列表的位置分别建立 “语文成绩” “数学成绩列表” 列表。
Math_scores = [65, 80, 95]
Chinese_scores = [55, 92, 98]
print(Chinese_scores[0])

55


In [2]:
## Task 2 根据本次期末考试的成绩更新系统

## 首先找到 "XiaoHu" 在哪个位置，更新该位置的成绩
## 通过 for-in 循环遍历名字元素

def find_position(names,factname):
    position = None
    count = 0
    for name in names:
        if name == factname:
            position = count
        count = count+1
    return position

Xiaohu_position=find_position(names,"XiaoHu")
XiaoMing_position=find_position(names,"XiaoMing")
XiaoWei_position=find_position(names,"XiaoWei")

Math_scores[Xiaohu_position] = 95
Chinese_scores[Xiaohu_position] = 85

Math_scores[XiaoMing_position] = 75
Chinese_scores[XiaoMing_position] = 71

Math_scores[XiaoWei_position] = 92
Chinese_scores[XiaoWei_position] = 93


print(Math_scores)
print(Chinese_scores)

[95, 75, 92]
[85, 71, 93]


In [3]:
## Task 3 删除 XiaoMing 的信息

def find_position(names,factname):
    position = None
    count = 0
    for name in names:
        if name == factname:
            position = count
        count = count+1
    return position

XiaoMing_position=find_position(names,"XiaoMing")

## 根据 XiaoMing 在列表中的位置删除
del names[XiaoMing_position]
del Math_scores[XiaoMing_position]
del Chinese_scores[XiaoMing_position]

In [5]:
print(Math_scores)
print(Chinese_scores)
print(names)

[95, 92]
[85, 93]
['XiaoHu', 'XiaoWei']


In [6]:
## Task 4 录入 Cryin 的信息

names.append('Cryin')
Math_scores.append(87)
Chinese_scores.append(88)
print(Math_scores)
print(Chinese_scores)
print(names)

[95, 92, 87]
[85, 93, 88]
['XiaoHu', 'XiaoWei', 'Cryin']


## 1.2.2 元组

元组与列表具有近乎一样的特性，他们唯一的区别在于元组无法被修改。由于不可修改的特性，元组一般用来保证存放数据的可靠性，例如用元组保存八大行星的名称，因为它们的名称不会被改变，也不会轻易减少：

planets = (Mercury, Venus, Earth, Mars, Jupiter, Saturn, Uranus, Neptune)

In [7]:
t = (1, 2, 3, 4)
t[0]=10

TypeError: 'tuple' object does not support item assignment

In [8]:
del t[0]

TypeError: 'tuple' object doesn't support item deletion

In [None]:
tuple内容不能被操作，但是可以整个被删除

In [9]:
del t

In [10]:
print(t)

NameError: name 't' is not defined

## 1.2.3字典


顾名思义，字典就像现实世界中的字典，只要知道一个单词的读音，就能找到它在书中具体的位置！即我们将一个 “键(key)” 与 “值(value)” 相关联，通过键迅速检索到对应的值。要注意键必须是唯一的，这就好比两个单词如果读音一样就会出现歧义一样。

字典通过花括号 { } 创建，通过 : 符号区分键与值，通过逗号分隔。下面我们创建一个字典存储联系人的邮箱。

In [11]:
ab = {
    "XiaoHu": "xiaohu@RNG.com",
    "XiaoWei": "xiaowei@RNG.com",
    "XiaoMing": "xiaoming@RNG.com"
     }

print(ab)

{'XiaoHu': 'xiaohu@RNG.com', 'XiaoWei': 'xiaowei@RNG.com', 'XiaoMing': 'xiaoming@RNG.com'}


字典支持以下操作：
- 增：通过关键字 [ ] 可以向列表内增加元素
- 删：通过关键字 del 可以删除列表内元素
- 查：通过关键字 [ ] 可以查找列表某个位置元素
- 改：通过赋值符号 = 可以修改某个位置的元素

字典的优点是：
- 快速检索到键对应的值
- 字典内的键值不存在顺序关系

### 1.2.3.1 增加元素

In [12]:
## 通过 [] 关键字 与赋值符号 = 向字典添加新的元素
ab['Cryin'] = "cryin@RNG.com"
print(ab)

{'XiaoHu': 'xiaohu@RNG.com', 'XiaoWei': 'xiaowei@RNG.com', 'XiaoMing': 'xiaoming@RNG.com', 'Cryin': 'cryin@RNG.com'}


虽然添加到了最后面 但是dict是个无序数据结构

### 1.2.3.2 删除元素

In [13]:
del ab["XiaoMing"]
print(ab)


{'XiaoHu': 'xiaohu@RNG.com', 'XiaoWei': 'xiaowei@RNG.com', 'Cryin': 'cryin@RNG.com'}


### 1.2.3.3 查找元素

In [14]:
print(ab["XiaoHu"])## 查找key对应的value

xiaohu@RNG.com


In [16]:
## 通过 in 关键字可以查找某个键是否在字典中
print("XiaoHu" in ab)
print('UZI' in ab)

True
False


In [17]:
print(type(ab))

<class 'dict'>


###  1.2.3.4 修改元素

In [18]:
ab["XiaoHu"] = "aaa"
print(ab)

{'XiaoHu': 'aaa', 'XiaoWei': 'xiaowei@RNG.com', 'Cryin': 'cryin@RNG.com'}


In [19]:
## 通过keys()这个类对象方法查看dict中有哪些key
print(ab.keys())

dict_keys(['XiaoHu', 'XiaoWei', 'Cryin'])


### 1.2.3.5 小例子

In [20]:
## Task 1 建立学生信息管理系统

Math_scores = {}
Math_scores['XiaoHu'] = 65
Math_scores['XiaoMing'] = 80
Math_scores['XiaoWei'] = 95

Chinese_scores = {}
Chinese_scores['XiaoHu'] = 55
Chinese_scores['XiaoMing'] = 92
Chinese_scores['XiaoWei'] = 98

print(Math_scores)
print(Chinese_scores)

{'XiaoHu': 65, 'XiaoMing': 80, 'XiaoWei': 95}
{'XiaoHu': 55, 'XiaoMing': 92, 'XiaoWei': 98}


In [21]:
## Task 2 根据本次期末考试的成绩更新系统

Math_scores['XiaoHu'] = 95
Math_scores['XiaoMing'] = 75
Math_scores['XiaoWei'] = 92

Chinese_scores = {}
Chinese_scores['XiaoHu'] = 85
Chinese_scores['XiaoMing'] = 71
Chinese_scores['XiaoWei'] = 93

print(Math_scores)
print(Chinese_scores)

{'XiaoHu': 95, 'XiaoMing': 75, 'XiaoWei': 92}
{'XiaoHu': 85, 'XiaoMing': 71, 'XiaoWei': 93}


In [22]:
## Task 3 删除 XiaoMing 的信息

del Math_scores['XiaoMing']
del Chinese_scores['XiaoMing']

print(Math_scores)
print(Chinese_scores)

{'XiaoHu': 95, 'XiaoWei': 92}
{'XiaoHu': 85, 'XiaoWei': 93}


In [23]:
## Task 4 录入 Cryin 的信息

Math_scores['Cryin'] = 87
Chinese_scores['Cryin'] = 88

print(Math_scores)
print(Chinese_scores)

{'XiaoHu': 95, 'XiaoWei': 92, 'Cryin': 87}
{'XiaoHu': 85, 'XiaoWei': 93, 'Cryin': 88}


在我们的小例子中可以观察到，字典构建的学生管理系统避免了查找元素所在位置的操作，这是字典根据“键”可以迅速找到“值”的特性决定的。

## 1.2.4 集合

集合是用来存储无序的元素集合。通常我们只考虑元素的存在，而不考虑元素的顺序或出现次数时使用集合。

集合与字典一样也通过花括号创建，但不存在 : 分隔符号。例如用集合表示中国的四个直辖市，它们无需考虑顺序与出现次数。

In [26]:
# 集合不允许存在重复元素，集合接口可以为我们自动去重
municipalities = { "Beijing", "Shanghai","Chongqing","Tianjin", "Chongqing" }
print(municipalities)

{'Shanghai', 'Tianjin', 'Beijing', 'Chongqing'}


In [27]:
# 创建一个集合
s = {1,2,3,4,5}
print(s)

{1, 2, 3, 4, 5}


怎么创建一个空的set呢?

In [28]:
empty_set = {}
print(type(empty_set))

<class 'dict'>


显然这是一个dict(这种创建方式被dict抢占了)

In [30]:
## 正确创建空set的方式
empty_set = set()
print(type(empty_set))

<class 'set'>


集合支持以下操作：
- 增：通过函数 add 可以向集合内增加元素
- 删：通过函数 remove 可以删除集合内元素
- 查：通过关键字 in 可以查找某个元素是否在集合内

集合的优点是：
- 支持数学集合操作
- 快速检索某个元素是否在集合内
- 集合内的键值不存在顺序关系

In [31]:
print(10 in s)

False


In [32]:
s.add(100)
print(s)

{1, 2, 3, 4, 5, 100}


In [33]:
s.remove(1) ## 删除的直接是set中的element 
print(s)

{2, 3, 4, 5, 100}


### 1.2.4.4 set支持数学操作
集合的一大特点是支持数学操作，其中包括求集合的 并集、交集、亦或 操作。

In [35]:
## 并集操作
s2 = {3,4,5,6,7}
print(s)
print(s2)
print(s | s2)

{2, 3, 4, 5, 100}
{3, 4, 5, 6, 7}
{2, 3, 4, 5, 100, 6, 7}


In [36]:
## 交集操作
print(s & s2)

{3, 4, 5}


In [37]:
## 亦或操作(多个set中不重复的部分)
print(s ^ s2)

{2, 100, 6, 7}
