# 列表

在**Python**中，列表是一个有序的序列。

列表用一对 `[]` 生成，中间的元素用 `,` 隔开，其中的元素不需要是同一类型，同时列表的长度也不固定。

In [1]:
l = [1, 2.0, 'hello']
print(l)

[1, 2.0, 'hello']


空列表可以用 `[]` 或者 `list()` 生成：

In [2]:
empty_list = []
empty_list

[]

In [3]:
empty_list = list()
empty_list

[]

## 列表操作

与字符串类似，列表也支持以下的操作：

### 长度

用 `len` 查看列表长度：

In [4]:
len(l)

3

### 加法和乘法

列表加法，相当于将两个列表按顺序连接：

In [4]:
a = [1, 2, 3]
b = [3.2, 'hello']
a + b

[1, 2, 3, 3.2, 'hello']

列表与整数相乘，相当于将列表重复相加：

In [5]:
l * 2

[1, 2.0, 'hello', 1, 2.0, 'hello']

### 赋值与切片赋值的区别

[python列表里的切片和赋值](https://blog.csdn.net/Strive_0902/article/details/81607735)

### 索引和分片

列表和字符串一样可以通过索引和分片来查看它的元素。

索引：

In [6]:
a = [10, 11, 12, 13, 14]
a[0]

10

反向索引：

In [7]:
a[-1]

14

分片：

In [8]:
a[2:-1]

[12, 13]

与字符串不同的是，列表可以通过索引和分片来修改。

对于字符串，如果我们通过索引或者分片来修改，**Python**会报错：

In [9]:
s = "hello world"
# 把开头的 h 改成大写
s[0] = 'H'

TypeError: 'str' object does not support item assignment

而这种操作对于列表来说是可以的：

In [10]:
a = [10, 11, 12, 13, 14]
a[0] = 100
print(a)

[100, 11, 12, 13, 14]


这种赋值也适用于分片，例如，将列表的第2，3两个元素换掉：

In [12]:
a[1:3] = [1, 2]
a

[100, 1, 2, 14]

事实上，对于连续的分片（即步长为1），**Python**采用的是整段替换的方法，两者的元素个数并不需要相同，例如，将 `[11,12]` 替换为 `[1,2,3,4]`：

In [13]:
a = [10, 11, 12, 13, 14]
a[1:3] = [1, 2, 3, 4]
print(a)

[10, 1, 2, 3, 4, 13, 14]


这意味着，可以用这种方法来删除列表中一个连续的分片：

In [14]:
a = [10, 1, 2, 11, 12]
print(a[1:3])
a[1:3] = []
print(a)

[1, 2]
[10, 11, 12]


对于不连续（间隔step不为1）的片段进行修改时，两者的元素数目必须一致：

In [17]:
a = [10, 11, 12, 13, 14,15]
a[::2] = [1, 2, 3]
a

[1, 11, 2, 13, 3, 15]

否则会报错：

In [16]:
a[::2] = []

ValueError: attempt to assign sequence of size 0 to extended slice of size 3

### 删除元素

**Python**提供了删除列表中元素的方法 'del'。

删除列表中的第一个元素：

In [19]:
a = [1002, 'a', 'b', 'c']
del a[0]
print(a)

['a', 'b', 'c']


删除第2到最后一个元素：

In [20]:
a = [1002, 'a', 'b', 'c']
del a[1:]
a

[1002]

删除间隔的元素：

In [21]:
a = ['a', 1, 'b', 2, 'c']
del a[::2]
a

[1, 2]

### 测试从属关系

用 `in` 来看某个元素是否在某个序列（不仅仅是列表）中，用not in来判断是否不在某个序列中。

In [23]:
a = [10, 11, 12, 13, 14]
print(10 in a)
print(10 not in a)

True
False


也可以作用于字符串：

In [24]:
s = 'hello world'
print('he' in s)
print('world' not in s)

True
False


列表中可以包含各种对象，甚至可以包含列表：

In [22]:
a = [10, 'eleven', [12, 13]]
a[2]

[12, 13]

a[2]是列表，可以对它再进行索引：

In [23]:
a[2][1]

13

## 列表方法

**不改变列表的方法**

### 某个元素个数count

`l.count(ob)` 返回列表中元素 `ob` 出现的次数。

In [24]:
a = [11, 12, 13, 12, 11]
a.count(11)

2

### 某个元素位置index

`l.index(ob)` 返回列表中元素 `ob` 第一次出现的索引位置，如果 `ob` 不在 `l` 中会报错。

In [25]:
a.index(12)

2

不存在的元素会报错：

In [26]:
a.index(1)

ValueError: 1 is not in list

**会改变列表的方法**

### 向列表添加单个元素

`l.append(ob)` 将元素 `ob` 添加到列表 `l` 的最后。

In [32]:
a = [10, 11, 12]
a.append(11)
print(a)

[10, 11, 12, 11]


append每次只添加一个元素，并不会因为这个元素是序列而将其展开：

In [33]:
a.append([11, 12])
print(a)

[10, 11, 12, 11, [11, 12]]


### 向列表添加序列

`l.extend(lst)` 将序列 `lst` 的元素依次添加到列表 `l` 的最后，作用相当于 `l += lst`。

In [34]:
a = [10, 11, 12, 11]
a.extend([1, 2])
print(a)

[10, 11, 12, 11, 1, 2]


### 插入元素

`l.insert(idx, ob)` 在索引 `idx` 处插入 `ob` ，之后的元素依次后移。

In [36]:
a = [10, 11, 12, 13, 11]
# 在索引 3 插入 'a'
a.insert(3, 'a')
print(a)

[10, 11, 12, 'a', 13, 11]


### 移除元素

`l.remove(ob)` 会将列表中第一个出现的 `ob` 删除，如果 `ob` 不在 `l` 中会报错。

In [37]:
a = [10, 11, 12, 13, 11]
# 移除了第一个 11
a.remove(11)
print(a)

[10, 12, 13, 11]


### 弹出元素

`l.pop(idx)` 会将索引 `idx` 处的元素删除，并返回这个元素。

In [39]:
a = [10, 11, 12, 13, 11]
a.pop(2)

12

### 排序

`l.sort()` 会将列表中的元素按照一定的规则排序：

In [40]:
a = [10, 1, 11, 13, 11, 2]
a.sort()
print(a)

[1, 2, 10, 11, 11, 13]


逆序排序

In [43]:
a = [10, 1, 11, 13, 11, 2]
a.sort(reverse=True)
print(a)

[13, 11, 11, 10, 2, 1]


如果不想改变原来列表中的值，可以使用 `sorted` 函数：

In [45]:
a = [10, 1, 11, 13, 11, 2]
b = sorted(a)
print(a)
print(b)
print(sorted(a,reverse=True))

[10, 1, 11, 13, 11, 2]
[1, 2, 10, 11, 11, 13]
[13, 11, 11, 10, 2, 1]


### 列表反向

`l.reverse()` 会将列表中的元素从后向前排列。

In [46]:
a = [1, 2, 3, 4, 5, 6]
a.reverse()
print(a)

[6, 5, 4, 3, 2, 1]


如果不想改变原来列表中的值，可以使用这样的方法：

In [47]:
a = [1, 2, 3, 4, 5, 6]
b = a[::-1]
print(a)
print(b)

[1, 2, 3, 4, 5, 6]
[6, 5, 4, 3, 2, 1]


如果不清楚用法，可以查看帮助：

In [48]:
a.sort?

# 元祖

## 基本操作

与列表相似，元组`Tuple`也是个有序序列，但是元组是不可变的，用`()`生成。

In [49]:
t = (10, 11, 12, 13, 14)
t

(10, 11, 12, 13, 14)

可以索引，切片：

In [50]:
print(t[0])
print(t[0:3])

10
(10, 11, 12)


但是元组是不可变的,赋值会报错：

In [51]:
t[0] = 1

TypeError: 'tuple' object does not support item assignment

## 单个元素的元组生成

由于()在表达式中被应用，只含有单个元素的元组容易和表达式混淆，所以采用下列方式定义只有一个元素的元组：

In [52]:
a = (10,)
print(a)
print(type(a))
a = (10)
print(type(a))

(10,)
<class 'tuple'>
<class 'int'>


将列表转换为元组：

In [53]:
a = [10, 11, 12, 13, 14]
tuple(a)

(10, 11, 12, 13, 14)

## 元组方法

由于元组是不可变，所以只有不可变的方法，例如计算元素个数 `count` 和元素位置 `index` ，用法与列表一样。

In [54]:
a.count(10)

1

In [55]:
a.index(12)

2

# 字典

字典 `dictionary` ，在一些编程语言中也称为 `hash` ， `map` ，是一种由键值对组成的数据结构。

顾名思义，我们把键想象成字典中的单词，值想象成词对应的定义，那么——

一个词可以对应一个或者多个定义，但是这些定义只能通过这个词来进行查询。

## 基本操作

### 空字典

**Python** 使用 `{}` 或者 `dict()` 来创建一个空的字典：

In [2]:
a = {}
type(a)

dict

In [3]:
a = dict()
type(a)

dict

有了dict之后，可以用索引键值的方法向其中添加元素，也可以通过索引来查看元素的值：

### 插入、查看、更新键值

In [25]:
# 插入
a["one"] = "this is number 1"
a["two"] = "this is number 2"
a

{'one': 'this is number 1', 'two': 'this is number 2'}

In [5]:
# 查看
a['one']

'this is number 1'

In [6]:
a["one"] = "this is number 1, too"
a

{'one': 'this is number 1, too', 'two': 'this is number 2'}

### 字典没有顺序

当我们 `print` 一个字典时，**Python**并不一定按照插入键值的先后顺序进行显示,因为字典中的键本身不一定是有序的。

In [9]:
print(a)

{'one': 'this is number 1, too', 'two': 'this is number 2'}


因此，Python中不能用支持用数字索引按顺序查看字典中的值，而且数字本身也有可能成为键值，这样会引起混淆：

In [10]:
# 会报错
a[0]

KeyError: 0

### 键必须是不可变的类型

出于hash的目的，Python中要求这些键值对的 **键必须是不可变** 的，而值可以是任意的Python对象。

In [11]:
# 定义四个字典
e1 = {'mag': 0.05, 'width': 20}
e2 = {'mag': 0.04, 'width': 25}
e3 = {'mag': 0.05, 'width': 80}
e4 = {'mag': 0.03, 'width': 30}
# 以字典作为值传入新的字典
events = {500: e1, 760: e2, 3001: e3, 4180: e4}
events

{500: {'mag': 0.05, 'width': 20},
 760: {'mag': 0.04, 'width': 25},
 3001: {'mag': 0.05, 'width': 80},
 4180: {'mag': 0.03, 'width': 30}}

### 使用 dict 初始化字典

除了通常的定义方式，还可以通过 `dict()` 转化来生成字典：

In [12]:
inventory = dict(
    [('foozelator', 123),
     ('frombicator', 18), 
     ('spatzleblock', 34), 
     ('snitzelhogen', 23)
    ])
inventory

{'foozelator': 123, 'frombicator': 18, 'snitzelhogen': 23, 'spatzleblock': 34}

### 适合做键的类型 

在不可变类型中，整数和字符串是字典中最常用的类型；而浮点数通常不推荐用来做键，原因如下：

In [13]:
data = {}
data[1.1 + 2.2] = 6.6
# 会报错
data[3.3]

KeyError: 3.3

观察data的值就会发现，这个错误是由浮点数的精度问题所引起的：

In [14]:
data

{3.3000000000000003: 6.6}

有时候，也可以使用元组作为键值，例如，可以用元组做键来表示从第一个城市飞往第二个城市航班数的多少：

In [15]:
connections = {}
connections[('New York', 'Seattle')] = 100
connections[('Austin', 'New York')] = 200
connections[('New York', 'Austin')] = 400

元组是有序的，因此 ('New York', 'Austin') 和 ('Austin', 'New York') 是两个不同的键：

In [16]:
print(connections[('Austin', 'New York')])
print(connections[('New York', 'Austin')])

200
400


## 字典方法 

### `get` 方法

之前已经见过，用索引可以找到一个键对应的值，但是当字典中没有这个键的时候，Python会报错，这时候可以使用字典的 `get` 方法来处理这种情况，其用法如下：

    `d.get(key, default = None)`

返回字典中键 `key` 对应的值，如果没有这个键，返回 `default` 指定的值（默认是 `None` ）。

In [17]:
a = {}
a["one"] = "this is number 1"
a["two"] = "this is number 2"

索引不存在的键值会报错：

In [18]:
a["three"]

KeyError: 'three'

改用get方法：

In [19]:
print(a.get("three"))

None


指定默认值参数：

In [20]:
a.get("three", "undefined")

'undefined'

### `pop` 方法删除元素

`pop` 方法可以用来弹出字典中某个键对应的值，同时也可以指定默认参数：

    `d.pop(key, default = None)`

删除并返回字典中键 `key` 对应的值，如果没有这个键，返回 `default` 指定的值（默认是 `None` ）。

In [26]:
a

{'one': 'this is number 1', 'two': 'this is number 2'}

In [27]:
a.pop('two')

'this is number 2'

In [28]:
a

{'one': 'this is number 1'}

弹出不存在的键值：

In [29]:
a.pop('two','do not have this key')

'do not have this key'

与列表一样，`del` 函数可以用来删除字典中特定的键值对，例如：

In [30]:
del a["one"]
a

{}

### `update`方法更新字典

之前已经知道，可以通过索引来插入、修改单个键值对，但是如果想对多个键值对进行操作，这种方法就显得比较麻烦，好在有 `update` 方法：

    `d.update(newd)`

将字典`newd`中的内容更新到`d`中去。

In [31]:
person = {}
person['first'] = "Jmes"
person['last'] = "Maxwell"
person['born'] = 1831
print(person)

{'first': 'Jmes', 'last': 'Maxwell', 'born': 1831}


把'first'改成'James'，同时插入'middle'的值'Clerk'：

In [32]:
person_modifications = {'first': 'James', 'middle': 'Clerk'}
person.update(person_modifications)
print(person)

{'first': 'James', 'last': 'Maxwell', 'born': 1831, 'middle': 'Clerk'}


### `in`查询字典中是否有该键

In [34]:
barn = {'cows': 1, 'dogs': 5, 'cats': 3}

In [36]:
'child' in barn

False

In [37]:
'cows' in barn

True

### `keys` 方法，`values` 方法和`items` 方法

* `d.keys()` :返回一个由所有键组成的列表；

* `d.values()` :返回一个由所有值组成的列表；

* `d.items()` :返回一个由所有键值对元组组成的列表；

In [42]:
print('\n barn.keys():\n',barn.keys(),
      '\n\n barn.values():\n',barn.values(),
      '\n\n barn.items():\n',barn.items())


 barn.keys():
 dict_keys(['cows', 'dogs', 'cats']) 

 barn.values():
 dict_values([1, 5, 3]) 

 barn.items():
 dict_items([('cows', 1), ('dogs', 5), ('cats', 3)])


# 集合

之前看到的列表和字符串都是一种**有序序列**，而集合 `set` 是一种**无序序列**。

因为集合是无序的，所以当集合中存在两个同样的元素的时候，Python只会保存其中的一个（唯一性）；同时为了确保其中不包含同样的元素，集合中放入的元素只能是不可变的对象（确定性）。

## 集合生成

可以用`set()`函数来显示的生成空集合：

In [43]:
a=set()
type(a)

set

也可以使用一个列表来初始化一个集合：

In [44]:
a=set([1,2,3,1])
a

{1, 2, 3}

集合会自动去除重复元素 `1`。

可以看到，集合中的元素是用大括号`{}`包含起来的，这意味着可以用`{}`的形式来创建集合：

In [45]:
a = {1, 2, 3, 1}
a

{1, 2, 3}

但是创建空集合的时候只能用`set`来创建，因为在Python中`{}`创建的是一个空的字典：

In [46]:
s = {}
type(s)

dict

## 集合操作

In [47]:
# 假设有这样两个集合：
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}

### 并

两个集合的并，返回包含两个集合所有元素的集合（去除重复）。

可以用方法 `a.union(b)` 或者操作 `a | b` 实现。

In [48]:
a.union(b)

{1, 2, 3, 4, 5, 6}

In [49]:
a | b

{1, 2, 3, 4, 5, 6}

### 交

两个集合的交，返回包含两个集合共有元素的集合。

可以用方法 `a.intersection(b)` 或者操作 `a & b` 实现。

In [51]:
a.intersection(b)

{3, 4}

In [54]:
a & b

{3, 4}

### 差

`a` 和 `b` 的差集，返回只在 `a` 不在 `b` 的元素组成的集合。

可以用方法 `a.difference(b)` 或者操作 `a - b` 实现。

In [56]:
a.difference(b)

{1, 2}

In [57]:
a-b

{1, 2}

注意，`a - b` 与 `b - a`并不一样，`b - a` 返回的是返回 b 不在 a 的元素组成的集合：

In [58]:
b.difference(a)

{5, 6}

### 对称差集

`a` 和`b` 的对称差集，返回在 `a` 或在 `b` 中，但是不同时在 `a` 和 `b` 中的元素组成的集合。

可以用方法 `a.symmetric_difference(b)` 或者操作 `a ^ b` 实现（异或操作符）。

In [60]:
a.symmetric_difference(b)

{1, 2, 5, 6}

In [61]:
b.symmetric_difference(a)

{1, 2, 5, 6}

In [62]:
a ^ b

{1, 2, 5, 6}

### 包含关系

In [63]:
# 假设
a = {1, 2, 3}
b = {1, 2}

要判断 `b` 是不是 `a` 的子集，可以用 `b.issubset(a)` 方法，或者更简单的用操作 `b <= a` ：

In [64]:
b.issubset(a)

True

In [67]:
b<=a

True

与之对应，也可以用 `a.issuperset(b)` 或者 `a >= b` 来判断：

In [68]:
a.issuperset(b)

True

In [69]:
a>=b

True

使用方法只能用来测试是否是子集，无法判断是否是真子集，但是操作符可以用来判断真子集：

In [70]:
a <= a

True

自己不是自己的真子集：

In [71]:
a<a

False

## 集合方法

### `add` 方法向集合添加单个元素

跟列表的 `append` 方法类似，用来向集合添加单个元素。

    s.add(a)

将元素 `a` 加入集合 `s` 中。

In [72]:
t = {1, 2, 3}
t.add(5)
t

{1, 2, 3, 5}

In [74]:
### 如果添加的是已有元素，集合不改变：
t.add(3)
t

{1, 2, 3, 5}

### `update` 方法向集合添加多个元素

跟列表的`extend`方法类似，用来向集合添加多个元素。

    s.update(seq)

将`seq`中的元素添加到`s`中。

In [75]:
t.update([5, 6, 7])
t

{1, 2, 3, 5, 6, 7}

### `remove` 方法移除单个元素

    s.remove(ob)

从集合`s`中移除元素`ob`，如果不存在会报错。

In [76]:
t.remove(1)
t

{2, 3, 5, 6, 7}

In [77]:
t.remove(10)

KeyError: 10

### pop方法弹出元素

由于集合没有顺序，不能像列表一样按照位置弹出元素，所以`pop` 方法删除并返回集合中任意一个元素，如果集合中没有元素会报错。

In [78]:
t.pop()
t

{3, 5, 6, 7}

In [79]:
s = set()
# 报错
s.pop()

KeyError: 'pop from an empty set'

### discard 方法

作用与 `remove` 一样，但是当元素在集合中不存在的时候不会报错。

In [82]:
t.discard(3)
t

{5, 6, 7}

In [83]:
t.discard(20)
t

{5, 6, 7}

### difference_update方法

`a.difference_update(b)` 方法用于移除a集合中存在于b的元素。

`difference_update()` 方法与 `difference()` 方法的区别在于:

* `difference()` 方法返回一个移除相同元素的新集合;
*  `difference_update() 方法是直接在原来的集合中移除元素，没有返回值。

In [84]:
# 假设有这样两个集合：
c = {1, 2, 3, 4}
d = {3, 4, 5, 6}

In [85]:
c.difference(d)

{1, 2}

In [86]:
c.difference_update(d)

In [88]:
print(c,'\n',d)

{1, 2} 
 {3, 4, 5, 6}


# 列表与元组的速度比较

IPython 中用 `magic` 命令 `%timeit` 来计时。

## 比较生成速度

In [56]:
%timeit [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25]

197 ns ± 5.91 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [57]:
%timeit (1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25)

10.7 ns ± 0.288 ns per loop (mean ± std. dev. of 7 runs, 100000000 loops each)


可以看到，元组的生成速度要比列表的生成速度快得多，相差大概一个数量级

## 比较遍历速度

产生内容相同的随机列表和元组：

In [58]:
from numpy.random import rand
values = rand(10000,4)
lst = [list(row) for row in values]
tup = tuple(tuple(row) for row in values)

In [60]:
 %timeit for row in lst: list(row)

1.97 ms ± 123 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [61]:
%timeit for row in tup: tuple(row)

1.09 ms ± 22.1 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


在遍历上，元组和列表的速度表现差不多。

## 比较遍历和索引速度

In [62]:
%timeit for row in lst: a = row[0] + 1

3.6 ms ± 60.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [63]:
%timeit for row in tup: a = row[0] + 1

3.43 ms ± 52.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


元组的生成速度会比列表快很多，迭代速度快一点，索引速度差不多