# 1. 列表VS元组

在Python中，**列表list**和**元组tuple**都可以用来放置任意类型的有序集合，使用频率非常高。它们都可以随意嵌套，也支持切片操作、负索引，共有的内置函数有：

- `count(item)`表示统计列表/元组中item出现的次数。
- `index(item)`表示返回列表/元组中item第一次出现的索引。
- `list.reverse()`和`list.sort()`分别表示原地倒转列表和排序（注意，元组没有内置的这两个函数)。
- `reversed()`和`sorted()`同样表示对列表/元组进行倒转和排序，reversed()返回一个倒转后的迭代器；sorted()返回排好序的新列表。

它们之间的区别在于：

- 列表是动态的，长度大小不固定，可以随意地增加、删减或者改变元素（mutable）。
- 而元组是静态的，长度大小固定，无法增加删减或者改变（immutable）。

另外，列表和元组的存储方式也不一样，因为列表list需要动态扩展其大小，所以必然需要分配额外的内存空间，并在剩余空间不足时自动分配空间；而元组大小固定，存储空间当然也会固定。

最后，在性能上，元组会优于列表。

In [2]:
l = list(range(5)) # [0, 1, 2, 3, 4]
print('size of list is {}'.format(l.__sizeof__()))
l.append([11, 12]) # [0, 1, 2, 3, 4, [11, 12]]
l.extend([5, 6])   # [0, 1, 2, 3, 4, [11, 12], 5, 6]
l.extend(list('walker'))
print('size of list is {}'.format(l.__sizeof__()))

l.reverse()
print('reverse list: {}'.format(l))
print('double reversed list: {}'.format(list(reversed(l))))

tu = (2, 3, 5, 1)
print('size of tuple is {}'.format(tu.__sizeof__()))

tu.count(3) # 1
tu.index(3) # 1
sorted(tu)
print('size of tuple is {}'.format(tu.__sizeof__()))

tu = tu + (2, 3) # 元组不能改变，但是可以重新创建一个
print(tu)

size of list is 80
size of list is 208
reverse list: ['r', 'e', 'k', 'l', 'a', 'w', 6, 5, [11, 12], 4, 3, 2, 1, 0]
double reversed list: [0, 1, 2, 3, 4, [11, 12], 5, 6, 'w', 'a', 'l', 'k', 'e', 'r']
size of tuple is 56
size of tuple is 56
(2, 3, 5, 1, 2, 3)


# 2. 字典VS集合

字典和集合与其他语言大致相同，内部实现都是一种哈希表。

在Python3.7及其之后，字典被确定为有序。相对于列表和元组，字典在查找、添加、删除等操作上都可在常数时间O(1)内完成，性能更优。而集合内是无序、唯一的元素。所以在对性能要求高的场景中，字典和集合必不可少。

需要注意的是：**字典的键key必须是不可变类型**，例如列表就不能用作键。

## 2.1 字典操作

In [3]:
# 创建
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d4 = dict(name='jason', age=20, gender='male')
d1 == d2 == d3 == d4   # True

# 访问
print(d1['name'])
d1.get('name', None) # jason, dict.get(key, default)

# 增删改
d1['grade'] = 3 # 添加新值
print(d1)
d1.pop('grade')
print(d1)
d1['name'] = "World" # 更新name
del d1['name']
print(d1)
d1['name'] = 'Walker'
print(d1)

# 排序
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0]) # 根据字典键的升序排序
print(d_sorted_by_key)
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1]) # 根据字典值的升序排序
print(d_sorted_by_value)

jason
{'name': 'jason', 'age': 20, 'gender': 'male', 'grade': 3}
{'name': 'jason', 'age': 20, 'gender': 'male'}
{'age': 20, 'gender': 'male'}
{'age': 20, 'gender': 'male', 'name': 'Walker'}
[('a', 2), ('b', 1), ('c', 10)]
[('b', 1), ('a', 2), ('c', 10)]


## 2.2 集合操作

In [67]:
# 创建方式
s1 = {2, 3, 5}
s2 = set([2, 3, 5])
s1 == s2

# 因为集合是无序，而且它也没有key, 因此只能判断某个值在不在其中。
try:
    print('get element at index 1 of s1: {}'.format(s1[1]))
except TypeError as e:
    print(e)
2 in s1

s1.add(10) # 只能增或者删，不能改
s1.remove(2)
print(s1)

# 排序
print(sorted(s1))

'set' object does not support indexing
{10, 3, 5}
[3, 5, 10]


## 2.3 内部实现

字典和集合都是基于哈希表实现的。对字典而言，内部的哈希表保存了哈希值、键、值三个元素，而集合只是单一的值元素。在Python老版本中，其内部结构如下所示。

```
--+-------------------------------+
  | 哈希值(hash)  键(key)  值(value)
--+-------------------------------+
0 |    hash0      key0    value0
--+-------------------------------+
1 |    hash1      key1    value1
--+-------------------------------+
2 |    hash2      key2    value2
--+-------------------------------+
. |           ...
__+_______________________________+
```

随着哈希表中存储的元素越来越多，它将会变得越来越稀疏，所以会浪费很多空间。

为了提高存储空间的利用率，现在的哈希表除了字典本身的结构，会把索引和哈希值、键、值单独分开，也就是下面这样新的结构：

```
Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------

Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------
```

那么上面的例子，在新的哈希表结构下的存储形式，就会变成下面这样：

```
indices = [None, 1, None, None, 0, None, 2]

entries = [
    [1231236123, 'name', 'mike'],
    [-230273521, 'dob', '1999-01-01'],
    [9371539127, 'gender', 'male']
]
```

当插入一个新元素时，首先要计算键的哈希值hash(key)，再和 mask = PyDicMinSize - 1做与操作，计算这个元素应该插入哈希表的位置index = hash(key) & mask。如果哈希表中此位置是空的，那么这个元素就会被插入其中。

而如果此位置已被占用，Python便会比较两个元素的哈希值和键是否相等。
- 若两者都相等，则表明这个元素已经存在，如果值不同，则更新值。
- 若两者中有一个不相等，这种情况我们通常称为哈希冲突（hash collision），意思是两个元素的键不相等，但是哈希值相等。这种情况下，Python便会继续寻找表中空余的位置，直到找到位置为止。