# 列表与元素

## 列表与元组基础
列表与元组都是一个可以放置任意数据类型的有序集合。

In [1]:
l = [1, 2, 'hello', 'world'] # 列表中同时含有int和string类型的元素
l


[1, 2, 'hello', 'world']

In [2]:
tup = ('json', 22) # 元组中同时还有int和string类型的元素
tup

('json', 22)

两者区别
列表是动态的，长度大小不固定，可以随意增加、删减或改变元素
元组是静态的，长度大小固定，无法增加或改变

In [3]:
l = [1, 2, 3, 4]
l[3] = 40 # 很多语言类似，python中索引同样从0开始，l[3]表示访问列表的第四个元素
l

[1, 2, 3, 40]

In [4]:
tup = (1, 2, 3,4)
tup[3] = 40

TypeError: 'tuple' object does not support item assignment

如果需要对已有元组做改变，重新开辟一块内存，创建新的元组

In [None]:
tup = (1, 2, 3,4)
new_tup = tup + (5, ) # 创建新的元组new_tup,并依次填充原元组的值
new_tup

(1, 2, 3, 4, 5)

In [None]:
l = [1, 2, 3, 4]
l.append(5) # 添加元素5到原列表的末尾
l

[1, 2, 3, 4, 5]

Python中的列表和元组都支持负数索引

In [None]:
l = [1, 2, 3, 4]
l[-1]

4

In [None]:
tup = (1, 2, 3, 4)
tup[-1]

4

基础初始化，索引外，列表和元组都支持切片操作

In [None]:
l = [1, 2, 3, 4]
l[1:3] # 返回列表中索引从1到2的子列表 左闭右开

[2, 3]

In [None]:
tup = (1, 2, 3, 4)
tup[1:3] # 返回元组中索引从1到2的子元组

(2, 3)

列表和元组都可以随意嵌套

In [None]:
l = [[1, 2, 3], [4, 5]] # 列表的每一个元素也是一个列表
tup = ((1, 2, 3), (4, 5, 6)) # 元组的每一个元素也是一个元组

列表和元组两者可以通过list()和tuple()函数相互转换

In [None]:
list((1, 2, 3))

[1, 2, 3]

In [None]:
tuple([1, 2, 3])

(1, 2, 3)

列表与元组中常用的内置函数
count(item) 表示统计列表 / 元组中 item 出现的次数
index(item) 表示返回列表 / 元组中 item 第一次出现的索引
list.reverse() 和 list.sort() 分别表示原地倒转列表和排序（注意，元组没有内置的这两个函数)
reversed() 和 sorted() 同样表示对列表 / 元组进行倒转和排序，reversed() 返回一个倒转后的迭代器（上文例子使用 list() 函数再将其转换为列表）；sorted() 返回排好序的新列表。

In [None]:
l = [3, 2, 3, 7, 8, 1]
l.count(3)

3

In [None]:
l.index(7)

3

In [None]:
l.reverse()
l

[1, 8, 7, 3, 2, 3]

In [None]:
l.sort()
l

[1, 2, 3, 3, 7, 8]

In [None]:
tup = (3, 2, 3, 7, 8, 1)
tup.count(3)

2

In [None]:
tup.index(7)

3

In [None]:
list(reversed(tup))

[1, 8, 7, 3, 2, 3]

In [None]:
sorted(tup)

[1, 2, 3, 3, 7, 8]

列表和元组存储方式的差异
列表是动态可变的，元组是静态不可变的，两者差异，势必会影响两者存储方式

In [None]:
l = [1, 2, 3]
l.__sizeof__()

64

In [None]:
tup = (1, 2, 3)
tup.__sizeof__()

48

列表是动态的需要存储指针，来指向对应的元素，由于列表可变，所以需要额外存储已经分配的长度大小(8字节)，这样才可以实时追踪列表空间的使用情况，当空间不足时，及时分配额外空间

In [None]:
l  = []
l.__sizeof__() # 空列表的存储空间为40字节

40

In [None]:
l.append(1)
l.__sizeof__() #加入元素后，列表为其分配了可以存储的4个元素空间 (72 - 40) / 8 = 4

72

In [None]:
l.append(2)
l.__sizeof__() # 由于之前分配了空间，所以加入元素2，列表空间不变

72

In [None]:
l.append(3)
l.__sizeof__() # 同上

72

In [None]:
l.append(4)
l.__sizeof__() # 同上

72

In [None]:
l.append(5)
l.__sizeof__() # 加入元素5后，列表空间不足又分配了可以存储的4个元素空间

104

列表与元组的性能
通过学习列表与元组存储方式的差异，我们知道：元组要比列表更加轻量级一些，总体上来说，元组的性能速度要略优于列表
Python会在后台，对静态数据做一些资源缓存，通常来说，因为垃圾回收机制的存在，如果一些变量不被使用了，Python就会回收它们所占用的内存，返还给操作系统，以便其他变量或其他应用使用
对于一些静态变量，Python暂时缓存这部分内存，这样，下次创建同样大小的元组时，Python就可以不用再向操作系统发出请求，寻找内存，而是直接分配之前缓存的内存空间，大大加快程序运行速度。

初始化一个相同元素的列表和元组，元组的速度比列表快5倍
索引操作下，两者速度差别非常小，可以忽略不计

列表和元组的使用场景
1. 存储的数据和数量不变，利用元组更合适
2. 存储的数据和数量时可变的，利用列表更合适

# 字典与集合
## 字典和集合基础
字典是一系列由键(key)和值(value)配对组成的元素的集合

新特性：

Python3.7以上字典被确定为有序

Python3.6为无需，长度大小可变，元素可以任意的删减和改变

集合与字典基本相同，唯一的区别就是没有键和值的配对，是一系列无序的，唯一的元素组合

In [7]:
d1 = {'name': 'jason', 'age': 20, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 20, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 20), ('gender', 'male')])
d1 == d2 == d3 # 三种字典的创建方式

True

Python中字典和集合，无论是键还是值，都可以是混合类型

In [8]:
s = {1, 'hello', 5.0} # 体现其混合类型

字典访问可以直接使用索引键

In [10]:
# 利用索引访问
d = {'name': 'jason', 'age': 20}
d['name']

'jason'

In [11]:
d['location'] # 访问不存在的键

KeyError: 'location'

利用get(key, default)函数来进行索引，如果键不存在，调用get()函数返回一个默认值

In [12]:
d = {'name': 'jason', 'age': 20}
d.get('name') # 查找键值

'jason'

In [13]:
d.get('location', 'null') # 查找不存在的键值 返回null

'null'

## 集合
集合并不支持索引操作，因为集合本质是一个哈希表，和列表不一样

In [14]:
# 集合
s = {1, 2, 3}
s[0] # 不能使用索引操作

TypeError: 'set' object is not subscriptable

判断一个元素是否在字典或者集合内，可以使用 `value in dict/set` 来进行判断

In [17]:
# 构建一个集合
s = {1, 2, 3}
# 判断1是不是在集合内
1 in s

True

In [16]:
# 判断10是不是在集合内
10 in s

False

In [18]:
# 字典
d = {'name': 'jason', 'age': 20}
# 判断name是不是在字典内
'name' in d

True

In [19]:
'location' in d # 判断location是不是在字典内

False

字典与集合除了支持创建和访问操作，同样支持增加、删除、更新等操作

In [20]:
# 字典
d = {'name': 'jason', 'age': 20}
# 增加元素对'gender': 'male'
d['gender'] = 'male'
# 增加元素对'dob': '1999-02-01'
d['dob'] = '1999-02-01'
# 输出字典
d

{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}

In [21]:
# 更新'dob'对应的值
d['dob'] = '1998-01-01'
# 删除键为'dob'的元素对
d.pop('dob')

'1998-01-01'

In [22]:
# 输出字典
d

{'name': 'jason', 'age': 20, 'gender': 'male'}

In [27]:
# 集合
s = {1, 2, 3}
# 增加元素4到集合
s.add(4)
# 输出集合
s

{1, 2, 3, 4}

In [28]:
# 从集合中删除元素4
s.remove(4)
s

{1, 2, 3}

集合的pop()操作时删除集合的最后一个元素，如果集合本身无序，可能不知道自己会删除哪个元素，因此得小心操作。
所以在进行这些操作时可以对其先进行排序

In [30]:
# 字典
d = {'b': 1, 'a': 2, 'c': 10}
# 按字典键升序排序
d_sorted_by_key = sorted(d.items(), key=lambda x:x[0])
d_sorted_by_key

[('a', 2), ('b', 1), ('c', 10)]

In [31]:
# 按字典值升序排序
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1])
d_sorted_by_value

[('b', 1), ('a', 2), ('c', 10)]

In [32]:
# 对集合元素进行升序排序
s = {3, 4, 2, 1}
sorted(s)

[1, 2, 3, 4]

## 字典和集合的性能
字典和集合是进行过性能高度优化的数据结构，特别对于查找、添加和删除操作。

假定一个需求为给定某件商品的ID，找出其价格，下面利用列表存储数据结构，并进行查找

In [2]:
# 查找产品的价格
def find_product_price(products, product_id):
    for id, price in products:
        if id == product_id:
            return price
    return None

# 产品列表
products = [
    (143121312, 100), 
    (432314553, 30), 
    (32421912367, 150)
]

# 查找产品
print('The price of product 432314553 is {}'.format(find_product_price(products, 432314553)))


The price of product 432314553 is 30


此时进行查找可以发现遍历列表的时间复杂度为O(n),如果利用二分查找，那么复杂度为O(logn),加上一个排序那么时间复杂度为O(nlogn)。
此时如果使用字典，那么就是利用空间换时间，复杂度为O(1)，其内部是一个哈希表

In [3]:
products = { 143121312: 100, 
            432314553: 30, 
            32421912367: 150}
print('The price of product 432314553 is {}'.format(products[432314553]))


The price of product 432314553 is 30


找出商品有多少种不同的价格，此时如果选择列表，那么时间复杂度则会变成$O(n^2)$

In [5]:
def find_unique_price_using_list(products):
    # 获取产品的价格
    unique_price_list = []
    # 查找产品价格
    for _, price in products: # A
        # 如果产品价格不在列表里
        if price not in unique_price_list: # B
            # 将产品价格加入列表
            unique_price_list.append(price)
    # 返回长度
    return len(unique_price_list)

# 产品列表
products = [
    (143121312, 100), 
    (432314553, 30), 
    (32421912367, 150), 
    (937153201, 30)
]

# 输出价格
print('number of unique price is: {}'.format(find_unique_price_using_list(products)))

number of unique price is: 3


如果使用集合，那么由于集合是高度优化的哈希表，里面元素不能重复，添加与查找操作只有O(1)复杂度，那么总时间复杂度为O(n)

In [8]:
def find_unique_price_using_set(products):
    # 集合的使用方法
    unique_price_set = set()
    for _, price in products:
        unique_price_set.add(price)
    return len(unique_price_set)

products = [
    (143121312, 100), 
    (432314553, 30), 
    (32421912367, 150), 
    (937153201, 30)    
]

print('number of unique price is: {}'.format(find_unique_price_using_set(products)))

number of unique price is: 3


下面是列表与集合进行性能查找的一个分析，可以发现列表与集合的性能差距非常之大，如果出现上亿乃至十亿数量级规模的数据，那么会产生巨大的性能差异。

In [7]:
import time
# 这里构建了产品表
id = [x for x in range(0, 100000)]
price = [x for x in range(200000, 300000)]
products = list(zip(id, price))

# 计算列表版本的时间
start_using_list = time.perf_counter()
find_unique_price_using_list(products)
end_using_list = time.perf_counter()
print("time elapse using list: {}".format(end_using_list - start_using_list))


time elapse using list: 68.13414829999988


In [9]:
# 计算集合版本时间
start_using_set = time.perf_counter()
find_unique_price_using_set(products)
end_using_set = time.perf_counter()
# 输出时间
print('time elapse using set: {}'.format(end_using_set - start_using_set))


time elapse using set: 5.239999995865219e-05


## 字典和集合的工作原理
字典和集合的内部数据结构不同于其他数据结构，字典和集合的内容结构都是一张哈希表：
对于字典而言，存储哈希值、键和值这3个元素
对于集合来说，就是没有键和值，只有单一的元素

### 新旧版本的哈希表分析
对于老版本的Python的哈希表结构如下所示：
```
--+-------------------------------+
  | 哈希值(hash)  键(key)  值(value)
--+-------------------------------+
0 |    hash0      key0    value0
--+-------------------------------+
1 |    hash1      key1    value1
--+-------------------------------+
2 |    hash2      key2    value2
--+-------------------------------+
. |           ...
__+_______________________________+
```
那么如果存储值后就会变得越来越稀疏，如下所示：
```
{'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'}
```
```
entries = [
['--', '--', '--']
[-230273521, 'dob', '1999-01-01'],
['--', '--', '--'],
['--', '--', '--'],
[1231236123, 'name', 'mike'],
['--', '--', '--'],
[9371539127, 'gender', 'male']
]
```
因此新版的Python除了字典本身的结构，会把索引和哈希值、键、值单独分开：
```

Indices
----------------------------------------------------
None | index | None | None | index | None | index ...
----------------------------------------------------

Entries
--------------------
hash0   key0  value0
---------------------
hash1   key1  value1
---------------------
hash2   key2  value2
---------------------
        ...
---------------------
```
因此存储值之后的结构如下所示：
```

indices = [None, 1, None, None, 0, None, 2]
entries = [
[1231236123, 'name', 'mike'],
[-230273521, 'dob', '1999-01-01'],
[9371539127, 'gender', 'male']
]
```

### 插入操作
字典和集合插入元素：
1. 计算哈希值 hash(key)
2. 与mask = PyDicMinSize - 1 做与操作
3. 计算应该插入的索引 index = hash(key) & mask
4. 索引分为两种情况
    1. 如果位置是空的直接插入
    2. 如果位置不是空的
        1. 比较两个元素的哈希值和键是否相等，两者相等表明元素存在，值不相同则更新值
        2. 两者中有一个不相等，出现哈希冲突，键不相等，哈希值相等，Python会找空余位置，此时最简单使用线性查找，Python内部做了优化，需要查看源码

### 查找操作
Python根据哈希值找到其应该处于的位置，然后比较哈希表这个位置中元素的哈希值和键，与需要查找的元素是否相等，如果相等，则直接返回，如果不相等，则继续查找，直到找到空位或者抛出异常为止。

### 删除操作
对于删除操作，Python会暂时对这个位置的元素赋予特殊值，重新调整哈希表大小时，再将其删除，因为发生哈希冲突时，会降低字典和集合的操作速度，此时为了高效操作，一般会保留1/3的空间，如果小于这个空间数，那么扩充哈希表后重新排序元素。