字典：
- 一系列由键（key）值（value）配对组成的元素的集合。Python3.7+，字典被确定为有序，3.6之前是无序的，其长度大小可变，元素可以任意地删减和改变。
集合：
- 和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的、唯一的元素组合。

In [8]:
d1 = {'name': 'jason', 'age': 18, 'gender': 'male'}
d2 = dict({'name': 'jason', 'age': 18, 'gender': 'male'})
d3 = dict([('name', 'jason'), ('age', 18), ('gender', 'male')])
d4 = dict(name='jason', age=18, gender='male')
print(d1 == d2 == d3 == d4)

s1 = {1, 'name', 3}  # 集合和字典，无论是键还是值，都可以混合类型
s2 = set({1, 'name', 3})
print(s1 == s2)


True
True


In [1]:
d = {'name': 'jason', 'age': 18, 'gender': 'male'}
print(d['name'])

print(d['lacation'])  # 字典访问可以直接索引键，如果不存在，抛出异常


jason


KeyError: 'lacation'

In [3]:
d = {'name': 'jason', 'age': 18, 'gender': 'male'}
print(d.get('name'))

print(d.get('laction', 'null'))  # 也可以使用get(key,default)函数进行索引，如果键不存在，则返回一个默认值。


jason
null


In [4]:
s = {1, 2, 3}
s[0]  # 集合不支持索引操作，因为集合本质上是一个哈希表，和列表不一样。


TypeError: 'set' object is not subscriptable

In [5]:
# 想判断一个元素在不在字典或者集合内，我们可以用 value in dict/set 来判断。
s = {1, 2, 3}
print(1 in s)
print(10 in s)

d = {'name': 'jason', 'age': 20}
print('name' in d)
print('jason' in d)  # False
print('laction' in d)


True
False
True
False
False


字典和集合的增加、删除、更新等操作


In [6]:
d = {'name': 'jason', 'age': 20}
d['gender'] = 'male'  # 增加元素对
d['dob'] = '1999-02-01'  # 增加元素对
print(d)

d['dob'] = '1998-01-01'  # 更新
d.pop('dob')  # 删除
print(d)

s = {1, 2, 3}
s.add(4)  # 集合增加元素
print(s)

s.remove(4)  # 集合删除元素，因为集合是无序的，所以使用pop()删除不知道删除的是哪个元素。
print(s)


{'name': 'jason', 'age': 20, 'gender': 'male', 'dob': '1999-02-01'}
{'name': 'jason', 'age': 20, 'gender': 'male'}
{1, 2, 3, 4}
{1, 2, 3}


集合和字典的排序


In [7]:
# 字典排序，可根据键或之，执行升序或降序排序。
d = {'b': 1, 'a': 2, 'c': 10}
d_sorted_by_key = sorted(d.items(), key=lambda x: x[0])
d_sorted_by_value = sorted(d.items(), key=lambda x: x[1])

print(d_sorted_by_key)
print(d_sorted_by_value)


[('a', 2), ('b', 1), ('c', 10)]
[('b', 1), ('a', 2), ('c', 10)]


In [8]:
s = {3, 2, 5, 10, 1}
print(sorted(s))


[1, 2, 3, 5, 10]


集合和字典的性能
- 是进行过性能高度优化的数据结构，特别是对于查找、添加、删除操作。

In [10]:
# 查找某件商品ID的价格
# 使用列表实现 时间复杂度O(n),即使使用二分查找也要O(logn),更何况排序也要O(logn)
products = [(143131231, 100), (342342342, 30), (12414341322, 150)]


def find_product_price(products, product_id):
    for id, price in products:
        if id == product_id:
            return price
    return None


print('The price of product 342342342 is {} '.format(
    find_product_price(products, 342342342)))


The price of product 342342342 is 30 


In [12]:
# 使用字典实现 时间复杂度O(1)
products = {143131231: 100, 342342342: 30, 12414341322: 150}

print('The price of product 342342342 is {} '.format(
    products.get(342342342, None)))


The price of product 342342342 is 30 


In [16]:
# 找出这些商品有多少不同价格
import time
products = [(143131231, 100), (342342342, 30),
            (12414341322, 150), (24324242342, 30)]
# 使用列表实现 时间复杂度O(n^2)


def find_unique_price_list(products):
    unique_price_list = []
    for _, price in products:
        if price not in unique_price_list:
            unique_price_list.append(price)
    return len(unique_price_list)


print('number of unique price is {} '.format(find_unique_price_list(products)))

# 使用集合实现 集合里的元素不能重复,且添加的时间复杂度O(1)


def find_unique_price_set(products):  # 总时间复杂度O(n)
    unique_price_set = set()
    for _, price in products:
        unique_price_set.add(price)
    return len(unique_price_set)


print('number of unique price is {} '.format(find_unique_price_set(products)))

# 增大数据量来看差异
id = [x for x in range(100000)]
price = [x for x in range(100000)]
products = list(zip(id, price))

start_using_list = time.perf_counter()
find_unique_price_list(products)
end_using_list = time.perf_counter()
print("time elapse using list:{} ".format(end_using_list-start_using_list))

start_using_set = time.perf_counter()
find_unique_price_set(products)
end_using_set = time.perf_counter()
print("time elapse using set:{} ".format(end_using_set-start_using_set))


number of unique price is 3 
number of unique price is 3 
time elapse using list:47.53516889999446 
time elapse using set:0.008260999995400198 


集合和字典的工作原理

In [None]:
# 老版本的字典数据结构
dic = {'name': 'mike', 'dob': '1999-01-01', 'gender': 'male'}
# 存储成下面的类似形式
entires = [
    ['--', '--', '--'],
    [-230273521, 'dob', '1999-01-01'],
    ['--', '--', '--'],
    ['--', '--', '--'],
    [1231236123, 'name', 'mike'],
    ['--', '--', '--'],
    [9371539127, 'gender', 'male']
]

# 新版本的会存储成下面的形式
indices = [None, 1, None, None, 0, None, 2]
entries = [
    [1231236123, 'name', 'mike'],
    [-230273521, 'dob', '1999-01-01'],
    [9371539127, 'gender', 'male']
]


<img style="float: right;" src="../../image/00/insert.png">
<img style="float: right;" src="../../image/00/deleter_update.png">