# Set 集合
- 集合元素不能重复
- 不支持索引访问集合里的元素
- 集合使用散列表之后，可以在O(1)时间内访问元素
- 集合支持列表的切片和查询
- 集合可以在插入元素时对元素进行排序

使用集合访问数据

In [1]:
data = {"first", "second", "third", "fourth", "fifth"}
if "fourth" in data:
    print("Found the data")

Found the data


使用集合去重

In [2]:
data = ["first", "second", "third", "fourth", "fourth", "fourth", "fifth"]
no_duplicate_data = set(data)
no_duplicate_data

{'fifth', 'first', 'fourth', 'second', 'third'}

集合用作姓氏和名字

In [4]:
user = {'1267': {'first': 'Larry', 'last': 'Page'},
        '2343': {'first': 'John', 'last': 'Freedom'}}
ids = set(user.keys())
full_names = []
for user in user.values():
    full_names.append(user["first"] + " " + user["last"])
ids, full_names

({'1267', '2343'}, ['Larry Page', 'John Freedom'])

# Namedtuple 具名元组

访问数据

In [10]:
from collections import namedtuple

Point = namedtuple("Point", ['x', 'y', 'z'])
point = Point(3, 4, 5)
point, point.x

(Point(x=3, y=4, z=5), 3)

返回数据
使用 namedtuple 返回函数的值

In [11]:
def operation(a, b):
    Result = namedtuple("Result", ['sum', 'difference', 'product', 'quotient'])
    result = Result(a + b, a - b, a * b, a / b)
    return result


operation(3, 4)

Result(sum=7, difference=-1, product=12, quotient=0.75)

# Iterator 迭代器
使用列表存储大数据存在内存泄漏的风险，影响系统性能，使用迭代器能避免这样的问题

In [45]:
import math


def is_prime(num):
    prime = True
    for item in range(2, int(math.sqrt(num)) + 1):
        if num % item == 0:
            prime = False
    return prime


def get_prime_numbers(lower, higher):
    for possible_prime in range(lower, higher):
        if is_prime(possible_prime):
            yield possible_prime
        yield False


for prime in get_prime_numbers(2, 10):
    if prime:
        print(prime, end='\t')

2	3	5	7	

# Zip
用于两个列表并行处理，Python内置函数，非常高效

In [47]:
def get_user_salary_info():
    users = ["Abe", "Larry", "Adams", "John", "Sumint", "Adward"]
    users_salary = ["2M", "1M", "60K", "30K", "80K", "100K"]
    user_salary = []
    for usr, slr in zip(users, users_salary):
        user_salary.append((usr, slr))
    return user_salary

get_user_salary_info()

[('Abe', '2M'),
 ('Larry', '1M'),
 ('Adams', '60K'),
 ('John', '30K'),
 ('Sumint', '80K'),
 ('Adward', '100K')]

# Python 内置函数
- collections: 使用最广泛的库之一，同时也有很有用的数据结构，特别是 namedtuple、defaultdict、ordereddict
- csv: 用于读写 csv 文件
- datatime/time: 用于处理计时问题
- re: 实现正则表达式功能
- tempfile: 用来创建一次性临时文件
- itertools: 常用的方法是排列和组合，此外还有一些很有用的函数，如 dropwhile、product、chain、islice
- functools: 用于函数式编程
- sys/os: 用于执行一些特殊操作或系统级别的操作
- subprocess: 用于在系统上创建多个进程
- logging: 实现日志记录功能
- json: JSON 是通过网络和 API 传递消息的实际标准
- pickle: 用于序列化和反序列化 Python 对象
- \_\_future\_\_: 伪模块，它支持与当前解释器不兼容的新语言特性

collections