In [1]:
# 序列中的值可哈希
# 如果一个对象可哈希，那么它的生存周期内是不可变的。他需要一个__hash__()方法。整数、浮点、字符串、元组都是
# 不可变的


def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)


a = [1, 5, 2, 1, 9, 1, 5, 10]
list(dedupe(a))


[1, 5, 2, 9, 10]

In [2]:
# 当序列中的元素是不可哈希的，如列表时：
def dedupe_with_key(items, key=None):
    """
        key用于指定一个函数用于将序列中的元素转换成可哈希的类型
    """
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)


a = [{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 1, 'y': 2}, {'x': 2, 'y': 4}]
list(dedupe_with_key(a, key=lambda d: (d['x'], d['y'])))


[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]

In [3]:
# 如果只是去除重复项，简单办法就是想序列转换成集合类型。因为集合类型的特点就是序列里的元素
# 都是唯一，但是不能保证元素顺序
b = [1, 3, 4, 5, 6, 1, 7, 9]
set(b)


{1, 3, 4, 5, 6, 7, 9}