In [1]:
# 集合是一种无序的可变容器类型，它最大的特点就是成员不能重复。集合字面量的语法和字典很像，
# 都是使用大括号包裹，但集合里装的是一维的值{value, ...}，而不是键值对{key: value, ...}

In [13]:
fruits = {'pineapple', 'strawberry', 'apple', 'orange', 'apple'}
fruits
## 重新查看上面fruits变量的值，你会马上体会到集合最重要的两个特征——去重和无序. 
# (在本机中虽然按照顺序输出, 但是在不同环境下输出顺序不固定), 所以集合不同于3.7版本的dict, 一直时无序的

{'apple', 'orange', 'pineapple', 'strawberry'}

In [7]:
# 初始化空集合
empty_set = set()

## 集合推导法
nums = [1, 2, 2, 4, 1]
{n for n in nums if n < 3}

{1, 2}

# 1.不可变的集合frozenset

In [8]:
## 集合是一种可变类型，使用add方法追加新成员
new_set = set(['foo', 'foo', 'bar'])
new_set.add('apple')
new_set

{'apple', 'bar', 'foo'}

In [9]:
# 使用frozenset设置不可变集合
f_set = frozenset(['foo', 'bar'])
f_set.add('apple')  # AttributeError: 'frozenset' object has no attribute 'add'

AttributeError: 'frozenset' object has no attribute 'add'

# 2.集合运算

In [10]:
# 除了天生不重复以外，集合的最大独特之处在于：你可以对其进行真正的集合运算，
# 比如求交集、并集、差集，等等。所有操作都可以用两种方式来进行：方法和运算符。
fruits_1 = {'apple', 'orange', 'pineapple'}
fruits_2 = {'tomato', 'orange', 'grapes', 'mango'}

In [11]:
# 1.求交集-方法一 &
print(fruits_1 & fruits_2)
# 1.求交集-方法二 intersection
print(fruits_1.intersection(fruits_2))

{'orange'}
{'orange'}


In [12]:
# 2.求并集-方法一 |
print(fruits_1 | fruits_2)
# 2.求并集-方法二 union
print(fruits_1.union(fruits_2))

{'pineapple', 'mango', 'tomato', 'orange', 'apple', 'grapes'}
{'pineapple', 'mango', 'tomato', 'orange', 'apple', 'grapes'}


In [14]:
# 3.求差集-方法一 -
print(fruits_1 - fruits_2)
# 3.求差集-方法二 difference
print(fruits_1.difference(fruits_2))

{'apple', 'pineapple'}
{'apple', 'pineapple'}


In [15]:
# 集合还有symmetric_difference、issubset等其他许多有用的操作，你可以在官方文档里找到详细的说明
# (1)symmetric_difference  返回包含两个集合所有类别的集合(除了目前在两个集合都存在的类别)  也就是 并集-交集
print(fruits_1.symmetric_difference(fruits_2))
# (2)issubset   如果在两个集合元素完全一样则返回True
print(fruits_1.issubset(fruits_2))

{'pineapple', 'mango', 'apple', 'tomato', 'grapes'}
False


# 3.集合只能存放可哈希对象

In [16]:
# 可以被成功初始化
valid_set = {'apple', 30, 1.3, ('foo',)}
# 不可以被成功初始化
invalid_set = {'foo', [1, 2, 3]}  # TypeError: unhashable type: 'list'

TypeError: unhashable type: 'list'

In [17]:
"""
我们说过字典底层使用了哈希表数据结构，其实集合也一样。当我们把某个对象放进集合或者作为字典的键使用时，
解释器都需要对该对象进行一次哈希运算，得到哈希值，然后再进行后面的操作。
这个计算哈希值的过程,是通过调用内置函数hash(obj)完成的。
如果对象是可哈希的,hash函数会返回一个整型结果,否则将会报TypeError错误。
"""

# 可哈希对象
## 1.不可变的内置类型都是可哈希的 
hash('string')  # str

hash(100)  # 整数
# 有趣的事情，整型的hash 值就是它自身的值

hash(3.2)  # 浮点数

hash((1, 2, 3))  # set

hash(u'str')

-2560376234369862494

In [18]:
## 2.可变的内置类型都无法计算哈希值
hash({'key': 'value'})  # TypeError: unhashable type: 'dict'

hash([1, 2, 3])  # TypeError: unhashable type: 'list'

## 可变类型的不可哈希特点有一定的“传染性”。比如在一个 原本可哈希的元组里放入可变的列表对象 后，它也会马上变得不可哈希

TypeError: unhashable type: 'dict'

In [19]:
## 3.由用户定义的所有对象默认都是可哈希的
class Foo:
  pass
foo = Foo()
hash(foo)

-9223371918698145432

In [None]:
# 总结
"""
总结一下,某种类型是否可哈希遵循下面的规则:
(1)所有的不可变内置类型,都是可哈希的,比如str、int、tuple、frozenset, float等;
(2)所有的可变内置类型，都是不可哈希的,比如dict、list等;
(3)对于不可变容器类型(tuple, frozenset)，仅当它的所有成员都不可变时,它自身才是可哈希的;
(4)用户定义的类型默认都是可哈希的。
谨记，只有可哈希的对象，才能放进集合或作为字典的键使用。
"""