## 集合的定义
- python的集合（set）是一个无序的、不重复元素、可变的序列。
- 集合使用大括号{}或者set()函数创建。

In [1]:
setB = {'color','name'}
print(type(setB))

<class 'set'>


In [2]:
setC = set(['color','name'])
print(type(setC))

<class 'set'>


## 集合的无序性

In [3]:
# 打印结果：元素顺序是不一致的
setB = { 'orange', 'apple', 'pear', 'banana'}
print(setB)

{'apple', 'orange', 'banana', 'pear'}


- 集合底层采用的是哈希表结构，集合的元素都是可以使用内置函数hash()得到一个整数值。

In [4]:
# 比如集合中的元素为字符串，hash值如下
print(hash('orange'))
print(hash('apple'))

1367781304116710933
2856105194635106033


- 但有些常用的数据类型，比如列表list、字典dict是可变的，不是可哈希的对象，是不能添加为集合元素的。

In [5]:
# 添加列表到集合会报错
setB.add([1,2,3])

TypeError: unhashable type: 'list'

In [6]:
# 添加字典到集合会报错
setB.add({'key':'value'})

TypeError: unhashable type: 'dict'

In [7]:
# 但是可添加元组到集合，因为元组是不可变数据类型
setB.add((1,23,2))
print(setB)

{'banana', 'apple', 'orange', 'pear', (1, 23, 2)}


## 集合的去重
- 集合内的元素是不重复的，所以往往用于列表、元组的去重。

In [8]:
listA = ['orange', 'apple', 'pear', 'banana', 'orange']
listB = set(listA)
print(listB)

{'apple', 'orange', 'banana', 'pear'}


In [9]:
# 去重以后列表内的元素位置被更新
# 可以通过有序字典collections.OrderedDict.fromkeys()功能，对列表去重并保持有序
from collections import OrderedDict
listC = list(OrderedDict.fromkeys(listA))
print(listC)

['orange', 'apple', 'pear', 'banana']


## 集合推导式
- 集合与列表/字典类似，也有自己的推导式，结构如下：
- {表达式 for 变量 in 列表 if 条件} 其中if条件可有可无

In [10]:
setA = {'tom','lili','joy','yhan','jams'}
# 通过集合推导式从集合中获取姓名为4个字母的名字
setB = {name for name in setA if len(name)==4}
print(f'setB 数据类型：{type(setB)} 内容：{setB}')

setB 数据类型：<class 'set'> 内容：{'jams', 'lili', 'yhan'}


## 集合的内置函数
#### 添加元素
- set.add()和set.update()区别是set.add()只能添加单个元素，而set.update()可添加多个元素，传入的参数必须是可迭代对象，比如列表/元组/字符串等。

In [12]:
setA = {'tom','lili','joy','yhan','jams'}
# 添加单个元素
setA.add('wang')
print(setA)

{'joy', 'wang', 'tom', 'jams', 'lili', 'yhan'}


In [13]:
# 添加多个可迭代对象的元素
setA.update(['wang','lei'],('xu','ren'),{'key':'value'})
print(setA)

{'key', 'lei', 'tom', 'ren', 'jams', 'lili', 'joy', 'yhan', 'wang', 'xu'}


#### 移除元素
- set.remove(元素) 集合中无该元素会报错
- set.discard(元素) 集合中无该元素不会报错
- set.pop() 随机移除集合中的元素
#### 删除集合
- 使用del A删除集合A
#### 清空集合
- 使用set.clear()移除所有元素，清空集合
#### 集合合并
- 使用A.union(B) 返回一个新集合

In [14]:
setA = {"name","age","color"}
setB = {"lili","12","yellow"}
setC = setA.union(setB)
print(setC)

{'12', 'lili', 'yellow', 'age', 'color', 'name'}


#### 集合获取交集
- set.intersection(set1,set2,......) 方法用于返回两个或更多集合中都包含的元素，参数可添加多个集合，并返回新集合

In [15]:
setA = {"name","age","color"}
setB = {"name","12","yellow"}
# 判断setA和setB中都存在的元素，并返回setC
setC = setA.intersection(setB)
print(f'setA内容不变:{setA}')
print(f'setB内容不变:{setB}')
print(f'setC新集合:{setC}')

setA内容不变:{'age', 'color', 'name'}
setB内容不变:{'12', 'yellow', 'name'}
setC新集合:{'name'}


- set.intersection_update(set1,set2,......) 方法用于返回两个或更多集合中都包含的元素，参数可添加多个集合，修改原集合，函数结果不返回新集合

In [16]:
setA = {"name","age","color"}
setB = {"name","12","yellow"}
# 判断setA和setB中都存在的元素，setA集合内容会更新
setC = setA.intersection_update(setB)
print(f'setA内容变化:{setA}')
print(f'setB内容不变:{setB}')
print(f'不返回新集合，setC为{setC}')

setA内容变化:{'name'}
setB内容不变:{'12', 'yellow', 'name'}
不返回新集合，setC为None


#### 集合获取差集
- set.difference(set1,set2,......) 方法用于返回集合的差集，即返回的集合元素包含在要判断的集合中，但不包含在其他集合(方法的参数)中，参数可添加多个集合，并返回新集合

In [17]:
setA = {"name","age","color"}
setB = {"name","12","yellow"}
setC = {"age","12","yellow"}
# 取差集
setD = setA.difference(setB,setC)
print(f'setA内容不变:{setA}')
print(f'setB内容不变:{setB}')
print(f'setC内容不变:{setC}')
print(f'返回新集合，setD为{setD}')

setA内容不变:{'age', 'color', 'name'}
setB内容不变:{'12', 'yellow', 'name'}
setC内容不变:{'12', 'age', 'yellow'}
返回新集合，setD为{'color'}


- set.difference_update(set1,set2,......) 用于返回集合的差集，即返回的集合元素包含在要判断的集合中，但不包含在其他集合(方法的参数)中，该方法修改原集合，函数结果不返回新集合

In [19]:
setA = {"name","age","color"}
setB = {"name","12","yellow"}
setC = {"age","12","yellow"}
setD = setA.difference_update(setB,setC)
print(f'setA内容变化:{setA}')
print(f'setB内容不变:{setB}')
print(f'setC内容不变:{setC}')
print(f'不返回新集合，setD为{setD}')

setA内容变化:{'color'}
setB内容不变:{'12', 'yellow', 'name'}
setC内容不变:{'12', 'age', 'yellow'}
不返回新集合，setD为None


## 容斥原理
- 容斥原理是在组合数学中用来计算并集大小的一种技巧。它特别适用于求解至少满足一个条件的对象数量的问题。

In [21]:
from itertools import combinations

def inclusion_exclusion(principle_sets):
    """
    使用容斥原理计算多个集合的并集大小。

    参数:
    principle_sets (list of set): 一个包含多个集合的列表。

    返回:
    int: 并集的大小。
    """

    def intersection_size(sets):
        """计算集合的交集大小"""
        if not sets:
            return 0
        common = set.intersection(*sets)
        return len(common)

    total = 0
    n = len(principle_sets)
    for r in range(1, n + 1):
        for subset in combinations(principle_sets, r):
            total += (-1)**(r + 1) * intersection_size(subset)
    return total

sets = [
    set([1, 2, 3]),
    set([2, 3, 4]),
    set([3, 4, 5])
]
print(inclusion_exclusion(sets))

5


## 集合的幂集
- 原集合中所有的子集（包括全集和空集）构成的集族。

In [22]:
def powerset_recursion(elements):
    if len(elements) == 0:
        return [[]]
    else:
        # 递归地构建剩余元素的幂集
        rest_powerset = powerset_recursion(elements[1:])
        # 对于当前元素，它可以加入到已有的每个子集中
        with_current = [[elements[0]] + subset for subset in rest_powerset]
        # 幂集是包含当前元素的子集和不包含当前元素的子集的并集
        return rest_powerset + with_current

elements = [1, 2, 3]
for subset in powerset_recursion(elements):
    print(subset)

[]
[3]
[2]
[2, 3]
[1]
[1, 3]
[1, 2]
[1, 2, 3]
