# 集合基本概念

集合的基本概念是无序且每个元素是唯一的，其实也可以将集合看成是字典的键，每个键皆是唯一的，集合元素的内容是不可变的(immutable)，常见的元素有整数(integer)，浮点数(float），字符串(string)，元组(tuple)等。  

至于可变的（mutable）内容，如列表(list)，字典(dict)，集合(set)等不可以是集合元素，但是集合本身是可变的（mutable），我们可以增加和删除集合的元素。  

* 建立集合
  
例如：一个骰子有6面．每一面有一个数字，每个数字是一个元素，我们可以使用集合代表这6个数字。

* 使用set()建立集合

Python内建的set()函数可以建立集合，set()函数的参数只能有一个元素，此元素的内容可以是字符串（string），列表(list)，元组(tuple)，字典(dict)等。 

* 集合的基数

所谓集合的基数(cardinality)是指集合元素的数量，可以使用len()获得。

* 大数据与集合的应用

很多知名的企业，收集了海量数据并使用列表保存，这里面有些数据是重复出现的，我们应该如何将重复的数据删除呢？如果使用C语言可能要花几小时解决，但是如果了解Python的集合概念，只要花1分钟。其实只要将列表数据使用set()函数转为集合数据，再使用list()函数将集合数据转为列表数据就可以了。

## Test01

In [1]:
# 列表是可变的
list1 = [1, 2, 3, 4, 5]
list2 = [6, 7, 8, 9, 10]

# 注意点 : 可变的内容不可以作为集合的元素
# 集合的格式 : {元素1, 元素2, 元素3, ... 元素n}
# set1 = {list1, list2}
# print(set1)

# 使用 set() 方法创建集合
set1 = set(list1 + list2)  # 先拼接成一个元素
print(set1, type(set1))

# len() 获取集合的元素
print(f'{len(set1) = }')

# 使用 {} 直接创建集合
set2 = {1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1 }
print(set2, type(set2))

# 使用字符串创建集合
set3 = set('beautiful')
print(set3, type(set3))

# 大数据与集合的应用
fruits = ['apple', 'banana', 'cherry', 'orange', 'apple' ,'pear', 'watermelon', 'strawberry']
print(fruits)
# 将列表转换为集合
fruits_set = set(fruits)
# 将集合转换为列表
fruits = list(fruits_set)
print(fruits)

{1, 2, 3, 4, 5, 6, 7, 8, 9, 10} <class 'set'>
len(set1) = 10
{1, 2, 3, 4, 5, 6} <class 'set'>
{'f', 't', 'u', 'e', 'l', 'i', 'b', 'a'} <class 'set'>
['apple', 'banana', 'cherry', 'orange', 'apple', 'pear', 'watermelon', 'strawberry']
['orange', 'apple', 'banana', 'watermelon', 'pear', 'cherry', 'strawberry']


# 集合的操作

* 操作说明

|Python符号 |说明 |
|---|---|
|& |交集（intersection） |
|\| |并集（union) |
|- |差集（difference）|
| ^ |对称差集(symmetric difference) |
| == |等于  |
| != |不等于  |
| in |是成员  |
| not in |不是成员|

元素属于集合，Python的关键词in可以测试元素是否属于集合。  

元素不属于集合，Python的关踺词not in可以测试元素是否不属于集合。

![](img/set.jpg)

## Test02

In [2]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7}

# 交集 (intersection &)
# result1 = a.intersection(b)
result1 = a & b
print(f'{result1 = }')

# 并集 (union |)
# result2 = a.union(b)
result2 = a | b
print(f'{result2 = }')

# 差集 (difference -)
result3 = a.difference(b)
print(f'{result3 = }')

result4 = b - a
print(f'{result4 = }')

# 对称差集 (symmetric_difference ^)
# result5 = a.symmetric_difference(b)
result5 = a ^ b
print(f'{result5 = }')

# 等于不等于 == !=
result6 = a == b
result7 = a != b
print(f'{result6 = }, {result7 = }')

# 属于不属于  in    not in
result8 = 1 in a
result9 = 1 not in a
print(f'{result8 = }, {result9 = }')

result1 = {3, 4, 5}
result2 = {1, 2, 3, 4, 5, 6, 7}
result3 = {1, 2}
result4 = {6, 7}
result5 = {1, 2, 6, 7}
result6 = False, result7 = True
result8 = True, result9 = False


# 适用集合的方法

* 方法说明

|方法 | 说明 |
|:---:|---|
|add() |加一个元素到集合 |
|clear() |删除集合所有元素 |
|copy()  |复制集合 |
|difference_update() | 除集合内与另一集合重复的元素 |
|discard() | 如果是集合成员则删除 |
|intersection_update() | 可以使用交集更新集合内容 |
|isdisjoint() | 如果2个集合没有交集返回True |
|issubset()  | 如果另一个集合包含这个集合返回True |
|isupperset()  | 如果这个集合包含另一个集合返回True |
|pop()  | 回传所删除的元素，如果是窒集合返回False |
|remove()  | 删除指定元素，如果此元素不存在，程序将返回KeyError |
|symmetric_differende_update() | 用对称差集史新集合内容 |
|update() | 使用并集史新集合内容 |

discard()可以删除集合的元素，如果元素不存不会产生错误。 

pop()是用随机方式删除集合元素，所删除的元素将被回传，如果集合是空集合，则程序会产生TypeError错误。  

isdisjoint()如果2个集合没有共同的元素会回传True，否则回传False。  

issubset()这个方法可以测试一个函数是否是另一个函数的子集合。  

intersection_update()这个方法将回传集合的交集。  

update()可以将一个集合的元素加到调用此方法的集合内。   

difference_update()可以删除集合内与另一个集合重复的元素。  

symmetric_difference_update()与对称差集既念一样，但是只更改调用此方法的集合。

* 适用集合的基本函数操作

|函数名称  |说明|
|---|---|
|enumerate() |回传连续整数配对的enumerate对象 |
|len() |元素数量 |
|max() |最大值 |
|min() |最小值 |
|sorted() |回传己经排序的列表，集合本身则不改变 |
|sum() |总和 |

## Test03

In [3]:
numbers = {1, 2, 3, 4, 5}
print(numbers)

# 添加元素
numbers.add(6)
print(numbers)

# 删除元素, remove() 方法删除时, 如果元素不存在, 则报错
numbers.remove(6)
# numbers.remove(60)
print(numbers)

# discard() 可以删除元素 如果元素不存在, 不会报错
numbers.discard(1)
numbers.discard(10)
print(numbers)

# pop() 随机删除集合中的元素
element_pop = numbers.pop()
print(numbers, element_pop)

# clear() 清除集合中所有的元素, 但集合还存在, 后续可以继续添加元素
result = numbers.clear()
print(f'{result = }, {numbers = }')

{1, 2, 3, 4, 5}
{1, 2, 3, 4, 5, 6}
{1, 2, 3, 4, 5}
{2, 3, 4, 5}
{3, 4, 5} 2
result = None, numbers = set()


## Test04

In [4]:
a = {1, 2, 3, 4, 5}
b = {6, 7, 8, 9, 10}
c = {3, 4, 5, 6, 7}
d = {1, 2, 3}

# isdisjoint() 两个集合是否不相交
result1 = a.isdisjoint(b)
print(f'{result1 = }')

result2 = a.isdisjoint(c)
print(f'{result2 = }')

# issubset() 一个集合是否是另一个集合的子集
result3 = a.issubset(b)
print(f'{result3 = }')

result4 = d.issubset(a)
print(f'{result4 = }')

# issuperset() 一个集合是否是另一个集合的父集合
result5 = a.issuperset(d)
print(f'{result5 = }')

# intersection_update() 这个方法将更新集合 a 的元素为 (a与c集合的交集元素)
print(f'{a = }, {c = }')
a.intersection_update(c)
print(f'{a = }, {c = }')

# update() 可以将一个集合的元素添加到调用该行为的集合中
a.update(c)
print(f'{a = }, {c = }')

# difference_update() 可以删除集合内与另一个集合重复的元素
print(f'{a = }, {b = }')
a.difference_update(b)
print(f'{a = }, {b = }')

x = {1, 2, 3, 4, 5}
y = {3, 4, 5, 6, 7}
x.symmetric_difference_update(y)
print(f'{x = }, {y = }')

result1 = True
result2 = False
result3 = False
result4 = True
result5 = True
a = {1, 2, 3, 4, 5}, c = {3, 4, 5, 6, 7}
a = {3, 4, 5}, c = {3, 4, 5, 6, 7}
a = {3, 4, 5, 6, 7}, c = {3, 4, 5, 6, 7}
a = {3, 4, 5, 6, 7}, b = {6, 7, 8, 9, 10}
a = {3, 4, 5}, b = {6, 7, 8, 9, 10}
x = {1, 2, 6, 7}, y = {3, 4, 5, 6, 7}


# 冻结集合

set是可变集合，frozenset是不可变集合，也可直译为冻结集合，这是一个新的类别，只要设定元素后，这个冻结集合就不能再更改了，如果将元素想成不可变列表，冻结集合就是不可变集合。  

冻结集合的不可变特性的优点是可以用它作为字典的键，也可以作为其它集合的元素。冻结集合的建立方式是使用frozenset()函数，冻结集合建立完成后，不可以使用add()或remove()更改冻结集合的内容。

## Test05

In [5]:
# frozenset() 冻结集合中的元素不可再次更改
x = frozenset({1, 2, 3, 4, 5})
y = frozenset([3, 4, 5, 6, 7])

# AttributeError: 'frozenset' object has no attribute 'add'
# 属性错误, frozenset 对象没有 add 属性
# x.add(7)

print(f'交集 : {x & y}')
print(f'并集 : {x | y}')

交集 : frozenset({3, 4, 5})
并集 : frozenset({1, 2, 3, 4, 5, 6, 7})


# 夏令营程序设计

## Test06

In [6]:
# stus 是学生名单的集合
stus = {'张三', '李四', '王五', '赵六', '貂蝉', '杨玉环', '王昭君', '西施', '刘德华', '黎明', '郭富城', '张学友'}

# 参加数学夏令营的人员
math = {'张三', '刘德华', '西施', '貂蝉'}
# 参数物理夏令营的人员
physics = {'张三', '王五', '杨玉环', '张学友', '貂蝉'}
# 参加英语夏令营的人员
english = {'王五', '赵六', '王昭君', '黎明', '郭富城'}

# 请问 : 有多少同学参加了数学和英语的夏令营 ?
result1 = math & english
print(result1, len(result1))

# 请问 : 有多少同学参加了数学和物理的夏令营 ?
result2 = math & physics
print(result2, len(result2))

# 请问 : 没有参加任何夏令营的学员有哪些 ?
result3 = stus - math - physics - english
print(result3, len(result3))

set() 0
{'张三', '貂蝉'} 2
{'李四'} 1


# 集合生成式

集合增加程序效率。

## Test07

In [7]:
x = {i for i in range(1, 11)}
print(x)

y = {i*i for i in range(1, 11)}
print(y)

z = {i for i in range(1, 101) if i % 3 == 0}
print(z)

{1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
{64, 1, 4, 36, 100, 9, 16, 49, 81, 25}
{3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60, 63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99}


# 鸡尾酒实例

鸡尾酒是酒精饮料，由基酒和一些饮料调制而成，以上是一些常见的鸡尾酒饮料以及它的配方。

* 蓝色夏威夷佬(Blue Hawaiian)：兰姆酒(Rum)、甜酒(Sweet Wine)、椰奶(Coconut Cream)、菠萝汁(Pineapple Juice)、柠檬汁(Lemon Juice)。
* 姜味莫西多(Ginger Mojito)：兰姆酒(Rum)、(Ginger)、薄荷叶(Mint Leaves)、莱姆汁(Lime Juice)、姜汁汽水(Ginger Soda)。
* 纽约客(New Yorker)：威士忌(Whiskey)、红酒(Red Wine)、柠檬汁(Lemon Juice)、糖水(Sugar Syrup)。
* 血腥玛莉(BIoody Mary)：伏特加(Vodka)、柠檬汁(Lemon Juice)、西红柿汁(Tomato Juice)、酸辣酱(Tabasco)、少量盐（Little Salt）

## Test08

In [8]:
cocktail = {
    'Blue Hawaiian': {'Rum', 'Sweet Wine', 'Cream', 'Pineapple Juice', 'Lemon Juice'},
    'Ginger Mojito': {'Rum', 'Ginger', 'Mint Leaves', 'Lime Juice', 'Ginger Soda'},
    'New Yorker': {'Whiskey', 'Red Wine', 'Lemon Juice', 'Sugar Syrup'},
    'Bloody Mary': {'Vodka', 'Lemon Juice', 'Tomato Juice', 'Tabasco', 'little Sale'}
    }

# 列出所有含 Vodka 的酒
for name, formulas in cocktail.items():
    if 'Vodka' in formulas:     
        print(name)

print('-' * 20)

# 列出含有 Lemon Juice 的酒
for name, formulas in cocktail.items():
    if 'Lemon Juice' in formulas:    
        print(name)

print('-' * 20)

# 列出含有 Rum 但是没有 Ginger 的酒
for name, formulas in cocktail.items():
    if 'Rum' in formulas and not ('Ginger' in formulas):
        print(name)

print('-' * 20)

# 列出含有 Lemon Juice 但是没有 Cream 或是 Tabasco 的酒
for name, formulas in cocktail.items():
    if 'Lemon Juice' in formulas and not formulas & {'Cream', 'Tabasco'}:  
        print(name)

Bloody Mary
--------------------
Blue Hawaiian
New Yorker
Bloody Mary
--------------------
Blue Hawaiian
--------------------
New Yorker
