### 本课提纲：
- 什么是集合
- 组合问题
- 贪心算法
- 练习

### 1. 什么是集合

前面的课程中我们学习了一些有用的数据类型，例如列表和字典，它们都可以处理一系列的数据，只是侧重点不同。有时候我们还希望从一个新角度来处理数据，例如说去除重复的元素。此时，集合就是一种非常有用的数据类型，我们来看一下python中如何来操纵集合。

In [1]:
x_list = [1,2,3,3]

x_list是一个列表，包括了四个元素，其它有两个是重复的，下面使用set来将它变成一个没有重复值的集合。

In [2]:
x_set = set(x_list)

In [4]:
print(x_set)
type(x_set)

{1, 2, 3}


set

我们可以从一个list来通过set函数来创建集合，可以看到集合的最重要特点在于，集合中的元素没有重复值。集合也可以通过大括号来定义，重复元素会被去除掉。

In [175]:
x_set = {1,2,3,3}
print(x_set)

{1, 2, 3}


一个经常用到的技巧是先创建一个空的集合，然后会往里面添加元素。

In [177]:
x_set = set()
x_set.add(2)
print(x_set)

{2}


类似列表一样，可以用in来判断元素是否处于集合之中。

In [178]:
2 in x_set

True

集合运算的特点在于可以计算并集、交集等运算。例如我们来看下面两个集合。

In [181]:
x_set = {'one','two',1,2}
y_set = {'two',1,'three'}

可以通过运算符|来计算到并集

In [182]:
x_set | y_set

{1, 2, 'one', 'three', 'two'}

通过&来计算得到交集

In [183]:
x_set & y_set

{1, 'two'}

通过比较符来看一个集合是否另一个集合的子集。

In [184]:
{1,2} <= x_set

True

还可以计算出一个集合中哪些元素是另一个集合中没有的。

In [185]:
x_set - y_set

{2, 'one'}

还可以通过update函数来将两个集合的元素进行合并。

In [192]:
x_set.update(y_set)
print(x_set)

{1, 2, 'two', 'three', 'one'}


小结：集合和列表的区别是集合中的元素不会重复，而且不同集合间可以进行求交集，求并集等集合特有的操作处理。

### 2. 组合

如果你有10张扑克牌，从这些牌中随意抽二张牌出来做一个组合，这种不重复的组合会有多少种呢，这是数学上经典的组合问题。我们先用一个有5个数字元素的集合来看一下。

In [5]:
x_set = {1,2,3,4,5}
y_set = x_set.copy()

这里我们定义了两个集合，分别都是由1到5这五个数字构成的，注意我们使用了copy函数，使y_set的内容和x_set一样。

In [6]:
for x in x_set:
    print(x)

1
2
3
4
5


然后用一个循环来遍历集合x，当x的某个数字取出来时，我们并不需要x和y重复的数字，所以使用remove函数把y中的数字删除，然后再用一个嵌套循环来遍历集合y。这样可以看到两个集合的组合最终会是什么样子。

In [229]:
for x in x_set:
    y = y_set.remove(x)
    for y in y_set:
        print(x,y)

1 2
1 3
1 4
1 5
2 3
2 4
2 5
3 4
3 5
4 5


用这个思路，我们来定义一个函数combin，这个函数的基本代码都是上面所讲到的双重循环，只不过增加的部分是用到一个列表output_list来存放组合后的元素，要注意一点，这里(x,y)组合对，我们叫作元组，元组和列表很相似，你也可以用方括号来代替，构成一个列表。

In [10]:
def combin(x_set):
    output_list = list()
    y_set = x_set.copy()
    for x in x_set:
        y = y_set.remove(x)
        for y in y_set:
            output_list.append((x,y))
    return output_list

In [11]:
combin(x_set)

[(1, 2),
 (1, 3),
 (1, 4),
 (1, 5),
 (2, 3),
 (2, 4),
 (2, 5),
 (3, 4),
 (3, 5),
 (4, 5)]

这个函数可以对x_set这个数字集合进行组合遍历，得到所有可能的两两组合。输入的内容可以不止是数字，也可以是字符串的一个集合。

In [14]:
x_set={'张','李','王','赵'}
combin(x_set)

[('张', '王'), ('张', '李'), ('张', '赵'), ('王', '李'), ('王', '赵'), ('李', '赵')]

和排序是类似的，我们虽然自己写了一个组合函数，其实python内部也有现成的组合函数，可以直接使用。不过要注意的是，这些内置函数是存放在一些模块中，我们需要告诉程序，我们需要从某个仓库里取出某个函数工具来用，这种操作称为加载模块。例如我们来加载导入一个模块中的函数

In [16]:
from itertools import combinations

上面的代码就是从itertools模块中，加载导入了其中一个叫作 combinations的函数。就好比是我们安装好的python是一个大大的仓库，仓库中的工具需要拿出来放到操作台上才能使用，加载导入就是这个动作。加载后就可以自由的使用这个函数了，这个函数有一个参数就是组合的方式，可以构成两元素组合，也可以三元素组合。

In [17]:
list(combinations(x_set,2))

[('张', '王'), ('张', '李'), ('张', '赵'), ('王', '李'), ('王', '赵'), ('李', '赵')]

In [18]:
list(combinations(x_set,3))

[('张', '王', '李'), ('张', '王', '赵'), ('张', '李', '赵'), ('王', '李', '赵')]

小结：可以用集合来解决组合问题，python中有很多工具，这些工具需要加载导入才能使用，加载导入的语句就是from 某个模块 import 某个工具。其中计算组合的工具就叫做combinations。

### 3. 贪心算法

下面我们想解决一个营养搭配的问题，假设我们有几种蔬菜水果可以选择，每种果蔬各自包含不同的营养成份，如果我们需要一个营养组成，如何选择最少的果蔬，使得这些营养都得到。

假设我们一共需要8种营养成份，这些信息我们存放在一个叫做nutrients的集合中。

In [27]:
nutrients = set(['a','b','c','d','e','f','g','h'])

然后用一个字典来存放7种果蔬和对应的营养成份。问题就是如何来选择最少的果蔬组合，使其营养成份达到标准。

In [28]:
foods = dict()
foods['香蕉'] = set(['a','c'])
foods['苹果'] = set(['b','c'])
foods['李子'] = set(['a','c','h'])
foods['西瓜'] = set(['d','e'])
foods['白菜'] = set(['f','h'])
foods['胡萝卜'] = set(['d','g'])
foods['西红柿'] = set(['c','d','e'])

In [29]:
foods

{'香蕉': {'a', 'c'},
 '苹果': {'b', 'c'},
 '李子': {'a', 'c', 'h'},
 '西瓜': {'d', 'e'},
 '白菜': {'f', 'h'},
 '胡萝卜': {'d', 'g'},
 '西红柿': {'c', 'd', 'e'}}

一种自然的思路是使用暴力求解的方法，也就是我们穷举出所有可能的果蔬组合，对每一种组合来看营养成份是否达到。那我们就加载导入之前学到的combinations函数。

In [188]:
from itertools import combinations

下面是所有2元素构成的组合。

In [189]:
list(combinations(foods.keys(),2))

[('香蕉', '苹果'),
 ('香蕉', '李子'),
 ('香蕉', '西瓜'),
 ('香蕉', '白菜'),
 ('香蕉', '胡萝卜'),
 ('香蕉', '西红柿'),
 ('苹果', '李子'),
 ('苹果', '西瓜'),
 ('苹果', '白菜'),
 ('苹果', '胡萝卜'),
 ('苹果', '西红柿'),
 ('李子', '西瓜'),
 ('李子', '白菜'),
 ('李子', '胡萝卜'),
 ('李子', '西红柿'),
 ('西瓜', '白菜'),
 ('西瓜', '胡萝卜'),
 ('西瓜', '西红柿'),
 ('白菜', '胡萝卜'),
 ('白菜', '西红柿'),
 ('胡萝卜', '西红柿')]

因为不清楚一个组合中2个元素的食物是否够，所以会去遍历所有k个元素的食物组合，这个k从2到7。下面来定义一个穷举的函数。

In [30]:
def brute_force(foods,nutrients,k):
    output_list = list()
    nutrients_selec = set()
    for food_list in combinations(foods.keys(),k):
        nutrients_selec = set()
        for food in food_list:
            nutrients_selec.update(foods[food])
        if nutrients <= nutrients_selec:
            output_list.append(food_list)
    return output_list
        

在上面的函数中，我们定义了一个双重循环，外层循环是对所有的果蔬组合进行遍历，内层循环是对某个组合中的所有元素进行遍历。将果蔬组合的营养成分进行合并，如果需要的营养成份是组合的营养成份的子集，我们就返回这个果蔬组合。函数的输入是可选择的果蔬食物，需要的营养，和组合参数k。

In [235]:
for i in range(len(foods)):
    output = brute_force(foods,nutrients,i)
    if len(output)>0:
        print(i)
        print(output)

5
[('香蕉', '苹果', '西瓜', '白菜', '胡萝卜'), ('香蕉', '苹果', '白菜', '胡萝卜', '西红柿'), ('苹果', '李子', '西瓜', '白菜', '胡萝卜'), ('苹果', '李子', '白菜', '胡萝卜', '西红柿')]
6
[('香蕉', '苹果', '李子', '西瓜', '白菜', '胡萝卜'), ('香蕉', '苹果', '李子', '白菜', '胡萝卜', '西红柿'), ('香蕉', '苹果', '西瓜', '白菜', '胡萝卜', '西红柿'), ('苹果', '李子', '西瓜', '白菜', '胡萝卜', '西红柿')]


然后我们用一个循环来显示出所有可能的组合参数，我们发现在5种以下的果蔬组合是不可能达到营养标准的，所以最少是5种食物的组合，发现其中有4个组合是营养达标的。

另一种巧妙的思路是使用贪婪方法，又称为贪心算法。其基本思想是，只看当前这一步，如何能使这当前一步的操作，最大化的满足需求。回到果蔬组合的例子中，我们先遍历所有的果蔬，看哪一种果蔬可以覆盖最多的营养，然后再看剩下的果蔬中，哪一种可以覆盖剩下未覆盖的营养成份。以此类推。

In [33]:
def greedy_func(foods, nutrients):
    final_food = set()
    while nutrients:
        best_food = None
        nutrient_covered = set()
        for food,nutrient in foods.items(): # 遍历所有的果蔬，求出营养覆盖最多
            covered = nutrients & nutrient  # 求交集
            if len(covered) > len(nutrient_covered):
                best_food = food
                nutrient_covered = covered
        nutrients = nutrients - nutrient_covered # 将覆盖的营养成份从原来的集合中去除
        final_food.add(best_food)  # 将对应的食物加入空集
    return final_food

In [34]:
greedy_func(foods,nutrients)

{'李子', '白菜', '胡萝卜', '苹果', '西瓜'}

小结：从这个例子可以对比贪心算法的答案和穷举的答案，可以看到贪心算法只提供了一种解答，而穷举得到了所有四种解答。不过，贪心算法的速度会比穷举快很多。

###  练习

贪心算法另一种经典应用是换硬币问题，如果我们手上有一定金额的钱，需要换成硬币，如何使用最少的硬币来换。

In [49]:
coins = [1,2,5,10,20,50,100]     #1分，2分，5分，1角，2角，5角，1元
coin_cnt = [10,10,10,10,10,10,10] # 存储每种硬币的数量
money = 13.2  # 需要换的总额
money = money*100


先用列表来定义可用的硬币面值和硬币数量，再定义需要换钱的金额是13.2元。

用一个字典来保存换硬币的面值和量，存在change里。基于贪心算法，也从面值最大的硬币换起，看最大面值的硬币能换多少个。如果需要硬币数量超过能提供的硬币个数，则将n变为能提供的硬币个数。最后一步是关键，需要将原来的金额money进行修改，改成前面换硬币后剩下的金额，使用减法进行了更新。

In [50]:
change = {}
# 要想用的钱币数量最少，那么需要利用所有面值大的钱币，因此从数组的面值大的元素开始遍历
i = len(coins)-1
while i >= 0: 
    if money >= coins[i]:
        n = int(money / coins[i]) # 需要硬币个数
        if n >= coin_cnt[i]: # 需要硬币数量超过能提供的硬币个数
            n = coin_cnt[i]  # 更新n
        change[coins[i]] = n # 用字典更新
        money = money - n * coins[i] # 令总金额动态的改变，
        print("使用了{x}面额硬币{y}个".format(x=int(coins[i]), y=n))
    i = i-1
print(change)


使用了100面额硬币10个
使用了50面额硬币6个
使用了20面额硬币1个
{100: 10, 50: 6, 20: 1}


### 本课小结：
- 集合是一种很有用的数据类型，它和列表的区别在于只考虑不重复的元素。
- 从集合出发，我们学习了组合这种概念，并用暴力穷举的思路完成了营养搭配这种组合问题。
- 最后我们学习了贪心算法，贪心算法在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，它所做出的是在某种意义上的局部最优解。