# 第八章 贪婪算法

贪婪算法的核心思想：**每一步都采取局部最优解**，最终得到的就是全局最优解

## 一、NP完全问题

NP完全问题：Non-deterministic Polynomial, 多项式复杂程度的非确定性问题，世界七大数学难题之一。
- 对于NP完全问题，还没有找到快速解决方案
- 面临NP完全问题时，最佳的做法是使用近似算法

NP完全问题经验判断方法：
- 元素较少时算法运行速度非常快，但随着元素增加，速度会变得非常慢
- 涉及‘所有组合’的问题通常都是NP完全问题
- 不能将问题分成小问题，必须考虑各种可能的情况。这可能是NP完全问题
- 如果涉及到序列（如旅行商中的城市序列）且难以解决，可能是NP完全问题
- 如果问题涉及集合（如广播台集合覆盖问题）且难以解决，可能是NP完全问题
- 如果问题可转换为集合覆盖问题或旅行商问题，那么肯定是NP完全问题

 ## 二、集合覆盖问题

问题描述：假设你办了个广播节目，要让全美个州的听众都收听得到，为此，你需要决定在哪些广播台播出。在每个广播台播出都需要支付费用，因此你试图在尽可能少的广播台播出。广播台名单略（见P121）。每个广播台都覆盖特定的区域，不同广播台的覆盖区域可能重叠。
-  如何找出覆盖全美个州的最小广播台合集呢？

解决思路和步骤：
- 1） 列出每个可能的广播台集合，这被称为幂集（power set）。可能的子集有2^n个。
- 2） 在这些集合中，选出覆盖全美50个州的最小集合。

由于集合为幂集，计算每个可能的广播台自己需要很长时间，速度会非常慢。这里可以尝试采用贪婪算法。

### 集合覆盖问题的贪婪算法实现过程

步骤：
- 选出这样一个广播台，即它**覆盖了最多未覆盖的州**。即便这个广播台覆盖了一些已覆盖的州（就是重复覆盖），也没有关系。
- 重复第一步，直到覆盖了所有的州

In [1]:
# 定义目标需要覆盖的州：集合
states_needed = set(["mt", "wa", "or", "id", "nv", "ut", "ca", "az"])
# 定义广播台及其所覆盖的州：散列表+集合
stations = {}
stations["kone"] = set(["id", "nv", "ut"])
stations["ktwo"] = set(["wa", "id", "mt"])
stations["kthree"] = set(["or", "nv", "ca"])
stations["kfour"] = set(["nv", "ut"])
stations["kfive"] = set(["ca", "az"])

In [2]:
stations

{'kfive': {'az', 'ca'},
 'kfour': {'nv', 'ut'},
 'kone': {'id', 'nv', 'ut'},
 'kthree': {'ca', 'nv', 'or'},
 'ktwo': {'id', 'mt', 'wa'}}

In [3]:
# 定义一个集合：存储最终选择出来的州 （每次选出来目标州后，相应的需要从states_needed中删除被选出的州，直至states_needed中不再存在元素）
final_stations = set()
# 定义一个变量，存储每一次选出来的最合适的station
best_station = None               # 初始条件下，为None

# 算法实现
# while循环：当states_needed为空，停止循环
while states_needed:
    # 定义一个变量，存储每一轮for中station与states_needed交集最多的情况下的交集，即交集中的元素州的集合
    states_covered = set()            # 初始条件下，为空集合；for中根据station与states_needed交集情况更新；每一轮for之后，重置为空集合
    
    # station的for循环：每一轮for都要遍历所有的station，找出交集最多的州
    # 每一轮for执行完后，选出一个最合适的州
    for station, states in stations.items():
        covered = states & states_needed           # station的for中，单个station覆盖的州与目标州集合的交集
        if len(covered) > len(states_covered):     # 判断该交集与states_covered元素个数
            states_covered = covered               # 元素多的赋值给states_covered,以便与下一个station和states_needed的交集进行比较
            best_station = station                 # 对应的州作为更合适的州赋值给best_station
    
    # for后，将best_station添加到final_stations中
    final_stations.add(best_station)
    # for后，将best_station与states_needed的交集中的州从states_needed中删除
    states_needed -= states_covered

In [4]:
final_stations

{'kfive', 'kone', 'kthree', 'ktwo'}

In [5]:
a = []

In [6]:
for x in final_stations:
    a += stations[x]                # 注意list.append(list_arr) 和 list += list_arr的却别

- list.append(list_arr)：将list_arr作为一个整体加入到list列表中，新增元素个数为1
- list += list_arr：将list_arr中的元素逐个加入到list列表中，新增元素个数为len(list_arr)

In [7]:
a

['or', 'ca', 'nv', 'az', 'ca', 'id', 'ut', 'nv', 'id', 'mt', 'wa']

In [8]:
set(a)

{'az', 'ca', 'id', 'mt', 'nv', 'or', 'ut', 'wa'}

## 三、旅行商问题

问题描述：旅行商需要前往n个不同的城市，找出前往该n个城市的最短路径。（未指定出发城市，即每一个城市都可以作为出发城市）
- n个城市的路线，有A(n,n) 即n!种路线。如果需要准确解，算法运行的速度会非常非常慢。
- 寻求近似解即可。

### 旅行商问题的近似解思路

- 随便选择出发城市（即随机指定起点），然后每次选择要去的下一个城市时，都选择**还没去**的**最近**的城市。

## 四、小结
- 贪婪算法寻找局部最优解，企图以这种方式获得全局最优解。
- 贪婪算法易于实现、运行速度快，是不错的近似算法。
- 广度优先搜索、迪杰斯特拉算法是贪婪算法。