贪心算法是指，在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，他所做出的是在某种意义上的局部最优解而非全局最优解。

#### 1. 前向最大匹配  分词算法之一

分词算法就是根据一个字典对一个句子进行分词

In [3]:
sentence = '我在学习贪心算法'
words = ['我', '在', '学习', '贪心', '贪心算法', '算法']

def forwardMaxMatch(sentence, words, max_len=5):
    res = []
    while sentence:
        for i in range(max_len):
            st = sentence[:max_len-i]
            if st in words:
                res.append(st)
                sentence = sentence[max_len-i:]
                break
        else:
            # 遇到不在字典里面的词了
            # 这里st、i这两个变量是最后一个for循环执行完后的值
            res.append(st)
            sentence = sentence[max_len-i:]
            
    return res
    
    
forwardMaxMatch(sentence, words)

['我', '在', '学习', '贪心算法']

#### 2.后向最大匹配 
其实就是根据向前最大匹配稍微修改下即可

In [5]:
def backwardMaxMatch(sentence, words, max_len=5):
    res = []
    while sentence:
        for i in range(max_len):
            st = sentence[i-max_len:]
            if st in words:
                res.append(st)
                sentence = sentence[:i-max_len]
                break
        else:
            # 遇到不在字典里面的词了
            # 这里st、i这两个变量是最后一个for循环执行完后的值
            res.append(st)
            sentence = sentence[:i-max_len]
            
    return res[::-1]

backwardMaxMatch(sentence, words)

['我', '在', '学习', '贪心算法']

#### 3. 维特比算法求最短路径

<img src="../static/images/algorithm_2_DAG.png" width=60%, height=60%></img>

如图，求A到E的最短路径，但这个一开始有点复杂，我们先从简单的开始，看下图：

<img src="../static/images/algorithm_2_DAG2.png" width=65%, height=65%></img>

先转成邻接表矩阵，如下dataframe显示，S行A列表示从点S到点A的距离为6，同理A行E列表示从点A到点E的距离为1，如此类推

In [44]:
from pandas import DataFrame

idx = ['S', 'A', 'B', 'E']
data = [
    [0, 6, 2, 0],
    [0, 0, 0, 1],
    [0, 3, 0, 5],
    [0, 0, 0, 0]
]
df = DataFrame(data, index=idx, columns=idx)

df

Unnamed: 0,S,A,B,E
S,0,6,2,0
A,0,0,0,1
B,0,3,0,5
E,0,0,0,0


In [49]:
def f(data, idx):
    if idx == 0:
        return 0
    return min(f(data, i)+v[idx] for i, v in enumerate(data) if v[idx] > 0)

# 上面过程比较精简 不理解可以用下面这段等同的代码，进行调试
#     nums = []
#     for i, v in enumerate(data):
#         if v[idx] > 0:
#             nums.append(v[idx]+f(data, i))
#     return min(nums)

f(data, 3)

6

In [50]:
# 只看图一的A、B1、B2、B3、C2点时（求A点到C2点最短距离）
data1 = [
    [0, 6, 7, 5, 0],
    [0, 0, 0, 0, 6],
    [0, 0, 0, 0, 3],
    [0, 0, 0, 0, 6],
    [0, 0, 0, 0, 0],
]
f(data1, 4)

10

上面的算法 使用了递归的方式，但没有做缓存，所以当数据量大的时候会存在很多重复计算，改进一下

In [51]:
count = {}

def f(data, idx):
    if idx == 0:
        return 0
    if idx in count:
        return count[idx]
    count[idx] = min(f(data, i)+v[idx] for i, v in enumerate(data) if v[idx] > 0)
    return count[idx]


f(data, 3)

6

In [None]:
#  TODO 