# 算法

## A星算法（A*算法）
是一种用于图搜索和路径规划的算法，它结合了Dijkstra算法和启发式搜索（如A*算法中的启发式函数）来找到从起点到终点的最优路径。下面是A*算法的基本步骤和实现。

### 1. 理解需求
我们需要实现A*算法并对其进行测试。首先明确一下需求：
- 输入：一个图（可以用网格表示），起点和终点。
- 输出：从起点到终点的最优路径。
- 启发式函数：我们将使用曼哈顿距离（适用于网格）。

### 2. 思路
A*算法的核心是维护一个开放列表和一个封闭列表：
- 开放列表包含所有待评估的节点。
- 封闭列表包含已经评估过的节点。

每个节点都有三个重要值：
- `g`：从起点到当前节点的实际代价。
- `h`：当前节点到终点的估计代价（启发式）。
- `f`：节点的总估计代价（`f = g + h`）。

算法步骤：
1. 初始化起点的`g`值为0，`h`值为起点到终点的估计代价，`f`值为`g + h`。
2. 将起点添加到开放列表中。
3. 当开放列表不为空时：
   - 从开放列表中取出`f`值最小的节点。
   - 如果该节点是终点，则构造路径并返回。
   - 否则，将其从开放列表移到封闭列表中。
   - 对于每个相邻节点：
     - 如果在封闭列表中，则跳过。
     - 计算相邻节点的`g`、`h`和`f`值。
     - 如果相邻节点不在开放列表中，或者新的`f`值更小：
       - 更新相邻节点的`g`、`h`和`f`值。
       - 将相邻节点添加到开放列表中。






In [1]:
import heapq

def heuristic(a, b):
    return abs(a[0] - b[0]) + abs(a[1] - b[1])

def a_star(graph, start, goal):
    neighbors = [(0, 1), (1, 0), (0, -1), (-1, 0)]
    open_list = []
    heapq.heappush(open_list, (0, start))
    came_from = {}
    g_score = {start: 0}
    f_score = {start: heuristic(start, goal)}
    
    while open_list:
        current = heapq.heappop(open_list)[1]
        
        if current == goal:
            path = []
            while current in came_from:
                path.append(current)
                current = came_from[current]
            path.append(start)
            return path[::-1]
        
        for i, j in neighbors:
            neighbor = (current[0] + i, current[1] + j)
            tentative_g_score = g_score[current] + 1
            
            if 0 <= neighbor[0] < len(graph) and 0 <= neighbor[1] < len(graph[0]) and graph[neighbor[0]][neighbor[1]] == 0:
                if neighbor in g_score and tentative_g_score >= g_score[neighbor]:
                    continue
                
                came_from[neighbor] = current
                g_score[neighbor] = tentative_g_score
                f_score[neighbor] = tentative_g_score + heuristic(neighbor, goal)
                heapq.heappush(open_list, (f_score[neighbor], neighbor))
    
    return []

# 测试
def print_path(grid, path):
    for step in path:
        grid[step[0]][step[1]] = "*"
    for row in grid:
        print(" ".join(str(col) for col in row))

grid = [
    [0, 1, 0, 0, 0],
    [0, 1, 0, 1, 0],
    [0, 0, 0, 1, 0],
    [0, 1, 0, 0, 0],
    [0, 0, 0, 1, 0]
]

start = (0, 0)
goal = (4, 4)
path = a_star(grid, start, goal)
print("Path from", start, "to", goal, "is:", path)
print_path(grid, path)


Path from (0, 0) to (4, 4) is: [(0, 0), (1, 0), (2, 0), (2, 1), (2, 2), (3, 2), (3, 3), (3, 4), (4, 4)]
* 1 0 0 0
* 1 0 1 0
* * * 1 0
0 1 * * *
0 0 0 1 *


### 4. 代码评论
- `heuristic` 函数计算当前节点到目标节点的曼哈顿距离。
- `a_star` 函数实现了A*算法，使用优先队列（最小堆）来管理开放列表。
- `print_path` 函数用于打印找到的路径。

莱文斯坦距离（Levenshtein Distance），又称编辑距离，是一个用来衡量两个字符串之间的差异程度的算法。它计算将一个字符串转换成另一个字符串所需的最少编辑操作次数，这些操作包括插入、删除和替换。

### 1. 思路

莱文斯坦距离可以使用动态规划来实现。我们创建一个二维数组 `dp`，其中 `dp[i][j]` 表示将字符串 `word1` 的前 `i` 个字符转换成 `word2` 的前 `j` 个字符所需的最少操作次数。

动态规划的递推公式为：
- 如果 `word1[i] == word2[j]`，则 `dp[i][j] = dp[i-1][j-1]`。
- 否则，`dp[i][j] = min(dp[i-1][j] + 1, dp[i][j-1] + 1, dp[i-1][j-1] + 1)`，分别对应删除、插入和替换操作。







In [2]:
def levenshtein_distance(word1, word2):
    len1, len2 = len(word1), len(word2)
    dp = [[0] * (len2 + 1) for _ in range(len1 + 1)]

    # 初始化边界条件
    for i in range(len1 + 1):
        dp[i][0] = i
    for j in range(len2 + 1):
        dp[0][j] = j

    # 填充dp数组
    for i in range(1, len1 + 1):
        for j in range(1, len2 + 1):
            if word1[i - 1] == word2[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(dp[i - 1][j] + 1,  # 删除
                               dp[i][j - 1] + 1,  # 插入
                               dp[i - 1][j - 1] + 1)  # 替换

    return dp[len1][len2]

# 测试
word1 = "kitten"
word2 = "sitting"
distance = levenshtein_distance(word1, word2)
print(f"The Levenshtein distance between '{word1}' and '{word2}' is {distance}.")


The Levenshtein distance between 'kitten' and 'sitting' is 3.


### 3. 代码评论
- `dp` 是一个二维数组，其中 `dp[i][j]` 存储将 `word1` 的前 `i` 个字符转换为 `word2` 的前 `j` 个字符所需的最小操作次数。
- 初始条件 `dp[i][0]` 和 `dp[0][j]` 分别表示将字符串转换为空字符串所需的删除和插入操作次数。
- 对于每个字符 `word1[i-1]` 和 `word2[j-1]`，如果它们相同，则无需额外操作，否则选择删除、插入或替换操作中代价最小的一个。

# 排序

## 选择排序

选择排序（Selection Sort）是一种简单直观的排序算法。其基本思路是每次从未排序的部分选择最小的元素，放到已排序部分的末尾。以下是选择排序的步骤和一个简单的例子：

1. **初始化已排序部分为空**。
2. **从未排序部分选择最小的元素**。
3. **将选择的元素移到已排序部分的末尾**。
4. **重复以上步骤，直到所有元素均已排序**。

### 例子说明
假设我们要对数组 `[64, 25, 12, 22, 11]` 进行选择排序。

1. 初始数组：[64, 25, 12, 22, 11]
2. 第一次选择最小的元素 `11`，并将其与第一个元素交换：
   - 数组状态：[11, 25, 12, 22, 64]
3. 第二次选择最小的元素 `12`，并将其与第二个元素交换：
   - 数组状态：[11, 12, 25, 22, 64]
4. 第三次选择最小的元素 `22`，并将其与第三个元素交换：
   - 数组状态：[11, 12, 22, 25, 64]
5. 第四次选择最小的元素 `25`，并将其与第四个元素交换：
   - 数组状态：[11, 12, 22, 25, 64]
6. 数组已排序完成。

### 代码实现
以下是 Python 实现选择排序的代码：



In [3]:

def selection_sort(arr):
    n = len(arr)
    for i in range(n):
        # 找到剩余部分中最小的元素
        min_idx = i
        for j in range(i + 1, n):
            if arr[j] < arr[min_idx]:
                min_idx = j
        # 交换最小元素到已排序部分的末尾
        arr[i], arr[min_idx] = arr[min_idx], arr[i]
    return arr

# 示例数组
arr = [64, 25, 12, 22, 11]
print(selection_sort(arr))



[11, 12, 22, 25, 64]



### 输出结果
```
[11, 12, 22, 25, 64]
```

这个代码利用嵌套的循环结构，每次选择未排序部分的最小元素，并将其与已排序部分的末尾元素交换，直至排序完成。

## 插入排序

插入排序（Insertion Sort）是一种简单直观的排序算法，它的基本思想是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。以下是插入排序的步骤和你提供的伪代码转换为 Python 代码的实现：
```python
function insertion_sort(list)
    for i ← 2 … list.length
        j ← i
        while j and list[j-1] > list[j]
            list.swap_items(j, j-1)
            j ← j - 1
```
### 伪代码解释
1. **从第二个元素开始**，将其插入到前面已排序的部分。
2. **将当前元素与前面已排序部分的元素比较**，如果当前元素小于前面的元素，就交换它们的位置。
3. **重复上述过程**，直到当前元素找到其正确位置。

### 伪代码转换为 Python 代码


In [4]:

def insertion_sort(lst):
    for i in range(1, len(lst)):
        j = i
        while j > 0 and lst[j - 1] > lst[j]:
            lst[j], lst[j - 1] = lst[j - 1], lst[j]
            j -= 1
    return lst

# 示例数组
arr = [9, 3, 1, 5, 4]
print(insertion_sort(arr))


[1, 3, 4, 5, 9]




### 输出结果
```
[1, 3, 4, 5, 9]
```

这个代码通过嵌套的 `for` 和 `while` 循环实现插入排序，将每个元素插入到前面已排序部分的正确位置，最终完成排序。

## 快速排序

快速排序（Quicksort）是一种高效的排序算法，利用分治策略将数组分成更小的子数组，并递归地排序这些子数组。以下是快速排序的步骤和一个简单的例子：

1. **选择基准元素**：从数组中选择一个元素作为基准（pivot）。
2. **分区操作**：重新排列数组，使所有比基准小的元素移到基准的左边，所有比基准大的元素移到基准的右边。这个过程称为分区操作。
3. **递归排序子数组**：对基准左右两边的子数组分别递归进行快速排序。

### 例子说明
假设我们要对数组 `[3, 6, 8, 10, 1, 2, 1]` 进行快速排序。

1. **选择基准**：选择 `3` 作为基准。
2. **分区操作**：
   - 初始数组：[3, 6, 8, 10, 1, 2, 1]
   - 分区结果：[1, 2, 1, 3, 6, 8, 10]
3. **递归排序**：
   - 左子数组：[1, 2, 1]
     - 选择 `1` 作为基准。
     - 分区结果：[1, 1, 2]
   - 右子数组：[6, 8, 10]
     - 选择 `8` 作为基准。
     - 分区结果：[6, 8, 10]

排序完成后的数组为 `[1, 1, 2, 3, 6, 8, 10]`。

### 代码实现
以下是 Python 实现快速排序的代码：


In [5]:


def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for x in arr if x == pivot]
    right = [x for x in arr if x > pivot]
    return quicksort(left) + middle + quicksort(right)

# 示例数组
arr = [3, 6, 8, 10, 1, 2, 1]
print(quicksort(arr))


[1, 1, 2, 3, 6, 8, 10]




### 输出结果
```
[1, 1, 2, 3, 6, 8, 10]
```

这个代码利用列表推导式和递归实现了快速排序，选择中间元素作为基准并进行分区，最后合并结果。

## 归并排序

归并排序（Merge Sort）是一种基于分治法的排序算法。它的基本思想是将数组分成两个子数组，分别排序，然后将两个有序的子数组合并成一个有序的数组。以下是归并排序的步骤和实现代码：

### 归并排序步骤
1. **将数组分成两个子数组**，直到每个子数组只有一个元素。
2. **递归地对每个子数组进行归并排序**。
3. **合并两个有序的子数组**，得到一个有序的数组。

### 代码实现


In [6]:


def merge_sort(arr):
    if len(arr) <= 1:
        return arr
    
    # 分割数组
    mid = len(arr) // 2
    left_half = merge_sort(arr[:mid])
    right_half = merge_sort(arr[mid:])
    
    # 合并两个有序数组
    return merge(left_half, right_half)

def merge(left, right):
    sorted_array = []
    i = j = 0
    
    # 合并两个有序数组
    while i < len(left) and j < len(right):
        if left[i] < right[j]:
            sorted_array.append(left[i])
            i += 1
        else:
            sorted_array.append(right[j])
            j += 1
    
    # 将剩余元素加入到结果中
    sorted_array.extend(left[i:])
    sorted_array.extend(right[j:])
    
    return sorted_array

# 示例数组
arr = [38, 27, 43, 3, 9, 82, 10]
print(merge_sort(arr))


[3, 9, 10, 27, 38, 43, 82]




### 输出结果
```
[3, 9, 10, 27, 38, 43, 82]
```

这个代码通过递归地将数组分成两个子数组，然后合并两个有序数组，最终实现了归并排序。每次合并两个子数组时，确保结果数组是有序的。

# 搜索

## 顺序搜索
顺序搜索（Sequential Search）是一种简单的搜索算法，适用于无序列表。其基本思想是逐一检查列表中的每个元素，直到找到目标元素或检查完所有元素为止。以下是顺序搜索的实现步骤和代码：

### 顺序搜索步骤
1. **从列表的第一个元素开始**，逐一检查每个元素。
2. **比较当前元素与目标元素**，如果相等，则返回元素的位置。
3. **如果当前元素与目标元素不相等**，继续检查下一个元素。
4. **如果检查完所有元素**，没有找到目标元素，则返回一个指示未找到的标志（如 `-1`）。

### 代码实现



In [7]:

def sequential_search(lst, target):
    for index, element in enumerate(lst):
        if element == target:
            return index
    return -1

# 示例数组和目标元素
arr = [5, 3, 7, 1, 9, 4]
target = 7
result = sequential_search(arr, target)

if result != -1:
    print(f"Element found at index {result}")
else:
    print("Element not found")


Element found at index 2




### 输出结果
```
Element found at index 2
```

这个代码实现了顺序搜索算法，通过 `for` 循环和 `enumerate` 函数逐一检查列表中的每个元素，找到目标元素的位置并返回。如果在列表中找不到目标元素，则返回 `-1` 表示未找到。

---
在搜索平衡二叉查找树中的数据时，其时 间复杂度仅为 $\mathcal{O}(1) (\log n)$。
如果元素位于排序数组中，也可以通过二分查找进行搜索，这种算法的 时间复杂度同样为 $\mathcal{O}(1) (\log n)$。二分查找在每一步使搜索空间缩小一半。

## 散列表搜索
散列表（Hash Table）是一种通过计算键的散列值来确定元素存储位置的数据结构。由于散列操作在平均情况下是常数时间复杂度，即 $\mathcal{O}(1)$，因此搜索速度非常快。以下是使用散列表进行搜索的示例：

### 散列表搜索步骤
1. **构建散列表**：将元素插入散列表中，每个元素的键通过散列函数计算得到其存储位置。
2. **搜索元素**：通过计算目标元素的键的散列值，直接访问该位置来找到元素。

### 代码实现



In [8]:
# 创建一个简单的散列函数
def hash_function(key, size):
    return key % size

# 插入元素到散列表
def insert(hash_table, key, value):
    hash_key = hash_function(key, len(hash_table))
    hash_table[hash_key].append((key, value))

# 搜索元素
def search(hash_table, key):
    hash_key = hash_function(key, len(hash_table))
    for (k, v) in hash_table[hash_key]:
        if k == key:
            return v
    return None

# 初始化散列表
size = 10
hash_table = [[] for _ in range(size)]

# 插入示例数据
insert(hash_table, 10, 'apple')
insert(hash_table, 20, 'banana')
insert(hash_table, 30, 'cherry')
insert(hash_table, 25, 'date')

# 搜索元素
key_to_search = 20
result = search(hash_table, key_to_search)

if result:
    print(f"Element found for key {key_to_search}: {result}")
else:
    print("Element not found")


Element found for key 20: banana




### 输出结果
```
Elements at hash key 20: ['banana']
```

### 说明
- **散列函数**：`hash_function` 使用简单的取模运算（`key % size`）来计算散列值。
- **插入元素**：`insert` 函数将元素插入到散列表中计算得到的索引位置。
- **搜索元素**：`search` 函数通过计算目标元素键的散列值，直接访问散列表的相应位置来找到元素。

这个例子展示了如何使用散列表进行高效的元素查找。通过计算键的散列值，我们可以在常数时间内直接访问元素，适用于处理大量数据时的快速搜索需求。

# 图算法

## 图的搜索

![alt text](image-1.png)



深度优先搜索（DFS）沿着图的边逐渐深入，当到达某个与任何新结点 都没有边相连的结点时，就返回前一个结点并继续上述过程。栈用于跟踪搜索路径：探索到结点时将其压入栈中，并在需要返回时从栈中弹出结点。


In [9]:
class Node:
    def __init__(self, key):
        self.key = key
        self.connected_nodes = []

def dfs(start_node, key):
    next_nodes = []
    seen_nodes = set()

    next_nodes.append(start_node)
    seen_nodes.add(start_node)

    while next_nodes:
        node = next_nodes.pop()
        if node.key == key:
            return node
        for n in node.connected_nodes:
            if n not in seen_nodes:
                next_nodes.append(n)
                seen_nodes.add(n)
    return None

# 创建节点
nodeA = Node('A')
nodeB = Node('B')
nodeC = Node('C')
nodeD = Node('D')
nodeE = Node('E')
nodeF = Node('F')

# 构建图
nodeA.connected_nodes = [nodeB, nodeC]
nodeB.connected_nodes = [nodeD, nodeE]
nodeC.connected_nodes = [nodeF]
nodeE.connected_nodes = [nodeF]

# 调用DFS函数
found_node = dfs(nodeA, 'F')
if found_node:
    print(f"Node with key '{found_node.key}' found.")
else:
    print("Node not found.")


Node with key 'F' found.



### 代码说明

1. **Node 类**：表示图中的节点，每个节点有一个 `key` 和一个 `connected_nodes` 列表，用于存储邻接节点。
2. **DFS 函数**：
    - `next_nodes`：使用列表实现栈，用于存储待访问的节点。
    - `seen_nodes`：使用集合存储已访问的节点，防止重复访问。
    - 初始化时将 `start_node` 压入栈并标记为已访问。
    - 主循环中，弹出栈顶节点并检查其 `key` 是否为目标 `key`，如果找到目标节点，则返回该节点。
    - 否则，将未访问的邻接节点压入栈并标记为已访问。
3. **创建节点并构建图**：手动创建节点并设置各节点的邻接关系。
4. **调用 DFS 函数**：从起始节点开始搜索目标节点，并根据搜索结果打印相应的信息。

通过这种方式，我们实现了与伪代码功能相同的深度优先搜索算法。

---
广度优先搜索（BFS）。它逐层对图进行探索：从起始结点的相邻结点开始，然后是相邻结点的相邻结点，以此类推。队列用于跟踪访问的结点。完成某个结点的探索后，我们将它的子结点插入队列，然后取出下一个结点进行探索。

In [10]:
from collections import deque

class Node:
    def __init__(self, key):
        self.key = key
        self.connected_nodes = []

def bfs(start_node, key):
    next_nodes = deque()
    seen_nodes = set()

    next_nodes.append(start_node)
    seen_nodes.add(start_node)

    while next_nodes:
        node = next_nodes.popleft()
        print(f"Visiting node: {node.key}")  # 打印当前访问的节点
        if node.key == key:
            return node
        for n in node.connected_nodes:
            if n not in seen_nodes:
                next_nodes.append(n)
                seen_nodes.add(n)
    return None

# 创建节点
nodeA = Node('A')
nodeB = Node('B')
nodeC = Node('C')
nodeD = Node('D')
nodeE = Node('E')
nodeF = Node('F')

# 构建图
nodeA.connected_nodes = [nodeB, nodeC]
nodeB.connected_nodes = [nodeD, nodeE]
nodeC.connected_nodes = [nodeF]
nodeE.connected_nodes = [nodeF]

# 调用BFS函数
found_node = bfs(nodeA, 'F')
if found_node:
    print(f"Node with key '{found_node.key}' found.")
else:
    print("Node not found.")


Visiting node: A
Visiting node: B
Visiting node: C
Visiting node: D
Visiting node: E
Visiting node: F
Node with key 'F' found.




### 代码说明

1. **Node 类**：表示图中的节点，每个节点有一个 `key` 和一个 `connected_nodes` 列表，用于存储邻接节点。
2. **BFS 函数**：
    - `next_nodes`：使用 `deque` 实现队列，用于存储待访问的节点。
    - `seen_nodes`：使用集合存储已访问的节点，防止重复访问。
    - 初始化时将 `start_node` 加入队列并标记为已访问。
    - 主循环中，弹出队列头部节点并检查其 `key` 是否为目标 `key`，如果找到目标节点，则返回该节点。
    - 否则，将未访问的邻接节点加入队列并标记为已访问。
3. **创建节点并构建图**：手动创建节点并设置各节点的邻接关系。
4. **调用 BFS 函数**：从起始节点开始搜索目标节点，并根据搜索结果打印相应的信息。

### 输出示例

假设从 `nodeA` 开始，访问顺序将是 `A -> B -> C -> D -> E -> F` 或者其他顺序，但总是按层次逐层访问。最终会找到 `nodeF` 并打印相关信息。

通过这种方式，我们实现了与伪代码功能相同的广度优先搜索算法。

## 图着色

图着色问题描述如下：给定固定数量的“颜色”（或其他任何一组标签），必须为图中的每个结点分配一种颜色，且通过边相连的结点 不能共享同一种颜色。

图着色问题可以通过回溯算法来解决。回溯算法尝试为每个节点分配颜色，如果发现某个节点无法分配合法颜色，则回溯到上一个节点并尝试其他颜色。以下是一个图着色问题的 Python 实现，假设图的每个节点都有一个唯一的标识符，并且有固定数量的颜色可供选择。



In [11]:

class Graph:
    def __init__(self, nodes):
        self.nodes = nodes  # 图的节点列表
        self.adjacency_list = {node: [] for node in nodes}  # 初始化邻接表

    def add_edge(self, node1, node2):
        self.adjacency_list[node1].append(node2)
        self.adjacency_list[node2].append(node1)

def is_safe(node, color, coloring, graph):
    for neighbor in graph.adjacency_list[node]:
        if coloring[neighbor] == color:
            return False
    return True

def graph_coloring_util(graph, colors, coloring, node_index):
    if node_index == len(graph.nodes):
        return True

    node = graph.nodes[node_index]
    for color in colors:
        if is_safe(node, color, coloring, graph):
            coloring[node] = color
            if graph_coloring_util(graph, colors, coloring, node_index + 1):
                return True
            coloring[node] = None

    return False

def graph_coloring(graph, colors):
    coloring = {node: None for node in graph.nodes}
    if not graph_coloring_util(graph, colors, coloring, 0):
        return None
    return coloring

# 示例用法
nodes = ['A', 'B', 'C', 'D', 'E', 'F']
graph = Graph(nodes)
graph.add_edge('A', 'B')
graph.add_edge('A', 'C')
graph.add_edge('B', 'C')
graph.add_edge('B', 'D')
graph.add_edge('B', 'E')
graph.add_edge('C', 'F')
graph.add_edge('E', 'F')

colors = ['Red', 'Green', 'Blue', 'Yellow']
coloring = graph_coloring(graph, colors)

if coloring:
    print("Graph coloring is possible with the given colors:")
    for node, color in coloring.items():
        print(f"Node {node} is colored {color}")
else:
    print("Graph coloring is not possible with the given colors")


Graph coloring is possible with the given colors:
Node A is colored Red
Node B is colored Green
Node C is colored Blue
Node D is colored Red
Node E is colored Red
Node F is colored Green




### 代码说明

1. **Graph 类**：表示图，包含节点列表和邻接表。
2. **add_edge 方法**：添加两个节点之间的边。
3. **is_safe 函数**：检查为某节点分配某颜色是否安全，即该节点的所有邻居节点没有相同的颜色。
4. **graph_coloring_util 函数**：使用回溯算法尝试为节点分配颜色。如果为当前节点分配颜色后能为下一个节点分配颜色，则返回 `True`。否则，撤销当前节点的颜色分配并尝试其他颜色。
5. **graph_coloring 函数**：初始化颜色分配，并调用 `graph_coloring_util` 开始图着色。如果着色成功，返回颜色分配结果；否则返回 `None`。




这实现了给定图的有效着色，每个相邻节点都有不同的颜色。

是否能找到一种仅使用 3 种甚至 2 种 颜色的解决方案？实际上，寻找有效颜色分配所需的最少颜色数量是一 种 NP 完全问题，只能采用指数算法求解。

In [12]:
def find_minimum_colors(graph):
    for num_colors in range(1, len(graph.nodes) + 1):
        colors = [f"Color{i}" for i in range(num_colors)]
        coloring = graph_coloring(graph, colors)
        if coloring:
            return num_colors, coloring
    return None, None

min_colors, coloring = find_minimum_colors(graph)

if coloring:
    print(f"Minimum number of colors needed: {min_colors}")
    for node, color in coloring.items():
        print(f"Node {node} is colored {color}")
else:
    print("Graph coloring is not possible with the given colors")

Minimum number of colors needed: 3
Node A is colored Color0
Node B is colored Color1
Node C is colored Color2
Node D is colored Color0
Node E is colored Color0
Node F is colored Color1



### 代码说明

1. **find_minimum_colors 函数**：
    - 逐步增加颜色的数量，从 1 到节点数量。
    - 每次尝试不同数量的颜色调用 `graph_coloring`。
    - 如果找到一个有效的颜色分配，则返回所需的最小颜色数量和颜色分配。
    - 如果所有尝试都失败，则返回 `None`。



## 最短路径 dijkstra 算法

In [13]:
import heapq

class Graph:
    def __init__(self):
        self.edges = {}
        self.nodes = set()
    
    def add_edge(self, from_node, to_node, weight):
        if from_node not in self.edges:
            self.edges[from_node] = []
        self.edges[from_node].append((to_node, weight))
        self.nodes.update([from_node, to_node])

def dijkstra(graph, start_node):
    # 初始化最短路径字典，所有节点的最短路径初始化为无穷大
    shortest_paths = {node: float('infinity') for node in graph.nodes}
    shortest_paths[start_node] = 0
    
    # 使用优先队列（最小堆）存储待处理的节点
    priority_queue = [(0, start_node)]
    heapq.heapify(priority_queue)
    
    while priority_queue:
        current_distance, current_node = heapq.heappop(priority_queue)
        
        if current_distance > shortest_paths[current_node]:
            continue
        
        for neighbor, weight in graph.edges.get(current_node, []):
            distance = current_distance + weight
            
            if distance < shortest_paths[neighbor]:
                shortest_paths[neighbor] = distance
                heapq.heappush(priority_queue, (distance, neighbor))
    
    return shortest_paths

# 示例用法
graph = Graph()
graph.add_edge('A', 'B', 1)
graph.add_edge('A', 'C', 4)
graph.add_edge('B', 'C', 2)
graph.add_edge('B', 'D', 5)
graph.add_edge('C', 'D', 1)

start_node = 'A'
shortest_paths = dijkstra(graph, start_node)

print(f"Shortest paths from {start_node}:")
for node, distance in shortest_paths.items():
    print(f"Distance to {node}: {distance}")


Shortest paths from A:
Distance to A: 0
Distance to C: 3
Distance to B: 1
Distance to D: 4




### 代码说明

1. **Graph 类**：表示图，包含节点及其邻居和边权重的字典。
2. **add_edge 方法**：添加边，边由起始节点、终止节点和边的权重组成。
3. **dijkstra 函数**：
    - 初始化最短路径字典，将所有节点的最短路径初始化为无穷大，起始节点的最短路径为 0。
    - 使用优先队列存储待处理的节点。
    - 通过优先队列不断选择当前距离最短的节点，并更新其邻居节点的最短路径。
    - 返回所有节点的最短路径。



<img src="image.png" alt="alt text" width="50%">

测试图片中的数据,计算采用戴克斯特拉算法寻找从 JFK（肯尼迪国际机场）到 GVA （日内瓦国际机场）的最短路线

In [14]:
# Define the graph based on the provided image data
graph = Graph()
graph.add_edge('JFK', 'LAX', 25)
graph.add_edge('JFK', 'HKG', 80)
graph.add_edge('LAX', 'MEX', 15)
graph.add_edge('LAX', 'GRU', 60)
graph.add_edge('MEX', 'GRU', 50)
graph.add_edge('GRU', 'CDG', 60)
graph.add_edge('CDG', 'SYD', 105)
graph.add_edge('CDG', 'DME', 15)
graph.add_edge('CDG', 'GVA', 5)
graph.add_edge('GVA', 'SYD', 100)
graph.add_edge('GVA', 'DME', 15)

# Find the shortest path from JFK to GVA
start_node = 'JFK'
shortest_paths = dijkstra(graph, start_node)

print(f"Shortest paths from {start_node}:")
for node, distance in shortest_paths.items():
    print(f"Distance to {node}: {distance}")

# Specific shortest path to GVA
print(f"Shortest path from {start_node} to GVA: {shortest_paths['GVA']}")

Shortest paths from JFK:
Distance to GRU: 85
Distance to CDG: 145
Distance to GVA: 150
Distance to DME: 160
Distance to SYD: 250
Distance to JFK: 0
Distance to HKG: 80
Distance to MEX: 40
Distance to LAX: 25
Shortest path from JFK to GVA: 150


## PageRank 算法

理解 Google 是如何利用 PageRank 算法来确定网页的重要性的。

### PageRank 算法的基本步骤

1. **建模**：将万维网建模为一个有向图，节点代表网页，边代表网页之间的超链接。
2. **初始分值**：每个网页都被赋予一个初始的 PageRank 值，通常是相同的分值。
3. **分值传播**：
    - 每轮计算中，每个网页的 PageRank 分值被分发给它链接的其他网页。
    - 分发的量由当前网页的 PageRank 值和它的出链接数目决定。
4. **迭代计算**：这个过程持续多轮，直到 PageRank 值达到稳定，即所有网页的 PageRank 值在连续两轮之间的变化低于某个阈值。
5. **结果应用**：稳定后的 PageRank 值用来衡量网页的重要性。具有较高 PageRank 值的网页被认为更重要。

### PageRank 在其他领域的应用

PageRank 算法不仅可以应用于网页之间的链接关系，还可以应用于其他任何可以建模为图的系统。例如，可以用它来分析社交网络中的用户。

### 在 Twitter 中应用 PageRank

1. **建模**：将 Twitter 用户建模为一个图，节点代表用户，边代表用户之间的关注关系。
2. **初始分值**：每个用户被赋予一个初始的 PageRank 值。
3. **分值传播**：每个用户的 PageRank 分值被分发给他关注的用户。
4. **迭代计算**：重复上述过程直到 PageRank 值达到稳定。
5. **结果分析**：具有较高 PageRank 值的用户可能是重要人物，因为他们受到了很多其他重要用户的关注。

### 代码示例

以下是一个简单的 Python 示例，使用 NetworkX 库计算 Twitter 用户的 PageRank。



In [15]:

import networkx as nx

# 创建一个有向图
G = nx.DiGraph()

# 添加用户和关注关系 (假设有以下关注关系)
edges = [('UserA', 'UserB'), ('UserA', 'UserC'), ('UserB', 'UserC'), ('UserC', 'UserA')]
G.add_edges_from(edges)

# 计算 PageRank
pagerank = nx.pagerank(G)

# 输出每个用户的 PageRank 值
for user, rank in pagerank.items():
    print(f"{user}: {rank}")


UserA: 0.387789442707259
UserB: 0.21481051315058508
UserC: 0.3974000441421556


In [16]:
from collections import defaultdict

# # 定义关注关系
# edges = [('UserA', 'UserB'), ('UserA', 'UserC'), ('UserB', 'UserC'), ('UserC', 'UserA')]

# 创建一个字典来记录每个用户被关注的次数
followers_count = defaultdict(int)

# 计算每个用户被关注的次数
for follower, followed in edges:
    followers_count[followed] += 1

# 输出每个用户的被关注次数
for user, count in followers_count.items():
    print(f"{user} 被关注了 {count} 次")


UserB 被关注了 1 次
UserC 被关注了 2 次
UserA 被关注了 1 次




### 结论

PageRank 值较高的用户通常受到更多重要用户的关注，因此可能是重要人物。通过这种方式，PageRank 可以帮助我们在社交网络中识别出具有影响力的用户。

接下来你可以尝试在更大的社交网络图上应用这个算法，或者探索其他基于图的算法来分析网络中的关系和影响力。

# 运筹学

第二次世界大战期间，英国陆军需要做出最佳的战略决策以便优化作战 效果。为寻求协调军事行动的最佳方法，军方开发了多种分析工具。    
 这种实践被命名为**运筹学**，这门学科改进了英国早期的预警雷达系统， 并帮助政府更好地管理人力与资源。战争期间，数百位英国科学家致力 于运筹学的研究；二战结束后，新的理念在优化企业与行业的流程中得 到了应用。运筹学涉及定义**最大化**或**最小化**的目标，它有助于在最大程 度上提高收益、利润或绩效，并尽可能降低损失、风险或成本。    
 例如，航空公司利用运筹学来优化航班时刻表；对劳动力与设备调度进 行微调能节省数百万美元的开支;此外，炼油厂需要在混合原料中找出最佳配比，这也可以被视为一个运筹学问题。

## 线性最优化问题
如果可以利用线性方程 对问题的目标与约束条件进行建模，则称其为线性最优化问题。本节将讨论如何求解这类问题。

文件柜采购 　办公室需要采购文件柜。文件柜 X 的价格为 10 美元，占地 6 平方英尺，能存放 8 立方英尺的文件；文件柜 Y 的价格为 20 美元，占地 8 平方英尺，能存放 12 立方英尺的文件。如果预算为 140 美元，且办公室有 72 平方英尺的空间可以放置文件柜，那么如何采购才能存放最多的文件？

这是一个经典的线性最优化问题。我们需要最大化文件存放量，同时满足预算和空间的约束条件。

### 问题建模

我们需要定义目标函数和约束条件：

- **变量**：
  - $x $：购买文件柜 X 的数量   
  - $y $：购买文件柜 Y 的数量   

- **目标函数**：
  - 最大化存放量 $ Z = 8x + 12y $   

- **约束条件**：
  - 价格约束： $ 10x + 20y \leq 140 $   
  - 空间约束： $ 6x + 8y \leq 72 $   
  - 非负约束： $ x \geq 0, y \geq 0 $   

### 用 Python 解决线性最优化问题

我们可以使用 SciPy 库中的 `linprog` 函数来求解这个线性规划问题。



In [17]:

from scipy.optimize import linprog

# 目标函数的系数 (因为linprog默认是求最小值，所以需要把最大化问题转换为最小化问题，乘以-1)
c = [-8, -12]

# 约束条件系数矩阵
A = [
    [10, 20],  # 价格约束
    [6, 8]     # 空间约束
]

# 约束条件右侧的常数
b = [140, 72]

# 变量的非负约束
x0_bounds = (0, None)
x1_bounds = (0, None)

# 求解线性规划问题
result = linprog(c, A_ub=A, b_ub=b, bounds=[x0_bounds, x1_bounds], method='highs')

# 输出结果
print(f"最佳采购方案: 文件柜 X 购买 {result.x[0]} 个, 文件柜 Y 购买 {result.x[1]} 个")
print(f"最大化的文件存放量为: {-result.fun} 立方英尺")



最佳采购方案: 文件柜 X 购买 8.0 个, 文件柜 Y 购买 3.0 个
最大化的文件存放量为: 100.0 立方英尺


现已证明，线性问题的最优解必须是这个约束封闭区域的某个角点，它是各个约束条件的交叉点。单纯形法检查这些角点，从中选出使 z 最优的角点。
### Simplex Method

In [18]:
# Solve the problem using Simplex Method
result = linprog(c, A_ub=A, b_ub=b, bounds=[x0_bounds, x1_bounds], method='simplex')

# Output results
print(f"Optimal number of cabinets X: {result.x[0]}")
print(f"Optimal number of cabinets Y: {result.x[1]}")
print(f"Maximum storage volume: {-result.fun} cubic feet")

Optimal number of cabinets X: 8.0
Optimal number of cabinets Y: 3.0
Maximum storage volume: 100.0 cubic feet


  result = linprog(c, A_ub=A, b_ub=b, bounds=[x0_bounds, x1_bounds], method='simplex')


## 网络流问题

补给网络 　连接各个城市的铁路线构成了铁路网。每条铁路线具有最大运力，即每日可运送的最大物资流量。那么从一个给定的生产城市可以运送多少物资到一个给定的消费城市？     
约束条件如下：所有铁路线不能超过其运力； 除生产与消费城市外，所有城市的物资流入量必须与物资流出量相等。 接下来需要选择变量的值，以便使接收城市的物资流入量最大化



这个问题可以用网络流模型来表示和求解。我们可以将铁路网络看作一个有向图，其中每个城市是一个节点，每条铁路线是一条有向边，边的容量就是该铁路线的最大运力。我们再引入一个源点 s 连接到生产城市，一个汇点 t 连接到消费城市，它们的边容量设为无穷大。这样，原问题就转化为求该网络的最大流问题。

我们可以定义如下的线性规划模型来求解该最大流问题：

## 定义变量
- $x_{ij}$: 铁路线 $(i,j)$ 上的物资流量，$i,j$ 为城市编号

## 目标函数
最大化从源点流向汇点的总流量，即
$$\max \sum_{j} x_{sj}$$

## 约束条件
1. 容量限制：每条铁路线的流量不能超过其运力 $c_{ij}$ 
$$x_{ij} \leq c_{ij}, \forall (i,j)$$

2. 流量平衡：除源汇点外，每个城市的流入量等于流出量
$$\sum_j x_{ij} - \sum_k x_{ki} = 0, \forall i \neq s,t$$

3. 非负性：所有变量必须非负
$$x_{ij} \geq 0, \forall (i,j)$$

这个线性规划模型可以用单纯形法求解。求得最优解后，$x_{ij}$ 的值就给出了每条铁路线上的最优物资流量，$\sum_{j} x_{sj}$ 的值就是从生产城市到消费城市的最大物资流量。

除了单纯形法，求解最大流问题还有一些专门的组合优化算法，如Ford-Fulkerson算法和Edmonds-Karp算法等，它们通过寻找增广路来不断增加流量，直到达到最大流。这些算法往往比通用的线性规划算法更高效。

总之，将铁路补给问题抽象为网络流模型，并用优化方法求解，可以高效地给出最优调度方案。这体现了运筹学的思想和方法在实际问题中的应用。

In [6]:
from scipy.optimize import linprog

def max_flow_simplex(edges, source, sink):
    # 构建网络流问题的线性规划模型
    
    # 定义变量
    var_names = [f'x_{u}_{v}' for u, v, _ in edges]
    
    # 定义目标函数系数
    obj = [0] * len(var_names)
    
    # 定义约束条件系数矩阵
    eq_matrix = []
    eq_rhs = []
    ineq_matrix = []
    ineq_rhs = []
    
    # 容量限制
    for i, (u, v, c) in enumerate(edges):
        row = [0] * len(var_names)
        row[i] = 1
        ineq_matrix.append(row)
        ineq_rhs.append(c)
    
    # 流量守恒
    nodes = set(u for u, _, _ in edges) | set(v for _, v, _ in edges)
    for node in nodes:
        if node == source or node == sink:
            continue
        row = [0] * len(var_names)
        for i, (u, v, _) in enumerate(edges):
            if u == node:
                row[i] = 1
            elif v == node:
                row[i] = -1
        eq_matrix.append(row)
        eq_rhs.append(0)
    
    # 源点流出量等于汇点流入量
    row = [0] * len(var_names)
    for i, (u, v, _) in enumerate(edges):
        if u == source:
            row[i] = 1
        elif v == sink:
            row[i] = -1
    eq_matrix.append(row)
    eq_rhs.append(0)
    
    # 求解线性规划
    res = linprog(c=obj, A_ub=ineq_matrix, b_ub=ineq_rhs, 
                  A_eq=eq_matrix, b_eq=eq_rhs, method='simplex')
    
    # 提取最大流值
    max_flow = round(sum(res.x[i] for i, (u, v, _) in enumerate(edges) if v == sink))
    
    return max_flow

# 测试
edges = [('s', '1', 10), ('s', '2', 5), 
         ('1', '2', 2), ('1', '3', 4), ('1', '4', 8),
         ('2', '4', 9), ('3', 't', 10), ('4', '3', 6), ('4', 't', 10)]
source, sink = 's', 't'

max_flow_value = max_flow_simplex(edges, source, sink)
print(f"从 {source} 到 {sink} 的最大流为: {max_flow_value}")

从 s 到 t 的最大流为: 15


  res = linprog(c=obj, A_ub=ineq_matrix, b_ub=ineq_rhs,
  res = linprog(c=obj, A_ub=ineq_matrix, b_ub=ineq_rhs,


PuLP 是一个用于线性规划的 Python 库，它提供了简单的接口来定义问题、添加约束条件和求解最优解。以下是使用 PuLP 求解铁路补给问题的示例代码：

In [7]:
# !pip install pulp  # 安装 PuLP, 一个线性规划库
from pulp import *
from pulp import *

# 定义网络结构
nodes = ['s', '1', '2', '3', '4', 't']
edges = [('s', '1', 10), ('s', '2', 5), 
         ('1', '2', 2), ('1', '3', 4), ('1', '4', 8),
         ('2', '4', 9), ('3', 't', 10), ('4', '3', 6), ('4', 't', 10)]

# 定义问题
prob = LpProblem("Supply Network Problem", LpMaximize)

# 定义变量
# 对于每条边,定义一个变量表示其流量
vars = LpVariable.dicts("route", edges, 0)

# 定义目标函数
# 目标是最大化从源点's'到汇点't'的流量
prob += lpSum(vars[('s', j, c)] for _, j, c in edges if _ == 's')

# 添加约束条件
# 约束1:每条边的流量不超过其容量
for u, v, c in edges:
    prob += vars[(u, v, c)] <= c

# 约束2:除了源点和汇点,每个节点的流入等于流出
for n in nodes:
    if n != 's' and n != 't':
        prob += lpSum(vars[(i, j, c)] for i, j, c in edges if j == n) == lpSum(vars[(i, j, c)] for i, j, c in edges if i == n)

# 求解问题        
prob.solve()

# 打印结果
print("Status:", LpStatus[prob.status])
for v in prob.variables():
    print(v.name, "=", v.varValue)
print("Maximum flow from 's' to 't':", value(prob.objective))

Welcome to the CBC MILP Solver 
Version: 2.10.3 
Build Date: Dec 15 2019 

command line - /Users/chenyu/anaconda3/envs/pylearning/lib/python3.10/site-packages/pulp/solverdir/cbc/osx/64/cbc /var/folders/q5/bscl3yqx4dlfyz05vjg3cwbr0000gn/T/60f4ae496dc242ca9b4f2990c019f9db-pulp.mps -max -timeMode elapsed -branch -printingOptions all -solution /var/folders/q5/bscl3yqx4dlfyz05vjg3cwbr0000gn/T/60f4ae496dc242ca9b4f2990c019f9db-pulp.sol (default strategy 1)
At line 2 NAME          MODEL
At line 3 ROWS
At line 18 COLUMNS
At line 44 RHS
At line 58 BOUNDS
At line 59 ENDATA
Problem MODEL has 13 rows, 9 columns and 23 elements
Coin0008I MODEL read with 0 errors
Option for timeMode changed from cpu to elapsed
Presolve 0 (-13) rows, 0 (-9) columns and 0 (-23) elements
Empty problem - 0 rows, 0 columns and 0 elements
Optimal - objective value 15
After Postsolve, objective 15, infeasibilities - dual 0 (0), primal 0 (0)
Optimal objective 15 - 0 iterations time 0.002, Presolve 0.00
Option for printingOpt



使用ford_fulkerson方法

In [10]:
from collections import defaultdict

def bfs(graph, s, t, parent):
    visited = defaultdict(lambda: False)
    queue = []
    queue.append(s)
    visited[s] = True
    
    while queue:
        u = queue.pop(0)
        for ind, val in enumerate(graph[u]):
            if visited[ind] == False and val > 0:
                queue.append(ind)
                visited[ind] = True
                parent[ind] = u

    return True if visited[t] else False

def ford_fulkerson(graph, source, sink):
    parent = defaultdict(lambda: -1)
    max_flow = 0

    while bfs(graph, source, sink, parent):
        path_flow = float("Inf")
        s = sink
        while s != source:
            path_flow = min(path_flow, graph[parent[s]][s])
            s = parent[s]

        max_flow += path_flow
        v = sink
        while v != source:
            u = parent[v]
            graph[u][v] -= path_flow
            graph[v][u] += path_flow
            v = parent[v]

    return max_flow

# 定义网络结构
nodes = ['s', '1', '2', '3', '4', 't']
edges = [('s', '1', 10), ('s', '2', 5), 
         ('1', '2', 2), ('1', '3', 4), ('1', '4', 8),
         ('2', '4', 9), ('3', 't', 10), ('4', '3', 6), ('4', 't', 10)]


# 构建残余图
graph = [[0] * len(nodes) for _ in range(len(nodes))]
for u, v, c in edges:
    graph[nodes.index(u)][nodes.index(v)] = c

source = nodes.index('s')
sink = nodes.index('t')

max_flow = ford_fulkerson(graph, source, sink)
print("Maximum flow from 's' to 't':", max_flow)

Maximum flow from 's' to 't': 15


In [11]:
import networkx as nx

# 定义网络结构
edges = [('s', '1', 10), ('s', '2', 5), 
         ('1', '2', 2), ('1', '3', 4), ('1', '4', 8),
         ('2', '4', 9), ('3', 't', 10), ('4', '3', 6), ('4', 't', 10)]

# 创建有向图
G = nx.DiGraph()

# 添加边及其容量
for u, v, c in edges:
    G.add_edge(u, v, capacity=c)

# 使用网络流算法求解最大流
source = 's'
sink = 't'
flow_value, flow_dict = nx.maximum_flow(G, source, sink)

print(f"Maximum flow from '{source}' to '{sink}': {flow_value}")
print("Flow paths:")
for node in flow_dict:
    for neighbor in flow_dict[node]:
        if flow_dict[node][neighbor] > 0:
            print(f"{node} -> {neighbor}: {flow_dict[node][neighbor]}")


Maximum flow from 's' to 't': 15
Flow paths:
s -> 1: 10
s -> 2: 5
1 -> 3: 4
1 -> 4: 6
2 -> 4: 5
3 -> t: 5
4 -> 3: 1
4 -> t: 10
