# 算法图解学习
   *  主要目的是学习不同基础算法的优缺点，对症下药

## 二分查找
* 性能的理解：对于有序范围内，需要多少个步骤完成，步骤越少计算复杂度越少
* 二分法只适用于有序列表
* 对数时间 O(log(n, 2))

In [None]:
def binary_search(lst, item):
    # 从lst中找到item
    low = 0
    high = len(lst) - 1
    while low <= high:
        mid = (low + high)//2 # 中间位置
        guess = lst[mid]
        if guess == item:
            return mid
        if guess > item:
            high = mid - 1
        else:
            low = mid + 1
    return None

In [None]:
my_lst = [1, 2, 3, 4, 10, 15, 33]
print(binary_search(my_lst, 10))

### 旅行商问题
有个旅行商，旅途中需要经过五个城市，需要总路径最短，设计旅程顺序
* 此处讨论 O(n!)算法
对每个顶点进行计算 是个阶乘问题，但是k近邻会有个近似答案

## 选择排序
* 许多算法都是需要先对数据进行排序才行，例如二分查找， 因此需要优秀的排序算法
* 数据的存储不一定是顺序的，因为顺序，及需要一片连续的内存，不是最大化利用内存的，而内存的为一个小小区域都是有编号的，因此，可以利用编号组成一个 链表
* 但是链表如果当读取某个元素时并不高效，需要知道之前的所有编号，而数组就可以直接读出

|   |数组|链表|
  | ---- | ----  | ----  |
  |读取|O(1)|O(n)|
  |插入|O(n)|O(1)|
  |删除|O(n)|O(1)|
 
 * 数组与list 概念不要混淆，数组中所有元素类型必须相同（int， double）

In [None]:
def find_smallest(arr):
    smallest = arr[0]
    smallest_index = 0
    for i in range(1, len(arr)):
        if arr[i] < smallest:
            smallest = arr[i]
            smallest_index = i
    return smallest_index

In [None]:
def sellection_sort(arr):
    new_arr = []
    for i  in range(len(arr)):
        smallest = find_smallest(arr)
        new_arr.append(arr.pop(smallest))
    return new_arr

In [None]:
print(sellection_sort([5, 2, 4, 6]))

## 递归
* 三部曲：基本情况、改变状态向基本情况靠近，调用自己（初始条件，缩小规模，调用自身）
* 也有的说：基线条件、递归条件
* “如果使用循环，程序的性能可能更高；如果使用递归，程序可能更容易理解”

### 栈
* 后进先出 (last in first out)LIFO
* 调用栈 call stack
 - 计算机在内部使用被称为调用栈的栈
 - 调用另一个函数时，当前函数处于暂停状态

In [None]:
def greet(name):
    print('hello, '+name+ '!')
    greet2(name)
    print('getting ready to say bye...' )
    bye()

def greet2(name):
    print('how are you, '+ name)

def bye():
    print('ok, bye!')

In [None]:
greet('hudong')

调用greet('hudong'),计算机将为该函数调用分配一块内存，变量将被写入当执行到greet2时，计算机也会为这个函数分配一块内存，计算机使用一个栈来表示这些内存块，greet2内存块在greet上面，当执行完how are you, hudong后，从函数调用返回，栈顶的内存块被弹出,后面的bye()将在getting ready to say bye...后面被分配在greet内存块的上面。

* 递归调用栈

In [None]:
# 计算阶乘
def fact(x):
    if x == 1:
        return 1
    else:
        return x * fact(x-1)

In [None]:
fact(3)

## 快速排序
* 分而治之  --通用的问题解决方法(D&C divide and conquer)
* 快速排序使用了分而治之的方法

### 分而治之
* D&C算法是递归的 需要解决三部曲
* 是一种解决问题的思路
* 使用D&C处理列表问题时，基线条件很可能时空数组或者只包含一个元素的数组

In [None]:
def sum_list(lst):
    '''
    其实sum 函数是一种分而治之的思路
    '''
#     if not lst: # 结束条件：
#         return 0
    if len(lst) == 1:
        return lstt[0]
#     else:
    return  lst[0] + sum_list(lst[1:])


In [None]:
lst = [1, 2, 3, 4]
sum_list(lst)

In [None]:
# 实现统计列表元素个数的
def tongji_lst_len(lst):
    if not lst: # 结束条件
        return 0
#     else:
    return  1 + tongji_lst_len(lst[1:])

In [None]:
lst = [1, 2, 3, 4]
tongji_lst_len(lst)

In [None]:
# 找出列表中最大的数字：
def find_max(lst):
    if not lst: # 结束条件
        return None
#     else:
    cur_max = lst[0]
    last_max = find_max(lst[1:])
    if last_max:
        return last_max if last_max > cur_max  else cur_max
#     else:
    return cur_max


#  图解答案：
def max(list):
    if len(list) == 2:
        return list[0] if list[0] >list[1] else list[1]
    sub_max = max(list[1:])
    return list[0] if list[0] > sub_max else sub_max 

In [None]:
lst = [1, 10, 3, 4]
find_max(lst)

In [None]:
# 用分而治之的递归思想写出二分查找：
def binary_search_I(lst, x):
    # 第一步：基线条件：只有一个数时候返回，0个数退出
    if not lst or  len(lst) == 1:
        return 0
    # 第二步缩小规模：
    mid_index = len(lst)//2
    left_lst = lst[:mid_index]
    right_lst = lst[mid_index:]
    if x in left_lst:
        return binary_search_I(left_lst, x)
    elif x in right_lst:
        return mid_index + binary_search_I(right_lst, x)
    else:
        print('Not exist '+ str() +' in lst')
# python数据结构与算法：
def binary_search_II(lst, x):
     # 第一步：基线条件：只有一个数时候返回，0个数退出
    if not lst :
        return False
    # 第二步缩小规模：
    mid_index = len(lst)//2
    if lst[mid_index] == x:
        return True
    else:
        if x < left_lst[mid_index]:
            return binary_search_II(lst[:mid_index], x)
        else:
            return mid_index + binary_search_I(lst[mid_index+1:], x)


In [None]:
lst = [1, 2, 3, 4]
binary_search_I(lst, 3)

### 快速排序
* c 语言标准库的qsort()是用快速排序实现的
* 使用了分而治之的思想
* 最坏情况下Olog(n^2, 2) 平均情况下O(n log(n, 2))

### 合并排序(merge sort)
* n log(n)

In [None]:
def quick_sort(lst):
    # 最基本结束条件：
    # 当数组中只有一个或零个，就是原数组
    if len(lst) < 2:
        return lst
    # 找出数组中的基准值 pivot，然后分区 partitioning
    # 因此有[ <pivot] 、pivot、 [ >pivot].
    else:
        pivot = lst[0]
        less = [i for i in lst[1:] if i <= pivot]
        greater = [i for i in lst[1:] if i > pivot]
        return quick_sort(less) + [pivot] + quick_sort(greater)    

In [None]:
quick_sort([1,52,5,23,5])

In [None]:
def merge_sort(lst):
    # 拆分列表，按大小顺序合并列表
    # 第一步：当数组中只有一个或零个，就是原数组，不用排序
    print('Splitting ', lst)
    if len(lst) > 1:
        mid = len(lst) // 2
        lefthalf = lst[:mid]
        righthalf = lst[mid:]
        
        merge_sort(lefthalf)
        merge_sort(righthalf)
        
        i = 0
        j = 0
        k = 0
        while i < len(lefthalf) and j < len(righthalf):
            if lefthalf[i] < righthalf[j]:
                lst[k] = lefthalf[i]
                i += 1
            else:
                lst[k] = righthalf[j]
                j += 1
            k += 1
            
        while i < len(lefthalf):
            lst[k] = lefthalf[i]
            i += 1
            k += 1
            
        while j < len(righthalf):
            lst[k] = righthalf[j]
            j += 1
            k += 1
    print('Merging ', lst)
    

In [None]:
merge_sort([1,52,5,23,5])

## 散列表（dict）
* 应用
  - 查找、用作缓存
* 实现、冲突、散列函数
  - 散列函数：将不同的输入映射为不同的数字
* 适用于: 
  - 模拟映射关系
  - 防止重复
  - 缓存/记住数据，以免服务器再通过处理来生成它们
* 冲突（collision）:两个键分配相同位置
* 性能比较：

|   |数组|链表|hash最好情况|hash最坏情况|
| ---- | ----  | ----  | --- | --- |
|读取|O(1)|O(n)|O(1) |O(n)|
|插入|O(n)|O(1)|O(1)|O(n)|
|删除|O(n)|O(1)|O(1)|O(n)|

* 一旦填装因子大于0.7就该调整长度了
* 栈不能用于查找

## 广度优先搜索(breadth-first search, BFS)
* 解决两类问题:
  * 从节点A出发，有前往B的路径吗？
  * 从节点A出发，前往节点B的哪条路径最短

* 运行时间
  * 查找的时候每条边都在考虑范围内：O(E)
  * 每个人都要加入队列O(V)
  * 因此O(V+E)

### 队列
* 操作： 入队，出队
* 先入先出 (first in first out) FIFO

### 实现算法
* 1. 创建一个队列，用于存储要检查的人
* 2. 从队列中弹出一个节点
* 3. 检查是不是目标节点
    - yes，成功
    - No， 将这个节点的所有相邻节点加入队列
    - 标记已经找过的节点以防止循环
* 4. 回到第二步
* 5. 列表为空，说明没有该目标节点

In [None]:
from collections import deque


graph ={}
graph['you'] = ['alice', 'bob', 'claire']
graph['alice'] = ['peggy']
graph['bob'] = ['anuj', 'peggy']
graph['claire'] = ['thom', 'jonny']
graph['anuj']=[]
graph['peggy']=[]
graph['thom']=[]
graph['jonny']=[]

def bfs(graph):
    search_queue = deque()
    search_queue += graph['you']
    searched = []
    while search_queue:
        person = search_queue.popleft()# 取出第一个人
        if person not in searched:
            if person_is_seller(person):
                print(person + ' is a mango seller')
                return True
            else:
                searched.append(person)
                search_queue += graph[person]
    return False

def person_is_seller(name):
    return name[-1] ==  'm'

In [None]:
bfs(graph)

## 狄克斯特拉算法（Dijkstra's algorithm）
* 求加权图中到某个顶点的总权重最小路径
* 只适用于有向无环图(DGA)
* 无负边权（其处理过的节点将无到该节点的更短路径）
* 包含负边权使用 贝尔曼-福德（Bellman-Ford）算法

### 步骤
* 找出最小权重到达的顶点
* 更新该节点到达其他顶点的权值
* 重复上述
* 计算最终路径

In [1]:
graph = {}

In [10]:
graph['start'] = {}
graph['start']['a'] = 6
graph['start']['b'] = 2

graph['a'] = {}
graph['a']['fin'] = 1

graph['b'] = {}
graph['b']['a'] = 3
graph['b']['fin'] = 5 

graph['fin'] = {}

# python 中的无穷大：
infinity = float('inf')
costs = {}
costs['a'] = 6
costs['b'] = 2
costs['fin'] = infinity

# 存储父节点：
parents = {}
parents['a'] = 'start'
parents['b'] = 'start'
parents['fin'] = None




# 使用一个数组来记录处理过的节点，因为当一个节点不用处理多次
processed = []

def find_lowest_cost_node(costs):
    '''
    在未处理的节点中找出开销最小的节点
    '''
    lowest_cost = float('inf')
    lowest_cost_node = None
    for node in costs:
        cost = costs[node]
        if cost < lowest_cost and node not in processed:
            lowest_cost = cost
            lowest_cost_node = node
    return lowest_cost_node

node = find_lowest_cost_node(costs)  # 在未处理的节点中找出开销最小的节点
while node is not None:
    cost = costs[node]
    neighbors = graph[node]
    for n in neighbors.keys():  # 相邻节点
        new_cost = cost + neighbors[n]  # 以当前节点为出发点计算开销
        if costs[n] > new_cost:
            costs[n] = new_cost  # 更新相邻节点的开销
            parents[n] = node   # 将当前节点作为该邻居节点的父节点
        
    processed.append(node)
    node = find_lowest_cost_node(costs)

print(costs)


{'a': 5, 'b': 2, 'fin': 6}


## 贪婪算法
* 一种解决问题非常简单的策略
* 每步都采用最优的作法(每一步都是局部最优)
* 大致解决问题的解