## 高级排序算法

#### 1、归并排序（Merge Sort）

归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序，再使子序列段间有序。若将两个有序表合并成一个有序表，称为2-路归并。 

##### 1.1 算法描述

- 把长度为n的输入序列分成两个长度为n/2的子序列；
- 对这两个子序列分别采用归并排序；
- 将两个排序好的子序列合并成一个最终的排序序列。

##### 1.2 动图演示1
![avatar](mergeSort.gif)

##### 1.2 动图演示2
![avatar](Merge-sort.gif)

[^_^]:
![avatar](https://images2017.cnblogs.com/blog/849589/201710/849589-20171015230557043-37375010.gif)

In [6]:
# 归并排序
def merge(left, right):
    result = []
    while left and right:
        if left[0] <= right[0]:
            result.append(left.pop(0))
        else:
            result.append(right.pop(0))
    if left:
        result += left
    if right:
        result += right
    return result


def merge_sort(L):
    if len(L) <= 1:
        # When D&C to 1 element, just return it
        return L
    mid = len(L) // 2
    left = L[:mid]
    right = L[mid:]

    left = merge_sort(left)
    right = merge_sort(right)
    # conquer sub-problem recursively
    return merge(left, right)
    # return the answer of sub-problem


if __name__ == "__main__":
    test = [1, 4, 2, 3.6, -1, 0, 25, -34, 8, 9, 1, 0]
    print("original:", test)
    print("Sorted:", merge_sort(test))

original: [1, 4, 2, 3.6, -1, 0, 25, -34, 8, 9, 1, 0]
Sorted: [-34, -1, 0, 0, 1, 1, 2, 3.6, 4, 8, 9, 25]


#### 2、快速排序（Quick Sort）
快速排序的基本思想：通过一趟排序将待排记录分隔成独立的两部分，其中一部分记录的关键字均比另一部分的关键字小，则可分别对这两部分记录继续进行排序，以达到整个序列有序。

##### 2.1 算法描述
快速排序使用分治法来把一个串（list）分为两个子串（sub-lists）。具体算法描述如下：

- 从数列中挑出一个元素，称为 “基准”（pivot）；
- 重新排序数列，所有元素比基准值小的摆放在基准前面，所有元素比基准值大的摆在基准的后面（相同的数可以到任一边）。在这个分区退出之后，该基准就处于数列的中间位置。这个称为分区（partition）操作；
- 递归地（recursive）把小于基准值元素的子数列和大于基准值元素的子数列排序。
##### 2.2 动图演示

![avatar](quickSort.gif)

[^_^]:
![avatar](https://images2017.cnblogs.com/blog/849589/201710/849589-20171015230936371-1413523412.gif)

In [5]:
# 快速排序
def quick_sort(numbers):
    import random
    if len(numbers) <= 1:
        return numbers

    left, right, mid = [], [], []
    pivot = random.choice(numbers)

    for number in numbers:
        if number == pivot:
            mid.append(number)
        elif number < pivot:
            left.append(number)
        else:
            right.append(number)

    return quick_sort(left) + mid + quick_sort(right)

numbers = [9, 8, 7, 6, 5, 4, 3, 2, 1, 1, 0]
quick_sort(numbers)

[0, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9]

#### 3、堆排序（Heap Sort）

**通常堆是通过一维数组来实现的。在数组起始位置为0的情形中**：

- 父节点 `i` 的左子节点在位置 `(2i+1)`;
- 父节点 `i` 的右子节点在位置 `(2i+2)`;
- 子节点 `i` 的父节点在位置 `floor((i-1)/2)`;

堆排序（Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于（或者大于）它的父节点。

##### 3.1 算法描述
- 将初始待排序关键字序列(R1,R2….Rn)构建成大顶堆，此堆为初始的无序区；
- 将堆顶元素R[1]与最后一个元素R[n]交换，此时得到新的无序区(R1,R2,……Rn-1)和新的有序区(Rn),且满足R[1,2…n-1]<=R[n]；
- 由于交换后新的堆顶R[1]可能违反堆的性质，因此需要对当前无序区(R1,R2,……Rn-1)调整为新堆，然后再次将R[1]与无序区最后一个元素交换，得到新的无序区(R1,R2….Rn-2)和新的有序区(Rn-1,Rn)。不断重复此过程直到有序区的元素个数为n-1，则整个排序过程完成。

##### 3.2 动图演示
![avatar](heapSort.gif)

[^_^]:
![avatar](https://images2017.cnblogs.com/blog/849589/201710/849589-20171015231308699-356134237.gif)

In [8]:
# 堆排序
def heap_sort(lst):
    def sift_down(start, end):
        """最大堆调整"""
        root = start
        while True:
            # 获取第一个孩子结点
            child = 2 * root + 1
            if child > end:
                break
            if child + 1 <= end and lst[child] < lst[child + 1]:  # 值更大的孩子节点
                child += 1
            if lst[root] < lst[child]:  # 比较父节点与子节点的大小，使父节点大于子节点
                lst[root], lst[child] = lst[child], lst[root]
                root = child
            else:
                break

    # 创建最大堆
    for start in range((len(lst) - 2) // 2, -1, -1):
        sift_down(start, len(lst) - 1)

    # 堆排序
    for end in range(len(lst) - 1, 0, -1):
        lst[0], lst[end] = lst[end], lst[0]
        sift_down(0, end - 1)
    return lst



if __name__ == "__main__":
    l = [9, 2, 1, 7, 6, 8, 5, 3, 4]
    heap_sort(l)
    print(l)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


## 排序算法应用练习题

### 1、用户网站访问行为分析

为了评估某网站的用户转化率，我们需要对用户的访问行为进行分析，并建立用户行为模型。日志文件中已经记录了用户名、访问时间 以及 页面路径。

为了方便分析，日志文件中的 `N` 条记录已经被解析成三个长度相同且长度都为 `N` 的数组，分别是：用户名 `username`，访问时间 `timestamp` 和 页面路径 `website`。第 `i` 条记录意味着用户名是 `username[i]` 的用户在 `timestamp[i]` 的时候访问了路径为 `website[i]` 的页面。

我们需要找到用户访问网站时的 『共性行为路径』，也就是有最多的用户都 至少按某种次序访问过一次 的三个页面路径。需要注意的是，用户 可能不是连续访问 这三个路径的。

『共性行为路径』是一个 长度为 `3` 的页面路径列表，列表中的路径 不必不同，并且按照访问时间的先后升序排列。

如果有多个满足要求的答案，那么就请返回按字典序排列最小的那个。（页面路径列表 X 按字典序小于 Y 的前提条件是：
`X[0] < Y[0] 或 X[0] == Y[0] 且 (X[1] < Y[1] 或 X[1] == Y[1] 且 X[2] < Y[2])）`

题目保证一个用户会至少访问 `3` 个路径一致的页面，并且一个用户不会在同一时间访问两个路径不同的页面。

**示例**：

**输入**：
```python
username = ["joe","joe","joe","james","james","james","james","mary","mary","mary"]
timestamp = [1,2,3,4,5,6,7,8,9,10]
website = ["home","about","career","home","cart","maps","home","home","about","career"]
```
**输出**：

```python
["home","about","career"]
```

**解释**：

由示例输入得到的记录如下：
```python
["joe", 1, "home"]
["joe", 2, "about"]
["joe", 3, "career"]
["james", 4, "home"]
["james", 5, "cart"]
["james", 6, "maps"]
["james", 7, "home"]
["mary", 8, "home"]
["mary", 9, "about"]
["mary", 10, "career"]
```
有 2 个用户至少访问过一次 `("home", "about", "career")`。

有 1 个用户至少访问过一次 `("home", "cart", "maps")`。

有 1 个用户至少访问过一次 `("home", "cart", "home")`。

有 1 个用户至少访问过一次 `("home", "maps", "home")`。

有 1 个用户至少访问过一次 `("cart", "maps", "home")`。


In [1]:
def mostVisitedPattern(username, timestamp, website):
    from itertools import combinations
    from collections import Counter

    utw = sorted(zip(username, timestamp, website), key=lambda x: x[1])
    mapping = {}
    for u, _, w in utw:
        if u in mapping:
            mapping[u].append(w)
        else:
            mapping[u] = [w]
    res = []
    for _, v in mapping.items():
        res.extend(list(set(combinations(v, 3))))
    c = Counter(res) 
    return list(sorted(c.most_common(), key=lambda x : (-x[1], x[0]))[0][0])


if __name__ == "__main__":
    username = ["joe","joe","joe","james","james","james","james","mary","mary","mary"]
    timestamp = [1,2,3,4,5,6,7,8,9,10]
    website = ["home","about","career","home","cart","maps","home","home","about","career"]
    print("输出：", mostVisitedPattern(username, timestamp, website))

输出： ['home', 'about', 'career']


### 2、校园自行车分配

在由 `2D` 网格表示的校园里有 `n` 位工人（`worker`）和 m 辆自行车（`bike`），`n <= m`。所有工人和自行车的位置都用网格上的 `2D` 坐标表示。

我们需要为每位工人分配一辆自行车。在所有可用的自行车和工人中，我们选取彼此之间曼哈顿距离最短的工人自行车对  `(worker, bike)` ，并将其中的自行车分配給工人。如果有多个 `(worker, bike)` 对之间的曼哈顿距离相同，那么我们选择工人索引最小的那对。类似地，如果有多种不同的分配方法，则选择自行车索引最小的一对。不断重复这一过程，直到所有工人都分配到自行车为止。

给定两点 `p1` 和 `p2` 之间的曼哈顿距离为 `Manhattan(p1, p2) = |p1.x - p2.x| + |p1.y - p2.y|`。

返回长度为 `n` 的向量 `ans`，其中 `a[i]` 是第 `i` 位工人分配到的自行车的索引（从 `0` 开始）。

**示例 1**：
![avatar](1261_example_1_v2.png)

![avatar](https://assets.leetcode-cn.com/aliyun-lc-upload/uploads/2019/03/16/1261_example_1_v2.png)

**输入**：
```python
workers = [[0,0],[2,1]]
bikes = [[1,2],[3,3]]
```

**输出**：

`[1,0]`

**解释**：

工人 `1` 分配到自行车 `0`，因为他们最接近且不存在冲突，工人 `0` 分配到自行车 `1` 。所以输出是 `[1,0]`。

**示例 2**：
![avatar](1261_example_2_v2.png)

![avatar](https://assets.leetcode-cn.com/aliyun-lc-upload/uploads/2019/03/16/1261_example_2_v2.png)

**输入**：
```python
workers = [[0,0],[1,1],[2,0]]
bikes = [[1,0],[2,2],[2,1]]
```

**输出**：

`[0,2,1]`

**解释**：

工人 `0` 首先分配到自行车 `0` 。工人 `1` 和工人 `2` 与自行车 `2` 距离相同，因此工人 `1` 分配到自行车 `2`，工人 `2` 将分配到自行车 `1` 。因此输出为 `[0,2,1]`。

In [3]:
def assignBikes(workers, bikes):
    Manhattan = lambda x, y : abs(x[0] - y[0]) + abs(x[1] - y[1])
    W = len(workers)
    res = [-1] * W
    visited = [False] * len(bikes)
    wbd = []
    for i, w in enumerate(workers):
        for j, b in enumerate(bikes):
            d = Manhattan(w, b)
            wbd.append((i, j, d))
    wbd.sort(key=lambda x : x[2])
    sign = 0
    for w, b, _ in wbd:
        if not visited[b] and res[w] == -1:
            visited[b] = True
            res[w] = b
            sign += 1
            if sign == W: break
    return res


if __name__ == "__main__":
    workers = [[0,0],[2,1]]
    bikes = [[1,2],[3,3]]
    print("示例1：")
    print("Workers: ", workers)
    print("Bikes: ", bikes)
    print("输出：", assignBikes(workers, bikes))
    
    workers = [[0,0],[1,1],[2,0]]
    bikes = [[1,0],[2,2],[2,1]]
    print("示例2：")
    print("Workers: ", workers)
    print("Bikes: ", bikes)
    print("输出：", assignBikes(workers, bikes))

示例1：
Workers:  [[0, 0], [2, 1]]
Bikes:  [[1, 2], [3, 3]]
输出： [1, 0]
示例2：
Workers:  [[0, 0], [1, 1], [2, 0]]
Bikes:  [[1, 0], [2, 2], [2, 1]]
输出： [0, 2, 1]
