
# Complexity analysis, Searching and Sorting algorithms

This tutorial presents practical exercises for materials covered in Teaching Sessions 6A and 6B in SDPA. The tutorial is in three parts; part 1: algorithm complexity analysis, part 2: Searching algorithms, and part 3: Sorting algorithms

## Part 1:  Algorithm Complexity analysis
Complexity analysis is the way to compare two different algorithms that solve the same problem


## 1. 时间复杂度

时间复杂度是用来衡量算法执行所需的时间资源的指标。它描述了算法运行时间与输入规模的关系。通常表示为大O符号（O），它描述了最坏情况下算法的运行时间。时间复杂度通常用以下几种情况来表示：

- O(1)：常数时间复杂度，表示算法的执行**时间与输入规模无关**，是最快的情况。
- O(log(n))：对数时间复杂度，通常出现在**分治算法或二分查找**等情况下。
- O(n)：线性时间复杂度，表示算法的执行时间与输入规模成**线性关系**。
- O(n * log(n))：比线性复杂度高，常见于**快速排序和归并排序等排序算法**。常见于内置函数`sorted()`
- O(n^2)：平方时间复杂度，通常出现在**嵌套循环**中。for/while
- O(2^n)：指数时间复杂度，通常出现在**递归**算法的指数增长。
- O(n!)：阶乘时间复杂度，通常出现在旅行商问题等组合爆炸的情况。

如何计算时间复杂度：

通过分析算法中循环、递归、条件分支等部分的执行次数，以确定执行时间与输入规模的关系。
寻找算法的最坏情况，即算法在最不利情况下执行的时间。
使用大O符号来表示时间复杂度。
![519d76e4c62f34eb8fdadb4d1418e10.jpg](attachment:519d76e4c62f34eb8fdadb4d1418e10.jpg)


<big>Law of Addition for O():
- O(f(n))+O(g(n)) --> O(f(n) + g(n))
- O(n)+O(n*n) --> O(n+n^2) --> O(n^2)
- O(f(n)) * O(g(n)) --> O(f(n)*g(n))
- O（n）*O(n) --> O(n^2)

## 2. 空间复制度
空间复杂度是用来衡量算法所需的内存空间的指标。它描述了算法执行所需的额外内存与输入规模的关系。通常表示为大O符号（O），与时间复杂度类似，它描述了最坏情况下算法所需的额外内存。

如何计算空间复杂度：

通过分析算法中创建的数据结构、递归调用中的堆栈空间等，以确定额外内存的使用量。
寻找算法的最坏情况下需要的额外内存。
使用大O符号来表示空间复杂度。

选择何时使用它们进行评估：\
时间复杂度通常用于评估算法的运行时间，特别是在处理大规模数据集时。它可以帮助您选择最适合任务的算法。
空间复杂度用于评估算法的内存使用情况，特别是在内存受限的环境中。它可以帮助您选择适合内存限制的算法。
综合考虑时间复杂度和空间复杂度可以帮助您选择合适的算法，并优化算法以在不同环境中获得最佳性能。通常，时间复杂度是更常见的评估指标，因为大多数情况下我们更关心算法的运行时间。然而，在资源有限的环境中，如嵌入式系统或移动设备，空间复杂度也非常重要。

## Part 2:  Searching Algortihms

## 1. Linear Search

In [6]:
fruits = ['orange', 'plum', 'banana', 'apple']
print('search 1:',fruits.index('banana'))

# a more pythonic way to search, using 'in' operation
print('banana' in fruits)

search 1: 2
True


## 2. Binary Search、

<big>`bisect_left(list,element)` :返回插入元素的位置，该位置是将元素插入到已排序序列中时，使得序列仍保持升序排序的位置。如果元素已经存在于序列中，它将返回该元素的左侧位置，也就是最靠近序列起始位置的位置。

<big>`bisect_right(list,element)` : 返回插入元素的位置，但该位置是将元素插入到已排序序列中时，使得序列仍然保持升序排序的位置。如果元素已经存在于序列中，它将返回该元素的右侧位置，也就是最靠近序列末尾位置的位置。</big>

In [3]:
import bisect

my_list = [1, 3, 3, 3, 5, 7, 9]
element = 3

# 使用 bisect_left 寻找元素在已排序列表中的插入位置
position_left = bisect.bisect_left(my_list, element)
print("Position using bisect_left:", position_left)

# 使用 bisect_right 寻找元素在已排序列表中的插入位置
position_right = bisect.bisect_right(my_list, element)
print("Position using bisect_right:", position_right)

sorted_fruits = ['apple', 'banana', 'orange', 'plum']
print(bisect.bisect_left(sorted_fruits, 'banana'))
print(bisect.bisect_left(sorted_fruits, 'watermelon'))

Position using bisect_left: 1
Position using bisect_right: 4
1
4


## 3. Hashing
<big>哈希的目标是构建一种数据结构，使得在 𝑂(1) 时间内可以快速搜索数据项。哈希表(Hash Table)是一个存储数据项的集合，这些数据项以一种使得后续查找它们变得容易的方式存储。哈希表的每个位置，通常称为槽（slot），可以容纳一个数据项，用整数值从0开始命名。

<big>数据项与其在哈希表中的槽之间的映射由哈希函数来完成。哈希函数会接受集合中的任何数据项，并返回一个介于槽名范围内的整数，通常在 0 到 m-1 之间。

### 3.1 Python 内置函数 `hash()`
用于计算给定对象的哈希值。哈希值是一个整数，代表了对象的内容，可以用于快速比较对象是否相等。

哈希值的特点包括：
- 相同内容的对象应该具有相同的哈希值，这是哈希函数的基本属性。
- 哈希值是不可逆的，也就是说，从哈希值无法还原出原始对象。
- 哈希值是固定长度的，无论原始对象的大小如何，哈希值都是一个固定的整数。
- 哈希函数的输出应该是均匀分布的，以便减少冲突的发生。

hash() 函数可以应用于不可变的数据类型，如**整数、浮点数、字符串、元组**等。对于可变对象（如列表和字典），由于其内容可以改变，不具备哈希性，因此尝试对可变对象使用 hash() 函数会引发 TypeError。

In [7]:
# hash for integer unchanged
print('Hash for 181 is:', hash(181))

# hash for decimal
print('Hash for 181.23 is:',hash(181.23))

# hash for string
print('Hash for Python is:', hash('Python'))

Hash for 181 is: 181
Hash for 181.23 is: 530343892119126197
Hash for Python is: 2712022896186371430


### 3.2 自定义hash function
使用自定义hash函数创建hash table，将联系人名字映射为整数，方便查找电话号

In [None]:
# 创建一个空的电话簿，使用字典作为哈希表
phone_book = {}

# 定义一个哈希函数，将名字映射到哈希表的槽中
def hash_function(name):
    # 一个简单的哈希函数，将名字的字符ASCII码值相加并取余，模拟存储
    hash_value = sum(ord(char) for char in name) % 10
    return hash_value

# 添加几个联系人到电话簿中
def add_contact(name, phone_number):
    slot = hash_function(name)
    phone_book[slot] = phone_number

# 查找联系人的电话号码
def find_contact(name):
    slot = hash_function(name)
    if slot in phone_book:
        return phone_book[slot]
    else:
        return "Contact not found"

# 添加联系人及其电话号码到电话簿
add_contact("Alice", "123-456-7890")
add_contact("Bob", "987-654-3210")
add_contact("Charlie", "555-123-4567")

# 查找联系人的电话号码
print(find_contact("Alice"))  # 输出：123-456-7890
print(find_contact("Charlie"))  # 输出：555-123-4567
print(find_contact("Dave"))  # 输出：Contact not found，因为联系人 "Dave" 不在电话簿中


## Part 3. Sorting Algorithms


## 1. Python’s sorted funciton 
`sorted(iterable,key=, reverse=T/F)`
- iterable：要排序的可迭代对象，可以是列表、元组、字符串等。
- key（可选）：一个可选的函数，用于为每个元素生成一个排序关键字，排序将根据这些关键字进行。如果未提供该参数，则默认使用元素自身的值进行排序。
- reverse（可选）：一个布尔值，表示是否按降序排序。如果为 True，则降序排序；如果为 False 或未提供该参数，则升序排序。

In [12]:
# 以升序排序整数列表
numbers = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
sorted_numbers = sorted(numbers)
print(sorted_numbers)

# 以降序排序字符串列表
fruits = ["apple", "banana", "cherry", "date", "fig"]
sorted_fruits = sorted(fruits, reverse=True)
print(sorted_fruits)

# 使用自定义函数按字符串长度排序
words = ["apple", "banana", "cherry", "date", "fig"]
sorted_words = sorted(words, key=len)
print(sorted_words)

# take the second element for sort
def take_second(elem):
    return elem[1]


# 使用每个元素第二个值比大小进行排序
# random list
random = [(2, 2), (3, 4), (4, 1), (1, 3)]

# sort list with key
sorted_list = sorted(random, key=take_second)
# key=take_second means it will sort the random list by the value of the second one in each element

# print list
print('Sorted list:', sorted_list)

[1, 1, 2, 3, 3, 4, 5, 5, 5, 6, 9]
['fig', 'date', 'cherry', 'banana', 'apple']
['fig', 'date', 'apple', 'banana', 'cherry']
Sorted list: [(4, 1), (2, 2), (1, 3), (3, 4)]


## 2. Selection Sort
选择排序（Selection Sort）是一种常见的排序算法。它的工作原理如下：
- 从未排序的列表中找到最小值（或最大值，具体取决于排序的方向，通常是升序），将其移到已排序列表的末尾。一开始，已排序列表为空。
- 然后，从剩余的未排序元素中再次找到最小值，将其移到已排序列表的末尾。
- 重复上述步骤，直到所有的元素都被移到已排序列表中，从而完成排序。

选择排序的关键思想是在每一轮中选择剩余未排序元素中的最小（或最大）值，并将其添加到已排序列表的末尾。这个过程会一步一步地构建已排序的部分，直到整个列表都被排序。

选择排序的特点：\
稳定性：选择排序不是稳定排序算法，即相等元素的相对顺序可能会发生变化。\
时间复杂度：选择排序的时间复杂度为 O(n^2)，其中 n 是要排序的元素个数。它对于小型数据集是有效的，但对于大型数据集效率较低。

复杂度：O(N^2)\
Swaps（交换）： 在选择排序中，每一轮会执行一次交换，最多执行N-1次交换，因为最后一个元素默认在正确的位置，不需要再交换。\
Comparisons（比较）： 在每一轮中，你需要比较未排序部分中的元素，共进行(N-1) + (N-2) + (N-3) + ... + 1次比较，这是等差数列的和，可用公式计算：(N * (N-1)) / 2。\
Assignments（赋值）： 赋值次数不会超过比较次数多1次，因为你需要将选中的最小（或最大）元素赋值到正确的位置。所以赋值次数大约为(N * (N-1)) / 2 + 1。

综合考虑这三个操作的次数，总操作次数大致为：\
总操作次数 ≈ 交换次数 + 比较次数 + 赋值次数\
总操作次数 ≈ (N-1) + [(N * (N-1)) / 2] + [(N * (N-1)) / 2 + 1]

对上述表达式进行简化，得到：\
总操作次数 ≈ (N * (N-1)) + [(N * (N-1)) / 2] + 1
最后，可以看出，对于较大的列表（大N），总操作次数的主导项是N^2，即比较和赋值次数。因此，总操作次数在大型列表中会呈二次增长，即**N^2**。

In [8]:
def selection_sort(arr):
    # 遍历整个列表
    for i in range(len(arr)):
        # 假设当前元素为最小元素
        min_index = i

        # 在未排序部分中找到最小元素的索引  比较：共(N-1)+(N-2)+...+1-->N^2
        for j in range(i + 1, len(arr)):
            if arr[j] < arr[min_index]:
                min_index = j

        # 交换找到的最小元素与当前元素  共N-1次
        arr[i], arr[min_index] = arr[min_index], arr[i]

# 测试选择排序
numbers = [64, 25, 12, 22, 11]
selection_sort(numbers)
print("排序后的列表:", numbers)


排序后的列表: [11, 12, 22, 25, 64]


## 3. Bubble Sort
冒泡排序（Bubble Sort）是一种简单的排序算法，它不断比较相邻的两个元素并交换位置，使较大的元素逐渐“冒泡”到右侧，而较小的元素“下沉”到左侧。这个过程重复进行，直到整个列表排序完成。

以下是冒泡排序的基本思路：

- 从列表的第一个元素开始，比较它和下一个元素。
- 如果当前元素大于下一个元素，交换它们的位置。
- 移动到下一个元素，重复步骤1和2，直到到达列表的倒数第二个元素。
- 重复以上步骤，不断减少要排序的元素的数量，直到整个列表排序完成

时间复杂度：O（N^2）,由于需要两个循环嵌套，每个循环遍历N次。

`for j in range(0, n - i - 1)`: 这一行代码中的 n - i - 1 是关键，它表示在每一轮排序中，内部循环只需要比较前 n - i - 1 个元素。这是因为在每一轮排序之后，列表的最后 i 个元素已经被放置在正确的位置，不再需要进一步比较。\
这个优化提高了冒泡排序的效率，因为它避免了不必要的比较。当内部循环没有进行任何交换操作时，说明列表已经完全排序好了，所以不需要再继续比较。

In [19]:
list_num=[64, 34, 25, 12, 22, 11, 90]

def bubble_sort(my_list):
    
    for i in range(len(my_list)):
        
        for j in range(len(my_list)-i-1):
            
            if my_list[j]>my_list[j+1]:
                my_list[j],my_list[j+1]=my_list[j+1],my_list[j]
    return my_list

bubble_sort(list_num)

[11, 12, 22, 25, 34, 64, 90]

## 4. Insertion Sort
插入排序（Insertion Sort）是一种简单直观的排序算法，它的工作原理是逐个将未排序的元素插入到已排序的部分，形成一个有序的子列表。插入排序的基本思路如下：

- 从第一个元素开始，认为它已经是一个有序的列表。
- 逐个取出未排序部分的元素，插入到已排序部分的正确位置，使得已排序部分保持有序。
- 重复上述过程，直到所有元素都被插入并排序完成。

时间复杂度：O（N^2）

In [21]:
def insertion_sort(arr):
    for i in range(1, len(arr)):  # 从第二个元素开始
        current_element = arr[i]  # 当前要插入的元素
        j = i - 1  # 已排序部分的最后一个元素的索引

        while j >= 0 and current_element < arr[j]:
            # 如果当前元素小于已排序部分的元素，将已排序元素后移，直到在已排序部分找到比current element更小的元素，停止while
            arr[j + 1] = arr[j] # 后移一项
            j -= 1

        # 插入当前元素到正确的位置
        arr[j + 1] = current_element

# 测试插入排序
numbers = [64, 34, 25, 12, 22, 11, 90]
insertion_sort(numbers)
print("排序后的列表:", numbers)


排序后的列表: [11, 12, 22, 25, 34, 64, 90]


## 4. Merge Sort
归并排序（Merge Sort）是一种**分治算法**，它的基本思想是将一个大问题拆分成多个小问题，解决小问题，然后将它们合并以得到最终的解决方案。归并排序是一种高效的排序算法

下面是归并排序的基本步骤：
- 分割（Divide）：将待排序的列表拆分为两个子列表，尽量使它们的大小相等。
- 解决（Conquer）：递归地对子列表进行排序，直到每个子列表只包含一个元素。
- 合并（Merge）：将已排序的子列表合并为一个新的有序列表。

时间复杂度：O(nlogn)

In [22]:
def merge_sort(arr):
    if len(arr) > 1:
        mid = len(arr) // 2
        left_half = arr[:mid]
        right_half = arr[mid:]

        # 递归地对左右子列表进行排序
        merge_sort(left_half)
        merge_sort(right_half)

        i = j = k = 0

        # 合并两个子列表
        while i < len(left_half) and j < len(right_half):
            if left_half[i] < right_half[j]:
                arr[k] = left_half[i]
                i += 1
            else:
                arr[k] = right_half[j]
                j += 1
            k += 1

        while i < len(left_half):
            arr[k] = left_half[i]
            i += 1
            k += 1

        while j < len(right_half):
            arr[k] = right_half[j]
            j += 1
            k += 1

# 测试归并排序
numbers = [38, 27, 43, 3, 9, 82, 10]
merge_sort(numbers)
print("排序后的列表:", numbers)


排序后的列表: [3, 9, 10, 27, 38, 43, 82]


## 5. Quick Sort
快速排序（Quick Sort）是一种常用的高效排序算法，它采用**分治**的策略，将一个大问题分成两个较小的子问题，然后**递归**地解决这些子问题，最后将它们合并在一起。

时间复杂度:O(nlogn)。

In [23]:
def quick_sort(arr):
    if len(arr) <= 1:
        return arr

    pivot = arr[0]  # 选择一个基准元素
    left = [x for x in arr[1:] if x <= pivot] #小于pivot则排在pivot左边
    right = [x for x in arr[1:] if x > pivot] #大于pivot则排在pivot右边

    # 递归地对左右子列表进行排序，并将它们合并
    return quick_sort(left) + [pivot] + quick_sort(right)

# 测试快速排序
numbers = [38, 27, 43, 3, 9, 82, 10]
sorted_numbers = quick_sort(numbers)
print("排序后的列表:", sorted_numbers)


排序后的列表: [3, 9, 10, 27, 38, 43, 82]
