## <center>Computer Science Intensive Course - MindX</center>
![](./assets/logo.png)
# <center>BÀI 2. GIỚI THIỆU VỀ THUẬT TOÁN VÀ CẤU TRÚC DỮ LIỆU</center>

In [None]:
# RUN THIS CELL FIRST
import time
import math

# 1. Thuật toán và Độ phức tạp
Độ phức tạp của thuật toán là thước đo độ hiệu quả của thuật toán dựa theo kích cỡ tập dữ liệu đầu vào.  

## 1.1. Độ Phức Tạp Về Thời Gian
Độ phức tạp về thời gian thể hiện số phép toán mà thuật toán phải xử lý, từ đó ảnh hưởng đến thời gian thi hành của thuật toán.  
  
**Ví dụ**: Bài toán tính tổng các số nguyên từ 1 đến n (n > 1)

In [None]:
# METHOD 1: Using a loop | Time complexity O(n)
def cal_sum_n_v1(num):
    result = 0
    for i in range(num+1):
        result += i
    return result

cal_sum_n_v1(5)

15

In [None]:
# METHOD 2: Using a math equation | Time complexity O(1)
def cal_sum_n_v2(num):
    result = (num + 1) * num // 2
    return result

cal_sum_n_v2(5)

15

Thời gian thực hiện của hai thuật toán trên:

In [None]:
def cal_time(func):
    start_time = time.time()
    result = func()
    real_time = time.time() - start_time
    return real_time, result

In [None]:
BIG_NUMS = {'ONE MILLION': 1000000, 'TEN MILLION': 10000000, 'ONE HUNDRED MILLION': 100000000}

for name, num in BIG_NUMS.items():
    print("Execution time for {} numbers:".format(name))
    time1, res1 = cal_time(lambda: cal_sum_n_v1(num))
    time2, res2 = cal_time(lambda: cal_sum_n_v2(num))
    print("- O(n) algorithm: {} secs | result = {}".format(time1, res1))
    print("- O(1) algorithm: {} secs | result = {}".format(time2, res2))
    print()

Execution time for ONE MILLION numbers:
- O(n) algorithm: 0.06578874588012695 secs | result = 500000500000
- O(1) algorithm: 0.0 secs | result = 500000500000

Execution time for TEN MILLION numbers:
- O(n) algorithm: 0.5449199676513672 secs | result = 50000005000000
- O(1) algorithm: 0.0 secs | result = 50000005000000

Execution time for ONE HUNDRED MILLION numbers:
- O(n) algorithm: 6.239806413650513 secs | result = 5000000050000000
- O(1) algorithm: 0.0 secs | result = 5000000050000000



## 1.2. Độ Phức Tạp Về Không Gian
Độ phức tạp về không gian thể hiện lượng không gian nhớ mà thuật toán cần để xử lý.
  
**Ví dụ**: Đối với hai thuật toán trên, độ phức tạp về không gian là O(1), do thuật toán không sử dụng thêm bộ nhớ khi kích cỡ input tăng lên.  
Tuy nhiên, nếu ta dùng list để lưu các số từ 1 đến n và tính tổng, độ phức tạp về không gian sẽ là O(n)

In [None]:
# METHOD 3: Using a list for storing numbers | Space complexity O(n)
def cal_sum_n_v3(num):
    number_list = [i for i in range(num+1)]
    result = 0
    for i in number_list:
        result += i
    return result

cal_sum_n_v3(5)

15

## 1.3. Một Số Lớp Về Độ Phức Tạp

Biết được độ phức tạp giúp ta ước tính được thời gian chạy và lượng bộ nhớ cần thiết để thuật toán xử lý.  
  
Bảng sau thể hiện một số lớp về độ phức tạp của thuật toán và thời gian chạy ước tính trên thực tế:

| Độ phức tạp      | Thời gian chạy ước tính (N=100) |
| :----------      | :-----------         |
| O(1)             | 10<sup>-9</sup> giây |
| O(log(n))        | 10<sup>-7</sup> giây |
| O(n)             | 10<sup>-6</sup> giây |
| O(n.log(n))      | 10<sup>-5</sup> giây |
| O(n<sup>2</sup>) | 10<sup>-4</sup> giây |
| O(n<sup>6</sup>) | 3 phút               |
| O(2<sup>n</sup>) | 10<sup>14</sup> năm  |
| O(n!)            | 10<sup>142</sup> năm |

## 1.4. Tính Toán Độ Phức Tạp

Độ phức tạp về không gian được tính theo lượng bộ nhớ thuật toán cần sử dụng.  
Độ phức tạp về thời gian được tính theo số phép toán mà thuật toán phải xử lý.  
*Lưu ý*: Nếu số phép toán hoặc không gian lưu trữ không phụ thuộc vào độ lớn dữ liệu đầu vào, thuật toán có độ phức tạp là O(1)  
  
**Ví dụ**: Bài toán tìm số lớn thứ hai trong dãy số.

In [None]:
def find_second_biggest(arr):

    n = len(arr)

    # find biggest number
    biggest = arr[0]
    for el in arr:
        biggest = max(biggest, el)

    # find second biggest number
    second = None
    for el in arr:
        if el == biggest:
            continue
        if second == None:
            second = el
        else:
            second = max(el, second)
            
    return second

# call the function
find_second_biggest([4, 6, 2, 6, 1, 8, -1, -10, 0])

6

**Độ phức tạp về không gian**:  
Thuật toán sử dụng một mảng có *n* phần tử, các biến *n, biggest, el, second*. Như vậy độ phức tạp về không gian là *O(n+4)*.  
Tuy nhiên, ta thường quan tâm đến độ phức tạp khi *n* lớn hoặc rất lớn, khi đó các giá trị hằng số trở nên không còn quan trọng (tương tự như cách tính *lim* đến dương vô cùng trong toán học). Do đó, độ phức tạp *O(n+4)* được viết dưới dạng *O(n)*.

**Độ phức tạp về thời gian**:  
Thuật toán sử dụng hai vòng lặp for:
- Vòng lặp thứ nhất lặp qua *n* phần tử của mảng, mỗi lần lặp thực hiện một phép so sánh *max* và phép gán, tổng cộng thực hiện *2n* phép toán.
- Vòng lặp thứ hai lặp qua *n* phần tử của mảng, mỗi lần lặp thực hiện khoảng hai phép so sánh và một phép gán, tổng cộng thực hiện *3n* phép toán.

Ngoài ra, thuật toán còn thực hiện 3 phép gán bên ngoài và một lệnh *return*, tổng cộng 4 phép toán.  
Như vậy, độ phức tạp về thời gian của thuật toán này là *O(2n+3n+4)* = *O(5n+4)*. Tương tự như độ phức tạp về không gian, khi *n* rất lớn, ta viết *O(5n+4)* dưới dạng *O(n)*.

**Tổng kết**: Thuật toán trên có độ phức tạp về thời gian là O(n) và độ phức tạp về không gian là O(n).

## 1.5. Độ Phức Tạp Của Các Hàm Có Sẵn

Python hỗ trợ nhiều hàm để hỗ trợ việc tính toán:
- Thư viện có sẵn (không cần import): *sum(), max(), len()*, ...
- Thư viện **math**: *sum(), factorial(), gcd()*, ...
- Thư viện **numpy**: *sum(), prod(), power()*, ...

Độ phức tạp của các hàm này tùy thuộc vào cách cài đặt của từng hàm. Tuy nhiên, với cùng một độ phức tạp, những hàm có sẵn thường thực hiện nhanh hơn hàm tự viết.  

**Ví dụ**: Tính tổng các số trong một *list*. Độ phức tạp *O(n)*.

In [None]:
# hand-coded
def cal_sum_list(number_list):
    result = 0
    for i in number_list:
        result += i
    return result

In [None]:
# testing execution time
num = BIG_NUMS['TEN MILLION']
number_list = [i for i in range(num+1)]

print("Execution time for TEN MILLION numbers:".format(name))
time1, res1 = cal_time(lambda: cal_sum_list(number_list))
time2, res2 = cal_time(lambda: sum(number_list))
print("- Hand-coded function: {} secs | result = {}".format(time1, res1))
print("- Provided sum() function: {} secs | result = {}".format(time2, res2))
print()

Execution time for TEN MILLION numbers:
- Hand-coded function: 0.4893827438354492 secs | result = 50000005000000
- Provided sum() function: 0.23433709144592285 secs | result = 50000005000000



**Lý giải**:
- Code Python được thực thi bằng cách biên dịch sang code C, sau đó mới biên dịch sang mã máy và chạy. Do đó, code C thực thi nhanh hơn nhiều so với code Python.  
- Đối với những hàm cho sẵn, người ta thường tối ưu hóa bằng cách biên dịch sang code C trước, sau đó mới chạy vòng lặp ở code C, vì vòng lặp trên C chạy nhanh hơn nhiều so với Python.

Như vậy, để tối ưu hóa code Python, ta nên ưu tiên sử dụng những hàm có sẵn nếu phù hợp với bài toán.

# 2. Cấu Trúc Dữ Liệu
Cấu trúc dữ liệu là một cách tổ chức cao hơn của những kiểu dữ liệu cơ bản như int, float, boolean,...  
Cấu trúc dữ liệu hỗ trợ thuật toán thực thi khi xử lý. Đối với nhiều bài toán, cấu trúc dữ liệu đầu vào ảnh hưởng lớn đến độ phức tạp của thuật toán.

**Ví dụ 1**: Đối với bài toán tìm số lớn thứ hai, cấu trúc dữ liệu *list* hỗ trợ lưu trữ tập hợp các số để thực hiện việc tìm kiếm.

**Ví dụ 2**: Với bài toán tìm tên thứ trong tuần dựa theo số, cấu trúc dữ liệu *dictionary* hỗ trợ tìm kiếm nhanh mà không cần qua nhiều câu lệnh *if*.

In [None]:
def day_in_week(day_int):
    DAYS = {2: "Monday", 3: "Tuesday", 4: "Wednesday", 5: "Thursday", 6: "Friday", 7: "Saturday", 8: "Sunday"}
    return DAYS[day_int]

day_in_week(8)

'Sunday'

Một số cấu trúc dữ liệu thường dùng có sẵn trong Python là **list, tuple,string, set, dictionary**

# 3. Thực Hành: Một Số Thuật Toán

## 3.1. Dãy Fibonacci
Dãy Fibonacci là một dãy số nguyên dương bắt đầu với hai phần tử là [1, 1]. Các phần tử sau bằng tổng của hai phần tử trước đó.  
Một số phần tử đầu tiên của dãy Fibonacci:  
&nbsp;&nbsp;&nbsp;1, 1, 2, 3, 5, 8, 13, 21, 34,...

**Yêu cầu**: Nhập vào một số nguyên dương *n > 0*. In ra *n* phần tử đầu tiên của dãy Fibonacci.

In [None]:
# METHOD 1: Using list
# Time complexity: O(n)
# Space complexity: O(n)
def fibo_v1(num):

    # trivial cases
    print(1, end=' ')
    if num == 1:
        return
    print(1, end=' ')
    
    # common cases
    fibo = [1, 1]
    for _ in range(num-2):
        fibo.append(fibo[-1] + fibo[-2])
        print(fibo[-1], end=' ')
    
fibo_v1(10)

1 1 2 3 5 8 13 21 34 55 

In [None]:
# METHOD 2: Not using list
# Time complexity: O(n)
# Space complexity: O(1)
def fibo_v2(num):

    # trivial cases
    print(1, end=' ')
    if num == 1:
        return
    print(1, end=' ')
    
    # common cases
    i = 1
    j = 1
    for _ in range(num-2):
        i, j = j, i+j
        print(j, end=' ')
    
fibo_v2(10)

1 1 2 3 5 8 13 21 34 55 

## 3.2. Số Nguyên Tố

Số nguyên tố là số nguyên dương lớn hơn 1 chỉ chia hết cho 1 và chính nó.  
**Yêu cầu**: Nhập vào một số nguyên dương *n > 0*. Kiểm tra *n* có phải là số nguyên tố hay không

In [None]:
# METHOD: Check every possible divisor
# Time complexity: O(n)
# Space complexity: O(1)
def is_prime_v1(num):
    
    # trivial case
    if num == 1:
        return False
    
    # common cases
    result = True
    for i in range(2, num):
        if num % i == 0:
            result = False
            
    return result

# call the function
n = 37
if is_prime_v1(n):
    print("{} is a prime number".format(n))
else:
    print("{} is NOT a prime number".format(n))

37 is a prime number


In [None]:
# IMPROVEMENT 1: Check every possible divisor until found a divisor (kỹ thuật nhánh cận)
# Time complexity: still O(n), but can give result faster in many cases where n is not prime
def is_prime_v2(num):
    
    # trivial case
    if num == 1:
        return False
    
    # common cases
    result = True
    for i in range(2, num):
        if num % i == 0:
            result = False
            break
            
    return result

# call the function
n = 4
if is_prime_v2(n):
    print("{} is a prime number".format(n))
else:
    print("{} is NOT a prime number".format(n))

4 is NOT a prime number


In [None]:
# IMPROVEMENT 2: Only loop to sqrt(n), as n is not divisible by any number > sqrt(n)
# Time complexity: O(sqrt(n)) = O(n^(1/2))
def is_prime_v3(num):
    
    # trivial case
    if num == 1:
        return False
    
    # common cases
    result = True
    for i in range(2, int(math.sqrt(num))+1):
        if num % i == 0:
            result = False
            break
            
    return result

# call the function
n = 999999937
if is_prime_v3(n):
    print("{} is a prime number".format(n))
else:
    print("{} is NOT a prime number".format(n))

999999937 is a prime number


## 3.3. Tổng Các Số Nguyên Tố
**Yêu cầu**: Nhập vào một số nguyên dương *n > 0*. Tính tổng các số nguyên tố bé hơn *n*.

In [None]:
# METHOD 1: Check every number if they are prime, using previously implemented function
# Time complexity: O(n*sqrt(n)) = O(n^(3/2))
# Space complexity: O(1)
def sum_primes_v1(num):
    
    # trivial case
    if num < 3:
        return 0
    
    # common cases
    result = 0
    for i in range(2, num):
        if is_prime_v3(i):
            result += i
                
    return result


sum_primes_v1(100)

1060

In [None]:
# METHOD 2: Sieve of Eratosthenes (Sàng số nguyên tố)
# Details & Visualization: https://en.wikipedia.org/wiki/Sieve_of_Eratosthenes
# Time complexity: O(n*log(log(n)) | Details: https://www.geeksforgeeks.org/how-is-the-time-complexity-of-sieve-of-eratosthenes-is-nloglogn/
# Space complexity: O(n)
def sum_primes_v2(num):
    
    # trivial case
    if num < 3:
        return 0
    
    # initialize prime array
    prime_arr = [True] * num  # init every number to be prime
    prime_arr[0] = False          # 0 is not prime
    prime_arr[1] = False          # 1 is not prime
    
    # loop through the array
    result = 0
    for i in range(2, num):
        if prime_arr[i]:
            result += i  # i is a prime
            for j in range(i, ((num-1)//i)+1):
                prime_arr[i*j] = False  # every multiple of i is not a prime
                
    return result

1060