# Lesson 3: Các cấu trúc dữ liệu trong Python

## Mục tiêu: 
- Cách hoạt động của các CTDL sẵn có trong Python
- Ứng dụng của từng CTDL
- Phân nhóm hai loại CTDL


CTDL: Là một cách sắp xếp và lưu trữ dữ liệu để dễ dàng xử lý và truy vấn. Một CTDL định nghĩa mối quan hệ giữa các thành phần dữ liệu trong nó và các phương thức để xử lý trên dữ liệu. Các CTDL sẵn có trong Python: 

# 1. CTDL có thứ tự
- CTDL có thứ tự có nghĩa là thứ tự các phần tử trong CTDL được đảm bảo trong quá trình lưu trữ và xử lý.
- Các CTDL có thứ tự gồm: List/Tuple/Dict.

## 1.1 List
- Đặc trưng của *list* trong python: 
+ Có thể thay đổi (mutable): Thêm, xóa, thay đổi giá trị các phần tử
+ Động (dynamic): Danh sách động, vùng nhớ để lưu trữ một *list* có thể thay đổi
+ Truy cập ngẫu nhiên (random access): Việc truy vấn một phàn tử trong *list* dựa vào index có độ phức tạp O(1)
- Một vài phương thức của list: append(), remove(), len(), inser(), extend(), list(), copy(), sort() 


## 1.1. Tuple
- Tương tự *list*, điểm khác biệt lớn nhất là các phần tử trong nó không thay đổi được. Ta chỉ có thể thay đổi một *Tuple* bằng cách tạo ra một object *tupble* mới.
- Công dụng: Thường được dùng để gom nhóm các dữ liệu liên quan thành một biến duy nhất. Ngoài ra, Tuple còn có thể được dùng làm key trong dictionary và làm phần tử trong set, trong khi list không làm được.

Đặc trưng của tuple:
+ không thể thay đổi (immutable): Khong thể thêm, xóa hoặc thay đổi giá trị các phần tử bên trong nó.
+ Truy cập ngẫu nhiên (random access)

## 1.2 Set và Dictionary
- SET: là một kiểu dữ liệu được sử dụng để lưu trữ một tập hợp các *phần tử không trùng lặp* (unique). Nó tương tự như tập hợp trong toán học.
- SET không duy trì thứ tự của các phần tử (unordered).
- Phần tử trong set phải là **bất biến** (immutable), tức là không thể thay đổi sau khi được thêm vào. Tuy nhiên, bản thân set là một kiểu có thể thay đổi (mutable), cho phép thêm, xóa phần tử.


Cách khai báo một set bằng cách
+ Sử dụng cặp dấu ngoặc nhọn {}
+ Dùng hàm tích hợp set()
Ví dụ:

In [3]:
# khai báo set
my_set = {1,2,3,4}
print(my_set)


# sử dụng hàm set()
my_set2 = set([1,2,3,4])
print(my_set2)

{1, 2, 3, 4}
{1, 2, 3, 4}


**Lưu ý**: Một set rỗng được khai báo bằng set(), không phải là {} (vì {} là kiểu từ điển - dict).

### Đặc trưng của set
#### không chứa phần tử trùng lặp

In [4]:
my_set = {1,2,2,3}
print(my_set)

{1, 2, 3}


#### Không duy trì thứ tự
Các phần tử không được sắp xếp theo thứ tự ban đầu

In [5]:
my_set = {3,1,2}
print(my_set)

{1, 2, 3}


#### Có thể chứa các KDL khác nhau, nhưng phần tử phải bất biến


In [7]:
temp = [1,2,3]
my_set = {1, "hello", (3, 4), temp}
print(my_set)

TypeError: unhashable type: 'list'

#### Các phép toàn tập hợp (hỗ trợ trực tiếp):
Python cung cấp nhiều phép toán trên set tương tự như tập hợp trong toán học: 
- Hợp (Union): Kết hợp hai tập hợp

In [8]:
A = {1,2,3}
B = {3,4,5}
print(A | B) ## 

{1, 2, 3, 4, 5}


- Giao (Intersection): Lấy phần tử chung

In [9]:
print(A & B) ### {3}

{3}


- Hiệu (Difference): lấy phần tử có trong A nhưng không có trong B

In [10]:
print(A - B)

{1, 2}


- Hiệu đối xứng (Symmetric Difference): Lấy các phần tử chỉ xuất hiện trong một trong hai tập hợp.

In [11]:
print(A ^ B) 

{1, 2, 4, 5}


Tính Có thể thay đổi (mutable)
- Bạn có thể thêm hoặc xóa phần tử khỏi set


In [13]:
my_set = {1,2,3}
my_set.add(4) # thêm phần tử
print(my_set)

my_set.remove(2) # xóa phần tử
print(my_set)

{1, 2, 3, 4}
{1, 3, 4}


#### Ứng dụng của SET
- Loại bỏ các phần tử trùng lặp trong danh sách

In [14]:
my_list = [1, 2, 2, 3, 4, 4]
unique_set = set(my_list)
print(unique_set)

{1, 2, 3, 4}


- Xử lý các phép toán tập hợp (Hợp, Giao, đối xứng,..)
- Kiểm tra nhanh sự tồn tại của phần tử (do set sử dụng bảng băm - hash table)

In [15]:
my_set = {1,2,3}
print(2 in my_set) ## True/False
print(5 in my_set) ## True/False


True
False


#### Hạn chế
- Không thể chứa các kiểu dữ liệu có thể thay đổi như: danh sách (list) hay từ điển (dict)

## So sánh hai nhóm CTDL
- Đặc trưng
- Tốc độ truy vấn

Đặc trưng của CTDL có thứ tự: 
+ Thứ tự các phần tử được đảm bảo
+ Các phần tử có thể trùng lặp
+ Việc truy vấn một phần tử dựa vào index có độ phức tạp là O(1)
+ Việc truy vấn một phần tử dựa vào giá trị có độ phức tạp là O(n)
+ Đối với *list* có thể sắp xếp các phần tử (từ nhỏ -> lớn hoặc ngược lại)


Đặc trưng của CTDL không có thứ tự: 
+ Thứ tự các phần tử không được đảm bảo
+ Các phần tử không thể trùng lặp (đối với set), key không thể trùng lặp (đối với dict)
+ Không thể truy vấn một phần tử dựa vào index
+ Đối với *set*: Việc truy vấn một phần tử dựa vào giá trị có độ phức tạp là O(1)
+ Đối với *dict*: Việc truy vấn một phần tử dựa vào giá trị có độ phức tạp là O(n)
+ Không thể sắp xếp các phần tử.



## So sánh tốc độ truy vấn

In [17]:
import time
import math

## tính thời gian thực thi hàm
def cal_time(func):
    start_time = time.time() # trả về thời gian hiện tại tính bằng giây. Lưu lại thời gian hiện tại, dùng làm mốc để tính toán thời gian chạy của hàm func.
    result = func() #  Kết quả trả về của hàm func được lưu vào biến result. (phải là 1 hàm ko tham số)
    real_time = time.time() - start_time # time.time() sẽ được gọi lại để lấy thời gian hiện tại.
    return real_time, result

In [18]:

import random
import numpy as np


ONE_MILLION = 1000000
np.random.seed(2021) 

# tạo 2 danh sách gồm 1 triệu số thực ngẫu nhiên
np_rand_1 = np.random.rand(ONE_MILLION) ## tạo mảng 1 chiều với n phần tử, các phần tử là số thực ngẫu nhiên trong khoảng [0,1]
np_rand_2 = np.random.rand(ONE_MILLION)

# chọn ngẫu nhiên phần tử từ danh sách
choice_1 = random.choice(np_rand_1)
choice_2 = random.choice(np_rand_2)
rand_ind = np.random.randint(ONE_MILLION) # tạo một số nguyên ngẫu nhiên trong khoảng [0, 1000000]

rand_list = np_rand_1.tolist() # Chuyển mảng Numpy thành danh sách Python. rand_list lưu danh sách này.
rand_set = set(np_rand_1) # Chuyển mảng Numpy thành tập hợp (set). rand_set chứa các giá trị không trùng lặp từ np_rand_1.
rand_dict = dict(zip(np_rand_1, np_rand_2)) # Tạo một từ điển, với np_rand_1 làm các khóa và np_rand_2 làm giá trị.

del np_rand_1
del np_rand_2

In [19]:
## Truy vấn phần tử dựa vào index/key
print("List: {} s | Complexity O(1)".format(cal_time(lambda: rand_list[rand_ind])[0]))
print("Dict: {} s | Complexity O(1)".format(cal_time(lambda: rand_dict[choice_1])[0]))

List: 1.1920928955078125e-05 s | Complexity O(1)
Dict: 0.00011897087097167969 s | Complexity O(1)


list và dict đều có độ phức tạp là O(1) khi truy vấn dựa vào index/key. Điểm khác biệt là index của list phải là các số tuần từ 0, 1, 2, ... còn key của dict không cần theo bất kỳ quy luật nào