# Buổi 3: Các cấu trúc dữ liệu trong Python

- Cách hoạt động của các CTDL sẵn có trong Python
- Ứng dụng của từng CTDl
- Phân nhóm 2 loại CTDL

#### Khái niệm: CTDL

CTDL là một cách sắp xếp và lưu trữ dữ liệu để dễ dàng xử lý và truy vấn. Một CTDL định nghĩa 
mối quan hệ giữa các thành phần dữ liệu trong nó và phương thức để xử lý trên dữ liệu
- Chia làm 2 loại:
+ Nhóm CTDL có thứ tự: List, tuple, String
+ Nhóm CTDL không có thứ tự: Dictionary, Set 


### Set
- Set lưu trữ các phần tử mà không quan tâm đến thứ tự. Các phần tử trong set không được trùng nhau.
- Ưu điểm: 
+ Kiểm tra một phần tử có nằm trong tập hợp hay không
+ Xóa các phần tử trùng nhau
+ Thực hiện các phép toán trên tập hợp (phép giao, phép hợp, phép hiệu)

### Các đặc trưng của set: 
- Có thể thay đổi (mutable)
- Động (dynamic)
- Set là một tập hợp không có thứ tự nên không thể truy vấn các phần tử trong set dựa vào index.


##### Khởi tạo

In [18]:
set_1 = set() # empty set
set_2 = {1, 2, 3, 4, 5} # set with values
set_3 = {x for x in range(10)} # set comprehension
set_4 = set(range(10)) # the set() constructor
set_5 = set("hello") # the set() constructor to string

print(set_3)
print(set_5)

{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
{'l', 'o', 'h', 'e'}


#### Truy vấn

In [19]:
print(set_2) # the whole set

{1, 2, 3, 4, 5}


In [20]:
# get length 
print(len(set_4))

10


In [21]:
# check membership
print(5 in set_4)
print(5 not in set_4)

True
False


In [22]:
# loop through elements
for el in set_5:
    print(el, end=" ")

l o h e 

### Một số phương thức 

#### Thêm phần tử

In [24]:
set_5 = set("abcdef")
set_5.add("MindX") 

print(set_5)


set_5.add("MindX") # this statement has no effect as "mindx" is already in the set

print(set_5)


{'d', 'f', 'a', 'b', 'MindX', 'c', 'e'}
{'d', 'f', 'a', 'b', 'MindX', 'c', 'e'}


### Xóa phần tử

In [26]:
set_5.remove("MindX") # remove an element from the set
print(set_5)

set_5.remove("MindX") 
print(set_5)

KeyError: 'MindX'

In [27]:
set_5.discard("MindX") # same as remove(), but does not raise error when element is not found
print(set_5)

{'d', 'f', 'a', 'b', 'c', 'e'}


### Kiểm tra tập hợp con


In [29]:
set_1 = set("abcdef")
set_2 = set("abc")
set_3 = set("xyz")

# check if a set is a subset of another set

print("set_2 is subset of set_1: {}".format(set_2.issubset(set_1)))
print("set_3 is subset of set_1: {}".format(set_3.issubset(set_1)))
print()


# check if a set is a superset of another 
print("set_1 is superset of set_2: {}".format(set_1.issuperset(set_2)))
print("set_1 is superset of set_3: {}".format(set_1.issuperset(set_3)))

set_2 is subset of set_1: True
set_3 is subset of set_1: False

set_1 is superset of set_2: True
set_1 is superset of set_3: False


### Sao chép

In [30]:
set_1 = set("abcdef")

# ceate another set in memory
set_copy = set_1.copy()

# compare to normal assignment
set_nocopy = set_1

# remove a value
set_1.remove("c")
print("copy():      {}".format(set_copy))
print("no copy():   {}".format(set_nocopy))

copy():      {'e', 'b', 'd', 'c', 'f', 'a'}
no copy():   {'d', 'f', 'a', 'b', 'e'}


#### Phép toán trên tập hợp

In [32]:
set_1 = set("abcdef")
set_2 = set("defghi")

# phép giao 
print('Intersection: {}'.format(set_1.intersection(set_2))) 

# phép hợp
print('Union: {}'.format(set_1.union(set_2)))

# phép hiệu
print('Difference: {}'.format(set_1.difference(set_2)))

Intersection: {'f', 'd', 'e'}
Union: {'g', 'h', 'i', 'd', 'f', 'a', 'b', 'c', 'e'}
Difference: {'b', 'a', 'c'}


Bài tập thực hành: 
1. Sắp xếp dãy
Yêu cầu: Cho hai dãy số arr1 và arr2 dưới dạng list, nhập 2 dãy số thành một dãy và sx theo thứ tự giảm dần.

In [35]:
import numpy as np
arr1 = np.random.randint(0, 10000, 50).tolist()
arr2 = np.random.randint(0, 10000, 50).tolist()

print(arr1)
print(arr2)


[4455, 5866, 3768, 6351, 718, 4179, 8942, 5142, 5000, 1580, 4357, 6171, 9878, 9025, 5861, 2497, 4539, 4998, 2662, 9943, 1577, 8431, 8536, 8660, 5945, 2156, 8818, 6228, 5428, 7465, 4494, 6283, 3669, 6319, 7168, 9382, 4333, 5754, 6778, 388, 7330, 192, 3597, 7538, 5708, 4345, 6350, 7703, 1027, 6798]
[2822, 3712, 6651, 5956, 6254, 8857, 5518, 5396, 2242, 6299, 4699, 2614, 8852, 4811, 3128, 2425, 419, 9119, 5236, 9153, 1019, 5859, 3142, 2704, 230, 2261, 3602, 6283, 3970, 243, 2624, 2050, 6886, 1296, 1994, 6598, 5262, 666, 5227, 47, 5265, 1367, 3434, 6442, 595, 3326, 7816, 9719, 9358, 1959]


In [51]:
def merge_and_sort(arr1, arr2): 
    new_arr = arr1 + arr2
    new_arr.sort(reverse=True)
    return new_arr


In [53]:
print(merge_and_sort(arr1, arr2))

[9943, 9878, 9719, 9382, 9358, 9153, 9119, 9025, 8942, 8857, 8852, 8818, 8660, 8536, 8431, 7816, 7703, 7538, 7465, 7330, 7168, 6886, 6798, 6778, 6651, 6598, 6442, 6351, 6350, 6319, 6299, 6283, 6283, 6254, 6228, 6171, 5956, 5945, 5866, 5861, 5859, 5754, 5708, 5518, 5428, 5396, 5265, 5262, 5236, 5227, 5142, 5000, 4998, 4811, 4699, 4539, 4494, 4455, 4357, 4345, 4333, 4179, 3970, 3768, 3712, 3669, 3602, 3597, 3434, 3326, 3142, 3128, 2822, 2704, 2662, 2624, 2614, 2497, 2425, 2261, 2242, 2156, 2050, 1994, 1959, 1580, 1577, 1367, 1296, 1027, 1019, 718, 666, 595, 419, 388, 243, 230, 192, 47]
