# Kiểu dữ liệu tập hợp
**Mô tả:** Tập hợp (Set) là một khái niệm cơ bản trong toán học. Tập hợp là một nhóm các phần tử không giống nhau được kết hợp lại. Trong Python, các phần tử của tập hợp có thể có kiểu dữ liệu không thay đổi (immutability) như số, logic, xâu, tuple. Không thể chứa phần tử là list, dict hay set (các kiểu dữ liệu container nhưng có thể thay đổ - mutability).

**Đặc điểm:**
- *Không có thứ tự:* Các phần tử không có thứ tự xác định → Không thể truy cập phần tử thông qua chỉ số, hay thêm phần tử vào vị trí thông qua chỉ số.
- *Không trùng lặp:* Các phần tử trong Set không giống nhau, không thể có 2 hay nhiều phần tử có cùng giá trị trong tập hợp.
- *Không thay đổi:* Các phần tử trong Set có tính bất biến, **chỉ có các phần tử** - tức là không thể thay đổi giá trị của các phần tử (tương tự tuple). Tuy nhiên, có thể thêm phần tử hoặc xóa phần tử khỏi nó → Chỉ giới hạn việc chỉnh sửa nội dung của phần tử chứ không giới hạn việc thêm xóa.

## Khởi tạo tập hợp
Có 2 cách để khởi tạo một tập hợp:
1. Khởi tạo bằng ngoặc nhọn {}, các phần tử nằm trong ngoặc nhọn, ngăn cách bởi dấu ,

In [9]:
A = {1, 2, 'nin', (3,4), False}
A
type(A)

{(3, 4), 1, 2, False, 'nin'}

set

- Phần tử trong Set có thể là số, logic, xâu kí tự hoặc tuple, nhưng không thể là list, dict hay set.

In [10]:
B = {1, 2, 3, [4, 5]}
B

TypeError: unhashable type: 'list'

- Các phần tử của tập hợp không thể trùng nhau. Khi khai báo, nếu chúng ta viết các phần tử giống nhau thì Python sẽ tự động loại ra khỏi định nghĩa tập hợp.

In [11]:
C = {1, 1, 2, 2}
D = {0, 1, True, False}
E = {1, 2, (1, 2)}

print(f'C = {C}')
print(f'D = {D}')
print(f'E = {E}')

C = {1, 2}
D = {0, 1}
E = {1, 2, (1, 2)}


2. Sử dụng hàm tạo `set()`. Để tạo tập hợp rỗng (không tạo bằng `s = {}` vì khi đó s là dict) và ép kiểu - đưa các kiểu dữ liệu tập hợp khác về kiểu set.

In [13]:
A = set()
type(A)
A

set

set()

In [17]:
name = set(('Adam', 'Eva'))
name
number = set([1,2,3,4,5])
number

{'Adam', 'Eva'}

{1, 2, 3, 4, 5}

- Dựa vào đặc điểm *không trùng lặp*, ta có thể giải quyết bài toán lọc phần tử trùng lặp trong list.

In [19]:
# bài toán: lọc các phần tử trùng lặp trong list A.

A = {1,2,3,3,4,4,4,5,5,5,5}
A_set = set(A)
A = list(A_set)
A

[1, 2, 3, 4, 5]

## Tạo tập hợp bằng chức năng set comprehention
`set()` có thể biến tất cả các dữ liệu dạng container về kiểu tập hợp.

In [20]:
s = 'abcdefff'
s_set = set(s)
s_set

{'a', 'b', 'c', 'd', 'e', 'f'}

`set()` trên dữ liệu từ điển sẽ chỉ tạp tập hợp từ các từ khóa.

In [21]:
d = {1:'Adam', 2:'Eva'}
d_set = set(d)
d_set

{1, 2}

Đây là một lệnh set comprehension.

Cú pháp tổng quát:

```python
<set> = {<expression> for <x> in <sequence> if <condition>}
```

In [22]:
# Bài toán: Tạo một set gồm các phần tử là mã ký tự ASCII của các ký tự có trong một xâu

s = 'abcdef'
s_ASCII_set = {ord(char) for char in s}
s_ASCII_set

{97, 98, 99, 100, 101, 102}

In [23]:
# Bài toán: Cho dãy A. Thiết lập tập hợp S là các phần tử khác 0 lấy từ A

A = [1,0,0,-2,3,129,0,200,45,54]
S = {num for num in A if num} # if num tương đương với if num != 0
S

{-2, 1, 3, 45, 54, 129, 200}

In [24]:
# Bài toán: Cho dãy số A, B. Thiết lập tập hợp các số từ dãy A nhưng không nằm trong dãy B.

A = [1,2,3,4,5,6,7,8,9,10]
B = [2,4,6,8,10,12,14,16,18,20]

set_diff_A_B = {num for num in A if num not in B}
set_diff_A_B

{1, 3, 5, 7, 9}

## Truy cập và duyệt phần tử trong Set
Các phần tử trong set không có thứ tự → không có chỉ số.

Do đó không thể truy cập từng phần tử bằng chỉ số của nó, cũng như không thể thực hiện việc cắt các tập hợp con bằng phép cắt dựa trên chỉ số sự dụng `:`.

Để truy cập các phần tử của set, ta thực hiện vòng lặp để duyệt qua toàn bộ phần từ của nó. Vì không có chỉ số nên buộc phải sử dụng vòng lặp `for`.

**Trong kiểu dữ liệu tập hợp, không có khái niệm thứ tự → Những gì dựa trên chỉ số không sử dụng được cho set**

In [37]:
name_set = {'Alice', 'Bob', 'Eva', 'Adam', 'Jack'}
for name in name_set:
    print(name)

Alice
Eva
Adam
Jack
Bob


Vì không có thứ tự nên kết quả sẽ xuất hiện không theo thứ tự của set mà ta thiết lập

## Các phương thức của Set
```python
>>> dir(set)
['__and__', '__class__', '__class_getitem__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__iand__', '__init__', '__init_subclass__', '__ior__', '__isub__', '__iter__', '__ixor__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__or__', '__rand__', '__reduce__', '__reduce_ex__', '__repr__', '__ror__','__rsub__', '__rxor__', '__setattr__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__xor__',
 'add', 'clear', 'copy', 'difference', 'difference_update', 'discard', 'intersection', 'intersection_update', 'isdisjoint', 'issubset', 'issuperset', 'pop', 'remove', 'symmetric_difference', 'symmetric_difference_update', 'union', 'update']
 ```

`len()` xác định số phần tử của Set

In [26]:
num_set = {1,3,5,7,9}
len(num_set)

5

Set có tính không thay đổi, điều này chỉ đúng với giá trị của phần tử trong set, vì ta không thể truy cập vào phần tử bằng chỉ số. Còn đối với tập hợp set thì ta có thể tiến hành thay đổi.

`add()` thêm một phần tử.  
`update()` thêm nhiều phần tử. Có thể lấy tập hợp tuple, list xâu ký tự làm đối số của nó, các phần tử giống nhau sẽ chỉ lấy một lần trong mọi trường hợp.

In [48]:
A = set()
A.add(1)
A.add('hi')
A

B = set((1,2))
B.update((2,3,'abc'))
B

C = set()
C.update((1,2,3,4,5), {2,4,6,8}, [1,3,5,7])
C

{1, 'hi'}

{1, 2, 3, 'abc'}

{1, 2, 3, 4, 5, 6, 7, 8}

`discard()` xóa phần tử khỏi set, giữ nguyên set nếu phần tử không có trong set đó.  
`remove`() xóa phần tử khỏi set, báo lỗi nếu phần tử không có trong set.  
`clear()` xóa và làm rỗng tập hợp hiện thời.  
`pop()` xóa và trả về phần tử đã xóa, vì không có thứ tự nên phần từ được xóa là ngẫu nhiên.  
`del <set>` xóa set trong chương trình.

In [15]:
A = set((9,18,27,36,45))
A

{9, 18, 27, 36, 45}

In [16]:
A.discard(45)
A

{9, 18, 27, 36}

In [17]:
A.discard(54)
A

{9, 18, 27, 36}

In [18]:
A.remove(36)
A

{9, 18, 27}

In [19]:
A.remove(90)
A

KeyError: 90

In [20]:
A.clear()
A

set()

In [21]:
A.update((9,18,27,36,45))
num = A.pop()
num
A

36

{9, 18, 27, 45}

In [22]:
del A
A

NameError: name 'A' is not defined

|Phương thức|Mô tả|
|-|-|
|`len(<set>)`|trả về số phần tử của `set`|
|`<set>.add(num)`|thêm 1 phần tử `num` vào `set`|
|`<set>.update((num1,num2...))`|thêm các phần tử trong list, tuple,... vào trong set|
|`<set>.remove(num)`|xóa `num` khỏi đối tượng `set`. Đưa lỗi `KeyError : num` nếu `num` không tồn tại trong set|
|`<set>.discard(num)`|xóa `num` khỏi đối tượng `set`. `set` giữ nguyên nếu `num` không tồn tại trong set|
|`<set>.pop()`|xóa ngẫu nhiên một phần tử trong `set` và trả về giá trị đó|
|`set>.clear()`|xóa tất cả các phần tử trong `set`, và `set` thành tập hợp rỗng|
|`del <set>`|xóa toàn bộ đối tượng `set`|

## Sao chép đối tượng set
**Set** là kiểu dữ liệu container nên nó tuân thủ theo cách gán tên theo namespace giống như **list** hay **dict**.
- Khi sử dụng toán tử `=` (gán), bất kỳ sửa đổi nào được thực hiện trên tập hợp ban đầu sẽ được phản ánh trên tập hợp mới - tức là tuy hai mà một.

Ví dụ: Sau khi gán `C = A` thì cả 2 tên A và C đều chỉ vào một đối tượng tập hợp duy nhất.

In [25]:
A = {5,10,15}
C = A
A.add(20)

print(f'A = {A}')
print(f'C = {C}')

A = {10, 20, 5, 15}
C = {10, 20, 5, 15}


`copy()` tạo ra một bản sao của set - tức là một đối tượng khác.

In [3]:
A = {2,4,6,'A','Abc'}
B = A.copy()
B

B.add('Hello')
print(f'A = {A}')
print(f'B = {B}')


{2, 4, 6, 'A', 'Abc'}

A = {2, 4, 6, 'A', 'Abc'}
B = {2, 4, 'Hello', 6, 'A', 'Abc'}


## Các phép toán trên tập hợp
### Kiểm tra quan hệ nằm trong, tập con, tập chứa tập hợp $a \in A, A \subseteq B, A \supseteq B$
Toán tử `in` dùng để kiểm tra một phần tử có nằm trong tập hợp hay không.  
`B.issubset(A)` kiểm tra $B \subseteq A$.  
`A.issuperset(B)` kiểm tra $ A \supseteq B$.  


In [6]:
A = {'One', 'Ten', 2, 3, (5,10)}
B = {2, 3}
C = {3, 2}

'Two' in A
B.issubset(A)
A.issuperset(B)
C.issubset(B)

False

True

True

True

### Phép hợp $A \cup B$
Định nghĩa:
$$A \cup B = \{x | x \in A \lor x \in B\}$$
`A.union(B)`, `B.union(A)` hoặc `A | B` để hợp 2 tập hợp `A` và `B`.

**Phương thức và phép toán trên sẽ tạo ra một tập hợp mới mà không làm thay đổi đến 2 tập hợp gốc.**

In [8]:
A = {'One', 'Two', 3}
B = {1, 'Two', 'Three', 4, 5}

C = A.union(B)
C

D = A | B
D

{1, 3, 4, 5, 'One', 'Three', 'Two'}

{1, 3, 4, 5, 'One', 'Three', 'Two'}

### Phép giao $A \cap B$
Định nghĩa:
$$A \cap B = \{x | x \in A \land x \in B \}$$
`A.intersection(B)` hoặc `A & B` để giao hai tập hợp `A` và `B`.

**Phương thức và phép toán trên sẽ tạo ra một tập hợp mới mà không làm thay đổi đến 2 tập hợp gốc.**

### Phép hiệu $A - B$
Định nghĩa:
$$A - B = \{x|x \in A \land x \notin B\}$$
`A.difference(B)` hoặc `A - B` đề trừ tập hợp `A` cho tập hợp `B`.

*Lưu ý:* $A - B \neq B - A$

**Phương thức và phép toán trên sẽ tạo ra một tập hợp mới mà không làm thay đổi đến 2 tập hợp gốc.**

### Phép hiệu đối xứng $A \Delta B$
Định nghĩa:
$$
\begin{aligned}
    A \Delta B = (A - B) \cup (B - A) \\
    = (A \cup B) - (A \cap B) 
\end{aligned}
$$
`A.symetric_difference(B)` hoặc `A ^ B` để trừ đối xứng hai tập hợp `A` và `B`.

**Phương thức và phép toán trên sẽ tạo ra một tập hợp mới mà không làm thay đổi đến 2 tập hợp gốc.**


## Frozenset
Frozenset là một tập hợp bất biến, chứa các phần tử không có thứ tự và không thể thay đổi giá trị, và không thể thêm hoặc xóa bất cứ phần tử nào.

Frozenset phù hợp khi được sử dụng với mục đích:
- tạo một tập hợp bất biến không cho phép thêm hoặc xóa các phần tử khỏi một tập hợp.
- khi muốn tạo một tập hợp chỉ đọc.

In [5]:
signal_led = ('red', 'green', 'yellow')
f_set = frozenset(signal_led)
print(f_set)
type(f_set)

frozenset({'yellow', 'green', 'red'})


frozenset

```python
>>> dir(frozenset)
...'copy', 'difference', 'intersection', 'isdisjoint', 'issubset', 'issuperset', 'symmetric_difference', 'union'
```
Không có các phương thức thêm xóa trên frozenset, nhưng vẫn có thể sử dụng các phép toán trên tập hợp như set.

In [1]:
#Hiện input, output
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

import builtins
def input(prompt=''):
    x = builtins.input(prompt)
    print(prompt+x)
    return x