# OBJECT trong PYTHON

## Identity Testing

## Nhiều copies của các giá trị bằng nhau

Value thật sự là gì trong Python? Nó không thể là abstract thing như trong Toán được, bởi vì máy tính phải làm việc được với nó. Trong chủ đề này ta sẽ tìm hiểu kỹ về khái niệm value trong Python.

Các value bằng nhau có thể tồn tại nhiều copy. Ví dụ


In [5]:
a = [1,2,3]
b = [1,2,3]
c = a
a[0] = 5

print(a)
print(b)
print(c)

[5, 2, 3]
[1, 2, 3]
[5, 2, 3]


Lý do output như vậy bởi vì ta có **hai copies** của `[1,2,3]`. Biến `a` và `c` refer đến copy đầu, `b` refer đến copy thứ hai. Thay đổi cái này không hề ảnh hưởng đến cái kia.

Ta gọi những copies này là **object** (chú ý phân biệt với biến - **variable** chứa object). Một object được lưu trong memory và chứa thông tin về abstract value mà nó biểu diễn. Vì vậy, có thể có nhiều object biểu diễn cùng một giá trị. Chúng có thể được coi như là twin. Mới nhìn vào có thể thấy nó identical, như thật ra, nó hoàn toàn là 2 cá thể khác nhau.

*Khái niệm chú ý: variable - object - value.*

Bây giờ cùng xem cách phân biệt twin.

### Id function

Mỗi <span style='color:red'>đối tượng</span> trong Python đều có một associate number gọi là **identity** (thấy được bằng cách gọi hàm `id`). Số, string, và other primitive types cũng là object và đều có identity. Identity không bao giờ thay đổi trong vòng đời của một object. Các object khác nhau trong memory có identity khác nhau. 

In [6]:
a = [1,2,3]
b = [1,2,3]
c = a

print(a == b)
print(b == c)

print(id(a))
print(id(b))
print(id(c))

True
True
140694676733504
140694676412352
140694676733504


### Identity testing

Hoàn toàn có thể dùng cách ở trên check id của hai biến refer to cùng một đối tượng hay không, tuy nhiên có cách hay hơn mà Python sử dụng đó là **identity operator** `is`. Cẩn thận đừng nhầm với toán tử `==` **equality operator** kiểm tra value.

In [7]:
a = [1,2,3]
b = [1,2,3]

print(a == b)
print(a is b)

b = a
print(b is a)

True
False
True


### Dùng cẩn thận identity operator


Dùng identity operator thay cho equality operator có thể dẫn đến rất nhiều vấn đề. Ví dụ dưới đây cho thấy sự nguy hiểm của nó:

In [8]:
a = int(input())  # 10 
b = int(input())  # 10

print(a is b)  # True
print(id(a), id(b))  # the same identity

a = int(input())  # 10000
b = int(input())  # 10000

print(a is b)  # False
print(id(a), id(b))  # different identity

ValueError: invalid literal for int() with base 10: ''

Có chút vấn đề về đọc `input()` với vs code notebook. Anyway, Lý do mà xảy ra như vậy bởi vì Python tối ưu việc dùng integer từ -5 đến 256. Nó được sử dụng thường xuyên nên Python không cần phải tạo object mỗi khi dùng, mà đưa reference đến số có sẵn. Điều này cũng xảy ra với short string.

Tuy nhiên, số lớn thì còn tùy vào implementation. 

In [None]:
a = 10000
b = 10000
print(a is b)  # maybe get True

False


### Khi nào sử dụng identity operator?

Trường hợp dùng đúng của `is` operator có thể là khi kiểm tra cái gì có phải `None` hay không. `None` là ký tự đặc biệt trong Python để chỉ **no value**.

Thông thường thì `None` dùng như default value của optional arguments trong function.


In [None]:
def say_hello(name=None):
    if name is None:
        print('Hello!')
    else:
        print(f'Hello, {name}!')
        
say_hello()
say_hello('Huan')

Hello!
Hello, Huan!


`True` hay `False` cũng là **singleton** object (object chỉ tồn tại duy nhất và tại một thời điểm, một ví trí trong mem trong toàn bộ quá trình chạy của program), nên bạn cũng hoàn toàn có thể dùng `is` với tụi nó.

## Object trong Python

Hiểu rõ các loại objects hoạt động như thế nào trong Python sẽ giúp dễ hiểu cấu trúc ngôn ngữ này hơn.

### Reference to an object

Với Python, tất cả các value đề được lưu vào objects. Có thẻ nghĩ object như một cái box có chứa info về value nào đó, ngoài ra cũng lưu những info khác: như identity. 

Ví dụ: `string = "hello"`.

![](./img/image_2020-02-27_21-58-44.png)

Sau đó, nếu thử gán `new_string = string`, Python sẽ tạo reference tới **cùng một object**.

![](./img/image_2020-02-27_22-02-17.png)



In [None]:
string = 'hello'
new_string = string

print(id(string))
print(id(new_string))


140478017159920
140478017159920


Chúng ta có thể truy cập đối tượng này dùng một trong hai variable này. Ngoài ra cũng có thể gán new value đến một trong hai variable này mà không ảnh hưởng đến cái còn lại.

In [None]:
string = 'world'

print(string, id(string))
print(new_string, id(new_string))

world 140478018280048
hello 140478017159920


Lưu ý rằng identity cũng thay đổi khi giá trị thay đổi. Tuy nhiên, tình hình sẽ khác khi đó là *mutable object*, ví dụ: một vài loại container.

![](./img/image_2020-02-27_22-07-13.png)

### Mutable object & references

Lấy `list` làm ví dụ, list không hề lưu value bên trong nó. Thay vào đó, list lưu **references** đến object - nơi lưu value.

Ví dụ, `lst = [2, 3, 9]`:

![](./img/image_2020-02-27_22-49-39.png)

Bây giờ, nếu ta gán list này vào new variable và thay đổi list ban đầu, điều này cũng ảnh hưởng tới new list:

In [None]:
lst = [2, 3, 9]
new_lst = lst

print(lst, id(lst))            # [2, 3, 9] 
print(new_lst, id(new_lst))    # [2, 3, 9] 

# we change an element of the first list
lst[2] = 0
print(lst, id(lst))            # [2, 3, 0] 

# but the new list is also modified
print(new_lst, id(new_lst))    # [2, 3, 0] 

[2, 3, 9] 140105685805824
[2, 3, 9] 140105685805824
[2, 3, 0] 140105685805824
[2, 3, 0] 140105685805824


Đó là do cả hai list này đều trỏ về một đối tượng: khi nó bị thay đổi, tất cả các biến ref tới nó đều thay đổi. Ở mục dưới, ta sẽ tìm hiểu cách thay đổi list mà không thay đổi copies của nó.

## Copy of a object

Ở các mục trên cũng đã chỉ rõ việc assign một variable to một variable khác không hề tạo ra object mới, chỉ là variable cùng **refer** tới **the same object**. Với immutable object, e.g: strings, đơn giản chúng ta có thể truy cập và thay đổi variable một cách độc lập so với variable cũ. Tuy nhiên, với mutable object, nếu gán 1 biến với biến khác và thay đổi một trong 2 biến thì nó sẽ ảnh hướng tới biến còn lại. 

Điều này xảy ra là do với *immutable object*, mối khi bạn muốn thay đổi nó, một new object được tạo ra. *Mutable object*, trái lại, được thay đổi tại chỗ. Vậy làm sao để thật sự copy và thay đôi tùy thích mà không ảnh hướng đến cái còn lại?

### Copy a mutable: shallow copy

Ta dùng shallow copy, thường được sử dụng cho mutable container (ví dụ như list). Mutable container lưu **references** đến object, tại đó lưu values. Với shallow copy, ta có thể tạo copy của một list mà chứa object, nhưng mà cái **references** đến container đó là mới.

![](./img/image_2020-02-28_18-47-17.png)

Có 2 cách để shallow copy:

-   `copy` function từ module `copy`: works với tất cả loại object.


In [None]:
import copy

lst = [2, 3, 9]
new_lst = copy.copy(lst)

- Cách 2 là dùng `copy` method của list (hoặc set, dict cũng có):

In [None]:
lst = [2, 3, 9]
new_lst = lst.copy()

Giờ thì thay đổi 1 cái không còn ảnh hưởng tới cái còn lại nữa

In [None]:
print(lst, id(lst))            # [2, 3, 9] 
print(new_lst, id(new_lst))    # [2, 3, 9] 

# we change an element of the first list
lst[2] = 0
print(lst, id(lst))            # [2, 3, 0] 

# the new list remains the same
print(new_lst, id(new_lst))    # [2, 3, 9] 

[2, 3, 9] 140105677251072
[2, 3, 9] 140105685784576
[2, 3, 0] 140105677251072
[2, 3, 9] 140105685784576


![](./img/image_2020-02-28_18-58-06.png)

### Không đơn giản chỉ vậy

Lấy ví dụ dưới đây để thây mặc dù đã dung shallow copy, như values vẫn không được copy.



In [None]:
menu = {
   'breakfast': ['porridge'],
   'lunch': ['soup', 'main course', 'compote'],
   'dinner': ['main course', 'dessert', 'tea'],
}

copy_menu = menu.copy()

# a new container is created:
print(id(menu), id(copy_menu))                      

# but the stored values are the same
print(id(menu['lunch']), id(copy_menu['lunch']))     

140105316406080 140105316392512
140105685785920 140105685785920


Nguyên nhân là vì shallow copy chỉ duplicate container thôi, element vẫn giữ.

Vậy với trường hợp muốn copy luôn cả element thì sao. Chẳng hạn như list của các list, và muốn thay đổi list con bên này mà không ảnh hưởng tới list con bên kia.

![](./img/image_2020-02-28_22-09-28.png)

In [None]:
lst = [[5, 5], [2, 3, 9]]

shallow_copy_lst = lst.copy()

shallow_copy_lst[0][1] = 10

print(shallow_copy_lst)
print(lst)  # the same?

[[5, 10], [2, 3, 9]]
[[5, 10], [2, 3, 9]]



### Copy a mutable: deep copy

`deepcopy` function từ module `copy` tạo một clone mà hoàn toàn không liên quan gì đến đối tượng ban đầu.


In [None]:
lst = [[5, 5], [2, 3, 9]]
new_lst = copy.deepcopy(lst)


Nếu đối tượng là một container có chứa các references đến các object khác, hàm này không chỉ copy reference tới mớ object bên trong (như cách mà shallow copy làm) mà là recursively copy tất các các object bên trong luôn. Kết quả là một container hoàn toàn mới với các element mới được tạo ra.

![](./img/image_2020-02-29_11-44-46.png)



In [None]:
lst[0][1] = 10

print(lst)                     # [[5, 10], [2, 3, 9]]
print(new_lst)                 # [[5, 5], [2, 3, 9]]

[[5, 10], [2, 3, 9]]
[[5, 5], [2, 3, 9]]


Trông như `deepcopy` là perfect solution mối khi muốn copy object? Tại sao phải quan tâm tới mutable/ immutable làm chi? Well, `deepcopy` có điểm yếu chí tử ở chỗ nó tiêu hao rất nhiều memory bởi vì nó duplicate toàn bộ structure của object. Shallow copy dùng ít memory hơn, vì vậy cần nhắc nếu thay đổi 1 trong các copies không ảnh hưởng đến cái còn lại thì nên dùng shallow copy.


## Hashable

Trước khi đi vào Hashable thì nhắc lại một tý kiến thức về "Hash table".

### Hash table

Senario: Giả sửa bạn có 1 đống sách và muốn cho đám bạn mượn, cũng như trả và kiểm tra có sẵn sách nào đó hay không. Do đó bạn muốn viết một chương trình cho phép *add* books, *remove* books, *check* books. Trường hợp này **Hash table** sẽ là data structure phù hợp nhất.

**Hash table** là cấu trúc cho phép insert/ remove/ check if value is present với thời gian là $O(1)$. Hash table một mình không thể đảm bảo điều này. Tuy nhiên nếu kèm với một hash function tốt, mọi thứ sẽ ok với senario này.

#### Định nghĩa

Hash table là mảng mà mỗi entry là một **bucket**. Bucket có thể chứa 0 hoặc nhiều hơn values, chúng được xác định bởi index trong mảng. Nếu muốn insert một value vào hash table, ta tính hash value và inset nó vào trong bucket tại index mà bằng với hash value (modulo với kích cỡ mảng nếu như hash value lớn). Điều tương tự làm với remove/ search.

Nhìn vào ví dụ dưới đây: Hash table với 5 buckets và ta phải insert giá trị {1,3,5,6} với identity hash function.

|**Index**|0|1|2|3|4|
|---------|-|-|-|-|-|
|**Values**|{5}|{1,6}|{}|{3}|{}|

Bởi vì ta dùng identity hash function nên hash value bằng luôn, từ đó bỏ vào index (5,6 lớn hơn chỉ sổ lớn nhất là 4 nên ta tính modulo và bỏ vào bucket tương ứng).

Có hai loại hash table:

-   **Hash set**: Loại này chuyên dùng cho trường hợp chỉ quan tâm đến việc check value có trong hash table hay không. Mặc dù ta hoàn toàn có thể add/remove value, nhưng hầu hết, ta không cần quan tâm đến việc lấy value ra khỏi hash table bởi vì ta đã có một equal value mà ta cần search.

-   **Hash map**: Tưởng tượng bạn muốn có một phone book chứa tên và sđt của bạn bè, và muốn tìm kiếm sđt bằng tên. Nếu bạn dùng hash set của name-number thì bà cần biết số để có thể search. Hash map có thể xử lý chuyện này: nó khá tương tự với hash map nhưng mà nó lưu pairs. Entry đầu tiên là key, thứ hai là value. Chỉ có hash của key là được dùng, do đó, khi search, ta tìm kiếm value mà dính với key. Ví dụ ở trên thì key là name, value là sđt.

#### Load factor

Rõ ràng việc có một huge bucket không hề tốt chút nào. Nếu mà tất cả value đề bỏ trong 1 bucket thì khi search, ta phải đi tìm trong bucket đó không khác gì tìm trong một mảng cả. Do đó nếu ta để điều đó xảy ra, thì việc dùng hash table gần như vô nghĩa!

Ví dụ: hash table có 100 bucket và 200 value. Lý tưởng là mỗi bucket có 2 value. Khi đó mỗi khi muốn tìm một gía trị, ta cần kiểm tra đều cả 2 value trong bucket tương ứng. ĐIều này không tệ, nhưng, lý tưởng nhất, các bucket chỉ nên có 0 đến 1 elements. Mặc dù ta không thể luôn luôn đảm bảo điều này, nhưng ta có thể cải thiện average numeber nếu ta có nhiều buckets hơn elements. Khi đó, ta phải giảm **load factor**.

**Load factor** là real number $l$ từ 0 tới 1 để thể hiện hash table full tới đâu.

$l = \frac{\#elements}{\#buckets}$

Hầu hết các hash table đều có **max load factor** $\alpha$, hằng số thuộc 0 đến 1, và là giới hạn trên cho load factor. Sau khi ta inset new value vào hash table, ta phải tính lại new load factor $l$. Nếu $l > \alpha$, ta phải tăng số lượng bucket trong hash table lên, thông thường bằng cách tạo một hash table mới với gấp đối bucket, sau đó mới insert tất cả values từ cái cũ vào cái mới. Lưu ý rằng ta phải tính lại index của tất cả element bởi vì index dựa trên hash value và số lượng buckets. Max load factor thường bằng $\red{0.75}$: vừa đủ buckets xài mà không quá lãng phí mem.

![](./img/Books2.svg)

#### Tại sao hash table lại nhanh?

Hash table chỉ tốn $O(1)$ để inset hoặc remove hoặc search value nếu nó có một hash function tốt. Vì sao?

Khi thực hiện các operation trên, hash table phải thực hiện đúng 2 thứ: 

-   Tính hash value
-   Search ở chỉ duy nhất 1 bucket cho giá trị ban đầu.

Một hash function mà *efficient*, nó chỉ tốn $O(1)$ để tính hash value và là *deterministic*, do đó hash value sẽ bằng nhau cho bất kỳ equal values, nghĩa là sẽ search vào đúng bucket. Ngoài ra, một good hash function là *uniform*, sẽ không có bucket nào quá lớn, trong khi các bucket còn lại empty hoặc almost empty. Điều này, cộng với yếu tố load factor ở trên, đảm bảo răng trung bình, sẽ có ít hơn 1 element trong 1 bucket. Do đó searching tốn $O(1)$. Cuối cùng, ta có thể implement bucket để insert cũng chỉ tốn $O(1)$, ví dụ nhwu linked list. Vì vậy, tất cả các operation đều chỉ tốn $O(1)$.



### Hash function

Nhân đây chắc cũng nói thêm tý về Hash function, từ từ quay lại chủ đề "Hashable" sau :v 

#### Good hash function

Ở phía trền cũng đã nói sơ như thế nào là một good hash function. Cụ thể làm rõ ở 3 điểm sau:
-   efficient
-   deterministic
-   uniform

Một **efficient** hash function phải tính hash value trong thời gian constant: $O(1)$ theo size của input. Ví dụ có mảng n phần tử integer, a good hash function tốn $O(n)$ cho tất cả phần tử.

Nếu hai input bằng nhau, một **deterministic** hash function phải trả về chung một hash value. Có 2 điểm cần chú ý ở đây:
-   Đầu tiên, deterministic nghĩa là hàm không được random. Ví dụ, function trả về 0 hay 1 một cách ngẫu nhiên, không phụ thuộc vào input, cũng là một hash function nhưng không phải là một deterministic hash function.
-   Thứ hai, ví dụ có hai variable phân biệt, nhưng giá trị bằng nhau. Với máy tính, hai variable nằm ở hai chỗ khác nhau ở mem, nên hai biến này khác nhau nhưng giá trị bằng nhau. Hash function mà trả về địa chỉ trên mem không phải là một deterministic hash function.

Tính chất thứ ba là **uniform**: hash function phải phân bố giá trị trả về uniformly. Có nghĩa là inputs nên được mapped equally giữa các hash values có thể có. 

#### Standard hash function

Hash function ký hiệu $h$, hash value cho object $x$ là $h(x)$. Hash function được dùng trong programming hằng ngày nhận một loại value và trả về integer. Một số loại value đó có thẻ là:
-   *Integer*: ta dùng identity function $h(x) = x$ hoặc modulo $h(x) = x \% p$ ($p$ thường là số nguyên tố).

- *Integer Array*: Giả sử mảng số nguyên là $[v_1, v_2,...,v_n]$. Ý tưởng là bắt đầu từ bên trái sang, lần lượt lấy hash value của số trước đó với *một số nào đó* và cộng với giá trị đang có. Công thức có thể được viết:

$h_0 = 0, h_{i+1} = h_i * p + v_{i + 1}$ khi $p$ là một số nào đó (thường là prime).

Vậy hash value của số cuối trong mảng chính là hash value của mảng:

$h_n = v_1 * p^{n-1} + v_2 * p^{n-2} + ... + v_n$

Vậy sao không cộng hết các elements cho dễ? Tuy nhiên, nếu vậy thì các mạng có những giá trị giống nhau (mặc dù vị trí nằm khác nhau trong mảng) có thể có chung một hash value. Điều này không hay chút nào.

- *General Array*: Nếu là mảng của các object nói chung thì sao? Thay vì cộng giá trị thì cộng hash của object đó, kí hiệu $h'$, hàm hash này chuyển object sang integer.

$h_{i+1} = h_i * p + h'(v_{i+1})$

- *String*: string thật ra cũng chỉ là mảng của characters. Mà một character thật ra cũng chỉ là integer từ 0 - 255, do đó hoàn toàn có thể tính hash của string như của array of integer.

Ví dụ: mảng $[1,2,3,4]$ và $p=5$

-   $h_1 = h_0*p + v_1 = 0*5 + 1 = 1$
-   $h_2 = h_1*p + v_2= 1*5 + 2 = 7$
-   $h_3= h_2*p + v_3= 7*5 + 3 = 38$
-   $h_4= h_3*p + v_4= 38*5 + 4= 194$

Hash value của mảng này là $194$, tăng rất nhanh! Do đó có thể dùng một prime khác $p$ để lấy modulo:

 $h_{i+1} = (h_i * p + h'(v_{i+1})) \% q$.

 Người ta đã chứng minh được chỉ cần lấy modulo của $h_n$ là đủ.

 #### Cryptographic hash function

 Cryptographic hashes được tạo ra để phù hợp với input ở bất kỳ type/ length nào bằng việc coi chúng như chuỗi bits. Output cũng là chuỗi bits nhưng mà với fixed length. Máy thì hoàn toàn ok với điều này, tuy nhiên với con người thì cần cái gì đó "trực quan" hơn, ngoài ra output bằng bits cũng rất dài (thường vài trăm), do đó người ta convert từ base 2 sang base 16 và viết dưới dạng string.

 Cryptographic hash vẫn đảm bảo các tính chất của hash nhưng phức tạp hơn. Nó có ít ứng dụng hơn nhưng cực kỳ quan trọng trong bảo mật:
 -  Tưởng tượng một công ty lưu một table lưu username-password pair của một website mà bạn dùng. Nếu table bị leaked, thì ai cũng có thể thấy mật khẩu của bạn. Do đó, điều mà người ta làm thay thế đó là lưu hash của password. Mỗi khi bạn gửi họ password của bạn, họ sẽ tính hash của password đó và so sánh xem nó có bằng với hash mà họ đang lưu. Bây giờ nếu bảng đó có bị leaked thì attacker cũng phải tìm password để log in. Vậy, hash fuction phải làm cho việc dịch ngược trở nên khó khăn. Hàm như vậy gọi là **pre-image resistant**: cho một hash value $h$, việc tìm message $m$ phải *khó khăn* với $hash(m) = h$.

 -  Một trong các cách mà đảm bảo message sẽ không bị thay đổi là bằng cách gửi hash của message cùng với message. Giả sử attacker muốn thay đổi message, nhưng không thể thay đổi hash. Nên attacker phải tìm một message khác mà cùng hash value, dù cho nội dung message mới có thể ko hề có nghĩa, nhưng nó vẫn ảnh hưởng tới việc communication. Một hash function mà không có phép điều này gọi là **second pre-image resistant**, hay **weak collision resistant**: cho một message $m_1$, việc tìm một message nào đó $m_2$ có $hash(m_2) = hash(m_1)$ là *khó khăn*. Tìm hiểu thêm ở [Stackoverflow](https://stackoverflow.com/questions/28378326/difference-between-preimage-resistance-and-second-preimage-resistance).

 -  Trong một vài trường hợp cụ thể, tìm *bất kì* cặp messages có cùng hash value có thể gây ra nhiều vấn đề. Một hash function mà không có phép điều này xảy ra gọi là **collision resistant**, hay **strong collision resistant**: việc tìm **bất kỳ* messages nào $m_1, m_2$ mà $hash(m_1) = hash(m_2)$ là *khó khăn*. Tìm hiểu thêm ở [đây](https://stackoverflow.com/questions/8523005/what-is-the-difference-between-weak-and-strong-resistance). 

 Khi mà dùng từ *khó khăn*, điều này nghĩa là tìm ra giá trị cần tìm phải mất đến đơn vị *năm*, thậm chí với supercomputer mạnh mẽ nhất. Nếu bạn nghĩ rằng để làm ra hash function có đủ tính chất để làm điều này rất KHÓ, hoàn toàn đúng! Không phải ai cũng có thể nghĩ ra một hash function như vậy. Điều may mắn là có một vài chuẩn được sử dụng rộng rãi ngày nay. Implementations rất phức tạp, ta sẽ không đi vào chi tiết ở đây.

 Bắt đầu với ví dụ về **MD5**, tạo ra từ 1992 (tốt hơn MD4). Nó nhận bất kỳ input nào và output 128-but hash value. Ban đầu thì nó được coi là collision resistant, cho tới 2004 khi nó được chứng minh không phải. Tốn 12 năm với rất nhiều research, cho nên tốt nhất cứ nên stick với hash mà có sẵn thay vì tạo ra một loại mới :v 

 Một loại crytographic hash function khác là **SHA256**, bảo mật hơn. Output 256-bit và được dùng ở rất nhiều nơi, một trong số đó là [Bitcoin proof of work](https://en.bitcoin.it/wiki/Proof_of_work). Ví dụ để thấy sự khác nhau nhỏ đã đủ dẫn đến hash value khác tới khi nào:

SHA256("Hashes are fun!")=c128f0e84f60397828b11eaa3cbb67262b99f4d11f3ad630139ffa36cc600278

SHA256("hashes are fun!"\ )=9659f1fcdf143e3e1f66a922d71500d86c3b7d8f3a5ef03e1d9676547632317eSHA256("hashes are fun!" )=9659f1fcdf143e3e1f66a922d71500d86c3b7d8f3a5ef03e1d9676547632317e

SHA256("Hashes are fun.")=b2cde78b638667158fb91d0c665d1d20cc247925b45d9eccb7d25c08721fea12SHA256("Hashes are fun.")=b2cde78b638667158fb91d0c665d1d20cc247925b45d9eccb7d25c08721fea12

SHA256("Hashes are fnu!")=c75bb5fed45a21695e0c607376cc1c925939a02c38fac8e7d5488b8820487bcaSHA256("Hashes are fnu!")=c75bb5fed45a21695e0c607376cc1c925939a02c38fac8e7d5488b8820487bca

 

## Hashable

Quay trở về với chủ đề "Hashable" ban đầu, trước tiên nhắc lại trong Python dict, thì không phải object nào cũng có thể làm key được. Trong phần này, ta sẽ cùng tìm hiểu những tính chât nào của object cần có để có thể là key trong dict và tại sao. Type nào trong Python không có tính chất đó và nó liên quan gì tới immutability.

### "Hashable" nghĩa là gì?

Trong ngữ cảnh Python, **Hashable** object có nghĩa là object đó có hash value không đổi trong vòng đời của nó và có thể so sánh được với object khác. Tức là phải có `__hash__()` và `__eq__()`. Hashable object có thể làm key của dict (hoặc set member).

Tại sao chỉ có hashable object mới có thể làm dict key? Hash table cho phép search element với $O(1)$: rất hiệu quả! Python dict (và set) implement hash table by default nên keys của nó cần hashable.

### Hashable và unhashable type?

Trong python, string và integer là immutable bởi vì ta không thể modify chúng. Ví dụ như `integer += 5` hoặc `string += 'end'` thì new object sẽ được tạo ra, và những biến `integer` và `string` lúc này sẽ refer tới new object. Sets, list và dict mặc khác là **mutable**, do đó khi mà ta thay đổi chúng, object tương tự sẽ được thay đổi.

Trong Python, built-in immutable object như string hay integer là hashable còn mutable như container (list, set, dict) thì không. Containter mà immutable như tuple là hashable khi và chỉ khi tất cả các element của nó là hashable. Frozenset cũng là immutable và hashable.

Ví dụ:

In [1]:
# immutable objects
string = "python"
integer = 487


print(string.__hash__())
print(integer.__hash__())
print(hash(string))


-9072941774138549048
487
-9072941774138549048


Đối với unhashable object khi gọi `__hash__()` hoặc `hash` thì ta nhận được `TypeError`:

In [3]:
name_list = ['Julias Caesar']

print(hash(name_list))

TypeError: unhashable type: 'list'

In [4]:
# immutable object

question = 'ultimate'
answer = 42

print(answer.__eq__(42))
print(answer.__eq__(13))
print(question.__eq__('age-old'))


# mutable object
numbers = [0,1]
similar = (0, 1)
print(numbers.__eq__([0,1]))
print(numbers.__eq__(similar))


True
False
False
True
NotImplemented


Có thể thấy `__eq__` có thể so sánh cả mutable và immutable object. Kết quả là `True` hoặc `False`, tuy nhiên `NotImplemented` object có thể crop up trong trường hợp loại object không thể so sánh được.

### Immutable containers

Immutable container là hashable nếu element trong nó là hashable bởi vì hash value được tính từ hash value của element.


In [5]:
# tuple with strings
traffic_light = ('red', 'yellow', 'green')
print(hash(traffic_light))

# tuple with lists
rainbow = (['red', 'orange', 'yellow'], ['green', 'blue', 'purple'])
print(hash(rainbow))

-1914294530933265557


TypeError: unhashable type: 'list'


Với các built-in type trong Python, hash value phụ thuộc vào dữ liệu chứ ko phải id của nó:


In [6]:
name1 = ('Monty', 'Python')
name2 = ('Monty', 'Python')

# ids
print(id(name1), id(name2))

# hash values
print(hash(name1), hash(name2))

140493835335488 140493838105216
-1476028616540226020 -1476028616540226020


Điều này có nghĩa nếu object trong dict mà chung key thì đảm bảo như nhau:

In [7]:
dictionary = {}
dictionary[name1] = 'This is Monty Python'
dictionary[name2] = 'This is also Monty Python'

print(dictionary[name1])

This is also Monty Python


Rõ ràng điều này là đúng bới vì giả sử key của dict mà là unhashable tức là trong vòng đời của nó nó thay đổi hash value, mà dict lại đi search bằng key, tức hash value, tức là trong vòng đời của object mà unhashable, cặp key-value của nó cũng mất luôn.

### Hashable check

Để kiểm tra object có hashable hay không ta dùng modulo `collections` có abstract base class là `Hashable`, cụ thể là dùng `isinstance()`, trả về `True` hoặc `False`:

In [8]:
from collections.abc import Hashable

obj = ... # Some obj
isinstance(obj, Hashable)



True

In [10]:
# float 
print(isinstance(3.14, Hashable))
# string
print(isinstance('3.14', Hashable))
# tuple
print(isinstance((3.24,), Hashable))
# frozenset
print(isinstance(frozenset({3.14}), Hashable))
# dict
print(isinstance({3.14: 'Pi number'}, Hashable))
# list
print(isinstance([3.14], Hashable))
# set
print(isinstance({3.14, }, Hashable))

True
True
True
True
False
False
False


### Hashable custom class

Object của custom class nào đó mặc định là hashable trong Python. Điều này bởi vì `object` class là class CHA MẸ của tất cả các custom class có đủ `__hash__()` và `__eq__()`. Bạn có thể định nghĩa một implementation riêng của các method này tuy nhiên có một vài phần tricky nếu làm vậy. Đôi khi default implementation là đã cover khá ổn rồi. Điều quan trọng muốn nói ở đây là khác với built-in type, hash value của custom class object dựa vào id của nó chứ ko phải data.