# D17 Deep copy

## Mục đích

Giới thiệu về cách thức lưu trữ dữ liệu trong Python và lí do của deep copy.


## Quản lí bộ nhớ

Trong lập trình, chúng ta làm việc với các biến. Trên thực tế, các biến này là một cách để lưu trữ địa chỉ của các giá trị trong bộ nhớ máy tính. Tưởng tượng bộ nhớ máy tính giống như một thư viện sách, mỗi cuốn sách được cất ở một địa chỉ (ví dụ, phòng 3 tủ 2 tầng thứ 2 cuốn thứ 17 từ trái sang phải). Chúng ta không thể nào nhớ được địa chỉ của mỗi giá trị, và điều đó cũng không khả thi khi lập trình vì máy tính sẽ cấp địa chỉ dựa trên không gian còn trống của bộ nhớ. Do đó, chúng ta sử dụng tên biến để đại diện cho các địa chỉ này. Hãy xem hiện tượng dưới đây, và chúng ta sẽ quay lại với việc quản lí bộ nhớ máy tính để giải thích chuyện này.

Trong ví dụ đầu tiên, bạn có một hàm `func1()` với đối số `a` là kiểu `float`. Đối số này sẽ bị biến đổi trong quá trình thao tác trong hàm. Hãy cùng xem kết quả.

In [1]:
def func1(a):
    a += 1
    return a

a = 10

print(f"Trước khi chạy hàm: {a=}")
print(f"Kết quả của hàm: {func1(a)=}")
print(f"Sau khi chạy hàm: {a=}")

Trước khi chạy hàm: a=10
Kết quả của hàm: func1(a)=11
Sau khi chạy hàm: a=10


Bạn có thể thấy rằng mặc dù chúng ta đã cộng thêm 1 và gán cho chính đối số `a` này, nhưng sau khi chạy hàm, giá trị của biến `a` vẫn không thay đổi. Tức là việc thao tác bên trong hàm không làm ảnh hưởng tới giá trị đang lưu trong bộ nhớ máy tính của biến `a`.

Hãy cùng xem hàm `func2()`, và lần này chúng ta sẽ cung cấp một đối số `b` kiểu `list`.

In [2]:
def func2(b):
    b[0] = 0
    return b

b = [2, 1, 1]

print(f"Trước khi chạy hàm: {b=}")
print(f"Kết quả của hàm: {func2(b)=}")
print(f"Sau khi chạy hàm: {b=}")

Trước khi chạy hàm: b=[2, 1, 1]
Kết quả của hàm: func2(b)=[0, 1, 1]
Sau khi chạy hàm: b=[0, 1, 1]


Bạn sẽ thấy một kết quả khác so với bên trên: nội dung của `b` đã bị thay đổi sau khi chạy hàm. Tại sao lại có sự khác nhau này? Sự khác nhau đến từ giá trị mà `a` và `b` lưu trữ.

* Giá trị mà `a` lưu trữ chính là giá trị thực sự bên trong bộ nhớ của `a`. Ví dụ, khi `a` = 10 thì việc đưa `a` làm đối số cho hàm `func1(a)` đồng nghĩa với việc ra lệnh cho Python: "Hãy lấy giá trị 10 đặt vào vị trí của đối số `a` trong hàm `func1()`." Nói cách khác, bạn đang chạy lệnh `func1(10)`.
* Tuy nhiên điều này không đúng với biến `b`. Biến `b` không lưu trữ nội dung của toàn bộ danh sách, mà nó chỉ lưu trữ địa chỉ của *con trỏ* (pointer) đến danh sách. Nói cách khác, nó lưu trữ địa chỉ của ... một địa chỉ khác. Do vậy, khi đưa biến `b` vào vị trí của đối số `b` trong hàm `func2()`, cái thực sự chúng ta cung cấp là con trỏ đến danh sách, hay `func2(pointer_tới_list)`, và mọi thao tác đối với con trỏ này sẽ ảnh hưởng tới dữ liệu thật sự đang nằm trong bộ nhớ.

Một lưu ý rằng việc đặt tên đối số không phải là lí do dẫn tới điều này. Đối số trong hàm chỉ giống như một viên gạch đặt chỗ, và cái thực sự được điền vào đó là giá trị mà bạn cung cấp cho đối số. Kết quả vẫn sẽ như vậy nếu chúng ta đổi tên đối số.

In [3]:
def func1(param):
    param += 1
    return param

a = 10

print(f"Trước khi chạy hàm: {a=}")
print(f"Kết quả của hàm: {func1(a)=}")
print(f"Sau khi chạy hàm: {a=}\n")

def func2(param):
    param[0] = 0
    return param

b = [2, 1, 1]

print(f"Trước khi chạy hàm: {b=}")
print(f"Kết quả của hàm: {func2(b)=}")
print(f"Sau khi chạy hàm: {b=}")

Trước khi chạy hàm: a=10
Kết quả của hàm: func1(a)=11
Sau khi chạy hàm: a=10

Trước khi chạy hàm: b=[2, 1, 1]
Kết quả của hàm: func2(b)=[0, 1, 1]
Sau khi chạy hàm: b=[0, 1, 1]


Hãy xem một ví dụ khác. Đó là khi chúng ta tạo biến mới. Kết quả cũng sẽ giống như trên. Cách thức này trong Python gọi là "shallow copy", tức là bạn không thực sự sao chép toàn bộ nội dung của một số loại dữ liệu. Sao chép con trỏ chỉ tốn một không gian bộ nhớ rất nhỏ, nhưng sao chép toàn bộ dữ liệu ("deep copy") có thể tạo ra hàng chục KB, thậm chí hàng chục MB mới với những khối lượng dữ liệu lớn.

In [4]:
a = 10
b = a
print(f"Trước khi biến đổi b: {a=} {b=}")

b += 1
print(f"Sau khi biến đổi b: {a=} {b=}\n")

c = [2, 1, 1]
d = c
print(f"Trước khi biến đổi d: {c=} {d=}")

d[0] = 0
print(f"Sau khi biến đổi d: {c=} {d=}")

Trước khi biến đổi b: a=10 b=10
Sau khi biến đổi b: a=10 b=11

Trước khi biến đổi d: c=[2, 1, 1] d=[2, 1, 1]
Sau khi biến đổi d: c=[0, 1, 1] d=[0, 1, 1]


## Deep copy

Những dữ liệu nào sẽ được lưu trữ con trỏ thay vì giá trị của nó? Tất cả các dữ liệu tổ hợp của nhiều dữ liệu khác (compound) sẽ được lưu trữ dưới dạng con trỏ, ví dụ `list` hay các lớp dữ liệu (class). Nếu bạn thực sự cần thao tác với dữ liệu trong các kiểu dữ liệu này và không muốn ảnh hưởng tới dữ liệu gốc, bạn sẽ cần thực hiện deep copy thay vì shallow copy. Hãy cùng quan sát ví dụ trong Pandas.

In [5]:
import pandas as pd

d1 = pd.DataFrame({
    "id": [1, 2],
    "name": ["ABC", "XYZ"]
})

d1

Unnamed: 0,id,name
0,1,ABC
1,2,XYZ


In [6]:
d2 = d1.copy(deep=True)

d2.loc[0, "id"] = 3
d2

Unnamed: 0,id,name
0,3,ABC
1,2,XYZ


In [7]:
d1

Unnamed: 0,id,name
0,1,ABC
1,2,XYZ


Bạn có thể thấy rằng khi thực hiện deep copy (`True` là giá trị mặc định cho đối số `deep` của hàm `copy()`), nội dung của dữ liệu gốc không bị ảnh hưởng. Điều gì xảy ra nếu chúng ta shallow copy?

In [8]:
d3 = d1.copy(deep=False)

d3.loc[0, "id"] = 3
d3

Unnamed: 0,id,name
0,3,ABC
1,2,XYZ


In [9]:
d1

Unnamed: 0,id,name
0,3,ABC
1,2,XYZ


Như đã thấy, nội dung của dữ liệu gốc đã bị thay đổi. Do vậy, mình nhắc lại lần nữa rằng nếu bạn tạo ra các hàm mà nội dung đưa vào là các dạng dữ liệu compound như thế này, và không muốn thay đổi dữ liệu gốc, hãy thực hiện deep copy trước khi thao tác. Còn nếu không, hãy đảm bảo rằng bạn sẽ không "đụng" đến dữ liệu gốc trong quá trình xử lí hàm.


## Các hàm của Pandas

Pandas không bao giờ đụng vào dữ liệu gốc trừ khi hàm có đối số `inplace` và bạn thiết lập đối số này là `True`. Khi đó, mọi thay đổi sẽ được tác động thẳng lên dữ liệu gốc và hàm không trả về nội dung gì cả. Còn lại, Pandas luôn tạo ra một bản sao và thay đổi nội dung trên đó. Hãy xem ví dụ dưới đây.

In [10]:
d1.replace({2: 4})

Unnamed: 0,id,name
0,3,ABC
1,4,XYZ


Dữ liệu của `d1` sẽ không bị thay đổi.

In [11]:
d1

Unnamed: 0,id,name
0,3,ABC
1,2,XYZ


Nhưng nếu bạn viết lệnh như sau.

In [12]:
d1.replace({2: 4}, inplace=True)

Bạn sẽ không thấy hàm trả về kết quả gì, ngược lại, dữ liệu của `d1` đã bị thay đổi.

In [13]:
d1

Unnamed: 0,id,name
0,3,ABC
1,4,XYZ


Và cả `d3` nữa, vì `d3` chỉ là con trỏ tới dữ liệu trong bộ nhớ giống như `d1`.

In [14]:
d3

Unnamed: 0,id,name
0,3,ABC
1,4,XYZ


Cũng vì lí do tạo ra bản sao này, tốc độ thực hiện của hàm `assign()` sẽ chậm hơn so với việc tạo thẳng dữ liệu mới bằng phép gán.

In [15]:
d4 = pd.DataFrame({
    "a": range(10000)
})

d4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       10000 non-null  int64
dtypes: int64(1)
memory usage: 78.2 KB


In [16]:
%%timeit -n 15 -r 1000
d4.assign(
    b = a ** 2
)

The slowest run took 6.02 times longer than the fastest. This could mean that an intermediate result is being cached.
233 µs ± 104 µs per loop (mean ± std. dev. of 1000 runs, 15 loops each)


In [17]:
%%timeit -n 15 -r 1000
d4["a"].pow(2)

The slowest run took 10.42 times longer than the fastest. This could mean that an intermediate result is being cached.
101 µs ± 56.9 µs per loop (mean ± std. dev. of 1000 runs, 15 loops each)


---

[Bài trước](./16_datadict.ipynb) - [Danh sách bài](../README.md) - [Bài sau]()