Тема урока: поверхностное и глубокое копирование объектов
Создание копий объектов
Модуль copy
Поверхностное копирование
Глубокое копирование
Аннотация. Урок посвящен созданию копий объектов и работе с модулем copy.

Создание копий объектов

Как мы уже знаем, оператор присваивания в Python не создает копию объекта, он лишь связывает имя переменной с объектом. Для неизменяемых объектов это обычно не имеет значения, но для работы с изменяемыми объектами часто требуется создавать реальные копии.

In [7]:
data1 = [1, 2, 3]
data2 = data1
data1.append(4)

print(id(data1), data1)
print(id(data2), data2)

2993872157632 [1, 2, 3, 4]
2993872157632 [1, 2, 3, 4]


Поскольку списки (тип list) являются изменяемыми, то изменения в data1, также видны в data2

Для создания реальных копий объектов в Python используют модуль copy

Модуль copy

Модуль copy содержит две функции:

copy(): копирует объект и возвращает его поверхностную копию
deepcopy(): копирует объект и возвращает его глубокую копию

Поверхностное копирование

Поверхностное копирование создает отдельный новый объект, но вместо копирования дочерних элементов в новый объект, оно просто копирует ссылки на их адреса памяти.

In [8]:
import copy

data1 = [1, 2, 3]
data2 = copy.copy(data1)
data1.append(4)

print(id(data1), data1)
print(id(data2), data2)

2993871089984 [1, 2, 3, 4]
2993871090304 [1, 2, 3]


так как переменная data2 ссылается на новый объект, который представляют копию списка [1, 2, 3]. В данном примере элементами списка являются целые числа (неизменяемый тип int), поэтому изменение одного списка не отражается на другом. Если бы элементами списка были бы изменяемые типы, то поверхностное копирование скопировало бы лишь ссылки на их адреса памяти. Следовательно, любое изменение элементов одного объекта отразилось бы также и на элементах другого объекта.

In [9]:
import copy

data1 = [[1, 2, 3], [4, 5, 6]]
data2 = copy.copy(data1)

data1.append([7, 8, 9])

print(id(data1), data1)
print(id(data2), data2)

2993872035840 [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
2993871088320 [[1, 2, 3], [4, 5, 6]]


В то время как приведенный ниже код:

In [10]:
import copy

data1 = [[1, 2, 3], [4, 5, 6]]
data2 = copy.copy(data1)

data1[0].append(7)
data2[1].append(8)

print(id(data1), data1)
print(id(data2), data2)

2993870116352 [[1, 2, 3, 7], [4, 5, 6, 8]]
2993870249088 [[1, 2, 3, 7], [4, 5, 6, 8]]


Изменения затронули оба списка, потому что оба они содержат ссылки на один и тот же вложенный объект. Так работает поверхностное копирование.

Поверхностное копирование создает отдельный новый объект, но вместо того чтобы копировать дочерние элементы в новый объект, оно копирует ссылки на их адреса памяти.

Глубокое копирование

Глубокое копирование создает новую и отдельную копию всего объекта со своим уникальным адресом памяти. Это означает, что любые изменения, внесенные вами в новую копию объекта, не будут отражаться в исходной, и наоборот.

In [11]:
import copy

data1 = [[1, 2, 3], [4, 5, 6]]
data2 = copy.deepcopy(data1)

data1[0].append(7)
data2[1].append(8)

print(id(data1), data1)
print(id(data2), data2)

2993869952256 [[1, 2, 3, 7], [4, 5, 6]]
2993870147648 [[1, 2, 3], [4, 5, 6, 8]]


При глубоком копировании временные затраты на создание копии, очевидно выше чем при создании поверхностной копии. Если копируемый объект имеет сложную вложенную структуру, то глубокое копирование может тратить много времени.

Примечания

Примечание 1. У списков, множеств и словарей есть метод copy(), создающий их поверхностную копию.

In [12]:
data1 = [1, 2, 3, 4]
data2 = [[1, 2], [3, 4]]

new_data1 = data1.copy()
new_data2 = data2.copy()

print(data1 is new_data1, data1 == new_data1)
print(data2 is new_data2, data2 == new_data2)

new_data1[0] = 100 # 1 неизменяем
new_data2[0][0] = 100 # список изменяем

print(data1)
print(data2)

False True
False True
[1, 2, 3, 4]
[[100, 2], [3, 4]]


Оператор is проверяет, ссылаются ли две переменные на один объект, оператор == проверяет равенство значений.

Примечание 2. Встроенные функции, используемые при создании коллекций (list, set, dict, ...), также могут быть использованы для создания поверхностной копии объектов.

In [13]:
data1 = [1, 2, 3, 4]
data2 = {'a': 1, 'b': 2}
data3 = {1, 2, 3, 4}

new_data1 = list(data1)
new_data2 = dict(data2)
new_data3 = set(data3)

print(data1 is new_data1, data1 == new_data1)
print(data2 is new_data2, data2 == new_data2)
print(data3 is new_data3, data3 == new_data3)

False True
False True
False True


Примечание 3. Поверхностную копию списка также можно создать с помощью среза всего списка.

In [14]:
data = [1, 2, 3, 4]

new_data = data[:]

print(data is new_data, data == new_data)

False True


Однако не стоит забывать, что такая копия является поверхностной.

In [15]:
data = [[1, 2], [3, 4]]

new_data = data[:]

data[0][0] = 10
new_data[1][1] = 40
 
print(data)
print(new_data)

[[10, 2], [3, 40]]
[[10, 2], [3, 40]]


Примечание 5. Для определения размера объектов встроенных типов можно использовать функцию getsizeof() модуля sys. Данная функция возвращает размер объекта в байтах.

In [16]:
import sys

print(sys.getsizeof(10))
print(sys.getsizeof(True))
print(sys.getsizeof(None))
print(sys.getsizeof(''))
print(sys.getsizeof('beegeek'))

28
28
16
41
48


Обратите внимание на то, что с помощью функции getsizeof() нельзя вычислять размер сложных объектов, содержащих вложенные структуры (списки списков и т.д.). Для того чтобы правильно определять размер абсолютно любого объекта (включая пользовательские) в Python используется функция asizeof() модуля asizeof, который находится в библиотеке pympler.

In [None]:
import pympler

In [17]:
from pympler import asizeof

In [18]:
l1 = [i for i in range(10)]
l2 = range(10)

print("Size of List l1              : %d bytes"%asizeof.asizeof(l1))
print("Size of List l1              : %d bytes"%asizeof.asizeof(l2))
print("Size of List l1,l2 Combined  : %d bytes"%asizeof.asizeof(l1,l2))
print("Size of List l1 & l2         : %d bytes, %d bytes"%asizeof.asizesof(l1, l2))

Size of List l1              : 504 bytes
Size of List l1              : 48 bytes
Size of List l1,l2 Combined  : 552 bytes
Size of List l1 & l2         : 504 bytes, 48 bytes


In [19]:
asized = asizeof.asized(l1)
print("Object Type : ", type(asized))
print(asized)
print("Flat Size : %d, Total Size : %d\n"%(asized.flat, asized.size))

asized_objs = asizeof.asized(l1,l2)
print(asized_objs[0].format())
print(asized_objs[1].format())

print("\nObject Stats : ")
print(asizeof.asized(l1, detail=0, stats=1).format())
print("\nObject Details : ")
print(asizeof.asized(l1, detail=1).format())

Object Type :  <class 'pympler.asizeof.Asized'>
size 504, flat 184, refs[0], name '[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]'
Flat Size : 184, Total Size : 504

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] size=504 flat=184
range(0, 10) size=48 flat=48

Object Stats : 

asized(detail=0, stats=1): size 504, flat 184, refs[0], name '[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]'
 504 bytes
   8 byte aligned
   8 byte sizeof(void*)
   1 object given
  11 objects sized
  11 objects seen
   0 objects missed
   0 duplicates
   1 deepest recursion
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] size=504 flat=184

Object Details : 
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] size=504 flat=184
    0 size=32 flat=32
    1 size=32 flat=32
    2 size=32 flat=32
    3 size=32 flat=32
    4 size=32 flat=32
    5 size=32 flat=32
    6 size=32 flat=32
    7 size=32 flat=32
    8 size=32 flat=32
    9 size=32 flat=32


In [20]:
print("Size of Single Item in a List : %d bytes"%asizeof.itemsize(l1))
print("Basic Size of Object          : %d bytes"%asizeof.basicsize(l1))
print("Flat Size of Object           : %d bytes"%asizeof.flatsize(l1))
print("List of Objects Referred by an Object : ", asizeof.refs(l1))

Size of Single Item in a List : 8 bytes
Basic Size of Object          : 72 bytes
Flat Size of Object           : 184 bytes
List of Objects Referred by an Object :  [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


In [21]:
print("Is Object Class    : ",asizeof.isclass(l1))
print("Is Object Builtin  : ",asizeof.isbuiltin(l1))
print("Is Object Code     : ",asizeof.iscode(l1))
print("Is Object Frame    : ",asizeof.isframe(l1))
print("Is Object Function : ",asizeof.isfunction(l1))
print("Is Object method   : ",asizeof.ismethod(l1))
print("Is Object Module   : ",asizeof.ismodule(l1))

print()
import random

print("Is Object Module   : ",asizeof.ismodule(random))

print()
def method_test():
    return random.randint(1,100)

print()
print("Is Object Function : ",asizeof.ismethod(method_test))
print("Is Object method   : ",asizeof.isfunction(method_test))

class Testing:
    def __init__(self):
        pass

    def test_print(self):
        print("Testing Class")

testing  = Testing()

print()
print("Is Object Function : ",asizeof.ismethod(testing.test_print))
print("Is Object method   : ",asizeof.isfunction(testing.test_print))
print("Is Object Class    : ",asizeof.isclass(Testing))

print()
print("Is Object Builtin  : ",asizeof.isbuiltin(min))
print("Is Object Builtin  : ",asizeof.isbuiltin(sum))
print("Is Object Builtin  : ",asizeof.isbuiltin(max))

Is Object Class    :  False
Is Object Builtin  :  False
Is Object Code     :  False
Is Object Frame    :  False
Is Object Function :  False
Is Object method   :  False
Is Object Module   :  False

Is Object Module   :  True


Is Object Function :  False
Is Object method   :  True

Is Object Function :  True
Is Object method   :  False
Is Object Class    :  True

Is Object Builtin  :  True
Is Object Builtin  :  True
Is Object Builtin  :  True
