Тема урока: работа с модулем pickle
Формат данных pickle
Модуль pickle
Аннотация. Урок посвящен работе с модулем pickle.

Сериализация и десериализация

Главная идея сериализации заключается в том, что это процесс преобразования объектов в последовательность байт или строку, которую можно легко сохранить на диск или передать другой программе. Это позволяет не только сохранить состояние объектов, но и восстанавливать его позже, что упрощает управление данными. Существует множество форматов сериализации, таких как JSON, XML, и Pickle, каждый из которых имеет свои особенности. Выбор формата может влиять на размер данных, производительность и совместимость между различными версиями объектов. Важно также учитывать вопросы безопасности при десериализации, особенно когда данные поступают из недоверенных источников.

Модуль pickle

Как уже было сказано, JSON — один из популярных форматов для сериализации, он текстовый, легковесный и легко читается человеком. С помощью встроенного модуля json можно сериализовать только встроенные типы данных:

bool
dict
int
float
list
string
tuple
None

Помимо сериализации в формат json мы также можем использовать бинарную сериализацию, то есть сериализацию в байты. Для этого в Python используется модуль pickle. Интерфейс взаимодействия с модулем pickle абсолютно такой же, как и для модуля json. Мы будем использовать четыре основных функции:

dump()
load()
dumps()
loads()

Функции dump() и load()

Функция dump() модуля pickle принимает сериализуемый Python объект, сериализует его в бинарный, Python-зависимый формат, используя протокол pickle, и сохраняет его в открытый для записи бинарный файл.

In [1]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}

with open('file.pkl', 'wb') as file:
    pickle.dump(obj, file)

создает файл file.pkl, содержащий бинарное представление объекта obj на основе протокола pickle.

Функция load() принимает файловый объект, читает из него сериализованные данные, десериализует их в Python-объект и возвращает полученный Python-объект.

In [2]:
import pickle

with open('file.pkl', 'rb') as file:  # используется файл полученный на предыдущем шаге
    obj = pickle.load(file)
    print(obj)
    print(type(obj))

{'Python': 1991, 'Java': 1995, 'C#': 2002}
<class 'dict'>


Функции dumps() и loads()

Функция dumps() (обратите внимание на s в конце имени функции) выполняет такую же сериализацию, как и функция dump(). Но вместо того чтобы сохранять сериализованные данные в открытый для записи бинарный файл, она просто возвращает эти сериализованные данные.

In [3]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}
binary_obj = pickle.dumps(obj)

print(binary_obj)
print(type(binary_obj))

b'\x80\x04\x95#\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x06Python\x94M\xc7\x07\x8c\x04Java\x94M\xcb\x07\x8c\x02C#\x94M\xd2\x07u.'
<class 'bytes'>


Поскольку протокол pickle использует бинарный формат данных, функция dumps() возвращает объект типа bytes.

Тип данных bytes — это неизменяемые последовательности отдельных байтов. Синтаксис для байтовых литералов в основном такой же, как и для строковых литералов, за исключением того, что добавляется префикс b.

Функция loads() (обратите внимание на s в конце имени функции) выполняет такую же десериализацию, как и функция load(). Но вместо того чтобы принимать файловый объект, она принимает объект типа bytes, содержащий сериализованные данные.

In [4]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}
binary_obj = pickle.dumps(obj)

new_obj = pickle.loads(binary_obj)

print(new_obj)

{'Python': 1991, 'Java': 1995, 'C#': 2002}


Обратите внимание, что объекты obj и new_obj равны, то есть имеют одинаковое содержимое, однако объекты не являются идентичными. Мы создали идеальную копию, но это всё же копия.

In [5]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}
binary_obj = pickle.dumps(obj)
new_obj = pickle.loads(binary_obj)

print(obj == new_obj)
print(obj is new_obj)  # проверка на идентичность

True
False


Примечания

Примечание 2. Модуль pickle может сериализовывать:

все встроенные типы данных (bool, int, float, complex, str, None)
cписки, кортежи, словари и множества, содержащие любую комбинацию встроенных типов данных
cписки, кортежи, словари и множества, содержащие любую комбинацию списков, кортежей, словарей и множеств
функции, классы и экземпляры классов

Примечание 3. Модуль pickle может сериализовывать обычные функции (объявленные с помощью  def), но не может сериализовывать лямбда-функции (объявленные с помощью lambda).

Примечание 4. Модуль pickle может сериализовывать функции из модуля operator.

Примечание 5. Модуль pickle не может сериализовывать генераторы, о которых мы будем говорить позже в рамках курса.

Примечание 7. Протокол pickle зависит от Python и не совместим с другими языками программирования. Если необходима совместимость с другими языками программирования, то следует использовать JSON сериализацию.

Примечание 8. Протокол pickle – это бинарный формат данных. Убедитесь, что открываете файлы pickle в бинарном режиме, иначе данные при записи будут повреждены. Формат данных JSON – текстовый, а не двоичный.

Примечание 9. Официальная документации по модулю pickle доступна по ссылке.
https://docs.python.org/3/library/pickle.html

Примечание 10. Модуль pickle не защищен. Никогда не десериализуйте данные, полученные из ненадежного источника, так как они могут оказаться вредоносными и выполняющими произвольный код во время распаковки.

Примечание 11. Модуль pickle сериализует и десериализует данные быстрее чем модуль json.

Найдите и исправьте ошибки, допущенные в приведенной ниже программе, чтобы она сериализовала словарь dogs и записала результат в файл dogs.pkl.

In [17]:
import pickle

dogs = {'Ozzy': 2, 'Filou': 7, 'Luna': 4, 'Skippy': 11, 'Barco': 13, 'Balou': 10, 'Laika': 15}

with open('dogs.pkl', mode='wb') as file:
    pickle.dump(dogs, file)

with open('dogs.pkl', 'rb') as file:  # используется файл полученный на предыдущем шаге
    obj = pickle.load(file)
    print(obj)
    print(type(obj))

{'Ozzy': 2, 'Filou': 7, 'Luna': 4, 'Skippy': 11, 'Barco': 13, 'Balou': 10, 'Laika': 15}
<class 'dict'>


Одинокая функция
Дан pickle файл, содержащий единственную сериализованную функцию. Напишите программу, которая вызывает данную функцию с заданными аргументами и выводит возвращаемое значение функции.

Формат входных данных
На вход программе в первой строке подается название pickle файла, в котором содержится единственная сериализованная функция. Далее подается произвольное количество строк, каждая из которых содержит позиционный аргумент для этой функции.

Формат выходных данных
Программа должна вызвать функцию из указанного pickle файла со всеми введенными строковыми аргументами, и вывести возвращаемое значение функции. Причем аргументы должны быть переданы в том порядке, в котором они были введены.

Примечание 1. Аргументы, передаваемые в функцию, должны иметь тип str.

Примечание 2. Рассмотрим первый тест. Сначала подается название файла — func.pkl, в котором содержится сериализованная функция:

def func(*args):
    return ' '.join(args)
затем аргументы для этой функции: Hello,, how, are, you и today?.

Программа выводит результат следующего вызова:

func('Hello,', 'how', 'are', 'you', 'today?')
Примечание 3. Для считывания произвольного количества строк используйте потоковый ввод sys.stdin.

Примечание 4. Считайте, что вводимый файл находится в папке с программой.

Примечание 5. В этой задаче за кулисами реализовано две функции с именами func и add. Не используйте эти имена для именования своих переменных во избежание ошибок.

Sample Input:

func.pkl
Hello,
how
are
you
today?
Sample Output:

Hello, how are you today?

In [None]:
from sys import stdin
import pickle

initial = list(i.strip(' \n') for i in stdin.readlines())
print(initial)
func_name = initial[0]
print(func_name)
# func_args = ' '.join(initial[1:])
func_args = (initial[1:])
print(func_args)

with open(func_name, 'rb') as file:
    obj = pickle.load(file)
    print(obj)
    print(type(obj))
    print(obj(*func_args))

In [None]:
import pickle
import sys

name, *args = [line.strip() for line in sys.stdin]

with open(name, 'rb') as f:
    func = pickle.load(f)

print(func(*args))

Ты не пройдешь
Реализуйте функцию filter_dump(), которая принимает три аргумента в следующем порядке:

filename — название pickle файла, например, data.pkl
objects — список произвольных объектов
typename — тип данных
Функция должна создавать pickle файл с названием filename, который содержит сериализованный список только тех объектов из списка objects, тип которых равен typename.

Примечание 1. Например, вызов функции filter_dump() следующим образом:

filter_dump('numbers.pkl', [1, '2', 3, 4, '5'], int)
должен создавать файл numbers.pkl, содержащий сериализованный список [1, 3, 4].

Примечание 2. В тестирующую систему сдайте программу, содержащую только необходимую функцию filter_dump(), но не код, вызывающий ее.

In [21]:
import pickle

def filter_dump(filename: str, objects: list, typename: type) -> None:
    # with open(filename, 'rb') as file:
    #     obj = pickle.load(file)
    #     print(obj)
    #     print(type(obj))
    new_list = [i for i in objects if typename == type(i)]    
    with open(filename, mode='wb') as out:
        pickle.dump(new_list, out)
        
    with open(filename, 'rb') as file:
        obj = pickle.load(file)
        print(obj)
        print(type(obj))   
        
filter_dump('numbers.pkl', [1, '2', 3, 4, '5'], int)

[1, 3, 4]
<class 'list'>


In [None]:
def filter_dump(filename, objects, typename):
    with open(filename, 'wb') as f:
        __import__('pickle').dump([i for i in objects if type(i) is typename], f)

Контрольная сумма
По каналу связи передается pickle файл, содержащий сериализованный словарь или список, и целое число — контрольная сумма, которая вычисляется по следующему правилу:

для словаря — сумма всех целочисленных ключей (тип int)
для списка — произведение минимального и максимального целочисленных элементов (тип int)
Напишите программу, которая вычисляет контрольную сумму для объекта, содержащегося в pickle файле, и сравнивает ее с данным целым числом.

Формат входных данных
На вход программе в первой строке подается название pickle файла, в котором содержится сериализованный словарь или список, в следующей — целое число.

Формат выходных данных
Программа должна вычислить контрольную сумму для объекта, который содержится в данном pickle файле, и если она совпадает с введенным числом, вывести текст:
Контрольные суммы совпадают
если она не совпадает с введенным числом, вывести текст:
Контрольные суммы не совпадают
Примечание 1. Если список (словарь) не содержит целочисленных элементов (ключей), то считайте, что контрольная сумма равна 0.

Примечание 2. Рассмотрим первый тест. Подается название файла — data.pkl, в котором содержится сериализованный список:

['a', 'b', 3, 4, 'f', 'g', 7, 8]
затем число — 3023. Контрольная сумма для данного списка равна 3⋅8=24. Так как 3023≠24, программа выводит:

Контрольные суммы не совпадают

Sample Input 1:

data.pkl
3023
Sample Output 1:

Контрольные суммы не совпадают
Sample Input 2:

data2.pkl
3319
Sample Output 2:

Контрольные суммы совпадают

In [22]:
from sys import stdin

data, search = [i.strip() for i in stdin.readlines()]

print(data)
print(search)

try:
    with open(data, 'rb') as file:
        obj = pickle.load(file)
        print(obj)
        print(type(obj))
        if type(obj) is list:
            mi = min(i for i in obj if isinstance(i, int))
            ma = max(i for i in obj if isinstance(i, int))
            x = mi * ma
        elif isinstance(obj, dict):
            x = sum(i for i in obj.keys() if isinstance(i, int))
        print(x)
except ValueError:
    x = 0
    
if x == int(search):
    print('Контрольные суммы совпадают')
else:
    print('Контрольные суммы не совпадают')

Контрольные суммы совпадают
Контрольные суммы не совпадают
