### Модуль Pickle 

Сериализация и десериализация
При изучении формата данных (и одноименного модуля в Python) json мы говорили о сериализации объектов.

Преобразование переменных программы (Python-объектов) в формат для хранения называется «сериализацией», а обратное преобразование — «десериализацией».

Сериализация объектов часто используется для:

- сохранения состояния программы (то есть некоторых её объектов) между запусками
- передачи данных между различными программами (например, по сети)

Главная идея состоит в том, что сериализованный формат — набор байт или строка, которую можно легко сохранить на диск или передать другой программе, в отличие от самого объекта. А значит, задача сохранения объекта/группы объектов при этом сводится к простой задаче сохранения набора байт или строки.

Помимо сериализации в формат json мы также можем использовать **БИНАРНУЮ СЕРИАЛИЗАЦИЮ**, то есть сериализацию в байты. Для этого в Python используется модуль **PICKLE**. Интерфейс взаимодействия с модулем pickle абсолютно такой же, как и для модуля json. Мы будем использовать четыре основных функции:

    dump()
    load()
    dumps()
    loads()

Функция dump() 

In [3]:
# создает файл file.pkl, содержащий бинарное представление объекта obj на основе протокола pickle
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}

with open('file.pkl', 'wb') as file:
    pickle.dump(obj, file)

Функция load() принимает файловый объект, читает из него сериализованные данные, десериализует их в Python-объект и возвращает полученный Python-объект.

In [4]:
import pickle

with open('file.pkl', 'rb') as file:     # используется файл полученный на предыдущем шаге
    obj = pickle.load(file)
    print(obj)
    print(type(obj))

{'Python': 1991, 'Java': 1995, 'C#': 2002}
<class 'dict'>


dumps and loads аналогично 

- выполняет такую же сериализацию, как и функция dump(). Но вместо того чтобы сохранять сериализованные данные в открытый для записи бинарный файл, она просто возвращает эти сериализованные данные.

- выполняет такую же десериализацию, как и функция load(). Но вместо того чтобы принимать файловый объект, она принимает объект типа bytes, содержащий сериализованные данные.



In [5]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}
binary_obj = pickle.dumps(obj)

print(binary_obj)
print(type(binary_obj))

b'\x80\x04\x95#\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x06Python\x94M\xc7\x07\x8c\x04Java\x94M\xcb\x07\x8c\x02C#\x94M\xd2\x07u.'
<class 'bytes'>


Поскольку протокол pickle использует бинарный формат данных, функция dumps() возвращает объект типа bytes

In [6]:
import pickle

obj = {'Python': 1991, 'Java': 1995, 'C#': 2002}
binary_obj = pickle.dumps(obj)

new_obj = pickle.loads(binary_obj)

print(new_obj)

{'Python': 1991, 'Java': 1995, 'C#': 2002}


Примечание 2. Модуль pickle может сериализовывать:

        все встроенные типы данных (bool, int, float, complex, str, None)
        cписки, кортежи, словари и множества, содержащие любую комбинацию встроенных типов данных
        cписки, кортежи, словари и множества, содержащие любую комбинацию списков, кортежей, словарей и множеств
        функции, классы и экземпляры классов

Примечание 3. Модуль pickle может сериализовывать обычные функции (объявленные с помощью  def), но не может сериализовывать лямбда-функции (объявленные с помощью lambda).

Примечание 5. Модуль pickle не может сериализовывать генераторы, о которых мы будем говорить позже в рамках курса.

Примечание 6. Модули pickle и json делают практически одно и то же, по сути это одна и та же технология, только по-разному реализованная.

Примечание 7. Протокол pickle зависит от Python и не совместим с другими языками программирования. Если необходима совместимость с другими языками программирования, то следует использовать JSON сериализацию.

Примечание 8. Протокол pickle – это бинарный формат данных. Убедитесь, что открываете файлы pickle в бинарном режиме, иначе данные при записи будут повреждены. Формат данных JSON – текстовый, а не двоичный.

**ПРИМЕЧАНИЕ 10. МОДУЛЬ PICKLE НЕ ЗАЩИЩЕН. НИКОГДА НЕ ДЕСЕРИАЛИЗУЙТЕ ДАННЫЕ, ПОЛУЧЕННЫЕ ИЗ НЕНАДЕЖНОГО ИСТОЧНИКА, ТАК КАК ОНИ МОГУТ ОКАЗАТЬСЯ ВРЕДОНОСНЫМИ И ВЫПОЛНЯЮЩИМИ ПРОИЗВОЛЬНЫЙ КОД ВО ВРЕМЯ РАСПАКОВКИ.**

Примечание 11. Модуль pickle сериализует и десериализует данные быстрее чем модуль json.

In [7]:
data = b'there is nothing here'

print(type(data))

<class 'bytes'>


In [8]:
# запись словаря в файл формата pickle 

import pickle

dogs = {'Ozzy': 2, 'Filou': 7, 'Luna': 4, 'Skippy': 11, 'Barco': 13, 'Balou': 10, 'Laika': 15}

with open('dogs.pkl', mode='wb') as file:
    pickle.dump(dogs, file)

### Задачи на pickle 

        Одинокая функция
        Дан pickle файл, содержащий единственную сериализованную функцию. Напишите программу, которая вызывает данную функцию с заданными аргументами и выводит возвращаемое значение функции.

In [None]:
import pickle, sys

input_strings = [line.strip() for line in sys.stdin]
pickle_file = input_strings[0]
args = input_strings[1:]

with open(pickle_file, mode='rb') as file:
    some_func = pickle.load(file)

print(some_func(*args))

        Ты не пройдешь
        Реализуйте функцию filter_dump(), которая принимает три аргумента в следующем порядке:

        filename — название pickle файла, например, data.pkl
        objects — список произвольных объектов
        typename — тип данных
        Функция должна создавать pickle файл с названием filename, который содержит сериализованный список только тех объектов из списка objects, тип которых равен typename.

        Примечание 1. Например, вызов функции filter_dump() следующим образом:

        filter_dump('numbers.pkl', [1, '2', 3, 4, '5'], int)
        должен создавать файл numbers.pkl, содержащий сериализованный список [1, 3, 4]

In [None]:
def filter_dump(filename, objects, typename):
    import pickle
    with open(filename, mode= 'wb') as file:
        pickle.dump([obj for obj in objects if type(obj) == typename], file)

        Контрольная сумма
        По каналу связи передаются pickle файл, содержащий сериализованный словарь или список, и целое число — контрольная сумма, которая вычисляется по следующему правилу:

        для словаря — сумма всех целочисленных ключей (тип int)
        для списка — произведение минимального и максимального целочисленных элементов (тип int)
        Напишите программу, которая вычисляет контрольную сумму для объекта, содержащегося в pickle файле, и сравнивает ее с данным целым числом.

        Формат входных данных
        На вход программе в первой строке подается название pickle файла, в котором содержится сериализованный словарь или список, в следующей — целое число.

        Формат выходных данных
        Программа должна вычислить контрольную сумму для объекта, который содержится в данном pickle файле, и

        если она совпадает с введенным числом, вывести текст:
        Контрольные суммы совпадают
        если она не совпадает с введенным числом, вывести текст:
        Контрольные суммы не совпадают
        Примечание 1. Если список (словарь) не содержит целочисленных элементов (ключей), то считайте, что контрольная сумма равна 
        0
        0.

Примечание 2. Рассмотрим первый тест. Подается название файла — data.pkl, в котором содержится сериализованный список:

['a', 'b', 3, 4, 'f', 'g', 7, 8]
затем число — 3023. Контрольная сумма для данного списка равна 3⋅8=24. Так как 
3023≠24
программа выводит:

Контрольные суммы не совпадают

In [None]:
import pickle

pickle_file = input()
checksum = int(input())

with open(pickle_file, mode='rb') as file:
    some_elem = pickle.load(file)

if type(some_elem) == list:
    some_list = [el for el in some_elem if type(el) == int]
    if some_list!=[]:sum_for_check = min(some_list) * max(some_list)
    else: sum_for_check =0

else: 
    some_dic_keys = [el for el in some_elem.keys() if type(el) == int]
    if some_dic_keys !=[]:  sum_for_check = sum(some_dic_keys)
    else: sum_for_check =0

print(('Контрольные суммы совпадают', 'Контрольные суммы не совпадают')[sum_for_check != checksum])
