Что из себя представляет обученная модель?

По своей сути, как и всё (ну, почти всё) в языке программирования Python, она является объектом. Этот объект не является простым, ведь ваша модель содержит сложную иерархию классов, в каждом классе есть набор полей, ссылающихся на объекты других классов и так далее.

Для того, чтобы гарантировать сохранение всей структуры данных и получить её при загрузке обратно, используется сериализация.

Определение: сериализация

Сериализация — процесс трансформации любой структуры данных, поддерживаемой в языке, в последовательность битов. Обратной к операции сериализации является операция десериализации.

Зачем вообще это нужно? Давайте разбираться.

То, в каком виде данные записаны на диск и в каком виде они существуют в памяти программы, зачастую может сильно отличаться. И там, и там это будут байты информации, но в файле будет представлена просто их последовательность, а в памяти программы это может быть какой-то объект или даже несколько объектов со структурой. 

ПРИМЕР

Приведём простой пример с нашим любимым форматом CSV. Пусть у нас есть файл с одной строкой, где несколько слов записаны через запятую. На диске это будет записано просто как последовательность байтов.

Однако когда мы считываем её внутри программы, мы хотим работать с этой строкой как со списком строк, то есть нам нужно не только считать эти данные, но и применить к ним некоторое преобразование:

In [1]:
line = 'word1, word2, word3'
line.split(",")

['word1', ' word2', ' word3']

Можно заметить, что после этого преобразования у нас появилось много объектов — каждое слово списка и некоторая структура — то, как слова лежат в этом списке. Процесс который мы только что выполнили, называется десериализацией.

Также возможен обратный процесс, когда мы хотим сохранить в виде последовательности байтов какие-то данные из памяти программы. Например, нам нужно снова получить начальную строку:

In [2]:
",".join(['word1', 'word2', 'word3'])

'word1,word2,word3'

The history saving thread hit an unexpected error (OperationalError('database or disk is full')).History will not be written to the database.


Этот процесс называется сериализацией.

Мы разобрали простейший пример, но на практике всё гораздо сложнее. Сериализовывать можно не только в текст, как CSV, JSON и подобные, но и в бинарный формат, который человек не сможет просто прочитать. 

Бывают форматы, которые могут описывать более сложные структуры — тот же JSON. Можно также добавить сжатие итогового набора битов. 

⭐ Заметим, что программа должна потратить некоторый ресурс CPU на то, чтобы преобразовать объект в набор байтов или из него.