Посмотрим, с помощью каких средств происходит сериализация объектов в Python.

В стандартную библиотеку Python входит модуль Pickle, который служит для сериализации любых объектов произвольного типа. 

Мы помним, что объекты находятся в оперативной памяти и направляются в байтовые потоки ввода-вывода. В байтовые потоки может быть направлен любой файлоподобный объект. 

В ходе десериализации исходный объект воссоздается в оперативной памяти с теми же самыми значениями, но с новой идентичностью — новым адресом в памяти.

Обратите внимание на предупреждение в официальной документации:

⛔ Warning 

The pickle module is not secure. Only unpickle data you trust.

Так как законсервирован может быть абсолютно любой объект, то в нём могут быть «спрятаны» различные вредоносные программы или данные. Поэтому будьте внимательны и не проводите десериализацию бинарных файлов, в происхождении которых вы не уверены. Не переживайте, файлы предлагаемые для десериализации в рамках нашего курса, — безопасны.

Для иллюстрации работы модуля Pickle последовательно пройдемся по всем этапам.

ЭТАП 1

Обучим модель линейной регрессии на встроенном датасете Diabetes dataset. Опустим кросс-валидацию и разделение выборки на обучение и тест, так как для наших целей это не важно.

In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes
X, y = load_diabetes(return_X_y=True)
regressor = LinearRegression()
regressor.fit(X,y)

LinearRegression()

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Объект regressor теперь является обученной моделью. 

ЭТАП 2

Импортируем модуль и воспользуемся методом dumps:

In [2]:
import pickle
model = pickle.dumps(regressor)
type(model), type(regressor)

(bytes, sklearn.linear_model._base.LinearRegression)

(bytes, sklearn.linear_model._base.LinearRegression)

Как видим, мы создали объект model типа bytes. 

ЭТАП 3

Восстановим объект Python:

In [3]:
regressor_from_bytes = pickle.loads(model)
regressor_from_bytes

LinearRegression()

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

ЭТАП 4

Сохраним объект прямо в файл:

In [4]:
with open('input/myfile.pkl', 'wb') as output:
       pickle.dump(regressor, output)

Теперь у нас есть бинарный файл с готовой моделью.

ЭТАП 5

Файл myfile.pkl так же легко десериализовать:

In [6]:
with open('input/myfile.pkl', 'rb') as pkl_file:
    regressor_from_file = pickle.load(pkl_file)

regressor_from_file

LinearRegression()

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

ЭТАП 6

Убедимся, что методы и результаты предсказаний обученной модели и загруженной из файла совпадают:

In [7]:
all(regressor.predict(X) == regressor_from_bytes.predict(X))

True

In [8]:
all(regressor.predict(X) == regressor_from_file.predict(X))

True