Мы упоминали, что Pickle работает с любыми объектами Python. Поэтому для сохранения может быть доступна не просто обученная модель, но и целый пайплайн, включающий предобработку данных. 

In [5]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
from sklearn.datasets import load_diabetes
import pickle

X, y = load_diabetes(return_X_y=True)

scaler = MinMaxScaler()

pipe = Pipeline([  
  ('Scaling', MinMaxScaler()),
  ('FeatureSelection', SelectKBest(f_regression, k=5)),
  ('Linear', LinearRegression())
  ])

pipe.fit(X, y)
pipe.predict(X[1:2])
s1 = pickle.dumps(pipe)
pipe_from_bytes = pickle.loads(s1)
all(pipe.predict(X) == pipe_from_bytes.predict(X))

True

Обратите внимание, что для работы с файлами используются методы pickle.dump и pickle.load, а для работы с сериализованными объектами pickle.dumps и pickle.loads.

Как мы видим, Pickle прекрасно справляется со своей задачей, однако иногда массивы данных бывают настолько большими, что после загрузки из Pickle можно не восстановить объект полностью. 

В таких случаях лучше использовать Joblib вместо Pickle. Этот модуль более эффективен для объектов, которые содержат большие массивы данных. Он оптимизирован для быстрой и надежной работы с данными большого объема. Пожалуй, единственный минус этого модуля в том, что он может «консервировать» только в файл, поэтому вы не сможете получить объект в виде бинарной строки и работать с ним. В модуле попросту отсутствуют методы для работы с бинарной строкой.

Для иллюстрации работы сохраним обученную модель из примера выше и загрузим его заново:

In [6]:
from joblib import dump, load
dump(regressor, 'regr.joblib')

NameError: name 'regressor' is not defined

In [7]:
clf_from_jobliv = load('regr.joblib') 
all(regressor.predict(X) == clf_from_jobliv.predict(X))

FileNotFoundError: [Errno 2] No such file or directory: 'regr.joblib'