# Бинарные файлы: Pickle

In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes
X, y = load_diabetes(return_X_y=True)
regressor = LinearRegression()
regressor.fit(X,y)

LinearRegression()

In [2]:
import pickle
model = pickle.dumps(regressor)
type(model), type(regressor)

(bytes, sklearn.linear_model._base.LinearRegression)

In [3]:
regressor_from_bytes = pickle.loads(model)
regressor_from_bytes

LinearRegression()

In [4]:
all(regressor.predict(X) == regressor_from_bytes.predict(X))

True

In [5]:
with open('myfile.pkl', 'wb') as output:
       pickle.dump(regressor, output)

In [6]:
with open('myfile.pkl', 'rb') as pkl_file:
    regressor_from_file = pickle.load(pkl_file)

regressor_from_file

LinearRegression()

In [7]:
all(regressor.predict(X) == regressor_from_file.predict(X))

True

Как мы упоминали, у Pickle есть ограничения. Например, мы не сможем сериализовать лямбда-функции. Давайте посмотрим, что нам вернёт следующий код:

In [8]:
import pickle
my_lambda = lambda x: x*2
with open('my_lambda.pkl', 'wb') as output:
    pickle.dump(my_lambda, output)

PicklingError: Can't pickle <function <lambda> at 0x7f2b4af7e620>: attribute lookup <lambda> on __main__ failed

# Сохранение пайплайна

In [9]:
import pickle

from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline
from joblib import dump, load


X, y = load_diabetes(return_X_y=True)

pipe = Pipeline([  
  ('Scaling', MinMaxScaler()),
  ('FeatureSelection', SelectKBest(f_regression, k=5)),
  ('Linear', LinearRegression())
  ])


pipe.fit(X, y)
pipe.predict(X[1:2])
s1 = pickle.dumps(pipe)
pipe_from_bytes = pickle.loads(s1)

print(all(pipe.predict(X) == pipe_from_bytes.predict(X)))

True


Обратите внимание, что для работы с файлами используются методы pickle.dump и pickle.load, а для работы с сериализованными объектами pickle.dumps и pickle.loads.

Как мы видим, Pickle прекрасно справляется со своей задачей, однако иногда массивы данных бывают настолько большими, что после загрузки из Pickle можно не восстановить объект полностью. 

В таких случаях лучше использовать Joblib вместо Pickle. Этот модуль более эффективен для объектов, которые содержат большие массивы данных. Он оптимизирован для быстрой и надежной работы с данными большого объема. Пожалуй, единственный минус этого модуля в том, что он может «консервировать» только в файл, поэтому вы не сможете получить объект в виде бинарной строки и работать с ним. В модуле попросту отсутствуют методы для работы с бинарной строкой.

Для иллюстрации работы сохраним обученную модель:

In [10]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

X, y = load_diabetes(return_X_y=True)
regressor = LinearRegression()
regressor.fit(X, y)

LinearRegression()

In [11]:
from joblib import dump, load
dump(regressor, 'regr.joblib')

['regr.joblib']

In [12]:
clf_from_jobliv = load('regr.joblib') 
all(regressor.predict(X) == clf_from_jobliv.predict(X))

True

# Практика: Pickle

Вопрос 8.1

При загрузке вывелся секретный код. Введите его в поле ниже.

In [16]:
import pickle
with open('../data/hw1.pkl', 'rb') as pkl_file:
    code = pickle.load(pkl_file)

code

secret word: skillfactory
how is this possible? answer is here: https://youtu.be/xm-A-h9QkXg


AttributeError: 'LinearRegression' object has no attribute 'positive'

AttributeError: 'LinearRegression' object has no attribute 'positive'

Вопрос 8.2

Проверьте, какого типа объект получился. Введите название библиотеки, которую использовал ваш коллега.

In [17]:
type(code)

sklearn.linear_model._base.LinearRegression

Вопрос 8.3

Теперь вам нужно применить модель. Сделайте предсказание для этого набора фичей: [1, 1, 1, 0.661212487096872]. Введите результат (округлите до тысячных, например 0.853).

In [21]:
x_test = [[1, 1, 1, 0.661212487096872]]

In [22]:
code.predict(x_test)

array([0.666])

У модели есть два поля с именами a и b. Создайте из них словарь с такими же именами ключей и значениями, а затем сохраните в файл с помощью модуля Pickle. 

Проверить, что вы всё сделали правильно, можно с помощью скрипта.

In [26]:
dict_code = {
    'a': code.a,
    'b': code.b
}
dict_code

{'a': 5, 'b': 13}

In [32]:
with open('../data/myfile.pkl', 'wb') as output:
       pickle.dump(dict_code, output)

In [28]:
!ls -la ../data | grep .pkl

-rw-r--r--  1 501 dialout        877 Aug 30 19:54 hw1.pkl
-rw-r--r--  1 501 dialout        698 Aug 30 20:07 myfile.pkl


In [29]:
!echo "(lambda __g, __print: [[[[[[(lambda __after: [[(f.close(), [(lambda __after: (__print('wrong answer'), __after())[1] if (((14 * a) + b) != ((14 * asd()) + ____asd())) else [(__print(('secret code 2:', h.hexdigest()[:5])), __after())[1] for __g['h'] in [(hashlib.md5((____asd.__name__ + asd.__name__).encode()))]][0])(lambda: __after()) for (__g['a'], __g['b']) in [((load['a'], load['b']))]][0])[1] for __g['load'] in [(pickle.load(f))]][0] for __g['f'] in [(open(sys.argv[1], 'rb'))]][0] if (__name__ == '__main__') else __after())(lambda: None) for __g['asd'], asd.__name__ in [(lambda : (____asd() - 8), 'asd')]][0] for __g['____asd'], ____asd.__name__ in [(lambda : ((int(math.pi) * 4) + 1), '____asd')]][0] for __g['hashlib'] in [(__import__('hashlib', __g, __g))]][0] for __g['sys'] in [(__import__('sys', __g, __g))]][0] for __g['pickle'] in [(__import__('pickle', __g, __g))]][0] for __g['math'] in [(__import__('math', __g, __g))]][0])(globals(), __import__('builtins', level=0).__dict__['print'])" > ../data/hw1_check.py

In [30]:
!ls -la ../data | grep .py

-rw-r--r--  1 501 dialout       1007 Aug 30 20:08 hw1_check.py


In [33]:
!python ../data/hw1_check.py ../data/myfile.pkl

('secret code 2:', '3c508')
