Среда или требования к инференсу модели для вашего проекта могут быть устроены так, что потребуют реализации на другом языке программирования, отличном от Python. Например, если компания разрабатывает десктопное приложение, то для внедрения модели её потребуется «перевести» на Java или C++. Как это сделать?

В таких случаях используется генерация файла формата PMML (Predictive Model Markup Language). 

Определение: PMML

PMML — это XML-диалект, который используется для описания статистических моделей и моделей data science. PMML-совместимые приложения позволяют легко обмениваться моделями данных между собой. Разработка и внедрение PMML осуществляется IT-консорциумом Data Mining Group.

На момент подготовки данного материала актуальная версия спецификации — 4.4. Подробнее с ней можно ознакомиться на официальном сайте.

К сожалению, далеко не все библиотеки машинного обучения (в том числе sklearn) поддерживают возможность сохранения обученной модели в указанном формате. Хорошая новость заключается в том, что можно использовать сторонние библиотеки. Одной из самых популярных является Nyoka. 

Попробуйте самостоятельно!

Давайте сохраним модель из предыдущего блока в формат PMML.

Для установки можно использовать систему управления пакетами pip:

In [3]:
from nyoka import skl_to_pmml
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_diabetes

X, y = load_diabetes(return_X_y=True)
cols = load_diabetes()['feature_names']

scaler = MinMaxScaler()
pipe = Pipeline([  
            ('Scaling', MinMaxScaler()),
            ('Linear', LinearRegression())
        ])
# Тренировка пайплайна, включающего линейную модель и нормализацию признаков
pipe.fit(X, y)
# Сохраним пайплайн в формате pmml в файл pipe.pmml
skl_to_pmml(pipeline=pipe, col_names=cols, pmml_f_name="input/pipe.pmml")

Итак, мы построили пайплайн обработки данных и обучили модель линейной регрессии. После чего с помощью функции skl_to_pmml сохранили модель в файл pipe.pmml. 

✍ Задание

Откройте файл pipe.pmml  с помощью любого текстового редактора.

Давайте рассмотрим его подробнее.

→ Секция  <DataDictionary> содержит информацию о признаках, включая наименование и тип данных, используемых для построения модели. 

→ Секция <TransformationDictionary> содержит информацию о необходимых преобразованиях для каждого признака. Обратите внимание, что в этом блоке также содержится информация для трансформации. Так как мы использовали minMaxScaler(), то в файле записаны минимальное и максимальное значение. 

Таким образом, в файле содержится вся информация для того, чтобы пайплайн мог быть использован на любом языке программирования.

В разработке моделей на основе нейронных сетей сегодня наиболее распространен формат ONNX (Open Neural Network Exchange).

Определение: ONNX

ONNX (Open Neural Network Exchange) — это открытый стандарт для обеспечения совместимости моделей машинного обучения. Он позволяет разработчикам искусственного интеллекта использовать модели с различными инфраструктурами, инструментами, средами исполнения и компиляторами.

Библиотека поддерживается совместно компаниями Microsoft, Amazon, Facebook и другими партнерами как проект с открытым исходным кодом. В основном эта библиотека используется для работы с нейронными сетями. 