In [None]:
!pip install transformers
!pip install langchain

### Подключение к mlflow

In [1]:
import warnings
warnings.filterwarnings("ignore")

# Model

В нашем демо мы будем использовать ruGPT3 модели от Сбербанка. Работать с моделями можно выгружая их из хаба HuggingFace.

Мы можем загрузить модель из несколькими способами.
* Напрямую выгружая из дистрибутива HuggingFace с помощью библиотеки transformers
* Использовать для выгрузки langchain и его функцию HuggingFacePipeline
* Использовать langchain и его функцию HuggingFaceHub (требуется API токен)

Так же мы будем использовать chains из библиотеки langchain для связи пар модель\промпт.

## 1. Выгрузка модели с помощью transformers и инициализация chain

### Выгружаем модель через transformers

In [2]:
import numpy as np
import torch

In [3]:
torch.cuda.is_available()

True

In [4]:
np.random.seed(42)
torch.manual_seed(42)

<torch._C.Generator at 0x7fc49406bdf0>

In [5]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, pipeline

In [6]:
def load_tokenizer_and_model(model_name_or_path):
    return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()


def generate(
    model, tok, text,
    do_sample=True, max_length=100, repetition_penalty=5.0,
    top_k=5, top_p=0.95, temperature=1,
    num_beams=None,
    no_repeat_ngram_size=3
    ):
    input_ids = tok.encode(text, return_tensors="pt").cuda()
    out = model.generate(
      input_ids.cuda(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
    return list(map(tok.decode, out))

In [7]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")

In [8]:
generated = generate(model, tok, "Как приготовить борщ?", num_beams=10)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [9]:
generated[0]

'Как приготовить борщ?\nБорщ - это блюдо, которое готовится на пару. Борщ можно подать как самостоятельное блюдо, так и в качестве гарнира к мясным или рыбным блюдам. Для приготовления борща понадобятся следующие продукты: 1 кг мяса (лучше говядины) 2 луковицы 3 ст. л. растительного масла 4 зубчика чеснока соль по вкусу лавровый лист черный молотый перец Способ приготовления: Мясо пропустить через мясорубку вместе с луком до образования однородной'

### LangChain wrapper

Чтобы создать chain нам потребуется обернуть нашу выгруженную модель класс langchain модели, для этого используем wrapper

In [10]:
from typing import Any, List, Mapping, Optional

from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.llms.base import LLM

In [11]:
class CustomLLM(LLM):

    import numpy as np
    import torch
    from transformers import GPT2LMHeadModel, GPT2Tokenizer
    
    model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
    tok, model = GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()
    
    @property
    def _llm_type(self) -> str:
        return "self_hosted_hugging_face"

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
    ) -> str:
        if stop is not None:
            raise ValueError("stop kwargs are not permitted.")


        input_ids = self.tok.encode(prompt, return_tensors="pt").cuda()

        out = self.model.generate(
            input_ids.cuda(),
            max_length=200,
            repetition_penalty=5.0,
            do_sample=True,
            top_k=5, 
            top_p=0.95, 
            temperature=1,
            num_beams=10, 
            no_repeat_ngram_size=3
      )
        
        return list(map(tok.decode, out))[0]

    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        """Get the identifying parameters."""
        return {"model name": self.model_name_or_path}

In [12]:
ruLLM = CustomLLM()

In [13]:
ruLLM("Как приготовить борщ?")

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


'Как приготовить борщ?\nБорщ - это блюдо, которое готовится в мультиварке. Борщ можно подать как самостоятельное блюдо, так и на гарнир к мясу или рыбе. Для приготовления борща понадобятся следующие продукты: 1 кг свеклы; 2 ст. л. томатного соуса; 3-4 зубчика чеснока; зелень петрушки; соль по вкусу; растительное масло для жарки; уксусная эссенция (1 ч. л.). Все ингредиенты тщательно перемешиваем до получения однородной консистенции. На сковороде разогреваем оливковое масло, обжариваем его с двух сторон до образования золотистой корочки. Затем добавляем нарезанный кубиками репчатый лук, чеснок, лавровый лист, перец горошком, солим и перчим по вкусу. В сковороду наливаем подсолнечное масло, накрываем крышкой и тушим около 10 минут. Готовый борщ готов! Приятного аппетита!Рецепт http'

In [14]:
print(ruLLM)  

[1mCustomLLM[0m
Params: {'model name': 'sberbank-ai/rugpt3small_based_on_gpt2'}


### LangChain chains

Создаем связь model\prompt

In [15]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

In [16]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [17]:
chain = LLMChain(llm=ruLLM, prompt=prompt)

In [18]:
print(chain.run("борщ"))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Как приготовить борщ?
Борщ - это блюдо, которое готовится в мультиварке. Борщ можно подать как самостоятельное блюдо, так и на гарнир к мясу или рыбе. Для приготовления борща понадобятся следующие продукты: 1 кг свеклы; 2 ст. л. растительного масла; 3-4 зубчика чеснока; 0,5 стакана томатной пасты; 100 мл воды; соль по вкусу. В кастрюлю с толстым дном наливаем растительное масло, доводим до кипения и варим около 10 минут. Затем добавляем нарезанный кубиками репчатый лук, лавровый лист, черный молотый перец горошком (по желанию) и все тщательно перемешиваем. Суп готов! Приятного аппетита!
Свеклу очистить от кожуры и нарезать тонкими ломтиками. Морковь нашинковать соломкой. Чеснок мелко порубить. На сковороде растопить сливочное масло и обжарить свеклу со всех сторон. Когда свекла станет мягкой


## 2. Выгрузка модели с помощью langchain и HuggingFacePipeline и инициализация chain

LangChain предоставляет удобное API для выгрузки моделей из HuggingFaceHub. Одна из таких функций - HuggingFacePipeline.

### Выгружаем модель с помощью HuggingFacePipeline

In [19]:
from langchain.llms import HuggingFacePipeline

In [20]:
hfp = HuggingFacePipeline.from_model_id(
    model_id="sberbank-ai/rugpt3small_based_on_gpt2",
    task="text-generation",
    pipeline_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

Device has 1 GPUs available. Provide device={deviceId} to `from_model_id` to use availableGPUs for execution. deviceId is -1 (default) for CPU and can be a positive integer associated with CUDA device id.


In [21]:
hfp("Как приготовить борщ?")

ValueError: Pipeline with tokenizer without pad_token cannot do batching. You can try to set it with `pipe.tokenizer.pad_token_id = model.config.eos_token_id`.

### HuggingFacePipeline chain

Создаем связь model\prompt

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
hfp_chain = LLMChain(llm=hfp, prompt=prompt)

In [None]:
print(hfp_chain.run("борщ"))

## 3. Выгрузка модели с помощью langchain и HuggingFaceHub и инициализация chain

Так же модели можно выгружать через функцию HuggingFaceHub, но для этого потребуется api token аккаунта

### Выгружаем модель с помощью HuggingFaceHub

In [22]:
from langchain.llms import HuggingFaceHub

In [27]:
hfh = HuggingFaceHub(
    repo_id="sberbank-ai/rugpt3small_based_on_gpt2", 
    huggingfacehub_api_token="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",
    model_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [28]:
hfh("Как приготовить борщ?")

'\nБорщ - это блюдо из мяса, рыбы и овощей. Борщ можно подать как самостоятельное блюдо, так и в качестве гарнира к мясным или овощным блюдам. Для приготовления борща понадобятся следующие продукты: говядина, свинина, баранина, курица, картофель, лук, морковь, свекла, томатная паста, лавровый лист, перец горошком, соль, черный молотый перец (по вкусу), растительное масло для жар'

### HuggingFaceHub chain

Создаем связь model\prompt

In [29]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [30]:
hfh_chain = LLMChain(llm=hfh, prompt=prompt)

In [31]:
print(hfh_chain.run("борщ"))


Борщ - это блюдо из мяса, рыбы и овощей. Борщ можно подать как самостоятельное блюдо, так и в качестве гарнира к мясным или овощным блюдам. Для приготовления борща понадобятся следующие продукты: говядина, свинина, баранина, курица, картофель, лук, морковь, свекла, томатная паста, лавровый лист, перец горошком, соль, черный молотый перец (по вкусу), растительное масло для жар


# MLFlow

MLFlow предоставляет api для работы с LLM моделями. Рассмотрим некоторые его функции:
* Сохранение и выгрузка chains для повторного многократного использования
* Логирование входов и выходов модели для валидации
* Сравнение выводов нескольких моделей с помощью функции evaluate

## Сохранение и выгрузка chains

Сохраненные chains можно сохранять для повторного использования. В качестве шаблона можно передавать модели указания как вести себя с пользователем или инструкции к переводу входной строки.

In [35]:
import mlflow 
import os
import langchain.agents

os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [36]:
mlflow.set_experiment("LLM_chain")

<Experiment: artifact_location='s3://jojo-gpt/1', creation_time=1698738735342, experiment_id='1', last_update_time=1698738735342, lifecycle_stage='active', name='LLM_chain', tags={}>

In [37]:
with mlflow.start_run(run_name="log_chain") as run:
    mlflow.langchain.log_model(hfh_chain, "model")

In [39]:
model_hfh = mlflow.langchain.load_model("s3://jojo-gpt/1/e0a4c9b9553e4abe9b3cf0870c3d93ee/artifacts/model")

Downloading artifacts:   0%|          | 0/5 [00:00<?, ?it/s]

In [40]:
model_hfh.run("щи")

'\nСварить бульон, добавить в него мелко нарезанный репчатый лук и обжарить на сковороде с растительным маслом до золотистого цвета. В конце варки добавить лавровый лист и специи по вкусу. На гарнир можно подать картофельное пюре или отварной рис. Приятного аппетита!\nПРИЯТНОГО АППЕТИТА!!! Суп-пюре из щавеля готовится очень просто: 1 луковица 2 ст. л.'

## Логирование входов и выходов модели

Используется для логирования ответов для валидации модели. Здесь мы будем использовать не chain, а саму модель.

In [42]:
import mlflow

In [43]:
mlflow.set_experiment("Log_predictions")

2023/10/31 07:57:40 INFO mlflow.tracking.fluent: Experiment with name 'Log_predictions' does not exist. Creating a new experiment.


<Experiment: artifact_location='s3://jojo-gpt/2', creation_time=1698739060123, experiment_id='2', last_update_time=1698739060123, lifecycle_stage='active', name='Log_predictions', tags={}>

In [44]:
inputs = [ 
    "борщ",
]
outputs = [
    ruLLM("Как приготовить борщ?"),
]
prompts = [
    "Как приготовить {input}?",
]

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [45]:
with mlflow.start_run(run_name="log_predictions"):
    mlflow.llm.log_predictions(inputs, outputs, prompts)

2023/10/31 07:57:48 INFO mlflow.tracking.llm_utils: Creating a new llm_predictions.csv for run 7ca769b529f94066b89a8cf98b26752e.


## Сравнение выводов нескольких моделей с помощью функции evaluate

In [None]:
class PyfuncTransformer(mlflow.pyfunc.PythonModel):

    def __init__(self, model_name):
        import pandas as pd
        import numpy as np
        import torch
        from transformers import GPT2LMHeadModel, GPT2Tokenizer

        self.model_name = model_name
        super().__init__()

    def load_context(self, context):

        self.tokenizer = GPT2Tokenizer.from_pretrained(self.model_name)
        self.model = GPT2LMHeadModel.from_pretrained(self.model_name).cuda()

    def predict(self, context, model_input):
        import pandas as pd
        if isinstance(model_input, pd.DataFrame):
            model_input = model_input.values.flatten().tolist()
        elif not isinstance(model_input, list):
            model_input = [model_input]

        generated_text = []
        for input_text in model_input:

            input_ids = self.tokenizer.encode(input_text, return_tensors="pt").cuda()

            out = self.model.generate(
                input_ids.cuda(),
                max_length=100,
                repetition_penalty=5.0,
                do_sample=True,
                top_k=5, 
                top_p=0.95, 
                temperature=1,
                num_beams=10, 
                no_repeat_ngram_size=3
              )

            generated_text.append(
                list(map(self.tokenizer.decode, out))[0],
            )

        return generated_text

In [None]:
rugpt3small = PyfuncTransformer(
    "sberbank-ai/rugpt3small_based_on_gpt2",
)
rugpt3medium = PyfuncTransformer(
    "sberbank-ai/rugpt3medium_based_on_gpt2",
)
rugpt3large = PyfuncTransformer(
    "sberbank-ai/rugpt3large_based_on_gpt2",
)

In [None]:
mlflow.set_experiment(experiment_name="compare")

run_ids = []
artifact_paths = []
model_names = [
    "rugpt3small", 
    "rugpt3medium", 
    "rugpt3large"
]

for model, name in zip([rugpt3small, rugpt3medium, rugpt3large], model_names):
    with mlflow.start_run(run_name=f"log_model_{name}"):
        pyfunc_model = model
        artifact_path = f"models/{name}"
        mlflow.pyfunc.log_model(
            artifact_path=artifact_path,
            python_model=pyfunc_model,
        )
        run_ids.append(mlflow.active_run().info.run_id)
        artifact_paths.append(artifact_path)

In [None]:
import pandas as pd

eval_df = pd.DataFrame(
    {
        "question": [
            "Как приготовить борщ?",
            "Столица россии это ",
            "Кто написал Мастер и Маргарита?",
        ]
    }
)
print(eval_df)

In [None]:
for i in range(len(run_ids)):
    with mlflow.start_run(
        run_id=run_ids[i]
    ):  # reopen the run with the stored run ID
        evaluation_results = mlflow.evaluate(
            model=f"runs:/{run_ids[i]}/{artifact_paths[i]}",
            model_type="text",
            data=eval_df,
        )