In [6]:
# !pip install mlflow
# !pip install transformers
# !pip install evaluate
# !pip install langchain
# !pip install cmake
# !pip install scipy==1.9.1
# !pip install --upgrade pytest
# !pip install accelerate -U
!pip install tiktoken

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting tiktoken
  Downloading tiktoken-0.5.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Installing collected packages: tiktoken
Successfully installed tiktoken-0.5.1
[0m

In [None]:
import warnings
warnings.filterwarnings("ignore")

![base.jpg](attachment:8b53b26c-e9b2-40f9-9779-6da5c25f517e.jpg)

# 1. Select Foundational Model

![select model.jpg](attachment:ec156a1a-1cd4-4eea-897b-c09f73886462.jpg)

## Сравнение выводов нескольких моделей с помощью функции evaluate

In [1]:
import mlflow

class PyfuncTransformer(mlflow.pyfunc.PythonModel):

    def __init__(self, model_name):
        import pandas as pd
        import numpy as np
        import torch
        from transformers import GPT2LMHeadModel, GPT2Tokenizer

        self.model_name = model_name
        super().__init__()

    def load_context(self, context):
        from transformers import GPT2LMHeadModel, GPT2Tokenizer

        self.tokenizer = GPT2Tokenizer.from_pretrained(self.model_name)
        self.model = GPT2LMHeadModel.from_pretrained(self.model_name).cuda()

    def predict(self, context, model_input):
        import pandas as pd
        if isinstance(model_input, pd.DataFrame):
            model_input = model_input.values.flatten().tolist()
        elif not isinstance(model_input, list):
            model_input = [model_input]

        generated_text = []
        for input_text in model_input:

            input_ids = self.tokenizer.encode(input_text, return_tensors="pt").cuda()

            out = self.model.generate(
                input_ids.cuda(),
                max_length=100,
                repetition_penalty=5.0,
                do_sample=True,
                top_k=5, 
                top_p=0.95, 
                temperature=1,
                num_beams=10, 
                no_repeat_ngram_size=3
              )

            generated_text.append(
                list(map(self.tokenizer.decode, out))[0],
            )

        return generated_text

In [2]:
rugpt3small = PyfuncTransformer(
    "sberbank-ai/rugpt3small_based_on_gpt2",
)
rugpt3medium = PyfuncTransformer(
    "sberbank-ai/rugpt3medium_based_on_gpt2",
)
rugpt3large = PyfuncTransformer(
    "sberbank-ai/rugpt3large_based_on_gpt2",
)

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
mlflow.set_experiment(experiment_name="compare")

run_ids = []
artifact_paths = []
model_names = [
    "rugpt3small", 
    "rugpt3medium", 
    "rugpt3large"
]

for model, name in zip([rugpt3small, rugpt3medium, rugpt3large], model_names):
    with mlflow.start_run(run_name=f"log_model_{name}"):
        pyfunc_model = model
        artifact_path = f"models/{name}"
        mlflow.pyfunc.log_model(
            artifact_path=artifact_path,
            python_model=pyfunc_model,
        )
        run_ids.append(mlflow.active_run().info.run_id)
        artifact_paths.append(artifact_path)



In [4]:
import pandas as pd

eval_df = pd.DataFrame(
    {
        "question": [
            "Как приготовить борщ?",
            "Столица россии это ",
            "Кто написал Мастер и Маргарита?",
        ]
    }
)
print(eval_df)

                          question
0            Как приготовить борщ?
1              Столица россии это 
2  Кто написал Мастер и Маргарита?


In [7]:
for i in range(len(run_ids)):
    with mlflow.start_run(
        run_id=run_ids[i]
    ):  # reopen the run with the stored run ID
        evaluation_results = mlflow.evaluate(
            model=f"runs:/{run_ids[i]}/{artifact_paths[i]}",
            model_type="text",
            data=eval_df,
        )

2023/11/21 09:45:54 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.
2023/11/21 09:45:54 INFO mlflow.models.evaluation.default_evaluator: Computing model predictions.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
2023/11/21 09:45:59 INFO mlflow.models.evalu

# 2. Prompt Engineering & Evaluating Results

![prompt engineering.jpg](attachment:e2a40a71-fb03-464d-a217-80f3aa5b865f.jpg)

## Выгружаем модель через transformers

In [None]:
import numpy as np
import torch

np.random.seed(42)
torch.manual_seed(42)

torch.cuda.is_available()

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, pipeline

In [None]:
generator = pipeline("text-generation", model="sberbank-ai/rugpt3small_based_on_gpt2")

In [None]:
generator("Как приготовить борщ?", do_sample=True, max_length=200)[0]['generated_text']

## Логирование входов и выходов модели

In [None]:
import mlflow

mlflow.set_experiment("Log_predictions")

In [None]:
inputs = [ 
    "борщ",
    "борщ",
    "Александр Сергеевич Пушкин",
]
outputs = [
    generator("Как приготовить борщ?", do_sample=True, max_length=200)[0]['generated_text'],
    generator("Как вкусно и быстро приготовить борщ?", do_sample=True, max_length=200)[0]['generated_text'],
    generator("Когда родился Александр Сергеевич Пушкин", do_sample=True, max_length=200)[0]['generated_text'],
]
prompts = [
    "Как приготовить {input}?",
    "Как вкусно и быстро приготовить {input}?",
    "Когда родился {input}?",
]

In [None]:
with mlflow.start_run(run_name="log_predictions"):
    mlflow.llm.log_predictions(inputs, outputs, prompts)

# Chains

## Выгружаем модель с помощью HuggingFaceHub

In [None]:
from langchain.llms import HuggingFaceHub
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

In [None]:
hfh = HuggingFaceHub(
    repo_id="sberbank-ai/rugpt3small_based_on_gpt2", 
    huggingfacehub_api_token="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",
    model_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [None]:
hfh("Как приготовить борщ?")

## HuggingFaceHub chain

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
hfh_chain = LLMChain(llm=hfh, prompt=prompt)

In [None]:
print(hfh_chain.run("борщ"))

## Сохранение и выгрузка chains

In [None]:
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [None]:
mlflow.set_experiment("LLM_chain")

with mlflow.start_run(run_name="log_chain") as run:
    mlflow.langchain.log_model(hfh_chain, "model")

In [None]:
# model_hfh = mlflow.langchain.load_model("s3://app-gpt/37/aafab1479a89413d99ee0a8d683ac660/artifacts/model")

In [None]:
# model_hfh.run("щи")

# 3. Fine Tune Model

![fine tune.jpg](attachment:061847a0-ba4d-4e4f-b427-d28b548184ef.jpg)

# 4. Deploy to Production

![deploy.jpg](attachment:f6224880-0d74-4cf1-9314-dc2518b5fe32.jpg)

# Model

В нашем демо мы будем использовать ruGPT3 модели от Сбербанка. Работать с моделями можно выгружая их из хаба HuggingFace.

Мы можем загрузить модель из несколькими способами.
* Напрямую выгружая из дистрибутива HuggingFace с помощью библиотеки transformers
* Использовать для выгрузки langchain и его функцию HuggingFacePipeline
* Использовать langchain и его функцию HuggingFaceHub (требуется API токен)

Так же мы будем использовать chains из библиотеки langchain для связи пар модель\промпт.

## 1. Выгрузка модели с помощью transformers и инициализация chain

### Выгружаем модель через transformers

In [None]:
import numpy as np
import torch

In [None]:
torch.cuda.is_available()

In [None]:
np.random.seed(42)
torch.manual_seed(42)

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, pipeline

In [None]:
def load_tokenizer_and_model(model_name_or_path):
  return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()


def generate(
    model, tok, text,
    do_sample=True, max_length=100, repetition_penalty=5.0,
    top_k=5, top_p=0.95, temperature=1,
    num_beams=None,
    no_repeat_ngram_size=3
    ):
  input_ids = tok.encode(text, return_tensors="pt").cuda()
  out = model.generate(
      input_ids.cuda(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
  return list(map(tok.decode, out))

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")

In [None]:
generated = generate(model, tok, "Как приготовить борщ?", num_beams=10)

In [None]:
generated[0]

### LangChain wrapper

Чтобы создать chain нам потребуется обернуть нашу выгруженную модель класс langchain модели, для этого используем wrapper

In [None]:
from typing import Any, List, Mapping, Optional

from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.llms.base import LLM

In [None]:
class CustomLLM(LLM):

    import numpy as np
    import torch
    from transformers import GPT2LMHeadModel, GPT2Tokenizer
    
    model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
    tok, model = GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()
    
    @property
    def _llm_type(self) -> str:
        return "self_hosted_hugging_face"

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
    ) -> str:
        if stop is not None:
            raise ValueError("stop kwargs are not permitted.")


        input_ids = self.tok.encode(prompt, return_tensors="pt").cuda()

        out = self.model.generate(
            input_ids.cuda(),
            max_length=200,
            repetition_penalty=5.0,
            do_sample=True,
            top_k=5, 
            top_p=0.95, 
            temperature=1,
            num_beams=10, 
            no_repeat_ngram_size=3
      )
        
        return list(map(tok.decode, out))[0]

    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        """Get the identifying parameters."""
        return {"model name": self.model_name_or_path}

In [None]:
ruLLM = CustomLLM()

In [None]:
ruLLM("Как приготовить борщ?")

In [None]:
print(ruLLM)  

### LangChain chains

Создаем связь model\prompt

In [None]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
chain = LLMChain(llm=ruLLM, prompt=prompt)

In [None]:
print(chain.run("борщ"))

## 2. Выгрузка модели с помощью langchain и HuggingFacePipeline и инициализация chain

LangChain предоставляет удобное API для выгрузки моделей из HuggingFaceHub. Одна из таких функций - HuggingFacePipeline.

### Выгружаем модель с помощью HuggingFacePipeline

In [None]:
from langchain.llms import HuggingFacePipeline

In [None]:
hfp = HuggingFacePipeline.from_model_id(
    model_id="sberbank-ai/rugpt3small_based_on_gpt2",
    task="text-generation",
    pipeline_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [None]:
hfp("Как приготовить борщ?")

### HuggingFacePipeline chain

Создаем связь model\prompt

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
hfp_chain = LLMChain(llm=hfp, prompt=prompt)

In [None]:
print(hfp_chain.run("борщ"))

## 3. Выгрузка модели с помощью langchain и HuggingFaceHub и инициализация chain

Так же модели можно выгружать через функцию HuggingFaceHub, но для этого потребуется api token аккаунта

### Выгружаем модель с помощью HuggingFaceHub

In [None]:
from langchain.llms import HuggingFaceHub

In [None]:
hfh = HuggingFaceHub(
    repo_id="sberbank-ai/rugpt3small_based_on_gpt2", 
    huggingfacehub_api_token="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",
    model_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [None]:
hfh("Как приготовить борщ?")

### HuggingFaceHub chain

Создаем связь model\prompt

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
hfh_chain = LLMChain(llm=hfh, prompt=prompt)

In [None]:
print(hfh_chain.run("борщ"))

# MLFlow

MLFlow предоставляет api для работы с LLM моделями. Рассмотрим некоторые его функции:
* Сохранение и выгрузка chains для повторного многократного использования
* Логирование входов и выходов модели для валидации
* Сравнение выводов нескольких моделей с помощью функции evaluate

## Сохранение и выгрузка chains

Сохраненные chains можно сохранять для повторного использования. В качестве шаблона можно передавать модели указания как вести себя с пользователем или инструкции к переводу входной строки.

In [None]:
import mlflow 
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [None]:
mlflow.set_experiment("LLM_chain")

In [None]:
with mlflow.start_run(run_name="log_chain") as run:
    mlflow.langchain.log_model(hfh_chain, "model")

In [None]:
model_hfh = mlflow.langchain.load_model("s3://app-gpt/37/aafab1479a89413d99ee0a8d683ac660/artifacts/model")

In [None]:
model_hfh.run("щи")

In [None]:
model_hfh = mlflow.langchain.load_model("file:///D:/Projects/Kira/gpt-try/mlruns/449190257040005705/90416465d33b471bb921241f0b17d021/artifacts/model")

## Логирование входов и выходов модели

Используется для логирования ответов для валидации модели. Здесь мы будем использовать не chain, а саму модель.

In [None]:
import mlflow

In [None]:
mlflow.set_experiment("Log_predictions")

In [None]:
inputs = [ 
    "борщ",
]
outputs = [
    ruLLM("Как приготовить борщ?"),
]
prompts = [
    "Как приготовить {input}?",
]

In [None]:
with mlflow.start_run(run_name="log_predictions"):
    mlflow.llm.log_predictions(inputs, outputs, prompts)

## Сравнение выводов нескольких моделей с помощью функции evaluate

In [None]:
class PyfuncTransformer(mlflow.pyfunc.PythonModel):

    def __init__(self, model_name):
        import pandas as pd
        import numpy as np
        import torch
        from transformers import GPT2LMHeadModel, GPT2Tokenizer

        self.model_name = model_name
        super().__init__()

    def load_context(self, context):

        self.tokenizer = GPT2Tokenizer.from_pretrained(self.model_name)
        self.model = GPT2LMHeadModel.from_pretrained(self.model_name).cuda()

    def predict(self, context, model_input):
        import pandas as pd
        if isinstance(model_input, pd.DataFrame):
            model_input = model_input.values.flatten().tolist()
        elif not isinstance(model_input, list):
            model_input = [model_input]

        generated_text = []
        for input_text in model_input:

            input_ids = self.tokenizer.encode(input_text, return_tensors="pt").cuda()

            out = self.model.generate(
                input_ids.cuda(),
                max_length=100,
                repetition_penalty=5.0,
                do_sample=True,
                top_k=5, 
                top_p=0.95, 
                temperature=1,
                num_beams=10, 
                no_repeat_ngram_size=3
              )

            generated_text.append(
                list(map(self.tokenizer.decode, out))[0],
            )

        return generated_text

In [None]:
rugpt3small = PyfuncTransformer(
    "sberbank-ai/rugpt3small_based_on_gpt2",
)
rugpt3medium = PyfuncTransformer(
    "sberbank-ai/rugpt3medium_based_on_gpt2",
)
rugpt3large = PyfuncTransformer(
    "sberbank-ai/rugpt3large_based_on_gpt2",
)

In [None]:
mlflow.set_experiment(experiment_name="compare")

run_ids = []
artifact_paths = []
model_names = [
    "rugpt3small", 
    "rugpt3medium", 
    "rugpt3large"
]

for model, name in zip([rugpt3small, rugpt3medium, rugpt3large], model_names):
    with mlflow.start_run(run_name=f"log_model_{name}"):
        pyfunc_model = model
        artifact_path = f"models/{name}"
        mlflow.pyfunc.log_model(
            artifact_path=artifact_path,
            python_model=pyfunc_model,
        )
        run_ids.append(mlflow.active_run().info.run_id)
        artifact_paths.append(artifact_path)

In [None]:
import pandas as pd

eval_df = pd.DataFrame(
    {
        "question": [
            "Как приготовить борщ?",
            "Столица россии это ",
            "Кто написал Мастер и Маргарита?",
        ]
    }
)
print(eval_df)

In [None]:
for i in range(len(run_ids)):
    with mlflow.start_run(
        run_id=run_ids[i]
    ):  # reopen the run with the stored run ID
        evaluation_results = mlflow.evaluate(
            model=f"runs:/{run_ids[i]}/{artifact_paths[i]}",
            model_type="text",
            data=eval_df,
        )