In [1]:
import warnings
warnings.filterwarnings("ignore")

![base.jpg](attachment:8b53b26c-e9b2-40f9-9779-6da5c25f517e.jpg)

# 1. Select Foundational Model

![select model.jpg](attachment:ec156a1a-1cd4-4eea-897b-c09f73886462.jpg)

## Сравнение выводов нескольких моделей с помощью функции evaluate

In [2]:
import mlflow

class PyfuncTransformer(mlflow.pyfunc.PythonModel):

    def __init__(self, model_name):
        import pandas as pd
        import numpy as np
        import torch

        self.model_name = model_name
        super().__init__()

    def load_context(self, context):
        from transformers import GPT2LMHeadModel, GPT2Tokenizer
        
        self.tokenizer = GPT2Tokenizer.from_pretrained(self.model_name)
        self.model = GPT2LMHeadModel.from_pretrained(self.model_name).cuda()

    def predict(self, context, model_input):
        import pandas as pd
        if isinstance(model_input, pd.DataFrame):
            model_input = model_input.values.flatten().tolist()
        elif not isinstance(model_input, list):
            model_input = [model_input]

        generated_text = []
        for input_text in model_input:

            input_ids = self.tokenizer.encode(input_text, return_tensors="pt").cuda()

            out = self.model.generate(
                input_ids.cuda(),
                max_length=100,
                repetition_penalty=5.0,
                do_sample=True,
                top_k=5, 
                top_p=0.95, 
                temperature=1,
                num_beams=10, 
                no_repeat_ngram_size=3
              )

            generated_text.append(
                list(map(self.tokenizer.decode, out))[0],
            )

        return generated_text

In [3]:
rugpt3small = PyfuncTransformer(
    "sberbank-ai/rugpt3small_based_on_gpt2",
)
rugpt3medium = PyfuncTransformer(
    "sberbank-ai/rugpt3medium_based_on_gpt2",
)
rugpt3large = PyfuncTransformer(
    "sberbank-ai/rugpt3large_based_on_gpt2",
)

In [4]:
mlflow.set_experiment(experiment_name="compare")

run_ids = []
artifact_paths = []
model_names = [
    "rugpt3small", 
    "rugpt3medium", 
    "rugpt3large"
]

for model, name in zip([rugpt3small, rugpt3medium, rugpt3large], model_names):
    with mlflow.start_run(run_name=f"log_model_{name}"):
        pyfunc_model = model
        artifact_path = f"models/{name}"
        mlflow.pyfunc.log_model(
            artifact_path=artifact_path,
            python_model=pyfunc_model,
        )
        run_ids.append(mlflow.active_run().info.run_id)
        artifact_paths.append(artifact_path)

2023/12/19 13:29:20 INFO mlflow.tracking.fluent: Experiment with name 'compare' does not exist. Creating a new experiment.


In [5]:
import pandas as pd

eval_df = pd.DataFrame(
    {
        "question": [
            "Как приготовить борщ?",
            "Столица россии это ",
            "Кто написал Мастер и Маргарита?",
        ]
    }
)
print(eval_df)

                          question
0            Как приготовить борщ?
1              Столица россии это 
2  Кто написал Мастер и Маргарита?


In [6]:
for i in range(len(run_ids)):
    with mlflow.start_run(
        run_id=run_ids[i]
    ):  # reopen the run with the stored run ID
        evaluation_results = mlflow.evaluate(
            model=f"runs:/{run_ids[i]}/{artifact_paths[i]}",
            model_type="text",
            data=eval_df,
        )

Downloading pytorch_model.bin:   0%|          | 0.00/551M [00:00<?, ?B/s]

2023/12/19 13:41:34 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.
2023/12/19 13:42:04 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.
2023/12/19 13:42:22 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.


# 2. Prompt Engineering & Evaluating Results

![prompt engineering.jpg](attachment:e2a40a71-fb03-464d-a217-80f3aa5b865f.jpg)

## Выгружаем модель через transformers

In [7]:
import numpy as np
import torch

np.random.seed(42)
torch.manual_seed(42)

torch.cuda.is_available()

True

In [8]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, pipeline

In [9]:
generator = pipeline("text-generation", model="models/rugpt3small")

Xformers is not installed correctly. If you want to use memory_efficient_attention to accelerate training use the following command to install Xformers
pip install xformers.


In [10]:
generator("Как приготовить борщ?", do_sample=True, max_length=200)[0]['generated_text']

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


'Как приготовить борщ?\nИнгредиенты: свекла – 1 шт., морковь – 2 шт., лук репчатый – 1 шт., томатный соус – 1 ст. ложка, петрушка – 1 пучок, соль по вкусу. Морковь натереть на крупной терке, лук нарезать полукольцами. Тушат до готовности, добавляют картофель и соль, тщательно перемешивают. Подавать с отварным картофелем или капустой.\n\nГотовый борщ за 2 часа можно подать к столу. Начинка: отварная свекла, картофель, морковь, лук, хрен, томатный соус, зелень, молоко. Подавать с фруктами или молоком.\n<font color="#ffff00" size=14>\n<font face="White">MB (Max yellow), Font: Times New Roman <font face="Courier New Roman"></font>\n<s>Вопрос: Как'

## Логирование входов и выходов модели

In [11]:
mlflow.set_experiment("Log_predictions")

2023/12/19 14:01:14 INFO mlflow.tracking.fluent: Experiment with name 'Log_predictions' does not exist. Creating a new experiment.


<Experiment: artifact_location='file:///D:/Projects/Kira/gpt-try/mlruns/191477138887964053', creation_time=1702983674572, experiment_id='191477138887964053', last_update_time=1702983674572, lifecycle_stage='active', name='Log_predictions', tags={}>

In [12]:
inputs = [ 
    "борщ",
    "борщ",
    "Александр Сергеевич Пушкин",
]
outputs = [
    generator("Как приготовить борщ?", do_sample=True, max_length=200)[0]['generated_text'],
    generator("Как вкусно и быстро приготовить борщ?", do_sample=True, max_length=200)[0]['generated_text'],
    generator("Когда родился Александр Сергеевич Пушкин", do_sample=True, max_length=200)[0]['generated_text'],
]
prompts = [
    "Как приготовить {input}?",
    "Как вкусно и быстро приготовить {input}?",
    "Когда родился {input}?",
]

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [13]:
with mlflow.start_run(run_name="log_predictions"):
    mlflow.llm.log_predictions(inputs, outputs, prompts)

2023/12/19 14:01:43 INFO mlflow.tracking.llm_utils: Creating a new llm_predictions.csv for run e80d943284a74738b4c64c36e6fc6318.


## Выгрузка модели с помощью langchain и HuggingFaceHub и инициализация chain

In [14]:
from langchain.llms import HuggingFaceHub

In [15]:
hfh = HuggingFaceHub(
    repo_id="sberbank-ai/rugpt3small_based_on_gpt2", 
    huggingfacehub_api_token="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",
    model_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [16]:
hfh("Как приготовить борщ?")

'\nБорщ - это блюдо, которое готовится по старинному рецепту. Борщ можно подать как самостоятельное блюдо, так и в качестве гарнира к мясным или рыбным блюдам. Для приготовления борща понадобятся следующие продукты: 1 кг свеклы; 2 ст. л. томатной пасты; 3-4 зубчика чеснока; 0,5 стакана растительного масла; 100 г сметаны; зелень петрушки (по вкусу); соль, черный молотый перец'

In [21]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [22]:
hfh_chain = LLMChain(llm=hfh, prompt=prompt)

In [23]:
print(hfh_chain.run("борщ"))


Борщ - это блюдо, которое готовится по старинному рецепту. Борщ можно подать как самостоятельное блюдо, так и в качестве гарнира к мясным или рыбным блюдам. Для приготовления борща понадобятся следующие продукты: 1 кг свеклы; 2 ст. л. томатной пасты; 3-4 зубчика чеснока; 0,5 стакана растительного масла; 100 г сметаны; зелень петрушки (по вкусу); соль, черный молотый перец


In [26]:
import os
os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [27]:
mlflow.set_experiment("LLM_chain")

with mlflow.start_run(run_name="log_chain") as run:
    mlflow.langchain.log_model(hfh_chain, "model")

In [30]:
model_hfh = mlflow.langchain.load_model("file:///D:/Projects/Kira/gpt-try/mlruns/842116450061220950/846beff0711e4a96915622f405db018e/artifacts/model")

In [31]:
model_hfh.run("щи")

'\nСварить бульон, добавить в него нарезанный репчатый лук и обжарить на растительном масле до образования румяной корочки. Подавать с отварным картофелем или картофельным пюре.\nПРИЯТНОГО АППЕТИТА!\nсвеклу отварить (нарезать кубиками), посолить, поперчить по вкусу, заправить майонезом - это придаст блюду пикантный привкус. Салат'

# Model

В нашем демо мы будем использовать ruGPT3 модели от Сбербанка. Работать с моделями можно выгружая их из хаба HuggingFace.

Мы можем загрузить модель из несколькими способами.
* Напрямую выгружая из дистрибутива HuggingFace с помощью библиотеки transformers
* Использовать для выгрузки langchain и его функцию HuggingFacePipeline
* Использовать langchain и его функцию HuggingFaceHub (требуется API токен)

Так же мы будем использовать chains из библиотеки langchain для связи пар модель\промпт.

## 1. Выгрузка модели с помощью transformers и инициализация chain

### Выгружаем модель через transformers

In [None]:
import numpy as np
import torch

In [None]:
torch.cuda.is_available()

In [None]:
np.random.seed(42)
torch.manual_seed(42)

In [None]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, pipeline

In [None]:
def load_tokenizer_and_model(model_name_or_path):
  return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()


def generate(
    model, tok, text,
    do_sample=True, max_length=100, repetition_penalty=5.0,
    top_k=5, top_p=0.95, temperature=1,
    num_beams=None,
    no_repeat_ngram_size=3
    ):
  input_ids = tok.encode(text, return_tensors="pt").cuda()
  out = model.generate(
      input_ids.cuda(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
  return list(map(tok.decode, out))

In [None]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")

In [None]:
generated = generate(model, tok, "Как приготовить борщ?", num_beams=10)

In [None]:
generated[0]

### LangChain wrapper

Чтобы создать chain нам потребуется обернуть нашу выгруженную модель класс langchain модели, для этого используем wrapper

In [None]:
from typing import Any, List, Mapping, Optional

from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.llms.base import LLM

In [None]:
class CustomLLM(LLM):

    import numpy as np
    import torch
    from transformers import GPT2LMHeadModel, GPT2Tokenizer
    
    model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
    tok, model = GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()
    
    @property
    def _llm_type(self) -> str:
        return "self_hosted_hugging_face"

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
    ) -> str:
        if stop is not None:
            raise ValueError("stop kwargs are not permitted.")


        input_ids = self.tok.encode(prompt, return_tensors="pt").cuda()

        out = self.model.generate(
            input_ids.cuda(),
            max_length=200,
            repetition_penalty=5.0,
            do_sample=True,
            top_k=5, 
            top_p=0.95, 
            temperature=1,
            num_beams=10, 
            no_repeat_ngram_size=3
      )
        
        return list(map(tok.decode, out))[0]

    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        """Get the identifying parameters."""
        return {"model name": self.model_name_or_path}

In [None]:
ruLLM = CustomLLM()

In [None]:
ruLLM("Как приготовить борщ?")

In [None]:
print(ruLLM)  

### LangChain chains

Создаем связь model\prompt

In [None]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
chain = LLMChain(llm=ruLLM, prompt=prompt)

In [None]:
print(chain.run("борщ"))

## 2. Выгрузка модели с помощью langchain и HuggingFacePipeline и инициализация chain

LangChain предоставляет удобное API для выгрузки моделей из HuggingFaceHub. Одна из таких функций - HuggingFacePipeline.

### Выгружаем модель с помощью HuggingFacePipeline

In [None]:
from langchain.llms import HuggingFacePipeline

In [None]:
hfp = HuggingFacePipeline.from_model_id(
    model_id="sberbank-ai/rugpt3small_based_on_gpt2",
    task="text-generation",
    pipeline_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [None]:
hfp("Как приготовить борщ?")

### HuggingFacePipeline chain

Создаем связь model\prompt

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
hfp_chain = LLMChain(llm=hfp, prompt=prompt)

In [None]:
print(hfp_chain.run("борщ"))

## 3. Выгрузка модели с помощью langchain и HuggingFaceHub и инициализация chain

Так же модели можно выгружать через функцию HuggingFaceHub, но для этого потребуется api token аккаунта

### Выгружаем модель с помощью HuggingFaceHub

In [None]:
from langchain.llms import HuggingFaceHub

In [None]:
hfh = HuggingFaceHub(
    repo_id="sberbank-ai/rugpt3small_based_on_gpt2", 
    huggingfacehub_api_token="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",
    model_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [None]:
hfh("Как приготовить борщ?")

### HuggingFaceHub chain

Создаем связь model\prompt

In [None]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="Как приготовить {product}?",
)

In [None]:
hfh_chain = LLMChain(llm=hfh, prompt=prompt)

In [None]:
print(hfh_chain.run("борщ"))

# MLFlow

MLFlow предоставляет api для работы с LLM моделями. Рассмотрим некоторые его функции:
* Сохранение и выгрузка chains для повторного многократного использования
* Логирование входов и выходов модели для валидации
* Сравнение выводов нескольких моделей с помощью функции evaluate

## Сохранение и выгрузка chains

Сохраненные chains можно сохранять для повторного использования. В качестве шаблона можно передавать модели указания как вести себя с пользователем или инструкции к переводу входной строки.

In [None]:
import mlflow 
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [None]:
mlflow.set_experiment("LLM_chain")

In [None]:
with mlflow.start_run(run_name="log_chain") as run:
    mlflow.langchain.log_model(hfh_chain, "model")

In [None]:
model_hfh = mlflow.langchain.load_model("s3://app-gpt/37/aafab1479a89413d99ee0a8d683ac660/artifacts/model")

In [None]:
model_hfh.run("щи")

In [None]:
model_hfh = mlflow.langchain.load_model("file:///D:/Projects/Kira/gpt-try/mlruns/449190257040005705/90416465d33b471bb921241f0b17d021/artifacts/model")

## Логирование входов и выходов модели

Используется для логирования ответов для валидации модели. Здесь мы будем использовать не chain, а саму модель.

In [None]:
import mlflow

In [None]:
mlflow.set_experiment("Log_predictions")

In [None]:
inputs = [ 
    "борщ",
]
outputs = [
    ruLLM("Как приготовить борщ?"),
]
prompts = [
    "Как приготовить {input}?",
]

In [None]:
with mlflow.start_run(run_name="log_predictions"):
    mlflow.llm.log_predictions(inputs, outputs, prompts)

## Сравнение выводов нескольких моделей с помощью функции evaluate

In [None]:
class PyfuncTransformer(mlflow.pyfunc.PythonModel):

    def __init__(self, model_name):
        import pandas as pd
        import numpy as np
        import torch
        from transformers import GPT2LMHeadModel, GPT2Tokenizer

        self.model_name = model_name
        super().__init__()

    def load_context(self, context):

        self.tokenizer = GPT2Tokenizer.from_pretrained(self.model_name)
        self.model = GPT2LMHeadModel.from_pretrained(self.model_name).cuda()

    def predict(self, context, model_input):
        import pandas as pd
        if isinstance(model_input, pd.DataFrame):
            model_input = model_input.values.flatten().tolist()
        elif not isinstance(model_input, list):
            model_input = [model_input]

        generated_text = []
        for input_text in model_input:

            input_ids = self.tokenizer.encode(input_text, return_tensors="pt").cuda()

            out = self.model.generate(
                input_ids.cuda(),
                max_length=100,
                repetition_penalty=5.0,
                do_sample=True,
                top_k=5, 
                top_p=0.95, 
                temperature=1,
                num_beams=10, 
                no_repeat_ngram_size=3
              )

            generated_text.append(
                list(map(self.tokenizer.decode, out))[0],
            )

        return generated_text

In [None]:
rugpt3small = PyfuncTransformer(
    "sberbank-ai/rugpt3small_based_on_gpt2",
)
rugpt3medium = PyfuncTransformer(
    "sberbank-ai/rugpt3medium_based_on_gpt2",
)
rugpt3large = PyfuncTransformer(
    "sberbank-ai/rugpt3large_based_on_gpt2",
)

In [None]:
mlflow.set_experiment(experiment_name="compare")

run_ids = []
artifact_paths = []
model_names = [
    "rugpt3small", 
    "rugpt3medium", 
    "rugpt3large"
]

for model, name in zip([rugpt3small, rugpt3medium, rugpt3large], model_names):
    with mlflow.start_run(run_name=f"log_model_{name}"):
        pyfunc_model = model
        artifact_path = f"models/{name}"
        mlflow.pyfunc.log_model(
            artifact_path=artifact_path,
            python_model=pyfunc_model,
        )
        run_ids.append(mlflow.active_run().info.run_id)
        artifact_paths.append(artifact_path)

In [None]:
import pandas as pd

eval_df = pd.DataFrame(
    {
        "question": [
            "Как приготовить борщ?",
            "Столица россии это ",
            "Кто написал Мастер и Маргарита?",
        ]
    }
)
print(eval_df)

In [None]:
for i in range(len(run_ids)):
    with mlflow.start_run(
        run_id=run_ids[i]
    ):  # reopen the run with the stored run ID
        evaluation_results = mlflow.evaluate(
            model=f"runs:/{run_ids[i]}/{artifact_paths[i]}",
            model_type="text",
            data=eval_df,
        )