# Model

В нашем демо мы будем использовать ruGPT3 модели от Сбербанка. Работать с моделями можно выгружая их из хаба HuggingFace.

Мы можем загрузить модель из несколькими способами.
* Напрямую выгружая из дистрибутива HuggingFace с помощью библиотеки transformers
* Использовать для выгрузки langchain и его функцию HuggingFacePipeline
* Использовать langchain и его функцию HuggingFaceHub (требуется API токен)

Так же мы будем использовать chains из библиотеки langchain для связи пар модель\промпт.

## 1. Выгрузка модели с помощью transformers и инициализация chain

### Выгружаем модель через transformers

In [1]:
import numpy as np
import torch

In [2]:
torch.cuda.is_available()

True

In [3]:
np.random.seed(42)
torch.manual_seed(42)

<torch._C.Generator at 0x1668e181e90>

In [4]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer, pipeline

In [5]:
def load_tokenizer_and_model(model_name_or_path):
  return GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()


def generate(
    model, tok, text,
    do_sample=True, max_length=100, repetition_penalty=5.0,
    top_k=5, top_p=0.95, temperature=1,
    num_beams=None,
    no_repeat_ngram_size=3
    ):
  input_ids = tok.encode(text, return_tensors="pt").cuda()
  out = model.generate(
      input_ids.cuda(),
      max_length=max_length,
      repetition_penalty=repetition_penalty,
      do_sample=do_sample,
      top_k=top_k, top_p=top_p, temperature=temperature,
      num_beams=num_beams, no_repeat_ngram_size=no_repeat_ngram_size
      )
  return list(map(tok.decode, out))

In [6]:
tok, model = load_tokenizer_and_model("sberbank-ai/rugpt3small_based_on_gpt2")

In [7]:
generated = generate(model, tok, "Максим Горький родился в ", num_beams=10)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


In [8]:
generated[0]

'Максим Горький родился в \n1908 г. в семье инженера-строителя В.А.Кузьмина и его жены Нины Александровны Кузнецовой (урожденной Козыревой). После окончания школы поступил на юридический факультет Ленинградского государственного университета, который окончил в 1939 г. по специальности &laquo;юриспруденция&raquo;. С началом Великой Отечественной войны начал службу в Рабоче-крестьянской Красной Армии. Участвовал в боевых действиях'

### LangChain wrapper

Чтобы создать chain нам потребуется обернуть нашу выгруженную модель класс langchain модели, для этого используем wrapper

In [9]:
from typing import Any, List, Mapping, Optional

from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.llms.base import LLM

In [10]:
class CustomLLM(LLM):
    # def __init__(self):
    #     self.model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
    #     self.tok, self.model = GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()

    import numpy as np
    import torch
    from transformers import GPT2LMHeadModel, GPT2Tokenizer
    
    model_name_or_path = "sberbank-ai/rugpt3small_based_on_gpt2"
    tok, model = GPT2Tokenizer.from_pretrained(model_name_or_path), GPT2LMHeadModel.from_pretrained(model_name_or_path).cuda()
    
    @property
    def _llm_type(self) -> str:
        return "self_hosted_hugging_face"

    def _call(
        self,
        prompt: str,
        stop: Optional[List[str]] = None,
        run_manager: Optional[CallbackManagerForLLMRun] = None,
    ) -> str:
        if stop is not None:
            raise ValueError("stop kwargs are not permitted.")


        input_ids = self.tok.encode(prompt, return_tensors="pt").cuda()

        out = self.model.generate(
            input_ids.cuda(),
            max_length=100,
            repetition_penalty=5.0,
            do_sample=True,
            top_k=5, 
            top_p=0.95, 
            temperature=1,
            num_beams=10, 
            no_repeat_ngram_size=3
      )
        
        return list(map(tok.decode, out))[0]

    @property
    def _identifying_params(self) -> Mapping[str, Any]:
        """Get the identifying parameters."""
        return {"model name": self.model_name_or_path}

In [11]:
ruLLM = CustomLLM()

In [12]:
ruLLM("Максим Горький родился в ")

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


'Максим Горький родился в \n1908 г. в семье рабочего-железнодорожника, который работал на железной дороге помощником машиниста и кочегаром. В 1934 г. окончил Московское паровозостроительное училище по специальности &laquo;электромеханик&raquo;. Во время Великой Отечественной войны проходил службу в рядах Советской Армии. После демобилизации был направлен на учёбу в Высшую партийную школу при ЦК ВКП(б) им. М.В. Фрун'

In [13]:
print(ruLLM)  

[1mCustomLLM[0m
Params: {'model name': 'sberbank-ai/rugpt3small_based_on_gpt2'}


### LangChain chains

Создаем связь model\prompt

In [14]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

In [15]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="{product} родился в ?",
)

In [16]:
chain = LLMChain(llm=ruLLM, prompt=prompt)

In [17]:
print(chain.run("Максим Горький"))

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Максим Горький родился в? году рождения.  Его отец был военным, а мать - учительницей русского языка и литературы.  После окончания средней школы поступил в Ленинградский государственный педагогический институт им. А.И. Герцена по специальности "Педагогика начального общего образования".  В институте он проучился два года, после чего получил диплом о высшем образовании.  По окончании института работал учителем начальных классов в школе-интернате для умственно отсталых детей имени Н.А. Некрас


## 2. Выгрузка модели с помощью langchain и HuggingFacePipeline и инициализация chain

LangChain предоставляет удобное API для выгрузки моделей из HuggingFaceHub. Одна из таких функций - HuggingFacePipeline.

### Выгружаем модель с помощью HuggingFacePipeline

In [18]:
from langchain.llms import HuggingFacePipeline

In [19]:
hfp = HuggingFacePipeline.from_model_id(
    model_id="sberbank-ai/rugpt3small_based_on_gpt2",
    task="text-generation",
    pipeline_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Device has 1 GPUs available. Provide device={deviceId} to `from_model_id` to use availableGPUs for execution. deviceId is -1 (default) for CPU and can be a positive integer associated with CUDA device id.
Xformers is not installed correctly. If you want to use memory_efficient_attention to accelerate training use the following command to install Xformers
pip install xformers.


In [20]:
hfp("Максим Горький родился в ")

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


'\n1908 году. Он был одним из самых известных русских писателей-романтиков, чьи произведения были переведены на многие языки мира и стали классикой мировой литературы. В том же году он стал лауреатом Нобелевской премии по литературе за роман &laquo;Война и мир&raquo;, а также получил премию Американской академии киноискусств (АКАДЕМИЧЕСКАЯ АРХИВНАЯ ЛИТЕРАТУРА) за'

### HuggingFacePipeline chain

Создаем связь model\prompt

In [21]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="{product} родился в ?",
)

In [23]:
hfp_chain = LLMChain(llm=hfp, prompt=prompt)

In [24]:
print(hfp_chain.run("Максим Горький"))

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


 году рождения.  Его отец был инженером-механиком, а мать — учительницей русского языка и литературы.  После окончания школы он поступил на юридический факультет Московского государственного университета им. М.В.Ломоносова по специальности "юриспруденция".  В студенческие годы работал юрисконсультом юридической фирмы "Юридическая фирма" (г. Москва), где проработал до конца своей трудовой деятельности. 
 С началом Великой Отечественной войны Максим Горький


## 3. Выгрузка модели с помощью langchain и HuggingFaceHub и инициализация chain

Так же модели можно выгружать через функцию HuggingFaceHub, но для этого потребуется api token аккаунта

### Выгружаем модель с помощью HuggingFaceHub

In [25]:
from langchain.llms import HuggingFaceHub

In [26]:
hfh = HuggingFaceHub(
    repo_id="sberbank-ai/rugpt3small_based_on_gpt2", 
    huggingfacehub_api_token="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",
    model_kwargs={ 
        "max_length": 100,
        "repetition_penalty": 5.0,
        "do_sample": True,
        "top_k": 5, 
        "top_p": 0.95, 
        "temperature": 1,
        "num_beams": 10, 
        "no_repeat_ngram_size": 3},
)

In [27]:
hfh("Максим Горький родился в ")

'\n1918 году. В 1937 году окончил Ленинградский государственный педагогический институт им. А.И. Герцена по специальности &laquo;учитель русского языка и литературы&raquo;. После окончания института был направлен на учёбу в Московскую высшую партийную школу при ЦК ВКП(б) (ныне Московская высшая партийная школа имени М.В. Фрунзе). С 1938 года работал учителем начальных классов, а с 1939 года - директором средней школы №'

### HuggingFaceHub chain

Создаем связь model\prompt

In [28]:
prompt = PromptTemplate(
    input_variables=["product"],
    template="{product} родился в ?",
)

In [29]:
hfh_chain = LLMChain(llm=hfh, prompt=prompt)

In [30]:
print(hfh_chain.run("Максим Горький"))

 году рождения.  Его отец был военным, а мать - учительницей русского языка и литературы.  В семье было двое детей: мальчик и девочка.  После окончания школы он поступил на юридический факультет Московского государственного университета им. М.В.Ломоносова по специальности "юриспруденция".  С этого момента началась его профессиональная карьера юриста.  Он начал свою трудовую деятельность с должности заместителя начальника юридического отдела Управления Федеральной службы судебных приставов по Санкт-Петербургу


# MLFlow

MLFlow предоставляет api для работы с LLM моделями. Рассмотрим некоторые его функции:
* Сохранение и выгрузка chains для повторного многократного использования
* Логирование входов и выходов модели для валидации
* Сравнение выводов нескольких моделей с помощью функции evaluate

## Сохранение и выгрузка chains

Сохраненные chains можно сохранять для повторного использования. В качестве шаблона можно передавать модели указания как вести себя с пользователем или инструкции к переводу входной строки.

In [56]:
import mlflow 
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

In [57]:
mlflow.set_experiment("LLM")

2023/08/10 15:26:07 INFO mlflow.tracking.fluent: Experiment with name 'LLM' does not exist. Creating a new experiment.


<Experiment: artifact_location='file:///D:/Projects/Kira/gpt-try/mlruns/112493847725199693', creation_time=1691670367230, experiment_id='112493847725199693', last_update_time=1691670367230, lifecycle_stage='active', name='LLM', tags={}>

In [58]:
with mlflow.start_run(run_name="log_chain") as run:
    mlflow.langchain.log_model(hfh_chain, "model")

In [59]:
model_hfh = mlflow.langchain.load_model("file:///D:/Projects/Kira/gpt-try/mlruns/845547730999524517/36cb53d6d04f47dabca20c61b61c711a/artifacts/model")

OSError: No such file or directory: 'D:\Projects\Kira\gpt-try\mlruns\845547730999524517\36cb53d6d04f47dabca20c61b61c711a\artifacts\model'

In [None]:
model_hfh.run("Максим Горький ")

## Логирование входов и выходов модели

Используется для логирования ответов для валидации модели. Здесь мы будем использовать не chain, а саму модель.

In [None]:
import mlflow

In [None]:
inputs = [ 
    "Максим Горький родился в ",
]
outputs = [
    ruLLM("Максим Горький родился в "),
]
prompts = [
    "{input}",
]

In [None]:
with mlflow.start_run(run_name="log_predictions"):
    mlflow.llm.log_predictions(inputs, outputs, prompts)

## Сравнение выводов нескольких моделей с помощью функции evaluate

In [60]:
class PyfuncTransformer(mlflow.pyfunc.PythonModel):

    def __init__(self, model_name):
        import pandas as pd
        import numpy as np
        import torch
        from transformers import GPT2LMHeadModel, GPT2Tokenizer

        self.model_name = model_name
        super().__init__()

    def load_context(self, context):

        self.tokenizer = GPT2Tokenizer.from_pretrained(self.model_name)
        self.model = GPT2LMHeadModel.from_pretrained(self.model_name).cuda()

    def predict(self, context, model_input):

        if isinstance(model_input, pd.DataFrame):
            model_input = model_input.values.flatten().tolist()
        elif not isinstance(model_input, list):
            model_input = [model_input]

        generated_text = []
        for input_text in model_input:

            input_ids = self.tokenizer.encode(input_text, return_tensors="pt").cuda()

            out = self.model.generate(
                input_ids.cuda(),
                max_length=100,
                repetition_penalty=5.0,
                do_sample=True,
                top_k=5, 
                top_p=0.95, 
                temperature=1,
                num_beams=10, 
                no_repeat_ngram_size=3
              )

            generated_text.append(
                list(map(self.tokenizer.decode, out))[0],
            )

        return generated_text

In [61]:
rugpt3small = PyfuncTransformer(
    "sberbank-ai/rugpt3small_based_on_gpt2",
)
rugpt3medium = PyfuncTransformer(
    "sberbank-ai/rugpt3medium_based_on_gpt2",
)
rugpt3large = PyfuncTransformer(
    "sberbank-ai/rugpt3large_based_on_gpt2",
)

In [67]:
mlflow.set_experiment(experiment_name="compare_models")

run_ids = []
artifact_paths = []
model_names = [
    "rugpt3small", 
    "rugpt3medium", 
    "rugpt3large"
]

for model, name in zip([rugpt3small, rugpt3medium, rugpt3large], model_names):
    with mlflow.start_run(run_name=f"log_model_{name}"):
        pyfunc_model = model
        artifact_path = f"models/{name}"
        mlflow.pyfunc.log_model(
            artifact_path=artifact_path,
            python_model=pyfunc_model,
        )
        run_ids.append(mlflow.active_run().info.run_id)
        artifact_paths.append(artifact_path)

2023/08/10 15:34:14 INFO mlflow.tracking.fluent: Experiment with name 'compare_models' does not exist. Creating a new experiment.


In [68]:
import pandas as pd

eval_df = pd.DataFrame(
    {
        "question": [
            "Москва это столица ",
            "Максим Горький великий русский ",
        ]
    }
)
print(eval_df)

                          question
0              Москва это столица 
1  Максим Горький великий русский 


In [69]:
for i in range(len(run_ids)):
    with mlflow.start_run(
        run_id=run_ids[i]
    ):  # reopen the run with the stored run ID
        evaluation_results = mlflow.evaluate(
            model=f"runs:/{run_ids[i]}/{artifact_paths[i]}",
            model_type="text",
            data=eval_df,
        )

2023/08/10 15:38:29 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Downloading pytorch_model.bin:   0%|          | 0.00/1.73G [00:00<?, ?B/s]

2023/08/10 15:50:31 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Downloading pytorch_model.bin:   0%|          | 0.00/3.14G [00:00<?, ?B/s]

2023/08/10 16:12:19 INFO mlflow.models.evaluation.base: Evaluating the model with the default evaluator.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
