Using the last cell of this notebook, you can ask questions about the PDFs to our LLM model, which is improved step by step throughout the notebook.  Optionally, you can also inquire about the page from which our LLM model retrieved the information to provide the answers.

In [35]:
import random
import torch
import numpy as np
import pandas as pd
from time import perf_counter as timer
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

device = "cuda"


In [36]:
# Get GPU available memory
gpu_memory_bytes = torch.cuda.get_device_properties(0).total_memory
gpu_memory_gb = round(gpu_memory_bytes / (2**30))
print(f"Available GPU memory: {gpu_memory_gb} GB")

Available GPU memory: 22 GB


In [37]:
from google.colab import files
uploaded = files.upload()


Saving chunks_and_embeddings_for_WeitBlick.csv to chunks_and_embeddings_for_WeitBlick.csv


## Retrieval

In [38]:
print(device)

# Import texts and embedding df
chunks_and_embeddings_df = pd.read_csv("chunks_and_embeddings.csv")

# Convert embedding column back to np.array (it got converted to string when it got saved to CSV)
chunks_and_embeddings_df["embedding"] = chunks_and_embeddings_df["embedding"].apply(lambda x: np.fromstring(x.strip("[]"), sep=" "))

# Convert texts and embedding df to list of dicts
chunks_and_embeddings = chunks_and_embeddings_df.to_dict(orient="records")

# Convert embeddings to torch tensor and send to device (note: NumPy arrays are float64, torch tensors are float32 by default)
embeddings = torch.tensor(np.array(chunks_and_embeddings_df["embedding"].tolist()), dtype=torch.float16).to(device)
print(embeddings.shape)

cuda
torch.Size([120, 768])


In [39]:
!pip install sentence_transformers



In [40]:
from sentence_transformers import util, SentenceTransformer

embedding_model = SentenceTransformer(model_name_or_path="all-mpnet-base-v2",
                                      device=device)



Embedding model is ready. Let's perform a semantic search. We can do so with the following steps:

- Define a query string. Turn the query string in an embedding with same model we used to embed our text chunks.

- Perform a dot product or cosine similarity function between the text embeddings and the query embedding to get similarity scores.

- Sort the results from step 3 in descending order (a higher score means more similarity in the eyes of the model) and use these values to inspect the texts.

In [41]:
# 1. Define the query
query = "was müssen sie bei teilzahlungen beachten?"
print(f"Query: {query}")

# 2. Embed the query to the same numerical space as the text examples
# Note: It's important to embed the query with the same model you embedded your examples with.
query_embedding = embedding_model.encode(query, convert_to_tensor=True).to(torch.float16)

Query: was müssen sie bei teilzahlungen beachten?


In [42]:
# 3. Get similarity scores with the dot product.

start_time = timer()
dot_scores = util.dot_score(a=query_embedding, b=embeddings)[0]
end_time = timer()
## can use dot score rather than cosine similarity, because our embeddings are normalized already

print(f"Time take to get scores on {len(embeddings)} embeddings: {end_time-start_time:.5f} seconds.")

# 4. Get the top-k results (we'll keep this to 5)
top_results_dot_product = torch.topk(dot_scores, k=5)
top_results_dot_product

Time take to get scores on 120 embeddings: 0.00083 seconds.


torch.return_types.topk(
values=tensor([0.5757, 0.5132, 0.4565, 0.4204, 0.3979], device='cuda:0',
       dtype=torch.float16),
indices=tensor([21, 59, 10, 35, 60], device='cuda:0'))

Let's check the results of our
similarity search. torch.topk returns a tuple of values (scores) and indicies for those scores. The indicies relate to which indicies in the embeddings tensor have what scores in relation to the query embedding (higher is better). We can use those indicies to map back to our text chunks. Let's first define helper function to print wrapped text.

In [43]:
# Define helper function to print wrapped text
import textwrap

def print_wrapped(text, wrap_length=80):
    wrapped_text = textwrap.fill(text, wrap_length)
    print(wrapped_text)

In [44]:
print(f"Query: '{query}'\n")
print("Results:")
# Loop through zipped together scores and indicies from torch.topk
for score, idx in zip(top_results_dot_product[0], top_results_dot_product[1]):
    print(f"Score: {score:.4f}")
    # Print relevant chunk (since the scores are in descending order, the most relevant chunk will be first)
    print("Text:")
    print_wrapped(chunks_and_embeddings[idx]["chunk"])
    # Print the page number too so we can reference the textbook further (and check the results)
    print(f"Page number: {chunks_and_embeddings[idx]['page_number']}")
    print("\n")

Query: 'was müssen sie bei teilzahlungen beachten?'

Results:
Score: 0.5757
Text:
10 6.3 Wie und wann leisten wir die Auszahlung? 10 6.4 Wer erhält die
Auszahlung?10 7 Zuzahlung; Teilauszahlung und Auszahlungsplan; Verlegung des
Ablaufdatums; Kündigung 10 7.1 Was müssen Sie beachten, wenn Sie Zuzahlungen
leisten möchten? 10 7.2 Was müssen Sie bei Teilauszahlungen beachten?11 7.3 Was
ist der Auszahlungsplan? 11 7.4 Können Sie das Ablaufdatum verschieben und was
hat das für Folgen? 12 7.5 Was müssen Sie beachten, wenn Sie Ihren Vertrag
kündigen? 12 8 Kosten 13 8.1 Welche Kosten fallen für Ihren Vertrag an?
Page number: 11


Score: 0.5132
Text:
Wenn Sie sich dazu nicht äußern, verteilen wir Ihre Zuzahlung entsprechend dem
Verhältnis, welches Sie bei Vertragsabschluss für Ihren Einmalbeitrag gewählt
haben.g) Für jede Zuzahlung kann Startmanagement gewählt werden (5.9).h) Der →
maßgebliche Stichtag für die Berechnung der → Anteilseinheiten, die sich aus
Ihrer Zuzahlung ergeben, ist der gewü

Let's functionize the semantic search pipeline:

In [45]:
def retrieve_relevant_resources(query: str,
                                embeddings: torch.tensor,
                                model: SentenceTransformer=embedding_model,
                                n_resources_to_return: int=5,
                                print_time: bool=True):
    """
    Embeds a query with model and returns top k scores and indices from embeddings.
    """

    # Embed the query
    query_embedding = model.encode(query,
                                   convert_to_tensor=True).to(torch.float16)

    # Get dot product scores on embeddings
    start_time = timer()
    dot_scores = util.dot_score(query_embedding, embeddings)[0]
    end_time = timer()

    if print_time:
        print(f"[INFO] Time taken to get scores on {len(embeddings)} embeddings: {end_time-start_time:.5f} seconds.")

    scores, indices = torch.topk(input=dot_scores,
                                 k=n_resources_to_return)

    return scores, indices

In [46]:
def print_top_results_and_scores(query: str,
                                 embeddings: torch.tensor,
                                 chunks_and_embeddings: list[dict]= chunks_and_embeddings,
                                 n_resources_to_return: int=5):
    """
    Takes a query, retrieves most relevant resources and prints them out in descending order.

    Note: Requires chunks_and_embeddings to be formatted in a specific way.
    """

    scores, indices = retrieve_relevant_resources(query=query,
                                                  embeddings=embeddings,
                                                  n_resources_to_return=n_resources_to_return)

    print(f"Query: {query}\n")
    print("Results:")
    # Loop through zipped together scores and indicies
    for score, index in zip(scores, indices):
        print(f"Score: {score:.4f}")
        # Print relevant chunk (since the scores are in descending order, the most relevant chunk will be first)
        print_wrapped(chunks_and_embeddings[index]["chunk"])
        # Print the page number too so we can reference the pdf further and check the results.
        print(f"Page number: {chunks_and_embeddings[index]['page_number']}")
        print("\n")

Now test our functions:

In [47]:
query = "was müssen sie bei teilzahlungen beachten"

In [48]:
# Get just the scores and indices of top related results
scores, indices = retrieve_relevant_resources(query=query,
                                              embeddings=embeddings)
scores, indices

[INFO] Time taken to get scores on 120 embeddings: 0.00007 seconds.


(tensor([0.5581, 0.4788, 0.4587, 0.4153, 0.4048], device='cuda:0',
        dtype=torch.float16),
 tensor([21, 59, 10, 35, 60], device='cuda:0'))

In [49]:
# Print out the texts of the top scores
print_top_results_and_scores(query=query,
                             embeddings=embeddings)

[INFO] Time taken to get scores on 120 embeddings: 0.00012 seconds.
Query: was müssen sie bei teilzahlungen beachten

Results:
Score: 0.5581
10 6.3 Wie und wann leisten wir die Auszahlung? 10 6.4 Wer erhält die
Auszahlung?10 7 Zuzahlung; Teilauszahlung und Auszahlungsplan; Verlegung des
Ablaufdatums; Kündigung 10 7.1 Was müssen Sie beachten, wenn Sie Zuzahlungen
leisten möchten? 10 7.2 Was müssen Sie bei Teilauszahlungen beachten?11 7.3 Was
ist der Auszahlungsplan? 11 7.4 Können Sie das Ablaufdatum verschieben und was
hat das für Folgen? 12 7.5 Was müssen Sie beachten, wenn Sie Ihren Vertrag
kündigen? 12 8 Kosten 13 8.1 Welche Kosten fallen für Ihren Vertrag an?
Page number: 11


Score: 0.4788
Wenn Sie sich dazu nicht äußern, verteilen wir Ihre Zuzahlung entsprechend dem
Verhältnis, welches Sie bei Vertragsabschluss für Ihren Einmalbeitrag gewählt
haben.g) Für jede Zuzahlung kann Startmanagement gewählt werden (5.9).h) Der →
maßgebliche Stichtag für die Berechnung der → Anteilseinheite

## Getting an LLM for local generation

To generate text, we will use a Large Language Model (LLM), which is designed to produce an output when given an input. In our case, we need the LLM to create text based on a text input, ensuring that the output is relevant to the context of the query. The input to an LLM is commonly called a prompt, and we will enhance our prompt by including a query and relevant context from our textbook related to that query.

Generally, in deep learning models, the higher the number of parameters, the better the model performs (except from overfitting cases). It is tempting to go for the largest size model  but I have 16 GM GPU available, so I have chosen the model "gemma-2b-it" which is part of Google's Gemma family of large language models, and used half-precision floating-point format.

In [50]:
attn_implementation = "sdpa"
use_quantization_config = False

In [51]:
# Pick a model
model_id = "google/gemma-2b-it"
print(f"[INFO] Using model_id: {model_id}")

[INFO] Using model_id: google/gemma-2b-it


In [52]:
from huggingface_hub import login
login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

can use the token = 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


In [53]:
# Instantiate tokenizer (tokenizer turns text into numbers ready for the model).
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path=model_id)

In [54]:
# Instantiate the model
llm_model = AutoModelForCausalLM.from_pretrained(pretrained_model_name_or_path=model_id,
                                                 torch_dtype=torch.float16, # datatype to use, we want float16
                                                 quantization_config= None,
                                                 attn_implementation=attn_implementation) # which attention version to use

llm_model.to("cuda")



Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

GemmaForCausalLM(
  (model): GemmaModel(
    (embed_tokens): Embedding(256000, 2048, padding_idx=0)
    (layers): ModuleList(
      (0-17): 18 x GemmaDecoderLayer(
        (self_attn): GemmaSdpaAttention(
          (q_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (k_proj): Linear(in_features=2048, out_features=256, bias=False)
          (v_proj): Linear(in_features=2048, out_features=256, bias=False)
          (o_proj): Linear(in_features=2048, out_features=2048, bias=False)
          (rotary_emb): GemmaRotaryEmbedding()
        )
        (mlp): GemmaMLP(
          (gate_proj): Linear(in_features=2048, out_features=16384, bias=False)
          (up_proj): Linear(in_features=2048, out_features=16384, bias=False)
          (down_proj): Linear(in_features=16384, out_features=2048, bias=False)
          (act_fn): PytorchGELUTanh()
        )
        (input_layernorm): GemmaRMSNorm()
        (post_attention_layernorm): GemmaRMSNorm()
      )
    )
    (norm): GemmaR

Le's find out the number of parameters of our model.

In [55]:
def get_model_num_params(model: torch.nn.Module):
    return sum([param.numel() for param in model.parameters()])

get_model_num_params(llm_model)

2506172416

The number of parameters of our model is approximately 2.5 billion. It would be 3 times bigger if we chose to use "google/gemma-7b-it" with a higher GPU memory available.

In [56]:
def get_model_mem_size(model: torch.nn.Module):
    """
    Get how much memory a PyTorch model takes up.

    """
    # Get model parameters and buffer sizes
    mem_params = sum([param.nelement() * param.element_size() for param in model.parameters()])
    mem_buffers = sum([buf.nelement() * buf.element_size() for buf in model.buffers()])

    # Calculate various model sizes
    model_mem_bytes = mem_params + mem_buffers # in bytes
    model_mem_mb = model_mem_bytes / (1024**2) # in megabytes
    model_mem_gb = model_mem_bytes / (1024**3) # in gigabytes

    return {"model_mem_bytes": model_mem_bytes,
            "model_mem_mb": round(model_mem_mb, 2),
            "model_mem_gb": round(model_mem_gb, 2)}

get_model_mem_size(llm_model)

{'model_mem_bytes': 5012354048, 'model_mem_mb': 4780.15, 'model_mem_gb': 4.67}

In [57]:
# Create prompt template for instruction-tuned model
dialogue_template = [
    {"role": "user",
     "content": input_text}
]

# Apply the chat template
prompt = tokenizer.apply_chat_template(conversation=dialogue_template,
                                       tokenize=False, # keep as raw text (not tokenized)
                                       add_generation_prompt=True)
print(f"\nPrompt (formatted):\n{prompt}")


Prompt (formatted):
<bos><start_of_turn>user
was müssen sie bei teilzahlungen beachten<end_of_turn>
<start_of_turn>model



In [58]:
%%time

# Tokenize the input text (turn it into numbers) and send it to GPU
input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")
print(f"Model input (tokenized):\n{input_ids}\n")

# Generate outputs passed on the tokenized input
outputs = llm_model.generate(**input_ids,
                             max_new_tokens=256) # define the maximum number of new tokens to create
print(f"Model output (tokens):\n{outputs[0]}\n")

Model input (tokenized):
{'input_ids': tensor([[    2,     2,   106,  1645,   108,  6570, 25374,  4021,  4719, 43659,
         26084,  4360, 91095,   107,   108,   106,  2516,   108]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],
       device='cuda:0')}

Model output (tokens):
tensor([     2,      2,    106,   1645,    108,   6570,  25374,   4021,   4719,
         43659,  26084,   4360,  91095,    107,    108,    106,   2516,    108,
           688, 154359,   6842,  24343,    688,    109, 235287,   5231,   1232,
         66058,   8654,   5649,    848,  20969,  10945,  11863, 235265,    108,
        235287,   5231,  16779,  33305,  66058,   3804,  96802,    848,  20969,
         10945,  11863, 235265,    108, 235287,   5231,  50347,  44238,  66058,
          5991,  58414,  44238,    848,  20969,  10945,  11863, 235265,    108,
        235287,   5231, 235291, 235290,  13617, 235290,  55531,  66058,   3804,
           637, 23

In [59]:
input_text = "war müssen sie bei teilzahlungen beachten"

In [60]:
# Decode the output tokens to text
outputs_decoded = tokenizer.decode(outputs[0])
print(f"Model output (decoded):\n{outputs_decoded}\n")

## the output of this cell is quite general because the augmentation step is not performed yet

Model output (decoded):
<bos><bos><start_of_turn>user
was müssen sie bei teilzahlungen beachten<end_of_turn>
<start_of_turn>model
**Persönliche Daten**

* **Name:** Das Name des Teilnehmers.
* **Anschrift:** Die Adresse des Teilnehmers.
* **Telefonnummer:** Der Telefonnummer des Teilnehmers.
* **E-Mail-Adresse:** Die E-Mail-Adresse des Teilnehmers.

**Zahlungsdaten**

* **Kontonummer:** Der Kontonummer, der für die Zahlung verwendet wird.
* **Transaktionsnummer:** Die Transaktionsnummer, die vom Zahlungsdienst für die Transaktion generiert wurde.
* **Betrag:** Der Gesamtbetrag der Teilzahlung.
* **Datum der Zahlung:** Das Datum der Zahlung.
* **Zahlungsart:** Die Art der Zahlungsleistung (z. B., Überweisung, Kreditkarte).

**Zahlungsdetails**

* **Transaktionsnummer:** Die Transaktionsnummer, die vom Zahlungsdienst für die Transaktion generiert wurde.
* **Betrag:** Der Gesamtbetrag der Teilzahlung.
* **Datum der Zahlung:** Das Datum der Zahlung.
* **Zahlungsart:** Die Art der Zahlungsl

In [61]:
print(f"Input text: {input_text}\n")
print(f"Output text:\n{outputs_decoded.replace(prompt, '').replace('<bos>', '').replace('<eos>', '')}")

## the output of this cell is quite general because the augmentation step is not performed yet

Input text: war müssen sie bei teilzahlungen beachten

Output text:
**Persönliche Daten**

* **Name:** Das Name des Teilnehmers.
* **Anschrift:** Die Adresse des Teilnehmers.
* **Telefonnummer:** Der Telefonnummer des Teilnehmers.
* **E-Mail-Adresse:** Die E-Mail-Adresse des Teilnehmers.

**Zahlungsdaten**

* **Kontonummer:** Der Kontonummer, der für die Zahlung verwendet wird.
* **Transaktionsnummer:** Die Transaktionsnummer, die vom Zahlungsdienst für die Transaktion generiert wurde.
* **Betrag:** Der Gesamtbetrag der Teilzahlung.
* **Datum der Zahlung:** Das Datum der Zahlung.
* **Zahlungsart:** Die Art der Zahlungsleistung (z. B., Überweisung, Kreditkarte).

**Zahlungsdetails**

* **Transaktionsnummer:** Die Transaktionsnummer, die vom Zahlungsdienst für die Transaktion generiert wurde.
* **Betrag:** Der Gesamtbetrag der Teilzahlung.
* **Datum der Zahlung:** Das Datum der Zahlung.
* **Zahlungsart:** Die Art der Zahlungsleistung (z. B., Überweisung, Kreditkarte).

**Zusätzliche Info

In [62]:
scores, indices = retrieve_relevant_resources(query=query,
                                              embeddings=embeddings)
scores, indices

[INFO] Time taken to get scores on 120 embeddings: 0.00009 seconds.


(tensor([0.5581, 0.4788, 0.4587, 0.4153, 0.4048], device='cuda:0',
        dtype=torch.float16),
 tensor([21, 59, 10, 35, 60], device='cuda:0'))

## Augmenting our prompt
We'll utilize the results from our search for relevant resources to enhance the prompt that we pass to our LLM. Essentially, we start with a base prompt and augment it with contextual text.
To achieve this, we will write a function called prompt_formatter that takes a query and a list of context items (selected indices from our list of dictionaries inside chunks_and_embeddings) and then formats the query with text from these context items.

In [63]:
def prompt_formatter(query: str,
                     context_items: list[dict]) -> str:
    """
    Augments query with text-based context from context_items.
    """
    # Join context items into one dotted paragraph
    context = "- " + "\n- ".join([item["chunk"] for item in context_items])

    # Create a base prompt with examples to help the model. (Because "google/gemma-2b-it" has been tranied in an instruction tuned manner, we should follow the instruction template for the best results.)
    base_prompt = """Ich werde kontextuelle Elemente geben. Diese Elemente enthalten normalerweise Frage-Antwort-Paare. Beantworten Sie die Hauptfrage, die ich Ihnen stelle, unter Verwendung dieser Antworten. Geben Sie keine Gegenfrage als Antwort auf die Frage. Ich möchte nur die Antwort.:
    \nBenutzen Sie nun die folgenden Kontextelemente, um die Benutzeranfrage zu beantworten. Gib nur eine Antwort:
    {Kontext}
    \nRelevante Passagen: <Extrahieren Sie hier relevante Passagen aus dem Kontext>
    Benutzerabfrage: {Abfrage}
    Antwort:"""

    # Update base prompt with context items and query
    base_prompt = base_prompt.format(Kontext=context, Abfrage=query)

    # Create prompt template for instruction-tuned model
    dialogue_template = [
        {"role": "user",
        "content": base_prompt}
    ]

    # Apply the chat template
    prompt = tokenizer.apply_chat_template(conversation=dialogue_template,
                                          tokenize=False,
                                          add_generation_prompt=True)
    return prompt

In [64]:
print(f"Query: {query}")

# Get relevant resources
scores, indices = retrieve_relevant_resources(query=query,
                                              embeddings=embeddings)

# Create a list of context items
context_items = [chunks_and_embeddings[i] for i in indices]

# Format prompt with context items
prompt = prompt_formatter(query=query,
                          context_items=context_items)
print(prompt)

Query: was müssen sie bei teilzahlungen beachten
[INFO] Time taken to get scores on 120 embeddings: 0.00007 seconds.
<bos><start_of_turn>user
Ich werde kontextuelle Elemente geben. Diese Elemente enthalten normalerweise Frage-Antwort-Paare. Beantworten Sie die Hauptfrage, die ich Ihnen stelle, unter Verwendung dieser Antworten. Geben Sie keine Gegenfrage als Antwort auf die Frage. Ich möchte nur die Antwort.:
    
Benutzen Sie nun die folgenden Kontextelemente, um die Benutzeranfrage zu beantworten. Gib nur eine Antwort:
    - 10 6.3 Wie und wann leisten wir die Auszahlung? 10 6.4 Wer erhält die Auszahlung?10 7 Zuzahlung; Teilauszahlung und Auszahlungsplan; Verlegung des Ablaufdatums; Kündigung 10 7.1 Was müssen Sie beachten, wenn Sie Zuzahlungen leisten möchten? 10 7.2 Was müssen Sie bei Teilauszahlungen beachten?11 7.3 Was ist der Auszahlungsplan? 11 7.4 Können Sie das Ablaufdatum verschieben und was hat das für Folgen? 12 7.5 Was müssen Sie beachten, wenn Sie Ihren Vertrag kündigen?

In [65]:
%%time

input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")

# Generate an output of tokens
outputs = llm_model.generate(**input_ids,
                             temperature=0.7, # lower temperature = more deterministic outputs, higher temperature = more creative outputs
                             do_sample=True,
                             max_new_tokens=256) # how many new tokens to generate from prompt

# Turn the output tokens into text
output_text = tokenizer.decode(outputs[0])

print(f"Query: {query}")
print(f"RAG answer:\n{output_text.replace(prompt, '')}")

Query: was müssen sie bei teilzahlungen beachten
RAG answer:
<bos>1. Bei teilzahlungen müssen sie in Textform ihre Zuzahlung in die Finanzamt stellen.
2. Bei Teilauszahlungen sind sie unter folgenden Voraussetzungen möglich:
   a) Sie müssen sie in → Textform bei dem Finanzamt beantragen.
   b) Eine Teilauszahlung ist frühestens einen Monat nach Vertragsabschluss und spätestens einen Monat vor Vertragsablauf möglich.
   c) Es ist nur eine Teilauszahlung monatlich möglich, jedoch nicht mehr als zwei im Jahr.<eos>
CPU times: user 3.64 s, sys: 0 ns, total: 3.64 s
Wall time: 3.63 s


In [66]:
def ask(query,
        temperature=0.7,
        max_new_tokens=512,
        format_answer_text=True,
        return_answer_only=True):
    """
    Takes a query, finds relevant resources/context and generates an answer to the query based on the relevant resources.
    """

    # Get just the scores and indices of top related results
    scores, indices = retrieve_relevant_resources(query=query,
                                                  embeddings=embeddings)

    # Create a list of context items
    context_items = [chunks_and_embeddings[i] for i in indices]

    # Add score to context item
    for i, item in enumerate(context_items):
        item["score"] = scores[i].cpu() # return score back to CPU

    # Format the prompt with context items
    prompt = prompt_formatter(query,
                              context_items=context_items)

    # Tokenize the prompt
    input_ids = tokenizer(prompt, return_tensors="pt").to("cuda")

    # Generate an output of tokens
    outputs = llm_model.generate(**input_ids,
                                 temperature=temperature,
                                 do_sample=True,
                                 max_new_tokens=max_new_tokens)

    # Turn the output tokens into text
    output_text = tokenizer.decode(outputs[0])

    if format_answer_text:
        # Replace special tokens and unnecessary help message
        output_text = output_text.replace(prompt, "").replace("<bos>", "").replace("<eos>", "").replace("Sure, here is the answer to the user query:\n\n", "")

    # Only return the answer without the context items
    if return_answer_only:
        return output_text

    return output_text, context_items

Adjust the query as you wish and run the cell below to get the final answer generated by our model. The context items and the related information can also be printed if needed by the command "print(context_items)"

In [67]:


answer, context_items = ask(query,
                            temperature=0.7,
                            max_new_tokens=512,
                            return_answer_only=False)


print(f"Query:\n")
print_wrapped(query)
print(f"Answer:\n")
print_wrapped(answer)


[INFO] Time taken to get scores on 120 embeddings: 0.00007 seconds.
Query:

was müssen sie bei teilzahlungen beachten
Answer:

1. Bei teilzahlungen müssen sie in Textform Ihre Zuzahlung in die Versicherung
beantragen. 2. Bei Teilauszahlungen sind sie unter folgenden Voraussetzungen
möglich: a) Sie müssen sie in → Textform bei uns beantragen. b) Eine
Teilauszahlung ist frühestens einen Monat nach Vertragsabschluss und spätestens
einen Monat vor Vertragsablauf möglich. c) Es ist nur eine Teilauszahlung
monatlich möglich, jedoch nicht mehr als zwei im Jahr.
