In [39]:
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain_community.llms import LlamaCpp

import torch

# Check if CUDA is available for GPU support
torch.cuda.is_available()

n_gpu_layers = 1  # Change this value based on your model and your GPU VRAM pool.
n_batch = 20  # Should be between 1 and n_ctx, consider the amount of VRAM in your GPU.

# Callbacks support token-wise streaming
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])

# Make sure the model path is correct for your system!
llm = LlamaCpp(
    #model_path="./LeoLM/leo-hessianai-7b-chat-ams-merged-16bit-q8_0.gguf",
    #model_path="./LeoLM/leo-hessianai-7b-chat-ams-merged-16bit-f16.gguf",
    model_path="./convert_models/leo-7b.gguf",
    n_gpu_layers=n_gpu_layers,
    n_batch=n_batch,
    callback_manager=callback_manager,
    verbose=True,  # Verbose is required to pass to the callback manager
)

llama_model_loader: loaded meta data with 23 key-value pairs and 291 tensors from ./convert_models/leo-7b.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = .
llama_model_loader: - kv   2:                       llama.context_length u32              = 8192
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.head_count u32             

In [40]:
template = """
    <|im_start|>system
    {system_message}<|im_end|>
    <|im_start|>user
    {prompt}<|im_end|>
    <|im_start|>assistant
    """

prompt = PromptTemplate(template=template, input_variables=["system_message", "prompt"])

llm_chain = LLMChain(prompt=prompt, llm=llm)
system_message = "Du bist ein Berufsberatungsbot."
prompt = "Ich bin 15 Jahre alt, gut im Umgang mit Menschen und möchte gerne einen Beruf erlernen, in dem ich viel mit Menschen zu tun habe."
llm_chain.invoke(input={"system_message": system_message, "prompt": prompt})

кор wind windows White Wood weight n Machine light free cool StatesNew work sun darkness blood dark work work ease world Light sound easilyhardopenguncross low zweiten zwe twoname<dummy00112>archivix romanånLngstlessstagtwo (<dummy00079>du².enservice‒‒útbol Bill Lot@B#owedMDbMDb<dummy00078>user
 Greatslashgreiringubrenelle仁 oddaki offfoldingteraiseevere: SAME#tree trestundedensembemallerhalzasidthFDォ mult – multi–multi-mul– mulhognesuper super Mult &=\_ big\_bigocumentensoortobjectobjetvery really very—# swe# cy kat##c wol ph P#


llama_print_timings:        load time =    1271.97 ms
llama_print_timings:      sample time =      22.65 ms /   139 runs   (    0.16 ms per token,  6137.95 tokens per second)
llama_print_timings: prompt eval time =    4459.16 ms /    99 tokens (   45.04 ms per token,    22.20 tokens per second)
llama_print_timings:        eval time =   15954.11 ms /   138 runs   (  115.61 ms per token,     8.65 tokens per second)
llama_print_timings:       total time =   20709.81 ms /   237 tokens


{'system_message': 'Du bist ein Berufsberatungsbot.',
 'prompt': 'Ich bin 15 Jahre alt, gut im Umgang mit Menschen und möchte gerne einen Beruf erlernen, in dem ich viel mit Menschen zu tun habe.',
 'text': 'кор wind windows White Wood weight n Machine light free cool StatesNew work sun darkness blood dark work work ease world Light sound easilyhardopenguncross low zweiten zwe twoname<dummy00112>archivix romanånLngstlessstagtwo (<dummy00079>du².enservice‒‒útbol Bill Lot@B#owedMDbMDb<dummy00078>user\n Greatslashgreiringubrenelle仁 oddaki offfoldingteraiseevere:\u2009SAME#tree trestundedensembemallerhalzasidthFDォ mult – multi–multi-mul– mulhognesuper super Mult &=\\_ big\\_bigocumentensoortobjectobjetvery really very—# swe# cy kat##c wol ph P#'}

In [37]:
from llama_cpp import Llama

model = Llama(
    model_path="./LeoLM/leo-hessianai-7b-chat-ams-merged-16bit-f16.gguf",
    chat_format="llama-2",
    n_gpu_layers=n_gpu_layers,
    n_batch=n_batch,
    callback_manager=callback_manager,
    verbose=True,  # Verbose is required to pass to the callback manager
)


# output = llm("<|im_start|>system\nDu bist hilfst bei der Berufsberatung. Du versuchst zu verstehen, was der Nutzer möchte und gibst eine Empfehlung ab. Gehe auf Tätigkeitsmerkmale, Anforderungen, Ausbildung, Beschäftigungsmöglichkeiten, Gehalt und Berufsausichten ein.<|im_end|>\n<|im_start|>user\nIch bin 15 Jahre alt, gut im Umgang mit Menschen und möchte gerne einen Beruf erlernen, in dem ich viel mit Menschen zu tun habe.<|im_end|>\n", max_tokens=8000, stop=["\n"], echo=True)
# print(output)

llama_model_loader: loaded meta data with 23 key-value pairs and 291 tensors from ./LeoLM/leo-hessianai-7b-chat-ams-merged-16bit-f16.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = .
llama_model_loader: - kv   2:                       llama.context_length u32              = 8192
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 11008
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:                 llama.attention.

In [36]:
print(model.create_chat_completion(
    messages=[{
        "role": "user",
        "content": "what is the meaning of life?"
    }]
))

{'id': 'chatcmpl-50619ce5-1214-4537-89ac-97b71c6dcd3c', 'object': 'chat.completion', 'created': 1705687269, 'model': './LeoLM/leo-hessianai-7b-chat-ams-merged-16bit-f16.gguf', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '\n<dummy00007> \n<dummy00006> assistant\nEs gibt keine allgemeingültige Antwort auf diese Frage, da sie sich nicht eindeutig beantworten lässt. Die Bedeutung des Lebens ist eine höchst persönliche und individuelle Angelegenheit. Jeder Mensch hat seine eigene Sichtweise darauf, was das Leben für ihn oder sie lebenswert macht.\n\nDie Frage nach der Bedeutung des Lebens kann auch aus einer anderen Perspektive betrachtet werden: Als Teil der Natur bzw. biologischen Evolution und als Bestandteil des Kosmos. In diesem Zusammenhang wird die Existenz aller Lebewesen erklärt, dass sie eine evolutionär gewachsene Funktion erfüllen; so dienen Tiere z.B. dem Menschen als Nahrungsquelle oder als Transportmittel.\n\nZudem kann auch ein religiöser Blick auf d


llama_print_timings:        load time =    1345.08 ms
llama_print_timings:      sample time =      37.15 ms /   232 runs   (    0.16 ms per token,  6244.45 tokens per second)
llama_print_timings: prompt eval time =    1345.00 ms /    18 tokens (   74.72 ms per token,    13.38 tokens per second)
llama_print_timings:        eval time =   44885.84 ms /   231 runs   (  194.31 ms per token,     5.15 tokens per second)
llama_print_timings:       total time =   46565.84 ms /   249 tokens


In [38]:
model.create_chat_completion(
    messages=[{
        "role": "user",
        "content": "what is the meaning of life?"
    }]
)


llama_print_timings:        load time =    1501.13 ms
llama_print_timings:      sample time =      55.35 ms /   494 runs   (    0.11 ms per token,  8924.54 tokens per second)
llama_print_timings: prompt eval time =    1501.08 ms /    18 tokens (   83.39 ms per token,    11.99 tokens per second)
llama_print_timings:        eval time =  105539.45 ms /   493 runs   (  214.08 ms per token,     4.67 tokens per second)
llama_print_timings:       total time =  107779.37 ms /   511 tokens


{'id': 'chatcmpl-2bca07fc-09c9-4090-b6e3-a4775bdf25a4',
 'object': 'chat.completion',
 'created': 1705687404,
 'model': './LeoLM/leo-hessianai-7b-chat-ams-merged-16bit-f16.gguf',
 'choices': [{'index': 0,
   'message': {'role': 'assistant',
    'content': '#\n<dummy00007> \n<dummy00006> assistant\nDie Frage nach der Bedeutung des Lebens ist eine philosophische Grundfrage, die sich nicht eindeutig beantworten lässt. Philosophen und Theologen haben im Laufe der Geschichte verschiedene Interpretationen gegeben. Die Antwort auf diese Frage hängt auch von den Überzeugungen ab, die man über################################################################################################################################################################################################################################################################################################################################################################################################ (<dummy00007> ist MS. [,