In [1]:
from llama_cpp import Llama
from llama_cpp.llama import LlamaGrammar

llm = Llama(model_path="../models/mistral-7b-instruct-v0.2.Q4_K_M.gguf")

grammar = LlamaGrammar.from_string(
    """
    root ::= Antwort
    Antwort ::= "Ja" | "Nein" | "Unklar"
    """
)


def generate_prompt(report: str) -> str:
    return f"""
    Du bist ein radiologischer Facharzt. Ich gebe dir einen radiologischen Befund.
    Bitte beantworte eine Frage zu diesem Befund. Wenn zur der Frage nichts im Befund steht,
    dann antworte mit "Unklar". Ansonsten mit "Ja" oder "Nein".
    Befund: {report}
    Frage: LAE ist ein Synonym für Lungenarterienembolie. Hat der Patient eine Lungenarterienembolie?
    Antwort:
    """


def execute_llm(prompt: str):
    return llm(
        prompt,
        # max_tokens=32,  # Generate up to 32 tokens, set to None to generate up to the end of the context window
        # stop=["Frage:", "\n"],  # Stop generating just before the model would generate a new question
        echo=False,  # Echo the prompt back in the output
        grammar=grammar,  # Use the defined grammar
    )

llama_model_loader: loaded meta data with 24 key-value pairs and 291 tensors from ../models/mistral-7b-instruct-v0.2.Q4_K_M.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.name str              = mistralai_mistral-7b-instruct-v0.2
llama_model_loader: - kv   2:                       llama.context_length u32              = 32768
llama_model_loader: - kv   3:                     llama.embedding_length u32              = 4096
llama_model_loader: - kv   4:                          llama.block_count u32              = 32
llama_model_loader: - kv   5:                  llama.feed_forward_length u32              = 14336
llama_model_loader: - kv   6:                 llama.rope.dimension_count u32              = 128
llama_model_loader: - kv   7:        

In [2]:
prompt = generate_prompt(
    """
    Keine VA zum Vergleich vorhanden.

    Keine intrapulmonalen Lungenrundherde. Keine pneumonischen Infiltrate. Geringer Pleuraerguss rechts
    mit Saumbreite bis 5 mm. Kein Erguss links. Kein Pneumothorax.
    Kleine, periphere LAE im rechten Unterlappen (TP -1288). Restliche Lungenarterien
    regelrecht kontrastiert. Keine pathologisch vergrößerter Lymphknoten. Dezenter basaler
    Perikarderguss.
    Kleine Leberzyste im Segment 8. Restlichen OBB Organe unauffällig.
    Moderate degenerative Veränderungen der Wirbelsäule. Keine suspekten Knochenläsionen.

    Beurteilung:
    Kleine periphere LAE im rechten UL.
    Geringer Pleuraerguss rechts.
    """
)

execute_llm(prompt)


llama_print_timings:        load time =   38694.09 ms
llama_print_timings:      sample time =      18.27 ms /     3 runs   (    6.09 ms per token,   164.19 tokens per second)
llama_print_timings: prompt eval time =   38693.07 ms /   372 tokens (  104.01 ms per token,     9.61 tokens per second)
llama_print_timings:        eval time =     344.43 ms /     2 runs   (  172.21 ms per token,     5.81 tokens per second)
llama_print_timings:       total time =   39070.84 ms /   374 tokens


{'id': 'cmpl-06cc2c01-6243-4cce-8f4f-6b191daaef4d',
 'object': 'text_completion',
 'created': 1709575050,
 'model': '../models/mistral-7b-instruct-v0.2.Q4_K_M.gguf',
 'choices': [{'text': 'Ja',
   'index': 0,
   'logprobs': None,
   'finish_reason': 'stop'}],
 'usage': {'prompt_tokens': 372, 'completion_tokens': 2, 'total_tokens': 374}}

In [3]:
prompt = generate_prompt(
    """
    Keine VA zum Vergleich vorhanden.

    Keine intrapulmonalen Lungenrundherde. Keine pneumonischen Infiltrate. Geringer Pleuraerguss rechts
    mit Saumbreite bis 5 mm. Kein Erguss links. Kein Pneumothorax.
    Kein Nachweis einer LAE. Keine pathologisch vergrößerter Lymphknoten. Dezenter
    basaler Perikarderguss.
    Kleine Leberzyste im Segment 8. Restlichen OBB Organe unauffällig.
    Moderate degenerative Veränderungen der Wirbelsäule. Keine suspekten Knochenläsionen.

    Beurteilung:
    Geringer Pleuraerguss rechts.
    """
)

execute_llm(prompt)

Llama.generate: prefix-match hit

llama_print_timings:        load time =   38694.09 ms
llama_print_timings:      sample time =      15.87 ms /     3 runs   (    5.29 ms per token,   189.02 tokens per second)
llama_print_timings: prompt eval time =   17502.58 ms /   159 tokens (  110.08 ms per token,     9.08 tokens per second)
llama_print_timings:        eval time =     318.43 ms /     2 runs   (  159.22 ms per token,     6.28 tokens per second)
llama_print_timings:       total time =   17849.35 ms /   161 tokens


{'id': 'cmpl-e1f6db34-2bc6-431e-93e6-918989dfd586',
 'object': 'text_completion',
 'created': 1709575089,
 'model': '../models/mistral-7b-instruct-v0.2.Q4_K_M.gguf',
 'choices': [{'text': 'Nein',
   'index': 0,
   'logprobs': None,
   'finish_reason': 'stop'}],
 'usage': {'prompt_tokens': 328, 'completion_tokens': 2, 'total_tokens': 330}}

In [26]:
prompt = generate_prompt(
    """
    Keine Voraufnahmen zum Vergleich.

    Aufgeweitete Dick- und Dünndarmschlingen mit Spiegelbildungen, insgesamt einem Ileusbild
    entsprechend. Kein Nachweis von freier Luft. Leichte Ergüsse im miterfassten basalen
    Thorax.
    """
)

execute_llm(prompt)

Llama.generate: prefix-match hit

llama_print_timings:        load time =   38694.09 ms
llama_print_timings:      sample time =      23.90 ms /     4 runs   (    5.98 ms per token,   167.36 tokens per second)
llama_print_timings: prompt eval time =       0.00 ms /     1 tokens (    0.00 ms per token,      inf tokens per second)
llama_print_timings:        eval time =     728.88 ms /     4 runs   (  182.22 ms per token,     5.49 tokens per second)
llama_print_timings:       total time =     773.23 ms /     5 tokens


{'id': 'cmpl-70b7a9ca-28cc-44f3-83fd-38f7265ae5ff',
 'object': 'text_completion',
 'created': 1709575151,
 'model': '../models/mistral-7b-instruct-v0.2.Q4_K_M.gguf',
 'choices': [{'text': 'Unklar',
   'index': 0,
   'logprobs': None,
   'finish_reason': 'stop'}],
 'usage': {'prompt_tokens': 216, 'completion_tokens': 3, 'total_tokens': 219}}