# inference

langchain을 통한 inference

https://python.langchain.com/docs/integrations/llms/llamacpp

## Langchain - bllossom

In [None]:
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain_community.llms import LlamaCpp

In [None]:
n_gpu_layers = -1  # The number of layers to put on the GPU. The rest will be on the CPU. If you don't know how many layers there are, you can use -1 to move all to GPU.
n_batch = 512  # Should be between 1 and n_ctx, consider the amount of VRAM in your GPU.

# Callbacks support token-wise streaming
callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])

In [None]:
# Make sure the model path is correct for your system!
bllossom = LlamaCpp(
    model_path="bllossom/llama-3-Korean-Bllossom-8B-Q5_K_M.gguf",
    n_gpu_layers=n_gpu_layers,
    n_batch=n_batch,
    callback_manager=callback_manager,
    temperature=0.6,
    top_p=1,
    max_tokens=2048,
    verbose=True,  # Verbose is required to pass to the callback manager
)

In [None]:
# Make sure the model path is correct for your system!
mistral = LlamaCpp(
    model_path="./mistral/ggml-model-q5_k_m.gguf",
    n_gpu_layers=n_gpu_layers,
    n_batch=n_batch,
    callback_manager=callback_manager,
    temperature=0.6,
    top_p=1,
    max_tokens=128,
    stop=["Person1:", "Person2:"],
    verbose=True,  # Verbose is required to pass to the callback manager
)

## Prompt Experiment

### Experiment - 1

In [None]:
template = "주어진 Persona를 가진 사람으로 1개의 문장으로 된 답변을 생성해주세요.\nPersona:{context_list}\ndialog:{src_list}\nPerson2:"
prompt = PromptTemplate.from_template(template)
prompt

In [None]:
src_list = '\nPerson1:안녕하십니까! 저는 20대 여자입니다~\nPerson2:네~즐거운 대화해요~!! 저는 40대 여자입니다~\nPerson1:무슨일 하시나요? 저는 중학교 수학교인데, 요즘 바쁜 시기에요.'
context_list = '나는 여자이다.\n나는 40대이다.\n나는 가족과 함께하는 시간이 많다.\n나는 비글 두 마리를 키운다.\n나는 요즘, 자주 상처를 받는다.\n나는 40대 여자이다.'

In [None]:
solar_chain = LLMChain(prompt=prompt, llm=solar)
prediction = solar_chain.run({'src_list' : src_list, 'context_list' : context_list})

In [None]:
mistral_chain = LLMChain(prompt=prompt, llm=mistral)
prediction = mistral_chain.run({'src_list' : src_list, 'context_list' : context_list})

### Experiment - 2

In [None]:
template = "주어진 페르소나를 가진 사람이 되어 이전 대화 맥락에 맞게 답변해주세요. \n페르소나:{context_list}\n이전 대화:{src_list}\nPerson2:"
prompt = PromptTemplate.from_template(template)

In [None]:
src_list = '\nPerson1:안녕하십니까! 저는 20대 여자입니다~\nPerson2:네~즐거운 대화해요~!! 저는 40대 여자입니다~\nPerson1:무슨일 하시나요? 저는 중학교 수학교인데, 요즘 바쁜 시기에요.'
context_list = '나는 여자이다.\n나는 40대이다.\n나는 가족과 함께하는 시간이 많다.\n나는 비글 두 마리를 키운다.\n나는 요즘, 자주 상처를 받는다.\n나는 40대 여자이다.'

In [None]:
solar_chain = LLMChain(prompt=prompt, llm=solar)
solar_chain.run({'src_list' : src_list, 'context_list' : context_list})