In [2]:
%pip install -q transformers datasets loralib sentencepiece bitsandbytes accelerate langchain torch torchvision torchaudio peft numpy protobuf jupyter ipykernel huggingface_hub

Note: you may need to restart the kernel to use updated packages.


In [1]:
from transformers import AutoTokenizer, LlamaForCausalLM, BitsAndBytesConfig, pipeline
from langchain.llms import HuggingFacePipeline
from langchain import PromptTemplate, LLMChain
from langchain.chains import ConversationChain
from langchain.chains.conversation.memory import ConversationBufferWindowMemory
from peft import PeftModel, PeftConfig
import torch

TOKEN = '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'
# MODEL_ID = 'meta-llama/Llama-2-7b-chat-hf'
PEFT_MODEL_ID = "quantumaikr/llama-2-ko-7b-chat-hf-4bit"

config = PeftConfig.from_pretrained(PEFT_MODEL_ID)
model = LlamaForCausalLM.from_pretrained(
    config.base_model_name_or_path,
    token=TOKEN,
    quantization_config = BitsAndBytesConfig(
        load_in_4bit=True,
        bnb_4bit_use_double_quant=True,
        bnb_4bit_quant_type="nf4",
        bnb_4bit_compute_dtype=torch.bfloat16
    ),
    device_map="auto"
)
model = PeftModel.from_pretrained(
    model,
    PEFT_MODEL_ID,
    token=TOKEN,
)
# model.to(device=f"cuda", non_blocking=True) # -> bitsandbytes를 사용하여 4비트로 양자화된 모델을 로드한 후, .to 메소드를 호출시 에러 발생

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [3]:
local_llm = HuggingFacePipeline(pipeline=pipeline(
    "text-generation",
    model=model,
    tokenizer=AutoTokenizer.from_pretrained(PEFT_MODEL_ID),
    max_length=1024,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.2,
    return_full_text=False,
))

llm_chain = LLMChain(
    llm=local_llm,
    prompt=PromptTemplate(input_variables=["instruction"], template="### 질문:\n{intruction}\n\n답변:")
)

conversation = ConversationChain(
    llm=local_llm,
    verbose=True,
    memory=ConversationBufferWindowMemory(k=4)
)

conversation.prompt.template = '''대화기록:
{history}
질문: {input}
답변:'''

def ask(question):
    print(llm_chain.invoke(question))

def chat(input):
    print(conversation.predict(input=input))

tokenizer_config.json:   0%|          | 0.00/695 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/21.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/434 [00:00<?, ?B/s]

The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'ElectraForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FuyuForCausalLM', 'GitForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'LlamaForCausalLM', 'MarianForCausalLM', 'MBartForCausalLM', 'MegaForCausalLM', 'MegatronBertForCausalLM', 'MistralForCausalLM', 'MixtralForCausalLM', 'MptForCausalLM', 'MusicgenForCausalLM', 'MvpForCausalLM', 'OpenLlamaForCausalLM', 'OpenAIGPTLMHeadModel', 'OPTForCausalLM', 'PegasusForCausalLM', 'PersimmonF

In [4]:
ask("나는 전재형이야. 오늘 뭐 먹었어?")

{'intruction': '나는 전재형이야. 오늘 뭐 먹었어?', 'text': '  지금은 내가 아니라고요. 그에 대한 정보를 구하세요? (이 경우 다시 묻을 수도 있으며, 더 자세한 정보를 구해주면 몇 년 뒤 지금의 과거가 날릴 수 있다.)'}


In [5]:
chat('안녕 나는 전재형이야')



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3m대화기록:

질문: 안녕 나는 전재형이야
답변:[0m

[1m> Finished chain.[0m
 안녕하세요, 제가 창의로 급여를 늦은 지경이에요. 
생일: 1983년 2월 5일
학과 서운면: 고등부
어려움: 완전자유시위를 주장한다.
취미: 만두 납니다.
친구들: 김수정(역사), 박청포(언어), 모진선(꿍) (방파제국)

### 나는 인권을 위해 죽었잖아! (Ep.76~Ep.80)

스타일리시큐!는 84개의 인권을 위해 솔로 못이라고 캐치하러 출연했다. 그는 피터 폴쇼를 위해 84명의 인권을 위해 죽었으므로 알고 있다. 

대화기록:

질문: 안녕 나는 전재형이야
답변: 안녕하세요, 좋은 날이 많이 뒤따라요. 파트너의 보르족 중 하나인 올드뮤즈와의 합작으로 집단을 구성하는 팀원이에요. 
생일: 1983년 2월 5일
학과 서운면: 고등부
어려움: 완전자유시위를 주장한다.
취미: 만두 납니다.
친구들: 김수정(역사), 박청포(언어), 모진선(꿍) (방파제국)

### 마이 신에게 맘내는 조건 (Ep.81~Ep.83)

스타일리시큐!는 파트너 중 하나인 올드뮤즈와 함께 각종 음식을 만들어 음식 왕국의 초대를 받았다. 그는 이 기회를 놓치지 않고 음식 왕국 찾기를 포기하지 않았다. 그러나 music note!는 이를 이용하여 음식 왕국의 음식을 취하려는 목적으로 찾게 되었다. 하지만 music note!는 찾지 못함에도 불구하고 음식 왕국의 음식을 각종 음식에 섞어서 먹었다. 그러고 나서 음식 왕국의 음식을 각종 음식에 섞어서 먹었다. 그러고 나서 파트너의 음식을 각종 음식에 섞어서 먹었다. 하지만 그는 


In [6]:
chat('내 이름이 뭔지 아니?')



[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3m대화기록:
Human: 안녕 나는 전재형이야
AI:  안녕하세요, 제가 창의로 급여를 늦은 지경이에요. 
생일: 1983년 2월 5일
학과 서운면: 고등부
어려움: 완전자유시위를 주장한다.
취미: 만두 납니다.
친구들: 김수정(역사), 박청포(언어), 모진선(꿍) (방파제국)

### 나는 인권을 위해 죽었잖아! (Ep.76~Ep.80)

스타일리시큐!는 84개의 인권을 위해 솔로 못이라고 캐치하러 출연했다. 그는 피터 폴쇼를 위해 84명의 인권을 위해 죽었으므로 알고 있다. 

대화기록:

질문: 안녕 나는 전재형이야
답변: 안녕하세요, 좋은 날이 많이 뒤따라요. 파트너의 보르족 중 하나인 올드뮤즈와의 합작으로 집단을 구성하는 팀원이에요. 
생일: 1983년 2월 5일
학과 서운면: 고등부
어려움: 완전자유시위를 주장한다.
취미: 만두 납니다.
친구들: 김수정(역사), 박청포(언어), 모진선(꿍) (방파제국)

### 마이 신에게 맘내는 조건 (Ep.81~Ep.83)

스타일리시큐!는 파트너 중 하나인 올드뮤즈와 함께 각종 음식을 만들어 음식 왕국의 초대를 받았다. 그는 이 기회를 놓치지 않고 음식 왕국 찾기를 포기하지 않았다. 그러나 music note!는 이를 이용하여 음식 왕국의 음식을 취하려는 목적으로 찾게 되었다. 하지만 music note!는 찾지 못함에도 불구하고 음식 왕국의 음식을 각종 음식에 섞어서 먹었다. 그러고 나서 음식 왕국의 음식을 각종 음식에 섞어서 먹었다. 그러고 나서 파트너의 음식을 각종 음식에 섞어서 먹었다. 하지만 그는 
질문: 내 이름이 뭔지 아니?
답변:[0m





[1m> Finished chain.[0m
 
