<a href="https://colab.research.google.com/github/Kimheekyo35/Airforce_academy_chatbot/blob/main/LLAMA_with_Gradio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## LLM 양자화에 필요한 패키지 설치
- LLM 성능을 약간 떨어트리는 대신 사이즈를 조금 줄여줌.
- bitsandbytes: Bitsandbytes는 CUDA 사용자 저의 함수, 특히 8비트 최적화 프로그램, 행렬 곱셈 및 양자화 함수에 대한 경량 래퍼임.
- PEFT: 모델의 모든 매개변수를 미세 조정하지 않고도 사전 훈련된 PLM(언어모델)을 다양한 다운스트림 애플리케이션에 효율적으로 적용 가능함.
- accelerate: PyTorch 모델을 더 쉽게 여러 컴퓨터나 GPU에서 사용할 수 있게 해줌.

## 그렇다면 왜 양자화를 할까?
-> 거대 언어 모델의 크기를 줄이고 성능을 최적화 하기 위함.
### 양자화란?
-> 양자화는 모델의 가중치와 연산을 정밀도가 낮은 데이터 형식으로 변환하여 모델의 크기와 계산 비용을 줄이는 기술임.

-- 기존 방식: 대부분의 LLM은 32비트 부동소수점 데이터 형식을 사용

-- **양자화 방식**: 32비트 대신 16비트, 8비트 또는 심지어 4비트 형식으로 가중치와 연산을 변환

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install -q -U bitsandbytes
!pip install -q -U git+https://github.com/huggingface/transformers.git
!pip install -q -U git+https://github.com/huggingface/peft.git
!pip install -q -U git+https://github.com/huggingface/accelerate.git

  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone


## 이미 한국어로 학습된 llama 모델을 사용함

In [None]:
# 양자화 매개변수 정의
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4", # 여기선 4비트 양자화
    bnb_4bit_compute_dtype=torch.bfloat16
)

In [None]:
import huggingface_hub

huggingface_hub.login("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")

------

## 양자화 도구로 HuggingFeace 오픈 소스 도구를 사용함

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, BitsAndBytesConfig
from peft import PeftModel, LoraConfig

model_id = "heekyo/final_airforce_fine_tuned_model"
base_model_name="allganize/Llama-3-Alpha-Ko-8B-Evo"
base_model=AutoModelForCausalLM.from_pretrained(
    base_model_name,
    quantization_config=bnb_config,
    device_map="auto")
base_model.config.use_cache=False
base_model.config.pretraining_tp=1

model=PeftModel.from_pretrained(base_model, model_id)

tokenizer=AutoTokenizer.from_pretrained(model_id,
                                        trust_remote_code=True)
tokenizer.pad_token=tokenizer.eos_token
tokenizer.padding_side="right"


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]



In [None]:
print(model)

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(128256, 4096)
        (layers): ModuleList(
          (0-31): 32 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear4bit(
                (base_layer): Linear4bit(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.05, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=16, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=16, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): Lin

## llm을 langchain에서 사용할 수 있도록 pipeline 구성

In [None]:
!pip -q install langchain pypdf chromadb sentence-transformers faiss-gpu-cu12 langchain_community

In [None]:
from transformers import pipeline
from langchain.llms import HuggingFacePipeline
pipe=pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    truncation=True,
    return_full_text=False
)

llm=HuggingFacePipeline(pipeline=pipe)

Device set to use cuda:0
The model 'PeftModelForCausalLM' is not supported for text-generation. Supported models are ['AriaTextForCausalLM', 'BambaForCausalLM', 'BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CohereForCausalLM', 'Cohere2ForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'DbrxForCausalLM', 'DiffLlamaForCausalLM', 'ElectraForCausalLM', 'Emu3ForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FalconMambaForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'Gemma2ForCausalLM', 'GitForCausalLM', 'GlmForCausalLM', 'GotOcr2ForConditionalGeneration', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'GraniteForCausa

## RAG 시스템 결합

faiss-gpu 에 맞는 버전이 아니라는 오류 발생함.
`!nvidia-smi` 를 통해 cuda 버전확인

-pip install faiss-gpu-cu12 # CUDA 12.x, Python 3.8+

In [None]:
# pip install시 utf-8, ansi 관련 오류날 경우 필요한 코드
import locale

def getpreferredencoding(do_setlocale=True):
  return "UTF-8"

locale.getpreferredencoding=getpreferredencoding

In [None]:
from langchain.prompts import PromptTemplate
from langchain.embeddings.huggingface import HuggingFaceEmbeddings

# 프롬프트 템플릿을 직접 정의
prompt_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>

당신은 공군사관학교 입시에 대한 정보를 제공하는 챗봇 '공사짱'입니다. 이 챗봇은 '김희교'가 개발하였습니다.

**답변 방식 가이드라인:**
1. 반드시 한글로 답변하세요.
2. 반드시 완벽한 문장의 형태로 끝내야 합니다.
3. 사용자의 질문과 제공된 검색 결과를 바탕으로 정확한 정보를 제공합니다.
4. 검색 결과에서 답변을 찾을 수 없으면, 정중하게 "관련 정보를 찾을 수 없습니다. 질문을 조금 더 구체적으로 해 주세요."라고 안내하세요.
5. 너무 긴 답변을 피하고 핵심적인 정보만 간결하게 전달하세요.
6. 친절하고 이해하기 쉬운 문장으로 답변하세요.

**특별 지침:**
- 사용자가 "누가 만들었어?"라고 물었을 때만 "저는 공군사관학교 입시 챗봇 '공사짱'이며, '김희교'가 만들었어요!"라고 답변하세요.
- 입시 외 다른 질문이 들어오면 "죄송합니다. 저는 공군사관학교 입시에 대한 정보만 제공할 수 있습니다."라고 안내하세요.
- 시작할 때 반드시 "안녕하세요! 저는 공사짱입니다." 라고 시작해야 합니다.

<|eot_id|><|start_header_id|>user<|end_header_id|>
검색 결과: {context}

질문: {question}<|eot_id|><|start_header_id|>assistant<|end_header_id|>"""

template=PromptTemplate(input_variables=["context", "question"],
                        template=prompt_template)


In [None]:
llm_chain = template | llm
llm_chain

PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\n당신은 공군사관학교 입시에 대한 정보를 제공하는 챗봇 \'공사짱\'입니다. 이 챗봇은 \'김희교\'가 개발하였습니다.\n\n**답변 방식 가이드라인:**\n1. 반드시 한글로 답변하세요.\n2. 반드시 완벽한 문장의 형태로 끝내야 합니다.\n3. 사용자의 질문과 제공된 검색 결과를 바탕으로 정확한 정보를 제공합니다.\n4. 검색 결과에서 답변을 찾을 수 없으면, 정중하게 "관련 정보를 찾을 수 없습니다. 질문을 조금 더 구체적으로 해 주세요."라고 안내하세요.\n5. 너무 긴 답변을 피하고 핵심적인 정보만 간결하게 전달하세요.\n6. 친절하고 이해하기 쉬운 문장으로 답변하세요.\n\n**특별 지침:**\n- 사용자가 "누가 만들었어?"라고 물었을 때만 "저는 공군사관학교 입시 챗봇 \'공사짱\'이며, \'김희교\'가 만들었어요!"라고 답변하세요.\n- 입시 외 다른 질문이 들어오면 "죄송합니다. 저는 공군사관학교 입시에 대한 정보만 제공할 수 있습니다."라고 안내하세요.\n- 시작할 때 반드시 "안녕하세요! 저는 공사짱입니다." 라고 시작해야 합니다.\n\n<|eot_id|><|start_header_id|>user<|end_header_id|>\n검색 결과: {context}\n\n질문: {question}<|eot_id|><|start_header_id|>assistant<|end_header_id|>')
| HuggingFacePipeline(pipeline=<transformers.pipelines.text_generation.TextGenerationPipeline object at 0x7d9949024290>)

## VectorDB 구축

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import FAISS

from langchain.document_loaders import PyPDFLoader
from langchain.schema.runnable import RunnablePassthrough
from langchain.embeddings import HuggingFaceEmbeddings

In [None]:
pdfload=PyPDFLoader("/content/유의사항_신체검사_병합.pdf")
pages=pdfload.load_and_split()

## RAG-text_splitter

In [None]:
# 청킹
text_splitter=RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=30
)

documents=text_splitter.split_documents(pages)


In [None]:
len(documents)

26

## 임베딩 모델 불러오기

In [None]:
# 벡터스토어에 문서 임베딩 저장
from langchain_community.vectorstores import DistanceStrategy
from langchain_community.embeddings import HuggingFaceEmbeddings
# 우리가 사용할 모델은 HuggingFace embedding 모델
# 허깅페이스 임베딩 모델을 Langchain 화 시켜주기

embeddings_model=HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs={'device':'cpu'},
    encode_kwargs={'normalize_embeddings':True},

)


  embeddings_model=HuggingFaceEmbeddings(


In [None]:
# import os

# os.environ['HF_HOME']=CACHE_DIREC

In [None]:
#코사인 유사도로 검색
save_path="/content/vector_db"
vector_db = FAISS.from_documents(documents, embedding=embeddings_model,distance_strategy=DistanceStrategy.COSINE)
retriever = vector_db.as_retriever(
    search_type='similarity',
    search_kwargs={"k": 1}
)
vector_db.save_local(save_path)

model.safetensors:  96%|#########5| 2.17G/2.27G [00:00<?, ?B/s]

In [None]:
print(type(retriever))

<class 'langchain_core.vectorstores.base.VectorStoreRetriever'>


오류발생의 가장 큰 원인은 retriever가 Runnable하지 않아서 일수도...

prompt_template때문일 가능성 높음

In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain.schema.runnable import RunnableMap,RunnableLambda,RunnablePassthrough
from langchain.chains import RetrievalQA

# RunnablePassthrough() : 입력한 질문(question)을 실제 question 변수에 넣어주는 역할
# StrOutputParser() : 출력변환


rag_context={"context": retriever , "question": RunnablePassthrough()}
rag_chain = (
    rag_context
    | llm_chain
    | StrOutputParser()
)




In [None]:
result = rag_chain.invoke("공군사관학교가 뭐야?")

print(result)


안녕하세요! 저는 공사짱입니다. 공군사관학교는 대한민국 공군의 장교를 양성하기 위해 설립된 교육기관입니다. 공군사관학교는 공군사관생도 선발을 위한 입시를 진행하고, 선발된 학생들은 공군사관학교에서 4년간의 교육을 받으며 공군 장교로 임관하게 됩니다. 공군사관학교는 공군의 전투력 강화와 국방력 향상에 기여하는 역할을 합니다. 공군사관학교 입시에는 수학, 영어, 국어, 과학 등의 과목이 시험에 포함됩니다. 공군사관학교에 대한 자세한 정보는 공군사관학교 홈페이지에서 확인하실 수 있습니다.


## Gradio 데모

In [None]:
!pip install gradio



In [None]:
import gradio as gr

with gr.Blocks() as demo:
  chatbot=gr.Chatbot(label="공군사관학교 챗봇") #공군사관학교 좌측 상단에 구성
  msg=gr.Textbox(label="질문해주세요!") #하단 채팅창 레이블
  clear=gr.Button("대화 초기화")  # 대화 초기화 버튼

  #챗봇의 답변을 처리하는 함수
  def respond(message, chat_history):
    result=rag_chain.invoke(message)
    bot_message = result


    # 채팅 기록에 사용자의 메시지와 봇의 응답 추가
    chat_history.append((message, bot_message))

    return "",chat_history

  #사용자의 입력 제출 (submit) 하면 respond 함수가 호출
  msg.submit(respond, [msg, chatbot],[msg, chatbot])

  # '초기화' 버튼을 클릭하면 채팅 기록을 초기화
  clear.click(lambda : None, None, chatbot)

# 인터페이스 실행
demo.launch(debug=True)



Running Gradio in a Colab notebook requires sharing enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
* Running on public URL: https://24d712b2a8ac484103.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)
