<a href="https://colab.research.google.com/github/porameht/rag-openthaigpt-7B/blob/main/RAG_with_openthaigpt_7B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!nvidia-smi

Sat Jan 20 09:25:05 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.104.05             Driver Version: 535.104.05   CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  Tesla T4                       Off | 00000000:00:04.0 Off |                    0 |
| N/A   37C    P8               9W /  70W |      0MiB / 15360MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                                    

In [28]:
!pip install -qU \
  transformers==4.31.0 \
  sentence-transformers==2.2.2 \
  pinecone-client==2.2.2 \
  datasets==2.14.0 \
  accelerate==0.21.0 \
  einops==0.6.1 \
  langchain==0.0.240 \
  xformers==0.0.20 \
  bitsandbytes==0.41.0

NotImplementedError: A UTF-8 locale is required. Got ANSI_X3.4-1968

In [29]:
from torch import cuda
from langchain.embeddings.huggingface import HuggingFaceEmbeddings

embed_model_id = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'

device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

embed_model = HuggingFaceEmbeddings(
    model_name=embed_model_id,
    model_kwargs={'device': device},
    encode_kwargs={'device': device, 'batch_size': 32}
)

In [30]:
docs = [
    "this is one document",
    "and another document"
]

embeddings = embed_model.embed_documents(docs)

print(f"We have {len(embeddings)} doc embeddings, each with "
      f"a dimensionality of {len(embeddings[0])}.")

We have 2 doc embeddings, each with a dimensionality of 384.


In [31]:
import os
import pinecone

# get API key from app.pinecone.io and environment from console
pinecone.init(
    api_key=os.environ.get('PINECONE_API_KEY') or 'a0ba1100-8244-46ff-9025-cb82e4fb97c7',
    environment=os.environ.get('PINECONE_ENVIRONMENT') or 'northamerica-northeast1-gcp'
)


In [32]:
import time

index_name = 'llama-2-rag'

if index_name not in pinecone.list_indexes():
    pinecone.create_index(
        index_name,
        dimension=len(embeddings[0]),
        metric='cosine'
    )
    # wait for index to finish initialization
    while not pinecone.describe_index(index_name).status['ready']:
        time.sleep(1)

In [33]:
index = pinecone.Index(index_name)
index.describe_index_stats()

{'dimension': 384,
 'index_fullness': 0.0,
 'namespaces': {'': {'vector_count': 15011}},
 'total_vector_count': 15011}

In [34]:
from datasets import load_dataset

data = load_dataset(
    'Thaweewat/databricks-dolly-15k-th',
    split='train'
)
data



Dataset({
    features: ['instruction', 'context', 'response', 'category'],
    num_rows: 15011
})

In [35]:
data

Dataset({
    features: ['instruction', 'context', 'response', 'category'],
    num_rows: 15011
})

In [36]:
data = data.to_pandas()
from tqdm.auto import tqdm

batch_size = 32

for i in tqdm(range(0, len(data), batch_size)):
    i_end = min(len(data), i+batch_size)
    batch = data.iloc[i:i_end]

    # Adjust column names based on the new dataset structure
    instructions = [x['instruction'] for _, x in batch.iterrows()]
    contexts = [x['context'] for _, x in batch.iterrows()]
    responses = [x['response'] for _, x in batch.iterrows()]
    categories = [x['category'] for _, x in batch.iterrows()]

    # Assuming 'instruction', 'context', and 'response' are the texts to be embedded
    texts = [f"{instruction} {context} {response}" for instruction, context, response in zip(instructions, contexts, responses)]

    ids = [f"{x['category']}-{i}" for i, x in batch.iterrows()]

    # Assuming embed_model is capable of embedding multiple documents at once
    embeds = embed_model.embed_documents(texts)

    # get metadata to store in Pinecone
    metadata = [
    {'instruction': str(instruction)[:100],  # Limiting instruction to 100 characters
     'context': str(context)[:100],           # Limiting context to 100 characters
     'response': str(response)[:100],         # Limiting response to 100 characters
     'category': str(category)} for _, (instruction, context, response, category) in zip(batch.iterrows(), zip(instructions, contexts, responses, categories))
    ]



    # add to Pinecone
    index.upsert(vectors=zip(ids, embeds, metadata))


  0%|          | 0/470 [00:00<?, ?it/s]

In [37]:
index.describe_index_stats()

{'dimension': 384,
 'index_fullness': 0.0,
 'namespaces': {'': {'vector_count': 15011}},
 'total_vector_count': 15011}

In [38]:

from torch import cuda, bfloat16
import transformers

model_id = 'openthaigpt/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf'

device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

# begin initializing HF items, need auth token for these
hf_auth = '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'
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    use_auth_token=hf_auth
)


print(f"Model loaded on {device}")

Model loaded on cuda:0


In [17]:
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token=hf_auth
)
model.eval()



pytorch_model.bin.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/2 [00:00<?, ?it/s]

pytorch_model-00001-of-00002.bin:   0%|          | 0.00/10.0G [00:00<?, ?B/s]

pytorch_model-00002-of-00002.bin:   0%|          | 0.00/3.88G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Some weights of LlamaForCausalLM were not initialized from the model checkpoint at openthaigpt/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf and are newly initialized: ['model.layers.16.self_attn.rotary_emb.inv_freq', 'model.layers.14.self_attn.rotary_emb.inv_freq', 'model.layers.5.self_attn.rotary_emb.inv_freq', 'model.layers.21.self_attn.rotary_emb.inv_freq', 'model.layers.10.self_attn.rotary_emb.inv_freq', 'model.layers.15.self_attn.rotary_emb.inv_freq', 'model.layers.25.self_attn.rotary_emb.inv_freq', 'model.layers.27.self_attn.rotary_emb.inv_freq', 'model.layers.4.self_attn.rotary_emb.inv_freq', 'model.layers.31.self_attn.rotary_emb.inv_freq', 'model.layers.8.self_attn.rotary_emb.inv_freq', 'model.layers.7.self_attn.rotary_emb.inv_freq', 'model.layers.28.self_attn.rotary_emb.inv_freq', 'model.layers.23.self_attn.rotary_emb.inv_freq', 'model.layers.9.self_attn.rotary_emb.inv_freq', 'model.layers.24.self_attn.rotary_emb.inv_freq', 'model.layers.6.self_attn.rotary_emb.inv_freq', 'model.laye

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(56554, 4096, padding_idx=0)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear4bit(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear4bit(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear4bit(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLUActivation()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSNorm()
      )


In [18]:
# Save the model to Google Drive
import torch
import os

path_to_save = '/content/drive/MyDrive/model/openthaigpt'
os.makedirs(path_to_save, exist_ok=True)

# Save the quantized model using PyTorch native method
torch.save(model.state_dict(), f"{path_to_save}/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf.pth")


In [19]:
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("openthaigpt/openthaigpt-1.0.0-beta-7b-chat-ckpt-hf")

tokenizer_config.json:   0%|          | 0.00/824 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/1.17M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/96.0 [00:00<?, ?B/s]

In [20]:
generate_text = transformers.pipeline(
    model=model, tokenizer=tokenizer,
    return_full_text=True,  # langchain expects the full text
    task='text-generation',
    # we pass model parameters here too
    temperature=0.0,  # 'randomness' of outputs, 0.0 is the min and 1.0 the max
    max_new_tokens=512,  # mex number of tokens to generate in the output
    repetition_penalty=1.1  # without this output begins repeating
)


In [39]:
res = generate_text("วิธีการลดความอ้วน")
print(res[0]["generated_text"])

วิธีการลดความอ้วน
แตกต่างจากการลดน้ำหนักทั่วไปตรงที่เป็นการลดไขมันเฉพาะที่ส่วนท้องเท่านั้น โดยเริ่มจากบริเวณหน้าท้องและเหนียงก่อน จากนั้นจึงขยายไปจนถึงสะโพก และท้ายสุดจะทำให้พุงยุบลงอย่างถาวรโดยไม่กลับมาอ้วนอีก วิธีนี้จะช่วยให้รูปร่างดูดีขึ้นทันทีโดยไม่ต้องออกกำลังกายหรืออดอาหารแต่อย่างใด เพียงแต่ต้องปฏิบัติตามหลักการง่ายๆ 3 ข้อ คือ กินให้น้อยลง ทานอาหารที่มีประโยชน์ให้มากที่สุด ดื่มนม โยเกิร์ต หรือผลิตภัณฑ์จากนมอื่นๆ ให้ได้วันละ 1 แก้ว วันละครั้ง และไม่ดื่มเครื่องดื่มที่มีแคลอรี่สูง เช่น น้ำอัดลม เครื่องดื่มชูกำลัง และเครื่องดื่มแอลกอฮอล์ เป็นต้น


In [23]:
from langchain.llms import HuggingFacePipeline

llm = HuggingFacePipeline(pipeline=generate_text)

In [24]:
llm(prompt="วิธีการลดความอ้วน")

'\nแตกต่างจากการลดน้ำหนักทั่วไปตรงที่เป็นการลดไขมันเฉพาะที่ส่วนท้องเท่านั้น โดยเริ่มจากบริเวณหน้าท้องและเหนียงก่อน จากนั้นจึงขยายไปจนถึงสะโพก และท้ายสุดจะทำให้พุงยุบลงอย่างถาวรโดยไม่กลับมาอ้วนอีก วิธีนี้จะช่วยให้รูปร่างดูดีขึ้นทันทีโดยไม่ต้องออกกำลังกายหรืออดอาหารแต่อย่างใด เพียงแต่ต้องปฏิบัติตามหลักการง่ายๆ 3 ข้อ คือ กินให้น้อยลง ทานอาหารที่มีประโยชน์ให้มากที่สุด ดื่มนม โยเกิร์ต หรือผลิตภัณฑ์จากนมอื่นๆ ให้ได้วันละ 1 แก้ว วันละครั้ง และไม่ดื่มเครื่องดื่มที่มีแคลอรี่สูง เช่น น้ำอัดลม เครื่องดื่มชูกำลัง และเครื่องดื่มแอลกอฮอล์ เป็นต้น'

We still get the same output as we're not really doing anything differently here, but we have now added Llama 2 13B Chat to the LangChain library. Using this we can now begin using LangChain's advanced agent tooling, chains, etc, with Llama 2.

# Initializing a RetrievalQA Chain


For Retrieval Augmented Generation (RAG) in LangChain we need to initialize either a RetrievalQA or RetrievalQAWithSourcesChain object. For both of these we need an llm (which we have initialized) and a Pinecone index — but initialized within a LangChain vector store object.

Let's begin by initializing the LangChain vector store, we do it like so:

In [49]:
from langchain.vectorstores import Pinecone

text_field = 'instruction'

vectorstore = Pinecone(
    index, embed_model.embed_query, text_field
)

We can confirm this works like so:

In [52]:
query = 'ช่วยบอกวิธีลดความอ้วน'

vectorstore.similarity_search(
    query,  # the search query
    k=3  # returns top 3 most relevant chunks of text
)

[Document(page_content=' วิธีลดน้ำหนัก?', metadata={'category': 'brainstorming', 'context': 'None', 'response': ' คำตอบโดยทั่วไปคือกินให้น้อยลงและออกกำลังกายให้มากขึ้น นี่เป็นคำถามเชิงจิตวิทยาจริงๆ ไม่ใช่คำถามความ'}),
 Document(page_content=' วิธีที่ดีที่สุดในการลดน้ำหนักคืออะไร?', metadata={'category': 'brainstorming', 'context': 'None', 'response': ' ตัดคาร์โบไฮเดรต การขาดดุลแคลอรี่'}),
 Document(page_content=' ขอรายชื่อวิธีต่างๆ เพื่อลดไขมันและทำให้คุณมีรูปร่างที่ดี', metadata={'category': 'information_extraction', 'context': 'None', 'response': ' มีหลายวิธีในการลดน้ำหนักและรักษารูปร่างให้พอดี ต่อไปนี้เป็นวิธีที่ใช้ได้ผลโดยทั่วไปซึ่งฉันนึกออก: 1'})]

In [53]:
from langchain.chains import RetrievalQA

rag_pipeline = RetrievalQA.from_chain_type(
    llm=llm, chain_type='stuff',
    retriever=vectorstore.as_retriever()
)

In [54]:
llm('ช่วยบอกวิธีลดความอ้วน')

'\nแตกต่างจากการลดน้ำหนักแบบอื่น ๆ เพราะไม่ทำให้ร่างกายขาดพลังงาน และไม่ต้องอดอาหารหรือออกกำลังกายเป็นจำนวนมากเหมือนการลดน้ำหนักแบบเดิม วิธีนี้จะช่วยให้คุณรู้สึกมีพลังมากขึ้น และสนุกกับการใช้ชีวิตในแต่ละวันด้วย'

Hmm, that's not what we meant... What if we use our RAG pipeline?

In [55]:
rag_pipeline('ช่วยบอกวิธีลดความอ้วน')

{'query': 'ช่วยบอกวิธีลดความอ้วน',
 'result': ' 1. ลดปริมาณอาหาร 2. ออกกำลังกาย 3. ดื่มนม 4. กินผักผลไม้ 5. ทานโปรตีน 6. นอนให้เพียงพอ 7. หลีกเลี่ยงเครื่องดื่มแอลกอฮอล์ 8. ใช้ตัวช่วยตามธรรมชาติ 9. รับประทานอาหารที่ดีต่อสุขภาพ 10. เลิกกินของหวาน 11. อย่าอดอาหาร 12. กินข้าวกล้อง 13. กินถั่ว 14. กินปลา 15. กินโยเกิร์ต 16. กินแอปเปิ้ล 17. กินกล้วย 18. กินเมล็ดฟักทอง 19. กินถั่ว 20. กินถั่วเลนทิล 21. กินอัลคาซาน 22. กินชาเขียว 23. กินกาแฟร้อน 24. กินส้มโอ 25. กินสตรูเบอร์รี่ 26. กินบลูเบอร์รี 27. กินองุ่น 28. กินเชอร์รี่ 29. กินมะม่วง 30. กินสับปะรด 31. กินแตงโม 32. กินแครนเดิล 33. กินกีวี 34. กินมะนาว 35. กินแอปเปิลไซเดอร์์ฟ 36. กินพีช 37. กินอะโวคาโด 38. กินแตงกวา 39. กินมะเขือเทศ 40. กินมันเทศ 41. กินถั่วขาว 42. กินถั่วดำ 43. กินถั่วเขียว 44. กินถั่วลิสง 45. กินถั่วแระซูซี่ 46. กินถั่วดำ 47. กินถั่วดำ 50. กินถั่วเขียว 51. กินถั่วลันได 52. กินถั่วดำ 53. กินถั่วดำ 54. กินถั่วดำ 55. กินถั่วดำ 56. กินถั่วดำ 57. กินถั่วดำ 58. กินถั่วดำ 59. กินถั่วดำ 60. กินถั่วดำ 61. กินถั่วดำ 62. กินถั่วดำ 6