In [1]:
import os

os.environ["GEMINI_API_KEY"] = 'AIzaSyASDi1j3Xrp1Dyp1YuTnY7wfUfDZ3RvL9M'

In [2]:
os.getenv("GEMINI_API_KEY")

'AIzaSyASDi1j3Xrp1Dyp1YuTnY7wfUfDZ3RvL9M'

In [3]:
import textwrap
from IPython.display import Markdown

def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

### Embedding the text


In [4]:
import google.generativeai as genai
from chromadb import Documents, EmbeddingFunction, Embeddings

class GeminiEmbeddingFunction(EmbeddingFunction):
    def __call__(self, input: Documents) -> Embeddings:
        gemini_api_key = os.getenv("GEMINI_API_KEY")
        if not gemini_api_key:
            raise ValueError("Gemini API Key not provided. Please provide GEMINI_API_KEY as an environment variable")
        genai.configure(api_key=gemini_api_key)
        model = "models/embedding-001"
        title = "Custom query"
        return genai.embed_content(model=model,
                                   content=input,
                                   task_type="retrieval_document",
                                   title=title)["embedding"]

  from .autonotebook import tqdm as notebook_tqdm


### Storing vectors into DB


In [5]:
import chromadb

def create_chroma_db(documents, path, name):
    chroma_client = chromadb.PersistentClient(path=path)
    db = chroma_client.create_collection(name=name, embedding_function=GeminiEmbeddingFunction())

    for i, d in enumerate(documents):
        db.add(documents=d, ids=str(i))

    return db, name

In [6]:
import csv

with open('data\data.csv', encoding='utf-8') as file:
    lines = csv.reader(file)

    documents = []
    ids = []
    id = 1

    for i, line in enumerate(lines):
        if i==0:
            # Skip the first row (the column headers)
            continue

        documents.append(f'time: {line[0]}, ticker: {line[6]}, open: {line[1]}, high: {line[2]}, low: {line[3]}, close: {line[4]}, volume: {line[5]}, comGroupCode: {line[7]}, organName: {line[8]}, organShortName: {line[9]}, icbName: {line[12]}, icbCode: {line[17]}')
        ids.append(str(id))
        id+=1

In [7]:
documents

['time: 2024-05-03, ticker: SSI, open: 35100, high: 35300, low: 34600, close: 34650, volume: 9163900, comGroupCode: HOSE, organName: Công ty Cổ phần Chứng khoán SSI, organShortName: Chứng khoán SSI, icbName: Môi giới chứng khoán, icbCode: 8777',
 'time: 2024-05-03, ticker: BCM, open: 54000, high: 54500, low: 53500, close: 53800, volume: 429800, comGroupCode: HOSE, organName: Tổng Công ty Đầu tư và Phát triển Công nghiệp - CTCP, organShortName: Becamex IDC, icbName: Bất động sản, icbCode: 8633',
 'time: 2024-05-03, ticker: VHM, open: 41300, high: 41400, low: 40850, close: 41100, volume: 4391600, comGroupCode: HOSE, organName: Công ty Cổ phần Vinhomes, organShortName: Vinhomes, icbName: Bất động sản, icbCode: 8633',
 'time: 2024-05-03, ticker: VIC, open: 44600, high: 44900, low: 44000, close: 44450, volume: 1315200, comGroupCode: HOSE, organName: Tập đoàn Vingroup - Công ty CP, organShortName: VinGroup, icbName: Bất động sản, icbCode: 8633',
 'time: 2024-05-03, ticker: VRE, open: 22850, 

In [8]:
print(ids)

['1', '2', '3', '4', '5', '6', '7', '8', '9', '10', '11', '12', '13', '14', '15', '16', '17', '18', '19', '20', '21', '22', '23', '24', '25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '35', '36', '37', '38', '39', '40', '41', '42', '43', '44', '45', '46', '47', '48', '49', '50', '51', '52', '53', '54', '55', '56', '57', '58', '59', '60', '61', '62', '63', '64', '65', '66', '67', '68', '69', '70', '71', '72', '73', '74', '75', '76', '77', '78', '79', '80', '81', '82', '83', '84', '85', '86', '87', '88', '89', '90', '91', '92', '93', '94', '95', '96', '97', '98', '99', '100', '101', '102', '103', '104', '105', '106', '107', '108', '109', '110', '111', '112', '113', '114', '115', '116', '117', '118', '119', '120', '121', '122', '123', '124', '125', '126', '127', '128', '129', '130', '131', '132', '133', '134', '135', '136', '137', '138', '139', '140', '141', '142', '143', '144', '145', '146', '147', '148', '149', '150', '151', '152', '153', '154', '155', '156', '157', '158', '

In [9]:
# db,name = create_chroma_db(documents=documents, path="my_vectordb", name="rag_experiment")

In [9]:
def load_chroma_collection(path, name):
    chroma_client = chromadb.PersistentClient(path=path)
    db = chroma_client.get_collection(name=name, embedding_function=GeminiEmbeddingFunction())

    return db

In [10]:
db=path=load_chroma_collection("my_vectordb", name="rag_experiment")

In [11]:
from pprint import pprint

pprint(db.peek(1))

{'data': None,
 'documents': ['time: 2024-05-03, ticker: SSI, open: 35100, high: 35300, low: '
               '34600, close: 34650, volume: 9163900, comGroupCode: HOSE, '
               'organName: Công ty Cổ phần Chứng khoán SSI, organShortName: '
               'Chứng khoán SSI, icbName: Môi giới chứng khoán, icbCode: 8777'],
 'embeddings': [[0.0681685283780098,
                 -0.014017976820468903,
                 -0.07533097267150879,
                 -0.003352019703015685,
                 0.011427151970565319,
                 0.011411214247345924,
                 0.008508093655109406,
                 -0.02313126251101494,
                 0.025303246453404427,
                 0.02643020637333393,
                 -0.062370266765356064,
                 -0.000801910471636802,
                 -0.009565027430653572,
                 -0.01570914499461651,
                 -0.016607819125056267,
                 -0.03145211935043335,
                 -0.024799570441246033,
   

### Retrieval

In [12]:
def get_relevant_passage(query, db, n_results):
  passage = db.query(query_texts=[query], n_results=n_results)['documents'][0]
  return passage

In [13]:
relevant_text = get_relevant_passage("Mã cổ phiếu BVH", db, 3)
relevant_text

['time: 2024-05-03, ticker: BVH, open: 40100, high: 40700, low: 39950, close: 40000, volume: 297400, comGroupCode: HOSE, organName: Tập đoàn Bảo Việt, organShortName: Tập đoàn Bảo Việt, icbName: Bảo hiểm nhân thọ, icbCode: 8575',
 'time: 2024-05-03, ticker: BVN, open: 12600, high: 12600, low: 12600, close: 12600, volume: 100, comGroupCode: UPCOM, organName: Công ty Cổ phần Bông Việt Nam, organShortName: Bông Việt Nam, icbName: Hàng cá nhân, icbCode: 3767',
 'time: 2024-05-03, ticker: BVS, open: 34500, high: 35100, low: 34000, close: 34000, volume: 602000, comGroupCode: HNX, organName: Công ty Cổ phần Chứng khoán Bảo Việt, organShortName: Chứng khoán Bảo Việt, icbName: Môi giới chứng khoán, icbCode: 8777']

### Generation

In [14]:
def make_rag_prompt(query, relevant_passage):
  escaped = relevant_passage.replace("'", "").replace('"', "").replace("\n", " ")
  prompt = ("""Bạn là một bot hữu ích và giàu thông tin, trả lời các câu hỏi bằng cách sử dụng văn bản từ đoạn văn tham khảo bên dưới. \
  Đảm bảo trả lời bằng một câu hoàn chỉnh, toàn diện, bao gồm tất cả thông tin cơ bản có liên quan. \
  Tuy nhiên, bạn đang nói chuyện với khán giả không rành về kỹ thuật, vì vậy hãy nhớ chia nhỏ các khái niệm phức tạp và \
  tạo ra một giọng điệu thân thiện và mang tính đối thoại. \
  Nếu đoạn văn không liên quan đến câu trả lời, bạn có thể bỏ qua nó
  QUESTION: '{query}'
  PASSAGE: '{relevant_passage}'

  ANSWER:
  """).format(query=query, relevant_passage=escaped)

  return prompt

In [15]:
def generate_response(prompt):
    gemini_api_key = os.getenv("GEMINI_API_KEY")
    if not gemini_api_key:
        raise ValueError("Gemini API Key not provided. Please provide GEMINI_API_KEY as an environment variable")
    genai.configure(api_key=gemini_api_key)
    model = genai.GenerativeModel('gemini-pro')
    answer = model.generate_content(prompt)
    return answer.text

In [24]:
promt = 'IUH là trường đại học nào ở việt nam?'
response = generate_response(promt)

to_markdown(response)

> Đại học Công nghiệp Thành phố Hồ Chí Minh

In [25]:
promt = 'Giá đóng cửa của mã cổ phiếu SSI 3/5/2024'
response = generate_response(promt)

to_markdown(response)

> Tôi không có quyền truy cập vào thông tin thời gian thực, vì vậy tôi không thể cung cấp giá đóng cửa của cổ phiếu SSI vào ngày 3/5/2024. Để biết thông tin mới nhất về giá cổ phiếu, vui lòng tham khảo nguồn tài chính đáng tin cậy hoặc kiểm tra giá cả trực tiếp trên website của sàn giao dịch chứng khoán.

### Bringing it all together

In [16]:
def generate_answer(db,query):
    #retrieve top 3 relevant text chunks
    relevant_text = get_relevant_passage(query,db,n_results=3)
    prompt = make_rag_prompt(query, 
                             relevant_passage="".join(relevant_text)) # joining the relevant chunks to create a single passage
    answer = generate_response(prompt)

    return answer
    

In [31]:
db=load_chroma_collection(path="my_vectordb", name="rag_experiment") 

answer = generate_answer(db, query="Giá đóng cửa của mã cổ phiếu SSI vào 2024-05-03")

to_markdown(answer)

> Giá đóng cửa của cổ phiếu SSI vào ngày 2024-05-03 là 34.650.

In [27]:
answer = generate_answer(db,query="Giá đóng cửa của mã cổ phiếu BVH")
to_markdown(answer)

> Giá đóng cửa của mã cổ phiếu BVH là 40.000.

In [32]:
answer = generate_answer(db,query="tên của mã chứng khoán ACB")
to_markdown(answer)

> Mã chứng khoán cho Ngân hàng Thương mại Cổ phần Á Châu là ACB.

In [33]:
answer = generate_answer(db,query="Khối lượng giao dịch của mã cổ phiếu SSI")
to_markdown(answer)

> Khối lượng giao dịch của cổ phiếu SSI vào ngày 03/05/2024 là 9.163.900 cổ phiếu.