In [1]:
from libra.retrievers import VectorRetriever
from libra.vectordb import MilvusStorage, QdrantStorage
from libra.embeddings import SentenceTransformerEncoder, OpenAIEmbedding
from qdrant_client import QdrantClient

import os
from dotenv import load_dotenv

load_dotenv(override=True)

embedding_instance = SentenceTransformerEncoder()

  from tqdm.autonotebook import tqdm, trange


In [2]:
client = QdrantClient(
    path='../../libra_qdrant.db'
)

mb_info_storage_instance = QdrantStorage(
    client=client,
    vector_dim=embedding_instance.get_output_dim(),
    collection_name="MBInfo"
)
mb_info_storage_instance.clear()

In [3]:
mb_info_retriever = VectorRetriever(
    embedding_model=embedding_instance, 
    storage=mb_info_storage_instance
)

### Adding Company Profile

In [4]:
from libra.loaders import read_file
from io import BytesIO
import json
from libra.utils import json_to_well_formatted

company_profiles = []


file_path = os.path.join('..', '..', 'data', 'mb_company_profile_summarized.csv')
with open(file_path, "rb") as f:
    file = BytesIO(f.read())
    file.name = "mb_company_profile_summarized.csv"
    json_file = read_file(file)
    for doc in json_file.docs:
        doc_content = json.loads(doc['page_content'])    
        company_profiles.append({
            "embed": doc_content['summary'],
            "content": f"""
topic: {doc_content['topic']},
summary: {doc_content['summary']}
content: {doc_content['content']}
            """
        })

In [5]:
mb_info_retriever.process(data=company_profiles, batch_size=1)

100%|██████████| 128/128 [00:35<00:00,  3.63it/s]


In [10]:
results = mb_info_retriever.query(query="MB có bao nhiêu khách hàng?", top_k=4)

for entry in results:
    print(entry['text'])


topic: None,
summary: Ngân hàng MB có 26,5 triệu khách hàng trong năm 2023.
content: Số lượng khách hàng của MB trong năm 2023 là 26,5 triệu khách hàng
            

topic: Thông điệp của Tổng Giám đốc MB,
summary: MB đặt mục tiêu trở thành doanh nghiệp số và tập đoàn tài chính dẫn đầu vào năm 2026, với chiến lược tập trung vào trải nghiệm khách hàng, sáng tạo giá trị mới và phát triển bền vững. Năm 2023, MB đạt 26,5 triệu khách hàng, tổng tài sản 950 nghìn tỷ đồng, và lợi nhuận 26 nghìn tỷ đồng.
content: Năm 2024, MB tiếp tục kiên định với tầm nhìn đến năm 2026 “Trở thành Doanh nghiệp số, Tập đoàn tài chính dẫn đầu” cùng mục tiêu chiến lược nằm trong “Top 3 thị trường về hiệu quả, hướng đến Top đầu châu Á.” Chiến lược của MB được xây dựng trên cơ sở Tập trung vào trải nghiệm của khách hàng; Sáng tạo ra các giá trị mới phục vụ khách hàng từ đó gia tăng giá trị cho MB. Xuyên suốt theo đó là một văn hóa quản trị thống nhất, lấy triết lý “Khách hàng là trung tâm” dựa trên các yếu tố: (1)

### Adding jobs

In [11]:
job_storage_instance = QdrantStorage(
    client = client,
    vector_dim=embedding_instance.get_output_dim(),
    collection_name="jobs"
)
job_storage_instance.clear()

In [12]:
job_retriever = VectorRetriever(
    embedding_model=embedding_instance,
    storage=job_storage_instance
)

In [13]:
import re

def parse_salaries(salary_data):
    salaries = ("", "")
    lines = salary_data.split('\n')
    
    for line in lines:
        line = line.strip()
        if not line:
            continue
        
        # Check for "a - b VND" format
        match = re.match(r'(\d{1,3}(?:,\d{3})*) - (\d{1,3}(?:,\d{3})*)\s*VNĐ', line)
        if match:
            min_salary = match.group(1).replace(',', '')
            max_salary = match.group(2).replace(',', '')
        else:
            # For other formats, set min and max to the same value
            # Remove "VNĐ" and any leading/trailing whitespace
            value = line.replace('VNĐ', '').strip()
            
            if value in ['Lương thỏa thuận', 'Cạnh Tranh']:
                min_salary = max_salary = value
            else:
                # Try to extract a number if present
                number_match = re.search(r'\d{1,3}(?:,\d{3})*', value)
                if number_match:
                    salary_value = int(number_match.group().replace(',', ''))
                    min_salary = max_salary = salary_value
                else:
                    min_salary = max_salary = value

        salaries = (min_salary, max_salary)
    
    return salaries

def is_number(s):
    return s.isdigit()

In [14]:
from libra.loaders import read_file
from io import BytesIO
import json
from pprint import pprint

jobs = []

keys_to_extract = ["title", "workplace", "industry", "welfare", "min_salary", "max_salary"]

file_path = os.path.join('..', '..', 'data', 'jobs_data.json')
with open(file_path, "rb") as f:
    file = BytesIO(f.read())
    file.name = "jobs_data.json"
    json_file = read_file(file)
    for doc in json_file.docs:
        doc_content = json.loads(doc['page_content']) 
        a, b = parse_salaries(doc_content['salary'])
        if is_number(a):
            a +=' VNĐ' # type: ignore
            
        if is_number(b):
            b +=' VNĐ' # type: ignore
        
        doc_content['min_salary'] = a
        doc_content['max_salary'] = b
            
        job = {
            "embed": str({key: doc_content[key] for key in keys_to_extract}),
            "content": str(doc_content)
        }
        jobs.append(job)

In [15]:
jobs[-1]['content']

"{'_id': {'$oid': '66c015512d62a130f80804b2'}, 'url': 'https://tuyendung.mbbank.com.vn/viec-lam/chuyen-vien-cvcc-quan-tri-rui-ro-mo-hinh-khoi-quan-tri-rui-ro.35aa58be.html', 'title': 'Chuyên viên/CVCC Quản trị rủi ro mô hình - Khối Quản trị rủi ro', 'workplace': 'Hà Nội', 'job_rank': 'Nhân viên', 'job_form': 'Nhân viên chính thức', 'experience': '1 - 10 Năm', 'salary': 'Lương thỏa thuận', 'industry': 'Ngân hàng, Tài chính / Đầu tư', 'deadline_applications': '30/05/2024', 'welfare': ['Bảo hiểm', 'Du Lịch', 'Thưởng', 'Chăm sóc sức khỏe', 'Đào tạo', 'Tăng lương'], 'job_detail': [], 'job_requirements': [], 'job_tags': ['Chuyên viên/CVCC Quản trị rủi ro mô hình - Khối Quản trị rủi ro'], 'min_salary': 'Lương thỏa thuận', 'max_salary': 'Lương thỏa thuận'}"

In [15]:
job_storage_instance.clear()

In [16]:
job_retriever.process(jobs, batch_size=1)

100%|██████████| 365/365 [03:44<00:00,  1.63it/s]


In [17]:
for entry in job_retriever.query("nghề UB ở Hải Phòng", top_k=5):
    print(entry['text'])

{'_id': {'$oid': '66c015512d62a130f8080447'}, 'url': 'https://tuyendung.mbbank.com.vn/viec-lam/chuyen-vien-ub-chuyen-vien-tu-van-cn-nam-hai-phong.35aa78b2.html', 'title': 'Chuyên viên UB (Chuyên viên Tư vấn) - CN. Nam Hải Phòng', 'workplace': 'Hải Phòng', 'job_rank': 'Nhân viên', 'job_form': 'Nhân viên chính thức', 'degree': 'Đại học', 'experience': '1 Năm', 'salary': '8,000,000 - 15,000,000  VNĐ', 'industry': 'Dịch vụ khách hàng, Ngân hàng, Tài chính / Đầu tư', 'deadline_applications': '30/05/2024', 'welfare': ['Bảo hiểm', 'Du Lịch', 'Phụ cấp', 'Du lịch nước ngoài', 'Đồng phục', 'Thưởng', 'Chăm sóc sức khỏe', 'Đào tạo', 'Tăng lương', 'Công tác phí', 'Phụ cấp thâm niên', 'Chế độ nghỉ phép', 'Chế độ tập thể dục'], 'job_detail': ['Thực hiện công tác bán hàng tại sàn giao dịch chi nhánh: tư vấn và bán các sản phẩm, dịch vụ của MB cho Khách hàng cá nhân bao gồm: Huy động vốn, tài khoản thanh toán, thẻ, ngân hàng điện tử…\xa0Bán chéo sản phẩm dịch vụ của MB…', 'Thực hiện cung cấp dịch vụ tạ