# Example 250 samples

In [None]:
from typing import List, Optional
from langchain import HuggingFacePipeline
from kor.nodes import Object, Text, Number
from langchain.prompts import PromptTemplate
from langchain.output_parsers import StructuredOutputParser, OutputFixingParser
from langchain.chains.openai_functions.extraction import create_extraction_chain_pydantic
from langchain.prompts.few_shot import FewShotPromptTemplate


import pandas as pd
from pydantic import BaseModel, Field, validator
from kor import extract_from_documents, from_pydantic, create_extraction_chain

from langchain.schema import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
import torch
from transformers import  AutoModelForCausalLM, AutoTokenizer, AutoModel
from transformers import TextStreamer, pipeline
import os
os.environ['HUGGINGFACEHUB_API_TOKEN'] = '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'
import asyncio
from transformers import AutoConfig, BitsAndBytesConfig
from langchain.output_parsers import PydanticOutputParser

from pdf2image import convert_from_bytes
from PIL import Image
from utils import get_OCR

device = "cuda:0" if torch.cuda.is_available() else "cpu"
# device = torch.device("cpu")

'''----LOAD MODEL----'''
nf4_config = BitsAndBytesConfig(
   load_in_4bit=True,
   bnb_4bit_quant_type="nf4",
   bnb_4bit_use_double_quant=True,
   bnb_4bit_compute_dtype=torch.bfloat16
)

# cache_dir = '/home/vinbig/Documents/PA_Modeling/Prompt/bk_tmp'
# tokenizer = AutoTokenizer.from_pretrained("bkai-foundation-models/vietnamese-llama2-7b-120GB", cache_dir=cache_dir)
# model = AutoModelForCausalLM.from_pretrained("bkai-foundation-models/vietnamese-llama2-7b-120GB", cache_dir=cache_dir)
# model = AutoModelForCausalLM.from_pretrained("bkai-foundation-models/vietnamese-llama2-7b-120GB",cache_dir=cache_dir, quantization_config=nf4_config)

# Load model directly
# cache_dir = '/home/vinbig/Documents/PA_Modeling/Prompt/tmp_medical'
tokenizer = AutoTokenizer.from_pretrained("VietnamAIHub/LLaMA2_Vietnamese_Medical_SFT_13B")
model = AutoModelForCausalLM.from_pretrained("VietnamAIHub/LLaMA2_Vietnamese_Medical_SFT_13B")

streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

text_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.01,
    top_p=0.95,
    repetition_penalty=1.15,
    streamer=streamer,
)

llm = HuggingFacePipeline(pipeline=text_pipeline, model_kwargs={"temperature": 0.01, "max_length":512, "stop": "</exp>"})


In [None]:
import json
import os

def get_label(path):
    with open(path, 'r', encoding='utf-8') as file:
        data = json.load(file)

    # Các trường cần trích xuất
    fields = [
        'current institute',
        'name',
        'gender',
        'birth',
        'address',
        'id bhyt',
        'diagnosis',
        'date in',
        'doctor name'
    ]

    # Tạo dictionary kết quả
    result = {}
    for field in fields:
        if field in data:
            result[field] = data[field]['value']

    return result

def load_conversation(filename):

    with open(filename, 'r') as f:
        conversation = f.read()

    return conversation

# In thông tin kết quả dưới dạng dictionary
# print(result)
# Đọc file JSON
path_txts = '/home/vinbig/Documents/PA_Modeling/Prompt/private_test_Pharma/ocr_text'
path_jsons = '/home/vinbig/Documents/PA_Modeling/Prompt/prescription_label_text/KIEs'
def load_doc_label(path_txts, path_jsons):
    name_txts = os.listdir(path_txts)
    docs = []
    labels = []
    for name in name_txts:
        doc = load_conversation(os.path.join(path_txts, name))

        n = name.split('.')[0] + '.json'
        path = os.path.join(path_jsons, n)
        label = get_label(path)
        docs.append(doc)
        labels.append(label)
    return docs, labels
        

In [None]:
docs, labels = load_doc_label(path_txts, path_jsons)
len(docs), len(labels)


## Tạo example

In [None]:
examples = []
for i in range(len(docs)):
    example = []
    ques = {"question": docs[i]}
    ans = {"answer": "<exp>" + str(labels[i])[1:-1] + "</exp>"}
    ques.update(ans)
    # example.append(ques)
    examples.append(ques)

examples[0]

In [None]:
examples1 = examples[:50]

In [None]:
examples1

In [None]:
example_prompt = PromptTemplate(
    template='''Bạn là chuyên gia trong lĩnh vực y tế. Mục tiêu của bạn là cung cấp cho người dùng thông tin được trích xuất từ kiến ​​thức được cung cấp. Hãy suy nghĩ từng bước một và đừng bao giờ bỏ qua bước nào.
    Dưới đây là những thông tin bạn cần trích xuất:
    - current_institute: Tên bệnh viện/ Tên phòng khám phát hành đơn thuốc
    - name: Tên bệnh nhân
    - gender: Giới tính của bệnh nhân
    - birth: (ngày, tháng) năm sinh bệnh nhân
    - age: Tuổi bệnh nhân
    - address: Địa chỉ bệnh nhân
    - tel_customer: Số điện thoại của bệnh nhân
    - id_bhyt: Số thẻ bảo hiểm y tế của bệnh nhân
    - diagnosis: Chẩn đoán bệnh
    - date_in: Ngày phát hành đơn thuốc
    - doctor_name: Họ tên Bác sĩ kê đơn

    Thông tin: {question}

    Kết quả: {answer}
    ''',
    input_variables=["question", "answer"],
)

prompt = FewShotPromptTemplate(
    examples=examples1,
    example_prompt=example_prompt,
    suffix="Question: {inputText}",
    input_variables=["inputText"], 
)

In [None]:
class Patient(BaseModel):
    current_institute: Optional[str] = Field(
        description="Tên bệnh viện/ Tên phòng khám phát hành đơn thuốc",
    )
    name: Optional[str] = Field(
        description="Tên bệnh nhân",
    )
    gender: Optional[str] = Field(
        description="Giới tính của bệnh nhân",
    )
    birth: Optional[str] = Field(
        description="(ngày, tháng) năm sinh bệnh nhân",
    )
    age: Optional[str] = Field(
        description="Tuổi bệnh nhân",
    )

    address: Optional[str] = Field(
        description="Địa chỉ bệnh nhân",
    )
    tel_customer: Optional[str] = Field(
        description="Số điện thoại của bệnh nhân",
    )
    id_bhyt: Optional[str] = Field(
        description="Số thẻ bảo hiểm y tế của bệnh nhân",
    )
    diagnosis: Optional[str] = Field(
        description="Chẩn đoán bệnh",
    )

    date_in: Optional[str] = Field(
        description="Ngày phát hành đơn thuốc",
    )

    doctor_name: Optional[str] = Field(
        description="Họ tên Bác sĩ kê đơn",
    )


In [None]:
def get_text(ocr_res):
    text = ''
    phrases = ocr_res["phrases"]
    for phrase in phrases:
        text += phrase['text'] + '\n'
    return text

def read_imgs(path_file):
    images = [Image.open(path_file)]

    # get pdf text
    raw_text = ''
    for img in images:
        ocr_res = get_OCR(img, preprocess=False)
        text = get_text(ocr_res)
        raw_text += text
    return raw_text

def get_text_chunks(text):
    doc = Document(page_content=text)
    split_docs = RecursiveCharacterTextSplitter().split_documents([doc])
    return split_docs


path_img = "/home/vinbig/Documents/PA_Modeling/Prompt/prescription_label_text/images/Long_Chau_28.jpg"


text = read_imgs(path_file=path_img)

split_docs = get_text_chunks(text=text)

In [None]:
input_text = prompt.format(inputText = split_docs[0].page_content)

In [None]:
llm(input_text)

# Test Langchain

In [None]:
!pip install --upgrade lm-format-enforcer > /dev/null

In [1]:
import logging
from pydantic import Field
from typing import Optional

from langchain_experimental.pydantic_v1 import BaseModel

logging.basicConfig(level=logging.ERROR)
class Patient(BaseModel):
    current_institute: str
    #
    # # Optional[str] = Field(
    # #     description="Tên bệnh viện/ Tên phòng khám phát hành đơn thuốc",
    # # )
    name: str
    # Optional[str] = Field(
    #     description="Tên bệnh nhân",
    # )
    gender: str
    # Optional[str] = Field(
    #     description="Giới tính của bệnh nhân",
    # )
    birth: str
    # Optional[str] = Field(
    #     description="(ngày, tháng) năm sinh bệnh nhân",
    # )
    age: str
    # Optional[str] = Field(
    #     description="Tuổi bệnh nhân",
    # )

    address: str
    # Optional[str] = Field(
    #     description="Địa chỉ bệnh nhân",
    # )
    tel_customer: str
    # Optional[str] = Field(
    #     description="Số điện thoại của bệnh nhân",
    # )
    id_bhyt: str
    # Optional[str] = Field(
    #     description="Số thẻ bảo hiểm y tế của bệnh nhân",
    # )
    diagnosis: str
    # Optional[str] = Field(
    #     description="Chẩn đoán bệnh",
    # )

    date_in: str
    # Optional[str] = Field(
    #     description="Ngày phát hành đơn thuốc",
    # )

    doctor_name: str
    # Optional[str] = Field(
    #     description="Họ tên Bác sĩ kê đơn",
    # )


In [2]:
hf_token = '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'

In [3]:
import torch
from transformers import AutoConfig, AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

model_id = "bkai-foundation-models/vietnamese-llama2-7b-120GB"

cache_dir = '/home/huynv43/langchain_rag/tmp'
nf4_config = BitsAndBytesConfig(
   load_in_4bit=True,
   bnb_4bit_quant_type="nf4",
   bnb_4bit_use_double_quant=True,
   bnb_4bit_compute_dtype=torch.bfloat16
)

device = "cuda"

if torch.cuda.is_available():
    config = AutoConfig.from_pretrained(model_id)
    config.pretraining_tp = 1
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        config=config,
        # torch_dtype=torch.float16,
        # load_in_8bit=True,
        quantization_config=nf4_config,
        # device_map="auto",
        cache_dir=cache_dir,
        token =  hf_token
    )
else:
    raise Exception("GPU not available")
tokenizer = AutoTokenizer.from_pretrained(model_id, cache_dir=cache_dir,token = hf_token, padding_side="left")
if tokenizer.pad_token_id is None:
    # Required for batching example
    tokenizer.pad_token_id = tokenizer.eos_token_id

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████| 2/2 [00:11<00:00,  5.68s/it]


In [4]:
from kor import  from_pydantic
schema, extraction_validator = from_pydantic(
    Patient,
    description="Bạn là một dược sĩ trung thực. Hãy trích xuất thông tin của đúng 11 trường sau đây chỉ dựa vào ngữ cảnh là nội dung của một đơn thuốc đưa vào: {current_institute, name, gender, birth, age, address, tel_customer, id_bhyt, diagnosis, date_in, doctor_name}. Phản hồi phải được bắt đầu bằng <exp> và kết thúc bằng </exp>. Không được thêm hay bỏ qua bất kỳ thông tin nào. Nếu không biết, bạn chỉ cần trả lời không biết, không được đưa thông tin không có trong tài liệu vào câu trả lời.",
    examples=[
        (
            "ĐƠN THUỐC 01/BV-01\nBệnh viện Hữu Nghị Lạc Việt\n\nTên bệnh nhân: Nguyễn Văn An 45 tuổi \nGiới tính Nam   Số ĐT \n0374685383 GIẤY RA VIỆN\nGhi chú: uống thuốc theo đơn.Tái khám sạu 01 tháng hoặc khi có bất thường Ngày 03 tháng 05 năm 2023 ",
            {"current_institute": "Bệnh viện Hữu Nghị Lạc Việt", "name": "Nguyễn Văn An", "gender":"Nam" , "birth" : "", "age": "45", "address" : "" , "tel_customer" : "0374685383", "id_bhyt" : "", "diagnosis" : "", "date_in" : "Ngày 03 tháng 05 năm 2023", "doctor_name" : ""}

        ),
        (
            " BỆNH BIỆN ĐA KHOA TỈNH \n\n ĐƠN THUỐC BẢO HIỂM Họ và tên Trần Thị Thoán \n   Năm sinh: 1998   Tuổi \n25 Địa chỉ    Xã Trần Hưng Đạo - Huyện Lý Nhân - Tỉnh Hà Nam \nChẩn đoán\n Đau dạ dày, Khó thở, viêm phổi Số thẻ phòng khám 10A1 BHYT:\nBA3763373626123 Lưu ý: Khám lại khi thấy bắt thường và khi hết thuốc.  Ngày 18 tháng 10 năm 2021 Kế toán\nThủ kho\n(Ký và ghi rõ họ, tên)\nNgười bệnh\n(Ký và ghi rõ họ, tên) Bác sĩ khám\nCor.\nLê Văn Chinh",
            {"current_institute": "BỆNH BIỆN ĐA KHOA TỈNH ", "name": "Trần Thị Thoán", "gender":"", "birth" : "1998", "age": "25", "address": "Xã Trần Hưng Đạo - Huyện Lý Nhân - Tỉnh Hà Nam", "tel_customer" : "", "id_bhyt" : "nBA3763373626123", "diagnosis" : "Đau dạ dày, Khó thở, viêm phổi", "date_in" : "Ngày 18 tháng 10 năm 2021", "doctor_name" : "Lê Văn Chinh"}
        ),
        (
            "\n Đường Lê Văn Lương \n Bệnh Viện Mắt Trung Ương  Họ và tên: Phạm Văn Bê \n Tuổi: 50 Phái: Nam  Năm sinh: 1973 \nBảo Hiểm Y Tế \n Số ĐT: 03462648261 \n\nSố thẻ BHYT: MK338745874850166 Địa chỉ \n SN76 Hai Bà Trưng, TP Hà Nội \n\n Chẩn đooán: Bệnh trào ngược dạ dày- thực quản / Cơn đau thắt ngực ổn định ",
            {"current_institute": "Bệnh Viện Mắt Trung Ương", "name": "Phạm Văn Bê", "gender":"Nam", "birth" : "1973", "age": "50", "address": "SN76 Hai Bà Trưng, TP Hà Nội", "tel_customer" : "03462648261", "id_bhyt" : "MK338745874850166", "diagnosis" : "Bệnh trào ngược dạ dày- thực quản / Cơn đau thắt ngực ổn định", "date_in":"", "doctor_name": ""}
        ),
        # (
        #     'SUYIE TP. HU CHI MINH\nMS:\n17D/BV-U1\n14:50\nBệnh Viện Nhi Đồng 1\nSố Hồ Sơ:\nPhòng khám:\nB06-TIÊU HÓA\n416336/22\nSố 532 Lý Thái Tổ P10,Q.10\nSố:\n18172256\nPHIÊU TƯ VÂN\nSẢN PHẨM HỒ TRỢ ĐIỀU TRỊ\nNGUYỄN NGỌC THÚY UYÊN\n:35 Tháng\nCân nặng:\n13 Kg CC:cm\nPhái:\nNữ\nchỉ :249 Lê Sao Phường Phú Thạnh, Quận Tân Phú, TP.Hồ Chí Minh\nời thân:ME\nNGUYỄN NGỌC ĐĂNG TUYÊN\nđiện thoại :0933988790\nMacrogol 3350 5g\n10\nGói\n(Bột pha hỗn dich nhuận tràng peGINPOL)\nNgày uống lần, mỗi lần 1 Gói\nInuline+Fructo Oligosaccharide+Gaaact Oligosaccharide 3g\n20 Gói\n(Infogos)\nNgày uống 2 lần, mỗi lần 1 Gói\nkhoản:\n2\n',
        #     {'current institute': 'Bệnh viện Nhi Đồng 1', 'name': 'NGUYỄN NGỌC THÚY UYÊN', 'gender': 'Nữ', "birth" : "", "age": "",'address': '249 Lê Sao Phường Phú Thanh, Quận Tân Phú, TP.Hồ Chí Minh', "tel_customer" : "", "id_bhyt" : "", "diagnosis" : "", "date_in":"", "doctor_name": ""}
        # ),
        (
            'Yersin\nSố 10 Đường Trương Đinh Phường 6, Quận 3 Thành Phố Hồ Chí Min Việt Nam\nPHÒNG KHÁM ĐA KHOA QUỐC TẾ YERSIN\nInternationa\nThe SymbolofSSiile\nWebsite:\nwww.yersinclinic.cmm\nTOA THUỐC\nBệnh nhân:\nPHÙNG THỊ LƯU\nHSBA:\n228061\nNăm sinh:\n1951\nGiới tính:\nNỮ\nĐịa chỉ:\nSỐ 2 HƯNG GIA 1,P. TÂN PHONG, QUẬN7\nChẩn đoán:\nVIÊM DẠ DÀY-HP(+)\n1) NEXIUM MUPS 40mg\nSố lượng:\n60 viên\n(ESOMEPRAZOLE 40mg)\nuống\n02\nlần, mỗi lần\n01 viên - trước ăn 30 phút- 1\ngiờ\n2) AMEBISMO\nSố lượng:\n60 viên\nBISMUTH SUBSALICYLATE 262mg)\này uống\n02\nlần, mỗi lần\n02 viên - nhai nuốt trước ăn 30\nphút- 1 giờ\nTETRACYCLIN 500mg\nSố lượng:\n60 viên\nấy uống\n02\nlần, mỗi lần\n02 viên\nsau ăn 30 phút-1 giờ\nTINIDAZOLE 500mg\nSố lượng:\n30 viên\nuống\n02\nlần, mỗi lần\n01 viên sau ăn 30 phút-1giờ\n) MOTILIUM-M\nSố lượng:\n30 viên\nuống\n02\nlần, mỗi lần\n01 viên - trước ăn 30 phút-1 giờ\nENTEROGERMINA\nSố lượng:\n30 ống\ny uống\n02\nlần, mỗi lần\n01 ống\n- trước ăn 30 phút-1 giò\nKIÊNG ĂN:\nRAU SÓNG, MẮM,\nNgày 28 tháng 11 năm 2023\nNƯỚC CÓ GA, DƯA CÀ MUỐI,\nNGHÊU SÒ ÓC, XOÀI, THƠM,\nBác sĩ điều trị\nSỮA, RƯỢU BIA\nV\nTÁI KHÁM:\n16 /01/ 2023\nBS. TRẦN VĂN HUY\n',
            {'current institute': 'PHÒNG KHÁM ĐA KHOA QUỐC TẾ YERSIN', 'name': 'PHÙNG THỊ LƯU', 'gender': 'NỮ', 'birth': '1951', "age": "", 'address': '5 ĐƯỜNG SỐ 2, HƯNG GIA 1, P. TÂN PHONG, QUẬN 7', "tel_customer" : "", "id_bhyt" : "", 'diagnosis': 'VIÊM DẠ DÀY - HP (+)', 'date in': 'Ngày 28 tháng 11 năm 2023', 'doctor name': 'BS. TRẦN VĂN HUY'}

        )
    ],
    many=True
    )


AttributeError: type object 'Patient' has no attribute 'model_fields'

In [None]:
# SYSTEM_PROMPT = '''Bạn là chuyên gia trong lĩnh vực y tế. Mục tiêu của bạn là cung cấp cho người dùng thông tin được trích xuất từ kiến ​​thức được cung cấp. Hãy suy nghĩ từng bước một và đừng bao giờ bỏ qua bước nào.
#     Dưới đây là những thông tin bạn cần trích xuất:
#     - current_institute: Tên bệnh viện/ Tên phòng khám phát hành đơn thuốc
#     - name: Tên bệnh nhân
#     - gender: Giới tính của bệnh nhân
#     - birth: (ngày, tháng) năm sinh bệnh nhân
#     - age: Tuổi bệnh nhân
#     - address: Địa chỉ bệnh nhân
#     - tel_customer: Số điện thoại của bệnh nhân
#     - id_bhyt: Số thẻ bảo hiểm y tế của bệnh nhân
#     - diagnosis: Chẩn đoán bệnh
#     - date_in: Ngày phát hành đơn thuốc
#     - doctor_name: Họ tên Bác sĩ kê đơn
# '''


# def generate_prompt(prompt: str, system_prompt: str = SYSTEM_PROMPT) -> str:
#     return f"""
# ### Câu hỏi:

# {system_prompt}
# {prompt}


# ### Trả lời:
# """.strip()

# template = generate_prompt(
#     """
# Câu hỏi: {question}

# Trả lời: {answer}
# """,
#     system_prompt=SYSTEM_PROMPT,
# )


# example_prompt = PromptTemplate(template=template, input_variables=["question", "answer"])


In [None]:
DEFAULT_SYSTEM_PROMPT = """
Bạn là chuyên gia trong lĩnh vực y tế. Mục tiêu của bạn là cung cấp cho người dùng thông tin được trích xuất từ đơn thuốc. Hãy suy nghĩ từng bước một và đừng bao giờ bỏ qua bước nào.
    Dưới đây là những thông tin bạn cần trích xuất:
    - current_institute: Tên bệnh viện/ Tên phòng khám phát hành đơn thuốc
    - name: Tên bệnh nhân
    - gender: Giới tính của bệnh nhân
    - birth: (ngày, tháng) năm sinh bệnh nhân
    - age: Tuổi bệnh nhân
    - address: Địa chỉ bệnh nhân
    - tel_customer: Số điện thoại của bệnh nhân
    - id_bhyt: Số thẻ bảo hiểm y tế của bệnh nhân
    - diagnosis: Chẩn đoán bệnh
    - date_in: Ngày phát hành đơn thuốc
    - doctor_name: Họ tên Bác sĩ kê đơn
"""

prompt = """Hãy trích xuất thông tin trong đơn thuốc sau {context}. Bạn phải phản hồi bằng định dạng JSON theo sơ đồ sau:

{arg_schema}

"""


def make_instruction_prompt(message):
    return f"[INST] <<SYS>>\n{DEFAULT_SYSTEM_PROMPT}\n<</SYS>> {message} [/INST]"


def get_prompt(context):
    return make_instruction_prompt(
        prompt.format(
            context=context, arg_schema=Patient.schema_json()
        )
    )

In [None]:
from langchain.llms import HuggingFacePipeline
from kor import extract_from_documents, from_pydantic, create_extraction_chain

from transformers import pipeline

text_pipeline = pipeline(
    "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=200
)

llm = HuggingFacePipeline(pipeline = text_pipeline, model_kwargs={"temperature": 0.0, "max_length":512})

chain = create_extraction_chain(
    llm,
    schema,
    # encoder_or_encoder_class="csv",
    validator=extraction_validator,
    encoder_or_encoder_class="json", 
    input_formatter=None, 
)


In [None]:
path_input = '/home/vinbig/Documents/PA_Modeling/Prompt/private_test_Pharma/ocr_text/Long_Chau_413.txt'
def load_conversation(filename):

    with open(filename, 'r') as f:
        conversation = f.read()

    return conversation
input = load_conversation(path_input).replace('\n', "\t")

In [None]:
input

In [None]:
generated = chain.run(get_prompt(input))
print(generated)