In [1]:
from ai_python_services.ai_agents import (
    # LLM Agents
    LLMAgent,
    OpenAIAgent,
    AnthropicAgent,
    GoogleAgent,
    # Audio-to-Text Agents
    AudioToTextAgent,
    OpenAITranscriptAgent,
    GoogleTranscriptAgent,
    # Vision-Language Model Agents
    VLMAgent,
    OpenAIVisionAgent,
    AnthropicVisionAgent,
    GoogleVisionAgent,
    # Enum
    Language,
    OpenAIModel,
    AnthropicModel,
    GoogleModel,
    OpenAITranscriptModel,
    GoogleTranscriptModel,
    OpenAIVisionModel,
    AnthropicVisionModel,
    GoogleVisionModel,
)

from typing import cast, Any
from dotenv import load_dotenv
from mimetypes import guess_type
from pathlib import Path
from pydantic import BaseModel


load_dotenv()

True

In [2]:
class AudioAgent:
    def __init__(self, audio_agent: AudioToTextAgent):
        self.audio_agent = audio_agent

    def transcribe(self, audio_input: bytes, mime_type: str = "audio/mp3") -> str:
        return self.audio_agent.transcribe(audio_input=audio_input, mime_type=mime_type)


# Initialize the audio agent with OpenAI's transcription capabilities

openai_transcription_agent = OpenAITranscriptAgent(
    model_name=OpenAITranscriptModel.GPT_4O_TRANSCRIBE,
    prompt="You are listening to a doctor/doctors taking patient's history.",
    language=Language.VI_VN,  # Default to Vietnamese
)

google_transcription_agent = GoogleTranscriptAgent(
    model_name=GoogleTranscriptModel.GEMINI_2_5_PRO_PREVIEW,
    prompt="You are listening to a doctor/doctors taking patient's history.",
    language=Language.VI_VN,  # Default to Vietnamese
)

audio_agent = AudioAgent(audio_agent=google_transcription_agent)

# Usage example:
audio_file_path = "tests\\audio_test.m4a"  # Replace with your audio file path
audio_bytes = open(audio_file_path, "rb").read()
transcript = audio_agent.transcribe(
    audio_input=audio_bytes, mime_type=guess_type(audio_file_path)[0] or "audio/mp3"
)
print(transcript)

Hello các bạn, mình là Hùng.


In [None]:
class PatientNote(BaseModel):
    patient_name: str
    age: int
    current_signs_and_symptom: str
    previous_medical_history: str
    current_medication: str
    
    concerns: list[str]
    


class VisionAgent:
    def __init__(self, vision_agent: VLMAgent):
        self.vision_agent = vision_agent

    def analyze(
        self,
        images: list[bytes],
        input_text: str = "",
        images_mime_type: list[str] | str = "image/png",
    ) -> dict:
        result: dict[str, Any] = cast(
            dict[str, Any],
            self.vision_agent.analyze_images(
                images=images,
                input_text=input_text,
                output_format=PatientNote,
                images_mime_type=images_mime_type,
            ),
        )
        return result


# Initialize the vision agent with OpenAI's vision capabilities
openai_vision_agent = OpenAIVisionAgent(
    model_name=OpenAIVisionModel.GPT_4_1,
    prompt="You are a medical assistant listening to a doctor's interview with a patient and reviewing their medical records. Summarize the patient's information for the electronic health record. If there are discrepancies, use your best judgment to fill in gaps and raise any concerns for the doctor.",
    language=Language.VI_VN,  # Default to Vietnamese
)

google_vision_agent = GoogleVisionAgent(
    model_name=GoogleVisionModel.GEMINI_2_5_PRO_PREVIEW,
    prompt="You are a medical assistant listening to a doctor's interview with a patient and reviewing their medical records. Summarize the patient's information for the electronic health record. If there are discrepancies, use your best judgment to fill in gaps and raise any concerns for the doctor.",
    language=Language.VI_VN,  # Default to Vietnamese
)

anthropic_vision_agent = AnthropicVisionAgent(
    model_name=AnthropicVisionModel.CLAUDE_SONNET_4,
    prompt="You are a medical assistant listening to a doctor's interview with a patient and reviewing their medical records. Summarize the patient's information for the electronic health record. If there are discrepancies, use your best judgment to fill in gaps and raise any concerns for the doctor.",
    language=Language.VI_VN,  # Default to Vietnamese
)


In [23]:
# Transcript the converssation
audio_file_path = "data\\0.cvh-stemi\\cvh.m4a"
audio_bytes = open(audio_file_path, "rb").read()
first_transcript = audio_agent.transcribe(
    audio_input=audio_bytes, mime_type=guess_type(audio_file_path)[0] or "audio/mp3"
)

In [24]:
first_transcript

'Dạ. Anh làm gì ý nhỉ?\n- Tim mạch.\n- Tim mạch là sao nhỉ? Anh lấy thuốc cho ông à?\n- Vâng ạ.\n- Bảo ông vào đây đi, em không nhớ ông đâu. Bảo ông vào đây.\n- Ông khám bây giờ đây rồi.\nSáng nay ông đi khám về làm sao đây ông?\n- Khám chiều.\n- Ông khám chiều nay à? Đơn thuốc cũ của ông đâu ấy nhỉ?\n- Đây.\n- Có đấy.\n- Đơn ông phải cầm chứ?\n- Có.\n- Đơn thuốc cũ.\n- Đơn thuốc cũ ở đâu đấy?\n- Đây ạ.\nTrước ông có đặt stent không?\n- Không đặt được.\n- Nhồi máu cơ tim mà muộn quá không đặt được stent đúng không?\n- Vâng ạ.\n- Ok.\n- Có hút thuốc không?\n- Ông bị tiểu đường nữa nhỉ?\n- Tiểu đường.\n- Ừ.\nĐể cháu kê đơn cho ông nhá. Tháng này các xét nghiệm của ông thì cháu thấy tốt thôi. Nhưng đường máu vẫn hơi cao, đường máu này là sau ăn thì nó hơi cao tí chấp nhận được. Ông có suy thận một tí, ông có biết không?\n- Không.\n- Ông suy thận khoảng độ một, độ một thôi nhá. Độ một chấm, độ hai gì đấy. Cái thứ hai là ông có... nhồi máu cơ tim thì ông vẫn phải dùng thuốc chống đông nhá, 

In [4]:
first_transcript = "Dạ. Anh làm gì ý nhỉ?\n- Tim mạch.\n- Tim mạch là sao nhỉ? Anh lấy thuốc cho ông à?\n- Vâng ạ.\n- Bảo ông vào đây đi, em không nhớ ông đâu. Bảo ông vào đây.\n- Ông khám bây giờ đây rồi.\nSáng nay ông đi khám về làm sao đây ông?\n- Khám chiều.\n- Ông khám chiều nay à? Đơn thuốc cũ của ông đâu ấy nhỉ?\n- Đây.\n- Có đấy.\n- Đơn ông phải cầm chứ?\n- Có.\n- Đơn thuốc cũ.\n- Đơn thuốc cũ ở đâu đấy?\n- Đây ạ.\nTrước ông có đặt stent không?\n- Không đặt được.\n- Nhồi máu cơ tim mà muộn quá không đặt được stent đúng không?\n- Vâng ạ.\n- Ok.\n- Có hút thuốc không?\n- Ông bị tiểu đường nữa nhỉ?\n- Tiểu đường.\n- Ừ.\nĐể cháu kê đơn cho ông nhá. Tháng này các xét nghiệm của ông thì cháu thấy tốt thôi. Nhưng đường máu vẫn hơi cao, đường máu này là sau ăn thì nó hơi cao tí chấp nhận được. Ông có suy thận một tí, ông có biết không?\n- Không.\n- Ông suy thận khoảng độ một, độ một thôi nhá. Độ một chấm, độ hai gì đấy. Cái thứ hai là ông có... nhồi máu cơ tim thì ông vẫn phải dùng thuốc chống đông nhá, không bỏ được đâu nhá.\n- Vâng.\n- Không bỏ là là tèo đấy. Chức năng tim thì hiện tại bảo tồn, người ta gọi là suy tim mức độ nhẹ thôi nhá.\nThế thì bây giờ của ông sẽ có... Ông bảo hiểm nhỉ?\n- Vâng ạ.\nLoại nào cháu kê bảo hiểm, ông có lấy bảo hiểm, loại nào kê ngoài ông mua ngoài cho cháu nhá.\n- Vâng.\nBây giờ nhịp tim của ông khoảng bao nhiêu?\n- Cũng không nắm được.\n- Huyết áp của ông bây giờ khoảng bao nhiêu?\n- Huyết áp 130, 120.\n- 130, 120 à?\nMỡ máu của ông vẫn còn hơi cao nhẹ tí, thôi cũng được. So với tháng trước là chức năng tim ông tháng này tốt hơn đấy. Tốt hơn ngày xưa.\n- Bây giờ có đặt được không ạ?\n- Không, muộn rồi không đặt được. Đặt cũng không đặt ra vấn đề đặt làm gì.\n- Tám thuốc nhỉ. Tám thuốc thì đây được à... Một thuốc phải mua này, hai thuốc phải mua này, ba thuốc...\n- Ở nhà ông hay thử tiểu đường không? Đường máu của ông khoảng bao nhiêu?\n- Đường máu, đường máu khoảng bao nhiêu?\n- Khoảng bao nhiêu ạ?\n- Ông không thử à?\n- Có, có thử nhưng mà...\n- Khoảng bao nhiêu thôi?\n- Cái gì, cái gì ạ?\n- Đường máu ở nhà ông bình thường ông hay thử khoảng bao nhiêu? Tại vì đường máu đây là sau ăn thôi nên là 11 cũng là hơi cao. Thì đường máu bình thường ở nhà ông hay kiểm tra là khoảng bao nhiêu chị nhỉ?\n- Không rõ được thì thỉnh thoảng cái ông này.\n- Cũng oái oăm quá nhỉ. Ông có có có có ấy không nhỉ, có cái máy kiểm tra tiểu đường không?\n- Đường máu đây là test tiểu đường phải không ạ?\n- Vâng, test tiểu đường đấy.\n- Vâng vâng để em hỏi.\n- 7.5 mấy trong á.\n- 7.5 đấy hả?\n- Đúng rồi.\n- Cũng hơi cao.\n- Cái chống đông của ông này chịu khó dùng khoảng ba tháng nhá. Sau đó ổn thì bọn em chuyển sang thuốc bảo hiểm, tại vì mấy tháng đầu nó quan trọng. Can thiệp bây giờ thì không đặt ra vấn đề nữa, tại vì mình làm nó chỉ có tốn tiền thôi. Có điều là bây giờ mình sẽ nâng chức năng tim lên bằng cái, bằng thuốc nhé.\n- Vâng.\n- Đây thuốc tự túc này. Thuốc bảo hiểm này.\n- Thôi giấy hẹn tái khám lại.\n- Rồi, về đi ạ. Xong nhá.\n- Vâng, vâng cảm ơn bác.\n- Vâng, vâng.\n- Cái ca người quen em ngày xưa bà mổ cái cột sống ổn không?\n- Dạ?\n- Ổn không?"


In [5]:
data_folder = "data\\0.cvh-stemi"

# Define a list of image file extensions
IMAGE_EXTENSIONS = {".jpg", ".jpeg", ".png", ".gif", ".bmp", ".tiff"}


def get_all_image_files_in_folder(folder_path: str) -> list[str]:
    return [
        str(file)
        for file in Path(folder_path).rglob("*")
        if file.is_file() and file.suffix.lower() in IMAGE_EXTENSIONS
    ]


image_file_paths = get_all_image_files_in_folder(data_folder)

vision_agent = VisionAgent(vision_agent=google_vision_agent)

ehr = vision_agent.analyze(
    images=[open(image_path, "rb").read() for image_path in image_file_paths],
    input_text=first_transcript,
    images_mime_type=[
        guess_type(image_path)[0] or "image/jpg" for image_path in image_file_paths
    ],
)


KeyboardInterrupt: 

In [13]:
ehr

{'patient_name': 'Cao Văn Hợp',
 'age': 65,
 'current_signs_and_symptom': 'Bệnh nhân tái khám để theo dõi bệnh tim mạch và lấy thuốc. Các chỉ số hiện tại: huyết áp 140/90 mmHg (theo hồ sơ), đường huyết sau ăn 11 mmol/L và tại nhà khoảng 7.5 mmol/L (hơi cao). Bác sĩ nhận định chức năng tim có cải thiện nhưng vẫn còn suy tim mức độ nhẹ và mỡ máu hơi cao.',
 'previous_medical_history': 'Tiền sử nhồi máu cơ tim nhưng không đặt được stent do đến muộn. Ngoài ra còn có bệnh đái tháo đường, tăng huyết áp, và rối loạn lipid máu. Ghi nhận mới có suy thận mạn độ 1-2 mà bệnh nhân không biết.',
 'current_medication': 'Đang theo dõi để nhận đơn thuốc mới. Bác sĩ nhấn mạnh tầm quan trọng của việc duy trì thuốc chống đông máu và sẽ kê đơn kết hợp thuốc bảo hiểm y tế và thuốc bệnh nhân tự túc mua ngoài để cải thiện chức năng tim.',
 'concerns': ["Có sự mâu thuẫn lớn trong hồ sơ: Hồ sơ bệnh án điện tử ghi 'Tiền sử bệnh: stent động mạch vành RCA tháng 1/2025', nhưng trong cuộc trao đổi, cả bác sĩ và bệnh