In [None]:
# langchain_google_genai 패키지 설치
!pip install langchain-google-genai

# 관련 패키지 설치
!pip install google-generativeai langchain langchain_community faiss-cpu

In [2]:
import os
import json
import logging
from datetime import datetime
from pathlib import Path
import concurrent.futures
import torch
from tqdm import tqdm


In [5]:
import os
import json
import logging
import time
from datetime import datetime
from pathlib import Path
import concurrent.futures
import torch
from tqdm import tqdm
import random

# 로깅 설정
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

class MedicalVectorStore:
    """
    의료 데이터를 위한 벡터 스토어 구축 클래스
    """
    def __init__(self, data_path="./medical_data", vector_store_path="./vector_stores", use_gpu=True, api_key=None):
        """
        초기화 함수
        
        Args:
            data_path: 의료 데이터가 저장된 경로
            vector_store_path: 벡터 스토어를 저장할 경로
            use_gpu: GPU 사용 여부
            api_key: Google Gemini API 키
        """
        self.data_path = Path(data_path)
        self.vector_store_path = Path(vector_store_path)
        self.api_key = api_key

        # 기본 디렉토리 생성
        self.data_path.mkdir(parents=True, exist_ok=True)
        self.vector_store_path.mkdir(parents=True, exist_ok=True)

        # GPU 사용 여부 확인
        self.device = "cuda" if use_gpu and torch.cuda.is_available() else "cpu"
        logger.info(f"Using device: {self.device}")

        # API 키 확인
        if not self.api_key:
            raise ValueError("Gemini API 키가 필요합니다.")

        # Gemini embedding 사용을 위한 설정
        from langchain_google_genai import GoogleGenerativeAIEmbeddings

        self.embeddings = GoogleGenerativeAIEmbeddings(
            model="models/gemini-embedding-exp-03-07",
            google_api_key=self.api_key,
            task_type="RETRIEVAL_DOCUMENT"
        )

        # API 속도 제한 관리를 위한 변수 추가
        self.request_timestamps = []  # API 요청 시간 기록
        self.max_requests_per_minute = 4  # 분당 최대 요청 수 (약간 여유 있게)
        self.max_requests_per_day = 90   # 하루 최대 요청 수 (여유 있게)
        self.daily_request_count = 0
        self.daily_reset_time = time.time() + 86400  # 24시간 후 초기화

        from langchain.text_splitter import RecursiveCharacterTextSplitter

        # 문서 분할기 설정 - 더 작은 청크 크기로 조정
        self.text_splitter = RecursiveCharacterTextSplitter(
            chunk_size=500,  # 1000에서 500으로 줄임
            chunk_overlap=100,  # 200에서 100으로 줄임
            separators=["\n\n", "\n", ". ", " ", ""],
            length_function=len
        )

    def _wait_for_rate_limit(self):
        """API 요청 속도 제한을 관리하는 메서드"""
        current_time = time.time()
        
        # 하루 제한 확인 및 초기화
        if current_time > self.daily_reset_time:
            logger.info("일일 요청 카운터 초기화")
            self.daily_request_count = 0
            self.daily_reset_time = current_time + 86400
        
        # 하루 제한에 도달했는지 확인
        if self.daily_request_count >= self.max_requests_per_day:
            remaining_time = self.daily_reset_time - current_time
            logger.warning(f"일일 API 요청 한도({self.max_requests_per_day}회)에 도달했습니다. {remaining_time/3600:.1f}시간 후 재설정됩니다.")
            time.sleep(min(remaining_time, 3600))  # 최대 1시간 대기
            return self._wait_for_rate_limit()  # 재귀적으로 다시 확인
        
        # 분당 요청 제한 관리
        # 지난 60초 동안의 요청만 유지
        self.request_timestamps = [t for t in self.request_timestamps if current_time - t < 60]
        
        # 분당 요청 수 확인
        if len(self.request_timestamps) >= self.max_requests_per_minute:
            # 가장 오래된 요청 시간 + 60초가 되어야 새 요청 가능
            oldest_request = min(self.request_timestamps)
            wait_time = (oldest_request + 60) - current_time + random.uniform(1, 3)  # 약간의 버퍼 추가
            logger.info(f"분당 요청 한도({self.max_requests_per_minute}회)에 도달했습니다. {wait_time:.1f}초 대기 중...")
            time.sleep(max(wait_time, 0))  # 음수가 되지 않도록
            return self._wait_for_rate_limit()  # 재귀적으로 다시 확인

    # 임베딩 처리를 위한 재시도 래퍼 메서드 수정
    def _embed_with_retry(self, texts, max_retries=5, retry_delay=10):
        """
        API 제한으로 인한 오류 발생 시 재시도 로직
        """
        retries = 0
        while retries < max_retries:
            try:
                # 속도 제한 관리
                self._wait_for_rate_limit()
                
                # 현재 시간 기록
                current_time = time.time()
                self.request_timestamps.append(current_time)
                self.daily_request_count += 1
                
                logger.info(f"임베딩 API 호출 (배치 크기: {len(texts)}, 분당 요청: {len(self.request_timestamps)}/{self.max_requests_per_minute}, 일일 요청: {self.daily_request_count}/{self.max_requests_per_day})")
                
                # 작은 배치 크기 사용
                return self.embeddings.embed_documents(texts, batch_size=1)  # 배치 크기를 1로 줄임
            except Exception as e:
                logger.warning(f"임베딩 생성 중 오류 발생 (시도 {retries+1}/{max_retries}): {e}")
                retries += 1
                if retries >= max_retries:
                    logger.error(f"최대 재시도 횟수 초과. 실패: {e}")
                    raise
                # 지수 백오프 - 각 재시도마다 대기 시간 증가
                wait_time = retry_delay * (2 ** (retries - 1)) + random.uniform(1, 5)
                logger.info(f"{wait_time:.1f}초 후 재시도합니다...")
                time.sleep(wait_time)

    def load_medical_data(self, file_pattern="*_patients.json"):
        """
        의료 데이터 로드 - 병렬 처리
        """
        import glob

        data_files = list(self.data_path.glob(file_pattern))

        if not data_files:
            logger.warning(f"No files matching {file_pattern} found in {self.data_path}")
            return []

        # 병렬 처리로 여러 파일 동시 로드
        documents = []

        with concurrent.futures.ThreadPoolExecutor(max_workers=min(len(data_files), os.cpu_count())) as executor:
            future_to_file = {
                executor.submit(self._load_single_file, file_path): file_path
                for file_path in data_files
            }

            for future in tqdm(concurrent.futures.as_completed(future_to_file),
                               total=len(future_to_file),
                               desc="Loading files"):
                file_docs = future.result()
                if file_docs:
                    documents.extend(file_docs)

        logger.info(f"Loaded {len(documents)} total documents from medical data")
        return documents

    def _load_single_file(self, file_path):
        # 기존 코드와 동일
        try:
            with open(file_path, 'r', encoding='utf-8') as f:
                patients = json.load(f)

            department = file_path.stem.replace("_patients", "")
            logger.info(f"Loading {len(patients)} patients from {department} department")

            # 각 환자 정보를 문서로 변환
            docs = []
            for patient in patients:
                docs.extend(self._convert_patient_to_documents(patient, department))

            return docs

        except Exception as e:
            logger.error(f"Error loading {file_path}: {e}")
            return []

    def _convert_patient_to_documents(self, patient, department):
        """
        환자 정보를 여러 개의 문서로 변환 (세분화된 정보)
        """
        from langchain.schema import Document

        documents = []

        # 환자 기본 정보 문서
        basic_info = f"""
        환자 ID: {patient['id']}
        이름: {patient['name']}
        성별: {patient['gender']}
        나이: {patient['age']}
        생년월일: {patient['birthdate']}
        혈액형: {patient.get('blood_type', '정보 없음')}
        키: {patient.get('height', '정보 없음')} cm
        체중: {patient.get('weight', '정보 없음')} kg
        BMI: {patient.get('bmi', '정보 없음')}
        주소: {patient.get('address', '정보 없음')}
        전화번호: {patient.get('phone', '정보 없음')}
        보험: {patient.get('insurance', '정보 없음')}
        진료과: {department}
        """

        if patient.get('allergies'):
            basic_info += f"\n알레르기: {', '.join(patient['allergies'])}"

        if patient.get('smoking'):
            basic_info += f"\n흡연: {patient['smoking']['status']}"
            if patient['smoking'].get('details'):
                basic_info += f" ({patient['smoking']['details']})"

        if patient.get('alcohol'):
            basic_info += f"\n음주: {patient['alcohol']['status']}"
            if patient['alcohol'].get('details'):
                basic_info += f" ({patient['alcohol']['details']})"

        documents.append(Document(
            page_content=basic_info.strip(),
            metadata={
                "patient_id": patient['id'],
                "name": patient['name'],
                "gender": patient['gender'],
                "age": patient['age'],
                "department": department,
                "document_type": "basic_info"
            }
        ))

        # 진단 정보 문서
        if patient.get('diagnoses'):
            for i, diagnosis in enumerate(patient['diagnoses']):
                diagnosis_doc = f"""
                환자 ID: {patient['id']}
                이름: {patient['name']}
                성별: {patient['gender']}
                나이: {patient['age']}

                [진단 정보 {i+1}]
                진단명: {diagnosis['name']}
                ICD10 코드: {diagnosis.get('icd10', '정보 없음')}
                진단일: {diagnosis.get('date', '정보 없음')}
                진단 의사: {diagnosis.get('doctor', '정보 없음')} (ID: {diagnosis.get('doctor_id', '정보 없음')})
                확신도: {diagnosis.get('confidence', '정보 없음')}
                상태: {diagnosis.get('status', '정보 없음')}
                중증도: {diagnosis.get('severity', '정보 없음')}
                메모: {diagnosis.get('memo', '정보 없음')}
                증상: {', '.join(diagnosis.get('symptoms', ['정보 없음']))}
                """

                documents.append(Document(
                    page_content=diagnosis_doc.strip(),
                    metadata={
                        "patient_id": patient['id'],
                        "name": patient['name'],
                        "gender": patient['gender'],
                        "age": patient['age'],
                        "department": department,
                        "document_type": "diagnosis",
                        "diagnosis_name": diagnosis['name'],
                        "diagnosis_date": diagnosis.get('date', ''),
                        "diagnosis_status": diagnosis.get('status', '')
                    }
                ))

        # 약물 정보 문서
        if patient.get('medications'):
            for i, medication in enumerate(patient['medications']):
                medication_doc = f"""
                환자 ID: {patient['id']}
                이름: {patient['name']}
                성별: {patient['gender']}
                나이: {patient['age']}

                [약물 정보 {i+1}]
                약물명: {medication['medication']}
                약물 분류: {medication.get('class', '정보 없음')}
                처방일: {medication.get('prescription_date', '정보 없음')}
                처방 기간: {medication.get('duration_days', '정보 없음')}일
                용량: {medication.get('dosage', '정보 없음')}
                빈도: {medication.get('frequency', '정보 없음')}
                재처방 횟수: {medication.get('refill', '정보 없음')}
                처방 의사: {medication.get('doctor', '정보 없음')} (ID: {medication.get('doctor_id', '정보 없음')})
                관련 진단: {medication.get('related_diagnosis', '정보 없음')}
                특별 지시사항: {medication.get('special_instructions', '정보 없음')}
                """

                documents.append(Document(
                    page_content=medication_doc.strip(),
                    metadata={
                        "patient_id": patient['id'],
                        "name": patient['name'],
                        "gender": patient['gender'],
                        "age": patient['age'],
                        "department": department,
                        "document_type": "medication",
                        "medication_name": medication['medication'],
                        "medication_class": medication.get('class', ''),
                        "related_diagnosis": medication.get('related_diagnosis', '')
                    }
                ))

        # 검사 결과 문서
        if patient.get('lab_results'):
            for i, lab in enumerate(patient['lab_results']):
                lab_doc = f"""
                환자 ID: {patient['id']}
                이름: {patient['name']}
                성별: {patient['gender']}
                나이: {patient['age']}

                [검사 결과 {i+1}]
                검사일: {lab.get('date', '정보 없음')}
                검사 유형: {lab.get('test_type', '정보 없음')}
                검사 요청 의사: {lab.get('ordering_doctor', '정보 없음')} (ID: {lab.get('ordering_doctor_id', '정보 없음')})
                검사 ID: {lab.get('lab_id', '정보 없음')}
                검체 채취 시간: {lab.get('collection_time', '정보 없음')}
                보고 시간: {lab.get('report_time', '정보 없음')}

                결과 항목:
                """

                for test_name, test_result in lab.get('results', {}).items():
                    lab_doc += f"""
                    - {test_name}: {test_result.get('value', '정보 없음')} {test_result.get('unit', '')}
                      (정상 범위: {test_result.get('normal_range', '정보 없음')})
                      {test_result.get('flag', '')}
                    """

                if lab.get('interpretation'):
                    lab_doc += f"\n해석: {lab['interpretation']}"

                documents.append(Document(
                    page_content=lab_doc.strip(),
                    metadata={
                        "patient_id": patient['id'],
                        "name": patient['name'],
                        "gender": patient['gender'],
                        "age": patient['age'],
                        "department": department,
                        "document_type": "lab_result",
                        "lab_date": lab.get('date', ''),
                        "test_type": lab.get('test_type', '')
                    }
                ))

        # 영상 검사 문서
        if patient.get('imaging_studies'):
            for i, study in enumerate(patient['imaging_studies']):
                imaging_doc = f"""
                환자 ID: {patient['id']}
                이름: {patient['name']}
                성별: {patient['gender']}
                나이: {patient['age']}

                [영상 검사 {i+1}]
                검사일: {study.get('date', '정보 없음')}
                검사 유형: {study.get('study_type', '정보 없음')}
                검사 요청 의사: {study.get('ordering_doctor', '정보 없음')} (ID: {study.get('ordering_doctor_id', '정보 없음')})
                영상의학과 의사: {study.get('radiologist', '정보 없음')}
                검사 ID: {study.get('study_id', '정보 없음')}

                소견: {study.get('findings', '정보 없음')}
                판독: {study.get('impression', '정보 없음')}
                추천: {study.get('recommendation', '정보 없음')}
                """

                documents.append(Document(
                    page_content=imaging_doc.strip(),
                    metadata={
                        "patient_id": patient['id'],
                        "name": patient['name'],
                        "gender": patient['gender'],
                        "age": patient['age'],
                        "department": department,
                        "document_type": "imaging_study",
                        "study_date": study.get('date', ''),
                        "study_type": study.get('study_type', '')
                    }
                ))

        # 시술 및 수술 문서
        if patient.get('procedures'):
            for i, procedure in enumerate(patient['procedures']):
                procedure_doc = f"""
                환자 ID: {patient['id']}
                이름: {patient['name']}
                성별: {patient['gender']}
                나이: {patient['age']}

                [시술/수술 {i+1}]
                시술일: {procedure.get('date', '정보 없음')}
                시술명: {procedure.get('name', '정보 없음')}
                설명: {procedure.get('description', '정보 없음')}
                시술 의사: {procedure.get('performing_doctor', '정보 없음')} (ID: {procedure.get('performing_doctor_id', '정보 없음')})
                시술 ID: {procedure.get('procedure_id', '정보 없음')}
                위치: {procedure.get('location', '정보 없음')}
                마취: {procedure.get('anesthesia', '정보 없음')}
                소요 시간: {procedure.get('duration_minutes', '정보 없음')}분
                결과: {procedure.get('outcome', '정보 없음')}
                """

                if procedure.get('complications'):
                    procedure_doc += f"\n합병증: {', '.join(procedure['complications'])}"

                procedure_doc += f"\n추적 관찰: {procedure.get('follow_up', '정보 없음')}"

                documents.append(Document(
                    page_content=procedure_doc.strip(),
                    metadata={
                        "patient_id": patient['id'],
                        "name": patient['name'],
                        "gender": patient['gender'],
                        "age": patient['age'],
                        "department": department,
                        "document_type": "procedure",
                        "procedure_date": procedure.get('date', ''),
                        "procedure_name": procedure.get('name', ''),
                        "outcome": procedure.get('outcome', '')
                    }
                ))

        # 진료 기록 문서
        if patient.get('visits'):
            for i, visit in enumerate(patient['visits']):
                visit_doc = f"""
                환자 ID: {patient['id']}
                이름: {patient['name']}
                성별: {patient['gender']}
                나이: {patient['age']}

                [진료 기록 {i+1}]
                방문 ID: {visit.get('visit_id', '정보 없음')}
                방문일: {visit.get('date', '정보 없음')}
                방문 시간: {visit.get('time', '정보 없음')}
                방문 유형: {visit.get('type', '정보 없음')}
                진료과: {visit.get('department', '정보 없음')}
                담당 의사: {visit.get('doctor', '정보 없음')} (ID: {visit.get('doctor_id', '정보 없음')})
                주 호소: {visit.get('chief_complaint', '정보 없음')}

                활력 징후:
                수축기 혈압: {visit.get('vital_signs', {}).get('systolic_bp', '정보 없음')} mmHg
                이완기 혈압: {visit.get('vital_signs', {}).get('diastolic_bp', '정보 없음')} mmHg
                맥박: {visit.get('vital_signs', {}).get('pulse', '정보 없음')} bpm
                체온: {visit.get('vital_signs', {}).get('temperature', '정보 없음')} °C
                호흡수: {visit.get('vital_signs', {}).get('respiratory_rate', '정보 없음')} /분
                산소포화도: {visit.get('vital_signs', {}).get('oxygen_saturation', '정보 없음')} %
                """

                if 'blood_glucose' in visit.get('vital_signs', {}):
                    visit_doc += f"혈당: {visit['vital_signs']['blood_glucose']} mg/dL\n"

                visit_doc += f"""
                임상 노트:
                주관적(S): {visit.get('clinical_note', {}).get('subjective', '정보 없음')}
                객관적(O): {visit.get('clinical_note', {}).get('objective', '정보 없음')}
                평가(A): {visit.get('clinical_note', {}).get('assessment', '정보 없음')}
                계획(P): {visit.get('clinical_note', {}).get('plan', '정보 없음')}

                진료 시간: {visit.get('duration_minutes', '정보 없음')}분
                """

                if visit.get('next_appointment'):
                    visit_doc += f"다음 예약: {visit['next_appointment']}"

                documents.append(Document(
                    page_content=visit_doc.strip(),
                    metadata={
                        "patient_id": patient['id'],
                        "name": patient['name'],
                        "gender": patient['gender'],
                        "age": patient['age'],
                        "department": department,
                        "document_type": "visit",
                        "visit_date": visit.get('date', ''),
                        "visit_type": visit.get('type', ''),
                        "chief_complaint": visit.get('chief_complaint', '')
                    }
                ))

        # 통합 문서 (전체 환자 기록을 하나의 문서로)
        integrated_doc = f"""
        [환자 통합 기록]
        환자 ID: {patient['id']}
        이름: {patient['name']}
        성별: {patient['gender']}
        나이: {patient['age']}
        생년월일: {patient['birthdate']}
        진료과: {department}

        [진단 요약]
        """

        if patient.get('diagnoses'):
            for diagnosis in patient['diagnoses']:
                integrated_doc += f"""
                - {diagnosis['name']} ({diagnosis.get('date', '날짜 없음')})
                  상태: {diagnosis.get('status', '정보 없음')}, 중증도: {diagnosis.get('severity', '정보 없음')}
                """
        else:
            integrated_doc += "진단 정보 없음\n"

        integrated_doc += "\n[약물 요약]\n"
        if patient.get('medications'):
            for med in patient['medications']:
                integrated_doc += f"""
                - {med['medication']} {med.get('dosage', '')} {med.get('frequency', '')}
                  처방일: {med.get('prescription_date', '정보 없음')}, 관련 진단: {med.get('related_diagnosis', '정보 없음')}
                """
        else:
            integrated_doc += "약물 정보 없음\n"

        integrated_doc += "\n[최근 검사 결과 요약]\n"
        if patient.get('lab_results'):
            # 가장 최근 검사 결과만 포함
            recent_lab = max(patient['lab_results'], key=lambda x: x.get('date', ''))
            integrated_doc += f"검사일: {recent_lab.get('date', '정보 없음')}, 검사 유형: {recent_lab.get('test_type', '정보 없음')}\n"

            for test_name, test_result in recent_lab.get('results', {}).items():
                flag = test_result.get('flag', '')
                if flag:
                    integrated_doc += f"- {test_name}: {test_result.get('value', '')} {test_result.get('unit', '')} ({flag})\n"
        else:
            integrated_doc += "검사 결과 정보 없음\n"

        integrated_doc += "\n[최근 방문 요약]\n"
        if patient.get('visits'):
            # 가장 최근 방문만 포함
            recent_visit = max(patient['visits'], key=lambda x: x.get('date', ''))
            integrated_doc += f"""
            방문일: {recent_visit.get('date', '정보 없음')}
            주 호소: {recent_visit.get('chief_complaint', '정보 없음')}
            평가: {recent_visit.get('clinical_note', {}).get('assessment', '정보 없음')}
            계획: {recent_visit.get('clinical_note', {}).get('plan', '정보 없음')}
            """
        else:
            integrated_doc += "방문 기록 없음\n"

        documents.append(Document(
            page_content=integrated_doc.strip(),
            metadata={
                "patient_id": patient['id'],
                "name": patient['name'],
                "gender": patient['gender'],
                "age": patient['age'],
                "department": department,
                "document_type": "integrated_record"
            }
        ))

        return documents
    def create_vector_store(self, documents, store_name="medical_vector_store", batch_size=2):
        """
        벡터 스토어 생성 - 병렬 처리 및 작은 배치 처리
        """
        if not documents:
            logger.warning("벡터 스토어를 생성할 문서가 없습니다.")
            return None

        logger.info(f"{len(documents)}개 문서로 벡터 스토어 생성 중...")

        # 문서를 청크로 분할
        chunks = self.text_splitter.split_documents(documents)
        logger.info(f"총 {len(chunks)}개의 청크 생성")

        from langchain_community.vectorstores import FAISS

        # 벡터 스토어 경로
        store_path = self.vector_store_path / store_name
        store_path.mkdir(parents=True, exist_ok=True)
        
        # 진행 상황 추적 파일
        progress_file = self.vector_store_path / f"{store_name}_progress.txt"
        start_index = 0
        
        # 기존 진행 상황 확인
        if progress_file.exists():
            try:
                with open(progress_file, "r") as f:
                    start_index = int(f.read().strip())
                logger.info(f"이전 진행 상황 발견, 인덱스 {start_index}부터 재개합니다.")
            except Exception as e:
                logger.warning(f"진행 상황 파일 읽기 실패, 처음부터 시작합니다: {e}")
        
        # 기존 벡터 스토어 확인
        existing_vs = None
        if start_index > 0 and store_path.exists():
            try:
                logger.info(f"기존 벡터 스토어 로드 중: {store_path}")
                existing_vs = FAISS.load_local(
                    store_path,
                    self.embeddings,
                    allow_dangerous_deserialization=True
                )
                logger.info("기존 벡터 스토어 로드 완료")
            except Exception as e:
                logger.warning(f"기존 벡터 스토어 로드 실패, 새로 시작합니다: {e}")
                start_index = 0

        # 매우 작은 배치 크기로 조정
        batch_size = min(batch_size, 2)  # 최대 2개씩 처리
        
        # 사용자 정의 임베딩 래퍼 클래스 생성
        class RateLimitedEmbeddings:
            def __init__(self, embeddings, parent):
                self.embeddings = embeddings
                self.parent = parent
            
            def embed_documents(self, texts):
                return self.parent._embed_with_retry(texts)
            
            def embed_query(self, text):
                # 쿼리 임베딩도 속도 제한 적용
                self.parent._wait_for_rate_limit()
                result = self.embeddings.embed_query(text)
                # 요청 횟수 업데이트
                self.parent.request_timestamps.append(time.time())
                self.parent.daily_request_count += 1
                return result
        
        rate_limited_embeddings = RateLimitedEmbeddings(self.embeddings, self)
        
        # 청크 처리
        try:
            # 처리할 청크 배치 생성
            if len(chunks) > start_index:
                remaining_chunks = chunks[start_index:]
                batches = [remaining_chunks[i:i + batch_size] for i in range(0, len(remaining_chunks), batch_size)]
                logger.info(f"{len(batches)}개의 배치로 분할하여 처리 (시작 인덱스: {start_index})")
                
                # 첫 번째 배치 처리
                if start_index == 0:
                    logger.info("첫 번째 배치 처리 중...")
                    vectorstore = FAISS.from_documents(batches[0], rate_limited_embeddings)
                    logger.info("첫 번째 배치 완료!")
                else:
                    # 기존 벡터 스토어 사용
                    vectorstore = existing_vs
                    logger.info(f"기존 벡터 스토어에서 계속 (인덱스 {start_index}부터)")
                
                # 진행 상황 업데이트
                with open(progress_file, "w") as f:
                    f.write(str(start_index + len(batches[0])))
                
                # 나머지 배치 처리
                for i, batch in enumerate(tqdm(batches[1:], desc="배치 처리 중")):
                    current_index = start_index + batch_size + i * batch_size
                    logger.info(f"배치 {i+2}/{len(batches)} 처리 중... (인덱스 {current_index})")
                    
                    try:
                        batch_vs = FAISS.from_documents(batch, rate_limited_embeddings)
                        vectorstore.merge_from(batch_vs)
                        
                        # 진행 상황 업데이트
                        with open(progress_file, "w") as f:
                            f.write(str(current_index + len(batch)))
                        
                        # 10개 배치마다 또는 마지막 배치 후 저장
                        if (i + 2) % 10 == 0 or i == len(batches) - 2:
                            vectorstore.save_local(store_path)
                            logger.info(f"체크포인트 저장 완료: 인덱스 {current_index + len(batch)}")
                        
                        logger.info(f"배치 {i+2}/{len(batches)} 완료")
                        
                        # 배치 간 약간의 지연 추가
                        time.sleep(random.uniform(0.5, 2))
                        
                    except Exception as e:
                        logger.error(f"배치 {i+2} 처리 중 오류 발생: {e}")
                        # 실패한 위치 저장
                        with open(progress_file, "w") as f:
                            f.write(str(current_index))
                        time.sleep(10)  # 오류 후 더 긴 대기 시간
                        continue
                
                # 모든 배치 처리 완료 후 벡터 스토어 저장
                vectorstore.save_local(store_path)
                logger.info(f"모든 청크 처리 완료! 벡터 스토어가 {store_path}에 저장되었습니다.")
                
                # 진행 상황 파일 삭제
                if progress_file.exists():
                    progress_file.unlink()
                    logger.info("진행 상황 파일 삭제됨")
                
                return vectorstore
            else:
                # 이미 모든 청크를 처리한 경우
                logger.info("모든 청크가 이미 처리되었습니다.")
                return existing_vs
                
        except Exception as e:
            logger.error(f"벡터 스토어 생성 중 심각한 오류 발생: {e}")
            return None

    def load_vector_store(self, store_name="medical_vector_store"):
        """
        저장된 벡터 스토어 로드
        """
        from langchain_community.vectorstores import FAISS

        store_path = self.vector_store_path / store_name

        if not store_path.exists():
            logger.error(f"벡터 스토어 경로가 존재하지 않습니다: {store_path}")
            return None

        logger.info(f"{store_path}에서 벡터 스토어 로드 중...")

        try:
            vectorstore = FAISS.load_local(
                store_path,
                self.embeddings,
                allow_dangerous_deserialization=True
            )
            logger.info("벡터 스토어 로드 완료")
            return vectorstore
        except Exception as e:
            logger.error(f"벡터 스토어 로드 중 오류 발생: {e}")
            return None

    def search_similar_documents(self, query, vectorstore, k=5, filter_dict=None):
        """
        유사 문서 검색 (메타데이터 필터링 지원)
        """
        if not vectorstore:
            logger.error("유효한 벡터 스토어가 없습니다.")
            return []
        
        logger.info(f"쿼리로 검색 중: {query}")
        
        try:
            # 검색 전 속도 제한 적용
            self._wait_for_rate_limit()
            
            # 요청 시간 기록
            self.request_timestamps.append(time.time())
            self.daily_request_count += 1
            
            logger.info(f"검색 API 호출 (분당 요청: {len(self.request_timestamps)}/{self.max_requests_per_minute}, 일일 요청: {self.daily_request_count}/{self.max_requests_per_day})")
            
            if filter_dict:
                # 메타데이터 필터 적용한 검색
                docs = vectorstore.similarity_search(
                    query, 
                    k=k,
                    filter=filter_dict
                )
            else:
                # 기본 유사도 검색
                docs = vectorstore.similarity_search(query, k=k)
            
            return docs
        except Exception as e:
            logger.error(f"검색 중 오류 발생: {e}")
            return []

In [None]:
def main():
    # 경로 설정
    current_dir = os.getcwd()  # 현재 폴더
    data_path = os.path.join(current_dir, "medical_data")  # 현재 폴더 내 medical_data
    vector_store_path = os.path.join(current_dir, "vector_stores")  # 현재 폴더 내 vector_stores
    
    # API 키 설정
    api_key = "AIzaSyA1Ferz3pjMf3yIwxceRCFTl_D0nf1lyak"
    
    # GPU 사용 가능 여부 확인
    use_gpu = torch.cuda.is_available()
    if use_gpu:
        logger.info(f"GPU 사용 가능: {torch.cuda.get_device_name(0)}")
    else:
        logger.info("GPU를 사용할 수 없습니다. CPU로 실행합니다.")

    # 벡터 스토어 객체 초기화
    vs_builder = MedicalVectorStore(
        data_path=data_path,
        vector_store_path=vector_store_path,
        use_gpu=use_gpu,
        api_key=api_key
    )
    
    # 의료 데이터 로드 - 전체 데이터
    logger.info("의료 데이터 로드 중...")
    documents = vs_builder.load_medical_data()
    
    # 벡터 스토어 생성 (매우 작은 배치로 시간이 오래 걸립니다)
    logger.info("벡터 스토어 구축 중... (이 작업은 오래 걸릴 수 있습니다)")
    vectorstore = vs_builder.create_vector_store(documents, batch_size=2)

    if vectorstore:
        logger.info("벡터 스토어 구축 완료!")
        
        # 간단한 검색 테스트
        test_query = "고혈압 환자의 최근 혈압 측정 기록"
        logger.info(f"테스트 쿼리 실행 중: {test_query}")
        
        results = vs_builder.search_similar_documents(test_query, vectorstore, k=3)
        logger.info(f"검색 결과: {len(results)}개 문서 찾음")
        
        # 결과 예시 출력
        for i, doc in enumerate(results):
            logger.info(f"결과 {i+1} - {doc.metadata.get('document_type')}: {doc.page_content[:50]}...")

if __name__ == "__main__":
    main()

2025-05-20 21:27:19,551 - INFO - GPU를 사용할 수 없습니다. CPU로 실행합니다.
2025-05-20 21:27:19,552 - INFO - Using device: cpu
2025-05-20 21:27:19,555 - INFO - 의료 데이터 로드 중...
2025-05-20 21:27:19,562 - INFO - Loading 25 patients from cardiology department
2025-05-20 21:27:19,570 - INFO - Loading 40 patients from emergency department
2025-05-20 21:27:19,581 - INFO - Loading 50 patients from internal_medicine department
Loading files:   0%|          | 0/5 [00:00<?, ?it/s]2025-05-20 21:27:19,584 - INFO - Loading 20 patients from neurology department
2025-05-20 21:27:19,587 - INFO - Loading 30 patients from surgery department
Loading files: 100%|██████████| 5/5 [00:00<00:00, 267.11it/s]
2025-05-20 21:27:19,613 - INFO - Loaded 2210 total documents from medical data
2025-05-20 21:27:19,614 - INFO - 벡터 스토어 구축 중... (이 작업은 오래 걸릴 수 있습니다)
2025-05-20 21:27:19,614 - INFO - 2210개 문서로 벡터 스토어 생성 중...
2025-05-20 21:27:19,704 - INFO - 총 5577개의 청크 생성
2025-05-20 21:27:19,705 - INFO - 이전 진행 상황 발견, 인덱스 6부터 재개합니다.
2025-05-