In [1]:
%pip install --upgrade --quiet google-cloud-discoveryengine python-dotenv google-auth



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.0[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
from dotenv import load_dotenv
from google.cloud import discoveryengine_v1 as discoveryengine
from google.api_core.exceptions import NotFound, GoogleAPICallError, PermissionDenied
from pprint import pprint
from typing import List, Dict

print("라이브러리 임포트 완료.")

라이브러리 임포트 완료.


In [37]:
if load_dotenv():
    print(".env 파일 로드 성공.")

# 환경 변수 읽기
PROJECT_ID = os.environ.get('PROJECT_ID')
LOCATION = "global" #os.environ.get('LOCATION') # 예: "global" 또는 "asia-northeast3"
DATASTORE_ID = "dulee-confluence_1743068723272_space" #os.environ.get('DATASTORE_ID')

# 필수 변수가 모두 있는지 확인
if not all([PROJECT_ID, LOCATION, DATASTORE_ID]):
    print("오류: 필수 환경 변수(PROJECT_ID, LOCATION, DATASTORE_ID)가 설정되지 않았습니다.")
    print(f"  - PROJECT_ID: {PROJECT_ID}")
    print(f"  - LOCATION: {LOCATION}")
    print(f"  - DATASTORE_ID: {DATASTORE_ID}")
    # 여기서 스크립트 실행을 중단하거나 기본값을 설정할 수 있습니다.
    # raise ValueError("필수 환경 변수가 없습니다.") # 필요시 주석 해제하여 에러 발생
else:
    print("환경 변수 로드 확인:")
    print(f"  - PROJECT_ID: {PROJECT_ID}")
    print(f"  - LOCATION: {LOCATION}")
    print(f"  - DATASTORE_ID: {DATASTORE_ID}")

.env 파일 로드 성공.
환경 변수 로드 확인:
  - PROJECT_ID: duleetest
  - LOCATION: global
  - DATASTORE_ID: dulee-confluence_1743068723272_space


In [38]:
def check_document_ids_in_datastore(project_id: str, location: str, data_store_id: str, limit: int = 10) -> List[Dict[str, str]]:
    """
    지정된 Data Store의 문서 목록 일부를 가져와 ID 형식을 확인합니다.

    Args:
        project_id: GCP 프로젝트 ID.
        location: Data Store 위치 (예: "global").
        data_store_id: 확인할 Data Store ID.
        limit: 확인할 최대 문서 수.

    Returns:
        문서 정보 ('id', 'name', 'uri') 딕셔너리의 리스트. 오류 시 빈 리스트 반환.
    """
    # --- 필수 인자 확인 ---
    if not all([project_id, location, data_store_id]):
        print("오류: project_id, location, data_store_id는 필수 값입니다.")
        return []

    # --- API 클라이언트 설정 ---
    try:
        # 리전 엔드포인트 설정 (global이 아닐 경우)
        client_options = (
            {"api_endpoint": f"{location}-discoveryengine.googleapis.com"}
            if location != "global"
            else {}
        )
        client = discoveryengine.DocumentServiceClient(client_options=client_options)

        # --- API 요청 경로 설정 ---
        # 기본 컬렉션(default_collection) 및 기본 브랜치(0) 사용
        parent = f"projects/{project_id}/locations/{location}/collections/default_collection/dataStores/{data_store_id}/branches/0"

        # --- ListDocuments API 요청 생성 ---
        request = discoveryengine.ListDocumentsRequest(parent=parent, page_size=limit) # page_size로 가져올 개수 제한

        print(f"문서 목록 가져오는 중: {parent}")

        # --- API 호출 및 결과 처리 ---
        document_list = []
        # list_documents는 Pager 객체를 반환하며, 반복문은 첫 페이지만 처리하게 됨 (여기서는 limit 만큼만 원하므로 괜찮음)
        page_result = client.list_documents(request=request)

        count = 0
        for document in page_result:
            document_info = {
                'id': document.id, # 
                'name': document.name,
                'uri': document.content.uri if document.content else "N/A" # content 필드가 없을 수 있으므로 확인
            }
            document_list.append(document_info)
            count += 1
            # 비록 page_size로 제한했지만, 안전하게 count로도 제한
            if count >= limit:
                 break

        if not document_list:
            print("Data Store에서 문서를 찾을 수 없거나 가져오는데 실패했습니다.")
        else:
            print(f"처음 {len(document_list)}개 문서 정보 확인 (최대 {limit}개):")
            pprint(document_list) # 보기 좋게 출력

        return document_list

    # --- 오류 처리 ---
    except PermissionDenied as e:
        print(f"오류: 권한이 거부되었습니다. {e}")
        print("Hint: Discovery Engine API가 활성화되어 있고, API 호출 권한이 있는지 확인하세요.")
        return []
    except NotFound as e:
        print(f"오류: 리소스를 찾을 수 없습니다. {e}")
        print(f"Hint: 경로가 올바른지 확인하세요: {parent}")
        return []
    except GoogleAPICallError as e:
        print(f"API 호출 오류 발생: {e}")
        return []
    except Exception as e:
        print(f"예상치 못한 오류 발생: {e}")
        return []

In [41]:
print("\n--- Data Store 문서 ID 확인 시작 ---")

# 환경 변수가 제대로 로드되었는지 최종 확인 후 함수 호출
if 'PROJECT_ID' in locals() and PROJECT_ID and LOCATION and DATASTORE_ID:
    # 함수 호출 (처음 10개 문서 ID 확인)
    found_docs = check_document_ids_in_datastore(PROJECT_ID, LOCATION, DATASTORE_ID, limit=10)

    print("\n--- 결과 해석 가이드 ---")
    if found_docs:
        print("위에 출력된 문서 정보 리스트에서 각 항목의 'id' 값을 확인하세요.")
        print(" - ID가 숫자 형태 (예: '12345678'): Confluence 페이지 ID일 가능성이 매우 높습니다 (커넥터 기본 동작).")
        print(" - ID가 복잡한 문자열 형태 (예: 'Abc123XyZ...'): 커스텀 ID일 수 있습니다 (직접 데이터 넣으면서 Document AI의 doc_id를 지정한 경우).")
        print("\n이 ID 형식을 바탕으로 문서를 삭제하는 방법을 결정해야 합니다.")
        print("만약 Confluence 페이지 ID라면, 삭제하려는 Document AI doc_id에 해당하는 Confluence 페이지 ID를 알아내서 사용해야 합니다.")
    else:
        print("문서 ID를 가져올 수 없습니다. 위의 오류 메시지를 확인하고 다음 사항을 점검하세요:")
        print("  - 프로젝트 ID, 위치(Location), 데이터 저장소 ID가 정확한가?")
        print("  - Discovery Engine API가 활성화되어 있는가?")
        print("  - API 호출에 필요한 IAM 권한이 있는가?")
else:
    print("오류: 환경 변수가 제대로 설정되지 않아 함수 호출을 건너<0xEB><0x89>니다.")

print("\n--- 확인 완료 ---")


--- Data Store 문서 ID 확인 시작 ---
문서 목록 가져오는 중: projects/duleetest/locations/global/collections/default_collection/dataStores/dulee-confluence_1743068723272_space/branches/0
API 호출 오류 발생: 400 ListDocuments is not available for an acled datastore.

--- 결과 해석 가이드 ---
문서 ID를 가져올 수 없습니다. 위의 오류 메시지를 확인하고 다음 사항을 점검하세요:
  - 프로젝트 ID, 위치(Location), 데이터 저장소 ID가 정확한가?
  - Discovery Engine API가 활성화되어 있는가?
  - API 호출에 필요한 IAM 권한이 있는가?

--- 확인 완료 ---


In [40]:
# SearchServiceClient 사용 예시 (간략화)
from google.cloud import discoveryengine_v1 as discoveryengine

# ... (project_id, location, data_store_id 설정은 동일)

def search_documents_for_ids(project_id: str, location: str, data_store_id: str, query: str = "*", limit: int = 10):
    try:
        client_options = (
            {"api_endpoint": f"{location}-discoveryengine.googleapis.com"}
            if location != "global"
            else {}
        )
        search_client = discoveryengine.SearchServiceClient(client_options=client_options)

        serving_config = search_client.serving_config_path(
            project=project_id,
            location=location,
            data_store=data_store_id,
            serving_config="default_config", # 보통 'default_config'
        )

        request = discoveryengine.SearchRequest(
            serving_config=serving_config,
            query=query,
            page_size=limit
            # user_info 필드를 통해 최종 사용자 정보를 전달하여 ACL 적용 가능
            # user_info=discoveryengine.UserInfo(user_id="user-email@example.com")
        )

        response = search_client.search(request=request)

        print(f"'{query}' 검색 결과 (최대 {limit}개):")
        found_ids = []
        for result in response.results:
            doc_id = result.document.id
            doc_name = result.document.name
            doc_uri = result.document.derived_struct_data.get('link', 'N/A') if result.document.derived_struct_data else 'N/A'
            print(f"  - ID: {doc_id}, Name: {doc_name}, URI: {doc_uri}")
            found_ids.append(doc_id)
        return found_ids

    except Exception as e:
        print(f"Search API 호출 중 오류 발생: {e}")
        return []

# 함수 호출
if 'PROJECT_ID' in locals() and PROJECT_ID and LOCATION and DATASTORE_ID:
    search_documents_for_ids(PROJECT_ID, LOCATION, DATASTORE_ID, query="*", limit=10)

'*' 검색 결과 (최대 10개):
