In [1]:
import chromadb

COLLECTION_NAME = "google_api_docs"

client = chromadb.PersistentClient(path="./chroma_text_api")

collection = client.get_or_create_collection(name=COLLECTION_NAME)

# 데이터 분석

In [2]:
all_data = collection.get(include=["metadatas"])  # 전체 조회
tags = [md.get("tags") for md in all_data["metadatas"] if md]
source_files = [md.get("source_file") for md in all_data["metadatas"] if md]

print("총 문서 수:", len(all_data["ids"]))
print("고유 tags:", set(tags))
print("고유 source_files:", set(source_files))

총 문서 수: 32033
고유 tags: {'drive', 'firebase_firestore_crawled', 'people', 'identity', 'sheets', 'map', 'bigquery', 'firebase_auth_crawled', 'youtube', 'gmail', 'calendar'}
고유 source_files: {'cloud.google.com_firestore_docs_reference_rest_v1beta2_projects.databases.collectionGroups.fields_list_hl=ko.txt', 'firebase.google.com_docs_auth_web_account-linking_hl=ko.txt', 'cloud.google.com_firestore_docs_reference_rest_v1_Cursor_hl=ko.txt', 'workspace_gmail_api_guides_drafts.txt', 'maps_documentation_ios-sdk_style-reference.txt', 'maps_documentation_routes_support.txt', 'workspace_gmail_markup_reference_types_MusicAlbum.txt', 'maps_documentation_timezone_get-started.txt', 'firebase.google.com_docs_auth_case-studies_hl=ko.txt', 'bigquery_docs_table-snapshots-delete.txt', 'workspace_gmail_markup_reference_types_Question.txt', 'bigquery_docs_creating-partitioned-tables.txt', 'maps_documentation_javascript_place-photos.txt', 'identity_protocols_oauth2_resources_granular-permissions.txt', 'workspa

In [13]:
from collections import Counter

# 전체 메타데이터 조회
all_data = collection.get(include=["metadatas"])

# tags와 source_file 리스트 생성
tags_list = [md.get("tags") for md in all_data["metadatas"] if md.get("tags") is not None]
source_files_list = [md.get("source_file") for md in all_data["metadatas"] if md.get("source_file") is not None]

# Counter로 개수 세기
tags_count = Counter(tags_list)
source_files_count = Counter(source_files_list)

print("=== Tags별 문서 개수 ===")
for tag, count in tags_count.items():
    print(f"{tag}: {count}")

print("\n=== Source_file별 문서 개수 ===")
for sf, count in source_files_count.items():
    print(f"{sf}: {count}")


=== Tags별 문서 개수 ===

=== Source_file별 문서 개수 ===


In [14]:
# 전체 메타데이터 조회
all_data = collection.get(include=["metadatas"])

# tags가 'youtube'인 문서 수 세기
youtube_count = sum(1 for md in all_data["metadatas"] if md.get("tags") == "youtube")

print("tags='youtube'인 문서 개수:", youtube_count)


tags='youtube'인 문서 개수: 0


In [15]:
# 전체 메타데이터 조회
all_data = collection.get(include=["metadatas"])

# source_file이 'youtube_v3_sample_requests.txt'인 문서 수
count = sum(1 for md in all_data["metadatas"] if md.get("source_file") == "youtube_v3_sample_requests.txt")

print("source_file='youtube_v3_sample_requests.txt'인 문서 개수:", count)


source_file='youtube_v3_sample_requests.txt'인 문서 개수: 0


In [16]:
# Chroma는 ID 기준 삭제만 지원
# 원하는 조건으로 먼저 ID를 찾아서 collection.delete(ids=...) 호출

# 전체 메타데이터 조회
all_data = collection.get(include=["metadatas"])

# source_file이 'youtube_v3_sample_requests.txt'인 문서 ID 수집
ids_to_delete = [
    _id for _id, md in zip(all_data["ids"], all_data["metadatas"])
    if md.get("source_file") == "youtube_v3_sample_requests.txt"
]

print(f"삭제할 문서 수: {len(ids_to_delete)}")

# 삭제
if ids_to_delete:
    collection.delete(ids=ids_to_delete)
    print("삭제 완료")
else:
    print("삭제할 문서가 없습니다")


삭제할 문서 수: 0
삭제할 문서가 없습니다


In [17]:
# 전체 메타데이터 조회
all_data = collection.get(include=["metadatas"])

# source_file이 'youtube_v3_sample_requests.txt'인 문서 수
count = sum(1 for md in all_data["metadatas"] if md.get("source_file") == "youtube_v3_sample_requests.txt")

print("source_file='youtube_v3_sample_requests.txt'인 문서 개수:", count)


source_file='youtube_v3_sample_requests.txt'인 문서 개수: 0
