In [4]:
import pickle

# pickle 파일 읽기
with open('./data/final_result.pkl', 'rb') as f:
    data = pickle.load(f)

print("데이터 타입:", type(data))

# 데이터가 딕셔너리인 경우
if isinstance(data, dict):
    print("키 목록:", list(data.keys())[:2])

# 데이터가 리스트인 경우
elif isinstance(data, list):
    print("리스트 길이:", len(data))

# 다른 타입의 경우
else:
    print(data[0])

데이터 타입: <class 'dict'>
키 목록: ['[가입절차] 스마트스토어센터 회원가입은 어떻게 하나요? (ID만들기)', '[가입서류] 스마트스토어 판매자 유형별 필요한 서류가 어떻게 되나요?']


In [11]:
import re 

def clean_text(text: str) -> str:
    """FAQ 본문에서 불필요한 별점/후기/공백 등을 제거하기 위한 간단 예시 함수"""
    text = re.sub(r'\s+', ' ', text)     # 다중 공백 제거
    return text.strip()

In [13]:
for key in list(data.keys()):
    print("key :", key)
    print("doc :", clean_text(data[key]))
    print("len :", len(clean_text(data[key])))
    break 

key : [가입절차] 스마트스토어센터 회원가입은 어떻게 하나요? (ID만들기)
doc : 네이버 커머스 ID 하나로 스마트스토어센터와 같은 네이버의 다양한 커머스 서비스를 편리하게 이용하실 수 있습니다.네이버 커머스 ID가 없으시다면 [가입하기] 버튼을 통해 회원가입해 주세요. 1. '네이버ID' 로 네이버 커머스 ID 가입하기1) [네이버 아이디로 가입하기] 버튼을 눌러서 네이버 로그인 해 주세요.2) 연락가능한 휴대폰번호를 입력하시고 인증하신 후 개인정보 수집동의를 체크 하여 [가입] 버튼을 눌러주세요. 3) 네이버 커머스 ID 회원가입이 완료되어 해당 네이버ID 로 스마트스토어센터 서비스 가입을 하실 수 있습니다. 이 후 스마트스토어센터 로그인 시에 [네이버 아이디로 로그인] 버튼을 눌러서 네이버 로그인을 하실 수 있습니다. 2. '이메일 아이디'로 네이버 커머스 ID 가입하기 1) [이메일 아이디로 가입하기] 버튼을 눌러서 사용할 ID를 입력해 주세요.! 중요. 로그인 ID는 "실 사용중인 이메일주소"로 기재하셔야 합니다. (예 : abc@naver.com)2) 연락가능한 휴대폰번호와 이메일주소를 입력하시고 인증하신 후 개인정보 수집동의를 체크 하여 [가입] 버튼을 눌러주세요.3) 네이버 커머스 ID 회원가입이 완료되어 해당 이메일 아이디로 스마트스토어센터 서비스 가입을 하실 수 있습니다.이 후 스마트스토어센터 로그인 시에 해당 이메일 아이디와 비밀번호를 입력하여 로그인을 하실 수 있습니다. ※ 참고. 로그인 ID 계정 대표자와 사업자번호 대표자 동일여부는 체크하지 않습니다. (대표자가 상이해도 가입 진행 가능합니다.) 위 도움말이 도움이 되었나요? 별점1점 별점2점 별점3점 별점4점 별점5점 소중한 의견을 남겨주시면 보완하도록 노력하겠습니다. 보내기 관련 도움말/키워드 스마트스토어 로그인ID(매니저)를 추가하거나 변경할 수 없나요? 네이버 커머스 ID 전환 이후, 이전 아이디로 로그인이 불가한가요? 네이버 커머스 ID 전환 후 로그인이 되지 않아요.

In [18]:
import numpy as np 
import matplotlib.pyplot as plt

lengths = []
for key, value in data.items():
    text = clean_text(value)  # answer 텍스트
    lengths.append(len(text))

# 2) 기본 통계량 출력
lengths_array = np.array(lengths)
print("총 문서 수:", len(lengths))
print("최소 길이:", lengths_array.min())
print("최대 길이:", lengths_array.max())
print("평균 길이:", lengths_array.mean())
print("중간값(50%):", np.median(lengths_array))
print("90% 분위:", np.percentile(lengths_array, 90))
print("95% 분위:", np.percentile(lengths_array, 95))
print("99% 분위:", np.percentile(lengths_array, 99))

총 문서 수: 2717
최소 길이: 98
최대 길이: 9058
평균 길이: 477.4089068825911
중간값(50%): 331.0
90% 분위: 891.8000000000002
95% 분위: 1215.0
99% 분위: 2708.600000000002


In [17]:
import tiktoken
import re
import pickle
import numpy as np

def clean_text(text: str) -> str:
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

# 원하는 OpenAI 모델에 맞는 tokenizer
tokenizer = tiktoken.encoding_for_model("text-embedding-3-small")

with open('./data/final_result.pkl', 'rb') as f:
    data = pickle.load(f)

token_lengths = []
for key, value in data.items():
    text = clean_text(value)
    tokens = tokenizer.encode(text)
    token_lengths.append(len(tokens))

token_lengths_array = np.array(token_lengths)
print("총 문서(FAQ) 수:", len(token_lengths_array))
print("최소 토큰 수:", token_lengths_array.min())
print("최대 토큰 수:", token_lengths_array.max())
print("평균 토큰 수:", token_lengths_array.mean())
print("중간값(50%):", np.median(token_lengths_array))
print("90% 분위:", np.percentile(token_lengths_array, 90))
print("95% 분위:", np.percentile(token_lengths_array, 95))
print("99% 분위:", np.percentile(token_lengths_array, 99))


총 문서(FAQ) 수: 2717
최소 토큰 수: 110
최대 토큰 수: 8979
평균 토큰 수: 474.1475892528524
중간값(50%): 333.0
90% 분위: 873.8000000000002
95% 분위: 1194.0
99% 분위: 2603.680000000004


# 500 기준으로 Chunk한 경우

In [1]:
import chromadb
from chromadb.config import Settings
from chromadb.utils import embedding_functions

# 이미 embeddings/chroma_db 경로에 DB가 존재한다고 가정
client = chromadb.PersistentClient(path="./embeddings/chroma_db")
collection = client.get_collection("faq_collection")

# 1) 전체 문서 수 확인
count = collection.count()
print("총 문서(청크) 수:", count)

# 2) 일부 문서 가져오기
results = collection.get(limit=5)  # limit=5 => 최대 5개만 가져오기
print("가져온 documents:", results["documents"])
print("가져온 metadatas:", results["metadatas"])
print("가져온 ids:", results["ids"])



총 문서(청크) 수: 4007
가져온 documents: ['[가입절차] 스마트스토어센터 회원가입은 어떻게 하나요? (ID만들기) 네이버 커머스 ID 하나로 스마트스토어센터와 같은 네이버의 다양한 커머스 서비스를 편리하게 이용하실 수 있습니다.네이버 커머스 ID가 없으시다면 [가입하기] 버튼을 통해 회원가입해 주세요. 1. \'네이버ID\' 로 네이버 커머스 ID 가입하기1) [네이버 아이디로 가입하기] 버튼을 눌러서 네이버 로그인 해 주세요.2) 연락가능한 휴대폰번호를 입력하시고 인증하신 후 개인정보 수집동의를 체크 하여 [가입] 버튼을 눌러주세요. 3) 네이버 커머스 ID 회원가입이 완료되어 해당 네이버ID 로 스마트스토어센터 서비스 가입을 하실 수 있습니다. 이 후 스마트스토어센터 로그인 시에 [네이버 아이디로 로그인] 버튼을 눌러서 네이버 로그인을 하실 수 있습니다. 2. \'이메일 아이디\'로 네이버 커머스 ID 가입하기 1) [이메일 아이디로 가입하기] 버튼을 눌러서 사용할 ID를 입력해 주세요.! 중요. 로그인 ID는 "실 사용중인 이메', '일주소"로 기재하셔야 합니다. (예 : abc@naver.com)2) 연락가능한 휴대폰번호와 이메일주소를 입력하시고 인증하신 후 개인정보 수집동의를 체크 하여 [가입] 버튼을 눌러주세요.3) 네이버 커머스 ID 회원가입이 완료되어 해당 이메일 아이디로 스마트스토어센터 서비스 가입을 하실 수 있습니다.이 후 스마트스토어센터 로그인 시에 해당 이메일 아이디와 비밀번호를 입력하여 로그인을 하실 수 있습니다. ※ 참고. 로그인 ID 계정 대표자와 사업자번호 대표자 동일여부는 체크하지 않습니다. (대표자가 상이해도 가입 진행 가능합니다.) 위 도움말이 도움이 되었나요? 별점1점 별점2점 별점3점 별점4점 별점5점 소중한 의견을 남겨주시면 보완하도록 노력하겠습니다. 보내기 관련 도움말/키워드 스마트스토어 로그인ID(매니저)를 추가하거나 변경할 수 없나요? 네이버 커머스 ID 전환 이후, 이전 아이디로 로그인이 불가한가요