In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
print(OPENAI_API_KEY[:2])

gs


In [2]:
from langchain_openai import OpenAIEmbeddings
import numpy as np

# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩 객체 생성
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

In [3]:
# 임베딩할 텍스트 데이터
text = "심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다."

print(f"원본 텍스트: {text}")
print(f"텍스트 길이: {len(text)}자")

# ==========================================
# 1. 기본 임베딩 - embed_query vs embed_documents
# ==========================================

print("\n" + "="*60)
print("1. 기본 임베딩 - embed_query vs embed_documents")
print("="*60)

# 1-1. 단일 쿼리 임베딩
print("\n1-1. embed_query (단일 텍스트 임베딩):")
query_result = embeddings.embed_query(text)
print(f"임베딩 벡터 차원: {len(query_result)}")
print(f"벡터 타입: {type(query_result)}")
print(f"처음 10개 값: {query_result[:10]}")
print(f"벡터 범위: {min(query_result):.6f} ~ {max(query_result):.6f}")

# 1-2. 문서 임베딩 (여러 텍스트)
print("\n1-2. embed_documents (여러 텍스트 임베딩):")
texts = [
    "심층 신경망을 활용한 자연어 처리는 강력한 기술입니다.",
    "RAG는 검색과 생성을 결합한 하이브리드 AI 기법입니다.",
    "임베딩은 텍스트를 벡터로 변환하는 핵심 기술입니다.",
    "트랜스포머 모델은 자연어 처리의 혁신을 이끌었습니다."
]

doc_result = embeddings.embed_documents(texts)
print(f"입력 텍스트 수: {len(texts)}")
print(f"생성된 벡터 수: {len(doc_result)}")
print(f"각 벡터 차원: {len(doc_result[0])}")

for i, vec in enumerate(doc_result, 1):
    print(f"문서 {i} 벡터 처음 5개: {vec[:5]}")



원본 텍스트: 심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다.
텍스트 길이: 62자

1. 기본 임베딩 - embed_query vs embed_documents

1-1. embed_query (단일 텍스트 임베딩):
임베딩 벡터 차원: 1536
벡터 타입: <class 'list'>
처음 10개 값: [0.006818306632339954, 0.06312268227338791, 0.028553564101457596, 0.030260682106018066, -0.005797084886580706, -0.01953023113310337, -0.018453121185302734, 0.033979758620262146, -0.023289954289793968, 0.030016807839274406]
벡터 범위: -0.091128 ~ 0.106654

1-2. embed_documents (여러 텍스트 임베딩):
입력 텍스트 수: 4
생성된 벡터 수: 4
각 벡터 차원: 1536
문서 1 벡터 처음 5개: [0.003648351179435849, 0.05504511669278145, 0.018140340223908424, 0.033742696046829224, 0.00480552576482296]
문서 2 벡터 처음 5개: [0.0021051785442978144, 0.011939390562474728, -0.007869665510952473, 0.009832777082920074, 0.005610939580947161]
문서 3 벡터 처음 5개: [-0.00346207688562572, 0.03393187373876572, 0.006516850553452969, -0.018283387646079063, 0.01253085769712925]
문서 4 벡터 처음 5개: [0.024131489917635918, 0.04167791083455086, -0.0009721491951495409, 0.001229

In [4]:
# ==========================================
# 2. 다양한 모델 및 차원 설정
# ==========================================

print("\n" + "="*60)
print("2. 다양한 모델 및 차원 설정")
print("="*60)

# 모델별 설정
model_configs = [
    ("text-embedding-3-small", 1536, "소형 모델, 빠른 속도"),
    ("text-embedding-3-large", 3072, "대형 모델, 높은 품질"),
    ("text-embedding-ada-002", 1536, "레거시 모델, 안정성")
]

test_text = "OpenAI 임베딩 모델 성능 테스트"

for model_name, default_dim, description in model_configs:
    print(f"\n모델: {model_name}")
    print(f"설명: {description}")
    print(f"기본 차원: {default_dim}")
    
    try:
        # 기본 차원
        model_embeddings = OpenAIEmbeddings(model=model_name)
        result = model_embeddings.embed_query(test_text)
        print(f"실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:3]}")
        
    except Exception as e:
        print(f"오류: {e}")


2. 다양한 모델 및 차원 설정

모델: text-embedding-3-small
설명: 소형 모델, 빠른 속도
기본 차원: 1536
실제 차원: 1536
벡터 샘플: [0.0032952239271253347, 0.0033729278948158026, 0.022850723937153816]

모델: text-embedding-3-large
설명: 대형 모델, 높은 품질
기본 차원: 3072
실제 차원: 3072
벡터 샘플: [-0.009711259976029396, -0.00444471649825573, -0.01929924637079239]

모델: text-embedding-ada-002
설명: 레거시 모델, 안정성
기본 차원: 1536
실제 차원: 1536
벡터 샘플: [-0.009747270494699478, -0.01703539863228798, 0.01346345990896225]


In [4]:
# ==========================================
# 3. 차원 축소 기능 테스트
# ==========================================

print("\n" + "="*60)
print("3. 차원 축소 기능 테스트 (text-embedding-3-small)")
print("="*60)

dimensions_list = [256, 512, 1024, 1536]  # 다양한 차원 설정

for dim in dimensions_list:
    print(f"\n차원: {dim}")
    try:
        embeddings_custom = OpenAIEmbeddings(
            model="text-embedding-3-small", 
            dimensions=dim
        )
        result = embeddings_custom.embed_query(test_text)
        print(f"설정 차원: {dim}, 실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:5]}")
        
        # 벡터 통계
        result_array = np.array(result)
        print(f"평균: {np.mean(result_array):.6f}")
        print(f"표준편차: {np.std(result_array):.6f}")
        
    except Exception as e:
        print(f"오류: {e}")


3. 차원 축소 기능 테스트 (text-embedding-3-small)

차원: 256
설정 차원: 256, 실제 차원: 256
벡터 샘플: [0.00685805594548583, 0.007019774056971073, 0.04755717143416405, -0.07427065074443817, 0.04319676756858826]
평균: -0.002723
표준편차: 0.062441

차원: 512
설정 차원: 512, 실제 차원: 512
벡터 샘플: [0.004726302810013294, 0.004837752785533667, 0.032774534076452255, -0.051184412091970444, 0.029769515618681908]
평균: -0.000787
표준편차: 0.044187

차원: 1024
설정 차원: 1024, 실제 차원: 1024
벡터 샘플: [0.003716598730534315, 0.003804239211603999, 0.02577274665236473, -0.04024962708353996, 0.023409703746438026]
평균: -0.000084
표준편차: 0.031250

차원: 1536
설정 차원: 1536, 실제 차원: 1536
벡터 샘플: [0.0032952239271253347, 0.0033729278948158026, 0.022850723937153816, -0.03568626940250397, 0.020755594596266747]
평균: -0.000090
표준편차: 0.025515


In [5]:
# ==========================================
# 4. 벡터 유사도 계산
# ==========================================

print("\n" + "="*60)
print("4. 벡터 유사도 계산")
print("="*60)

def cosine_similarity(vec1, vec2):
    """코사인 유사도 계산"""
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 유사도 테스트용 텍스트
similarity_texts = [
    "인공지능과 머신러닝 기술",      # 기준
    "AI와 기계학습 알고리즘",        # 유사
    "자연어 처리와 딥러닝",          # 관련
    "요리 레시피와 음식 문화"        # 무관
]

try:
    print("유사도 테스트:")
    vectors = embeddings.embed_documents(similarity_texts)
    base_vector = vectors[0]  # 첫 번째를 기준으로
    
    for i, (text, vector) in enumerate(zip(similarity_texts, vectors)):
        similarity = cosine_similarity(base_vector, vector)
        print(f"{i+1}. '{text}'")
        print(f"   유사도: {similarity:.4f}")
        
        if similarity > 0.8:
            print("   -> 매우 유사")
        elif similarity > 0.6:
            print("   -> 유사")
        elif similarity > 0.4:
            print("   -> 관련")
        else:
            print("   -> 무관")
        print()

except Exception as e:
    print(f"유사도 계산 오류: {e}")


4. 벡터 유사도 계산
유사도 테스트:
1. '인공지능과 머신러닝 기술'
   유사도: 1.0000
   -> 매우 유사

2. 'AI와 기계학습 알고리즘'
   유사도: 0.5017
   -> 관련

3. '자연어 처리와 딥러닝'
   유사도: 0.2872
   -> 무관

4. '요리 레시피와 음식 문화'
   유사도: 0.1229
   -> 무관



In [6]:
# ==========================================
# 5. 배치 처리 성능 비교
# ==========================================

print("\n" + "="*60)
print("5. 배치 처리 성능 비교")
print("="*60)

# 테스트용 텍스트 생성
batch_texts = [
    f"이것은 테스트 문서 {i+1}번입니다. AI와 머신러닝에 대한 내용입니다."
    for i in range(10)
]

try:
    import time
    
    # 방법 1: 개별 처리
    print("방법 1: 개별 embed_query 호출")
    start_time = time.time()
    individual_results = []
    for text in batch_texts:
        result = embeddings.embed_query(text)
        individual_results.append(result)
    individual_time = time.time() - start_time
    print(f"처리 시간: {individual_time:.2f}초")
    print(f"결과 수: {len(individual_results)}")
    
    # 방법 2: 배치 처리
    print("\n방법 2: embed_documents 배치 호출")
    start_time = time.time()
    batch_results = embeddings.embed_documents(batch_texts)
    batch_time = time.time() - start_time
    print(f"처리 시간: {batch_time:.2f}초")
    print(f"결과 수: {len(batch_results)}")
    
    print(f"\n성능 개선: {(individual_time/batch_time):.1f}배 빠름")
    
    # 결과 일치성 확인
    diff = np.mean([
        cosine_similarity(individual_results[i], batch_results[i])
        for i in range(len(batch_texts))
    ])
    print(f"결과 일치도: {diff:.6f} (1.0에 가까울수록 동일)")

except Exception as e:
    print(f"배치 처리 테스트 오류: {e}")

# ==========================================
# 6. 한국어 vs 영어 처리 비교
# ==========================================

print("\n" + "="*60)
print("6. 한국어 vs 영어 처리 비교")
print("="*60)

language_texts = {
    "한국어": [
        "인공지능 기술의 발전",
        "자연어 처리와 머신러닝",
        "딥러닝 모델의 활용"
    ],
    "영어": [
        "Artificial intelligence technology development",
        "Natural language processing and machine learning", 
        "Application of deep learning models"
    ],
    "혼합": [
        "AI 인공지능 technology 기술",
        "Machine learning 머신러닝 algorithms",
        "Deep learning 딥러닝 applications"
    ]
}

try:
    print("언어별 임베딩 특성:")
    for lang, texts in language_texts.items():
        print(f"\n{lang} 텍스트:")
        vectors = embeddings.embed_documents(texts)
        
        for i, (text, vector) in enumerate(zip(texts, vectors), 1):
            vector_norm = np.linalg.norm(vector)
            print(f"  {i}. '{text}'")
            print(f"     벡터 크기: {vector_norm:.6f}")
            print(f"     샘플: {vector[:3]}")

except Exception as e:
    print(f"언어 비교 테스트 오류: {e}")


5. 배치 처리 성능 비교
방법 1: 개별 embed_query 호출
처리 시간: 3.42초
결과 수: 10

방법 2: embed_documents 배치 호출
처리 시간: 0.71초
결과 수: 10

성능 개선: 4.8배 빠름
결과 일치도: 1.000000 (1.0에 가까울수록 동일)

6. 한국어 vs 영어 처리 비교
언어별 임베딩 특성:

한국어 텍스트:
  1. '인공지능 기술의 발전'
     벡터 크기: 1.000000
     샘플: [0.020212875679135323, 0.0221174918115139, 0.010161282494664192]
  2. '자연어 처리와 머신러닝'
     벡터 크기: 1.000000
     샘플: [0.024258151650428772, 0.041878391057252884, 0.039761316031217575]
  3. '딥러닝 모델의 활용'
     벡터 크기: 1.000000
     샘플: [0.0246632918715477, 0.008793970569968224, -0.004436044488102198]

영어 텍스트:
  1. 'Artificial intelligence technology development'
     벡터 크기: 1.000000
     샘플: [-0.003238704986870289, -0.03795177862048149, 0.01901528425514698]
  2. 'Natural language processing and machine learning'
     벡터 크기: 1.000000
     샘플: [-0.03510593622922897, 0.024269666522741318, 0.04000912606716156]
  3. 'Application of deep learning models'
     벡터 크기: 1.000000
     샘플: [-0.011635662987828255, -0.037702687084674835, 0.04680833593010902

### HugginFaceEmbeddings

In [5]:
from langchain_huggingface import HuggingFaceEmbeddings
import numpy as np
import time

# ==========================================
# 1. 기본 모델 로딩 및 임베딩
# ==========================================

print("\n1. 기본 모델 로딩 및 임베딩")
print("-" * 40)

# Hugging Face 임베딩 모델 사용 (소형 모델)
print("모델 로딩 중... (최초 실행시 다운로드 시간 소요)")
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
print("모델 로딩 완료")

# 모델 정보 확인
print(f"모델명: {embeddings.model_name}")

# 단일 문장 임베딩
query_text = "자연어 처리는 기계가 인간 언어를 이해하는 기술입니다."
print(f"\n쿼리 텍스트: {query_text}")

query_embedding = embeddings.embed_query(query_text)
print(f"쿼리 임베딩 차원: {len(query_embedding)}")
print(f"쿼리 임베딩 타입: {type(query_embedding)}")
print(f"벡터 샘플 (처음 10개): {query_embedding[:10]}")

# 여러 문장 임베딩
texts = [
    "인공지능은 다양한 산업에서 활용됩니다.",
    "자연어 처리는 언어를 분석하는 기술입니다.",
    "딥러닝을 활용한 모델이 성능이 좋습니다.",
    "머신러닝과 데이터 사이언스는 밀접한 관련이 있습니다."
]

print(f"\n문서 텍스트 ({len(texts)}개):")
for i, text in enumerate(texts, 1):
    print(f"  {i}. {text}")

doc_embeddings = embeddings.embed_documents(texts)
print(f"\n생성된 문서 벡터 개수: {len(doc_embeddings)}")
print(f"각 벡터 차원: {len(doc_embeddings[0])}")


1. 기본 모델 로딩 및 임베딩
----------------------------------------
모델 로딩 중... (최초 실행시 다운로드 시간 소요)


  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


모델 로딩 완료
모델명: sentence-transformers/all-MiniLM-L6-v2

쿼리 텍스트: 자연어 처리는 기계가 인간 언어를 이해하는 기술입니다.
쿼리 임베딩 차원: 384
쿼리 임베딩 타입: <class 'list'>
벡터 샘플 (처음 10개): [-0.020778551697731018, 0.06788317859172821, 0.11902482062578201, -0.034198272973299026, -0.07493328303098679, -0.022477954626083374, 0.1021997407078743, 0.0312868170440197, 0.01972966641187668, -0.003376087173819542]

문서 텍스트 (4개):
  1. 인공지능은 다양한 산업에서 활용됩니다.
  2. 자연어 처리는 언어를 분석하는 기술입니다.
  3. 딥러닝을 활용한 모델이 성능이 좋습니다.
  4. 머신러닝과 데이터 사이언스는 밀접한 관련이 있습니다.

생성된 문서 벡터 개수: 4
각 벡터 차원: 384


In [6]:
# ==========================================
# 2. 다양한 HuggingFace 모델 비교
# ==========================================

print("\n" + "="*60)
print("2. 다양한 HuggingFace 모델 비교")
print("="*60)

# 여러 모델 설정 (크기와 성능이 다름)
model_configs = [
    {
        "name": "sentence-transformers/all-MiniLM-L6-v2",
        "description": "소형 모델, 빠른 속도",
        "dimensions": 384
    },
    {
        "name": "sentence-transformers/all-mpnet-base-v2", 
        "description": "중형 모델, 균형잡힌 성능",
        "dimensions": 768
    },
    {
        "name": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
        "description": "다국어 지원 모델",
        "dimensions": 384
    }
]

test_text = "HuggingFace 모델 성능 비교 테스트"

for config in model_configs:
    print(f"\n모델: {config['name']}")
    print(f"설명: {config['description']}")
    print(f"예상 차원: {config['dimensions']}")
    
    try:
        # 모델 로딩 시간 측정
        start_time = time.time()
        model_embeddings = HuggingFaceEmbeddings(model_name=config['name'])
        load_time = time.time() - start_time
        
        # 임베딩 생성 시간 측정
        start_time = time.time()
        result = model_embeddings.embed_query(test_text)
        embed_time = time.time() - start_time
        
        print(f"로딩 시간: {load_time:.2f}초")
        print(f"임베딩 시간: {embed_time:.3f}초")
        print(f"실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:5]}")
        
    except Exception as e:
        print(f"오류: {e}")


2. 다양한 HuggingFace 모델 비교

모델: sentence-transformers/all-MiniLM-L6-v2
설명: 소형 모델, 빠른 속도
예상 차원: 384
로딩 시간: 2.38초
임베딩 시간: 0.019초
실제 차원: 384
벡터 샘플: [-0.03664571791887283, 0.0549425445497036, 0.02464630827307701, 0.0027119177393615246, -0.015743868425488472]

모델: sentence-transformers/all-mpnet-base-v2
설명: 중형 모델, 균형잡힌 성능
예상 차원: 768


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


로딩 시간: 13.64초
임베딩 시간: 0.105초
실제 차원: 768
벡터 샘플: [0.027967235073447227, -0.1417824625968933, 0.0019790888763964176, 0.01800166442990303, 0.02986290492117405]

모델: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
설명: 다국어 지원 모델
예상 차원: 384


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


로딩 시간: 14.58초
임베딩 시간: 0.042초
실제 차원: 384
벡터 샘플: [-0.16666187345981598, -0.0026625520549714565, -0.019968930631875992, -0.1620340645313263, -0.18823817372322083]


In [8]:
# ==========================================
# 3. 모델 설정 옵션들
# ==========================================

print("\n" + "="*60)
print("3. 모델 설정 옵션들")
print("="*60)

# 다양한 설정으로 모델 생성
print("기본 설정:")
basic_embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2"
)

print("커스텀 설정:")
custom_embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2",
    model_kwargs={'device': 'cpu'},  # CPU 사용 명시
    encode_kwargs={'normalize_embeddings': True}  # L2 정규화 적용
)

# 설정별 결과 비교
test_sentence = "임베딩 정규화 테스트 문장입니다."

basic_result = basic_embeddings.embed_query(test_sentence)
custom_result = custom_embeddings.embed_query(test_sentence)

print(f"\n기본 설정 벡터 크기: {np.linalg.norm(basic_result):.6f}")
print(f"정규화 설정 벡터 크기: {np.linalg.norm(custom_result):.6f}")
print("정규화된 벡터는 크기가 1.0에 가까워집니다.")



3. 모델 설정 옵션들
기본 설정:
커스텀 설정:

기본 설정 벡터 크기: 1.000000
정규화 설정 벡터 크기: 1.000000
정규화된 벡터는 크기가 1.0에 가까워집니다.


In [7]:
# ==========================================
# 4. 벡터 유사도 분석
# ==========================================

print("\n" + "="*60)
print("4. 벡터 유사도 분석")
print("="*60)

def cosine_similarity(vec1, vec2):
    """코사인 유사도 계산"""
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 유사도 테스트용 문장들
similarity_texts = [
    "딥러닝은 인공지능의 핵심 기술입니다.",        # 기준
    "딥러닝은 AI의 중요한 기술입니다.",            # 매우 유사
    "머신러닝과 인공지능은 관련이 있습니다.",       # 유사
    "자연어 처리는 언어 분석 기술입니다.",         # 관련
    "오늘 날씨가 맑고 화창합니다."               # 무관
]

print("유사도 분석:")
vectors = embeddings.embed_documents(similarity_texts)
base_vector = vectors[0]  # 첫 번째를 기준으로

for i, (text, vector) in enumerate(zip(similarity_texts, vectors)):
    similarity = cosine_similarity(base_vector, vector)
    print(f"\n{i+1}. '{text}'")
    print(f"   유사도: {similarity:.4f}")
    
    if similarity > 0.8:
        status = "매우 유사"
    elif similarity > 0.6:
        status = "유사"
    elif similarity > 0.4:
        status = "관련"
    else:
        status = "무관"
    print(f"   상태: {status}")


4. 벡터 유사도 분석
유사도 분석:

1. '딥러닝은 인공지능의 핵심 기술입니다.'
   유사도: 1.0000
   상태: 매우 유사

2. '딥러닝은 AI의 중요한 기술입니다.'
   유사도: 0.7268
   상태: 유사

3. '머신러닝과 인공지능은 관련이 있습니다.'
   유사도: 0.8169
   상태: 매우 유사

4. '자연어 처리는 언어 분석 기술입니다.'
   유사도: 0.8321
   상태: 매우 유사

5. '오늘 날씨가 맑고 화창합니다.'
   유사도: 0.5843
   상태: 관련


In [9]:
# ==========================================
# 5. 성능 벤치마크 (HuggingFace vs OpenAI 시뮬레이션)
# ==========================================

print("\n" + "="*60)
print("5. 성능 벤치마크")
print("="*60)

# 테스트용 텍스트 생성
benchmark_texts = [
    f"벤치마크 테스트 문서 {i+1}번입니다. AI와 머신러닝에 대한 내용을 다룹니다."
    for i in range(20)
]

print(f"테스트 문서 수: {len(benchmark_texts)}개")

# HuggingFace 임베딩 성능 측정
print("\nHuggingFace 임베딩 성능:")
start_time = time.time()
hf_results = embeddings.embed_documents(benchmark_texts)
hf_time = time.time() - start_time

print(f"처리 시간: {hf_time:.3f}초")
print(f"문서당 평균 시간: {hf_time/len(benchmark_texts)*1000:.1f}ms")
print(f"벡터 차원: {len(hf_results[0])}")
print(f"메모리 사용량 (추정): {len(hf_results) * len(hf_results[0]) * 4 / 1024:.1f}KB")


5. 성능 벤치마크
테스트 문서 수: 20개

HuggingFace 임베딩 성능:
처리 시간: 0.092초
문서당 평균 시간: 4.6ms
벡터 차원: 384
메모리 사용량 (추정): 30.0KB
