In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [2]:
from langchain_openai import OpenAIEmbeddings
import numpy as np

# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩 객체 생성
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")


In [3]:

# 임베딩할 텍스트 데이터
text = "심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다."

print(f"원본 텍스트: {text}")
print(f"텍스트 길이: {len(text)}자")

# ==========================================
# 1. 기본 임베딩 - embed_query vs embed_documents
# ==========================================

print("\n" + "="*60)
print("1. 기본 임베딩 - embed_query vs embed_documents")
print("="*60)

# 1-1. 단일 쿼리 임베딩
print("\n1-1. embed_query (단일 텍스트 임베딩):")
query_result = embeddings.embed_query(text)
print(f"임베딩 벡터 차원: {len(query_result)}")
print(f"벡터 타입: {type(query_result)}")
print(f"처음 10개 값: {query_result[:10]}")
print(f"벡터 범위: {min(query_result):.6f} ~ {max(query_result):.6f}")

# 1-2. 문서 임베딩 (여러 텍스트)
print("\n1-2. embed_documents (여러 텍스트 임베딩):")
texts = [
    "심층 신경망을 활용한 자연어 처리는 강력한 기술입니다.",
    "RAG는 검색과 생성을 결합한 하이브리드 AI 기법입니다.",
    "임베딩은 텍스트를 벡터로 변환하는 핵심 기술입니다.",
    "트랜스포머 모델은 자연어 처리의 혁신을 이끌었습니다."
]

doc_result = embeddings.embed_documents(texts)
print(f"입력 텍스트 수: {len(texts)}")
print(f"생성된 벡터 수: {len(doc_result)}")
print(f"각 벡터 차원: {len(doc_result[0])}")

for i, vec in enumerate(doc_result, 1):
    print(f"문서 {i} 벡터 처음 5개: {vec[:5]}")


원본 텍스트: 심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다.
텍스트 길이: 62자

1. 기본 임베딩 - embed_query vs embed_documents

1-1. embed_query (단일 텍스트 임베딩):
임베딩 벡터 차원: 1536
벡터 타입: <class 'list'>
처음 10개 값: [0.008854442276060581, 0.06444405764341354, 0.025708414614200592, 0.027581078931689262, -0.0038191142957657576, -0.01860450580716133, -0.018685925751924515, 0.03183528035879135, -0.01960190385580063, 0.027173977345228195]
벡터 범위: -0.087282 ~ 0.107475

1-2. embed_documents (여러 텍스트 임베딩):
입력 텍스트 수: 4
생성된 벡터 수: 4
각 벡터 차원: 1536
문서 1 벡터 처음 5개: [0.003618349088355899, 0.05510503798723221, 0.01815677620470524, 0.033712297677993774, 0.004866952542215586]
문서 2 벡터 처음 5개: [0.0024918364360928535, 0.011953924782574177, -0.008095597848296165, 0.009720458649098873, 0.005239172372967005]
문서 3 벡터 처음 5개: [-0.003504116553813219, 0.033904965966939926, 0.006555764935910702, -0.01825961470603943, 0.012518293224275112]
문서 4 벡터 처음 5개: [0.024151062592864037, 0.04165542125701904, -0.0009663004893809557, 0.00129

In [4]:

# ==========================================
# 2. 다양한 모델 및 차원 설정
# ==========================================

print("\n" + "="*60)
print("2. 다양한 모델 및 차원 설정")
print("="*60)

# 모델별 설정
model_configs = [
    ("text-embedding-3-small", 1536, "소형 모델, 빠른 속도"),
    ("text-embedding-3-large", 3072, "대형 모델, 높은 품질"),
    ("text-embedding-ada-002", 1536, "레거시 모델, 안정성")
]

test_text = "OpenAI 임베딩 모델 성능 테스트"

for model_name, default_dim, description in model_configs:
    print(f"\n모델: {model_name}")
    print(f"설명: {description}")
    print(f"기본 차원: {default_dim}")
    
    try:
        # 기본 차원
        model_embeddings = OpenAIEmbeddings(model=model_name)
        result = model_embeddings.embed_query(test_text)
        print(f"실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:3]}")
        
    except Exception as e:
        print(f"오류: {e}")



2. 다양한 모델 및 차원 설정

모델: text-embedding-3-small
설명: 소형 모델, 빠른 속도
기본 차원: 1536
실제 차원: 1536
벡터 샘플: [0.003278851741924882, 0.0033738489728420973, 0.022845448926091194]

모델: text-embedding-3-large
설명: 대형 모델, 높은 품질
기본 차원: 3072
실제 차원: 3072
벡터 샘플: [-0.009711259976029396, -0.00444471649825573, -0.01929924637079239]

모델: text-embedding-ada-002
설명: 레거시 모델, 안정성
기본 차원: 1536
실제 차원: 1536
벡터 샘플: [-0.009747270494699478, -0.01703539863228798, 0.01346345990896225]


In [5]:

# ==========================================
# 3. 차원 축소 기능 테스트
# ==========================================

print("\n" + "="*60)
print("3. 차원 축소 기능 테스트 (text-embedding-3-small)")
print("="*60)

dimensions_list = [256, 512, 1024, 1536]  # 다양한 차원 설정

for dim in dimensions_list:
    print(f"\n차원: {dim}")
    try:
        embeddings_custom = OpenAIEmbeddings(
            model="text-embedding-3-small", 
            dimensions=dim
        )
        result = embeddings_custom.embed_query(test_text)
        print(f"설정 차원: {dim}, 실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:5]}")
        
        # 벡터 통계
        result_array = np.array(result)
        print(f"평균: {np.mean(result_array):.6f}")
        print(f"표준편차: {np.std(result_array):.6f}")
        
    except Exception as e:
        print(f"오류: {e}")



3. 차원 축소 기능 테스트 (text-embedding-3-small)

차원: 256
설정 차원: 256, 실제 차원: 256
벡터 샘플: [0.00685805594548583, 0.007019774056971073, 0.04755717143416405, -0.07427065074443817, 0.04319676756858826]
평균: -0.002723
표준편차: 0.062441

차원: 512
설정 차원: 512, 실제 차원: 512
벡터 샘플: [0.004726302810013294, 0.004837752785533667, 0.032774534076452255, -0.051184412091970444, 0.029769515618681908]
평균: -0.000787
표준편차: 0.044187

차원: 1024
설정 차원: 1024, 실제 차원: 1024
벡터 샘플: [0.003716598730534315, 0.003804239211603999, 0.02577274665236473, -0.04024962708353996, 0.023409703746438026]
평균: -0.000084
표준편차: 0.031250

차원: 1536
설정 차원: 1536, 실제 차원: 1536
벡터 샘플: [0.0032952239271253347, 0.0033729278948158026, 0.022850723937153816, -0.03568626940250397, 0.020755594596266747]
평균: -0.000090
표준편차: 0.025515


In [7]:

# ==========================================
# 4. 벡터 유사도 계산
# ==========================================

print("\n" + "="*60)
print("4. 벡터 유사도 계산")
print("="*60)

def cosine_similarity(vec1, vec2):
    """코사인 유사도 계산"""
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 유사도 테스트용 텍스트
similarity_texts = [
    "인공지능과 머신러닝 기술",      # 기준
    "AI와 기계학습 알고리즘",        # 유사
    "자연어 처리와 딥러닝",          # 관련
    "요리 레시피와 음식 문화"        # 무관
]

try:
    print("유사도 테스트:")
    vectors = embeddings.embed_documents(similarity_texts)
    base_vector = vectors[0]  # 첫 번째를 기준으로
    
    for i, (text, vector) in enumerate(zip(similarity_texts, vectors)):
        similarity = cosine_similarity(base_vector, vector)
        print(f"{i+1}. '{text}'")
        print(f"   유사도: {similarity:.4f}")
        
        if similarity > 0.8:
            print("   -> 매우 유사")
        elif similarity > 0.6:
            print("   -> 유사")
        elif similarity > 0.4:
            print("   -> 관련")
        else:
            print("   -> 무관")
        print()

except Exception as e:
    print(f"유사도 계산 오류: {e}")



4. 벡터 유사도 계산
유사도 테스트:
1. '인공지능과 머신러닝 기술'
   유사도: 1.0000
   -> 매우 유사

2. 'AI와 기계학습 알고리즘'
   유사도: 0.5016
   -> 관련

3. '자연어 처리와 딥러닝'
   유사도: 0.2871
   -> 무관

4. '요리 레시피와 음식 문화'
   유사도: 0.1229
   -> 무관



In [8]:

# ==========================================
# 5. 배치 처리 성능 비교
# ==========================================

print("\n" + "="*60)
print("5. 배치 처리 성능 비교")
print("="*60)

# 테스트용 텍스트 생성
batch_texts = [
    f"이것은 테스트 문서 {i+1}번입니다. AI와 머신러닝에 대한 내용입니다."
    for i in range(10)
]

try:
    import time
    
    # 방법 1: 개별 처리
    print("방법 1: 개별 embed_query 호출")
    start_time = time.time()
    individual_results = []
    for text in batch_texts:
        result = embeddings.embed_query(text)
        individual_results.append(result)
    individual_time = time.time() - start_time
    print(f"처리 시간: {individual_time:.2f}초")
    print(f"결과 수: {len(individual_results)}")
    
    # 방법 2: 배치 처리
    print("\n방법 2: embed_documents 배치 호출")
    start_time = time.time()
    batch_results = embeddings.embed_documents(batch_texts)
    batch_time = time.time() - start_time
    print(f"처리 시간: {batch_time:.2f}초")
    print(f"결과 수: {len(batch_results)}")
    
    print(f"\n성능 개선: {(individual_time/batch_time):.1f}배 빠름")
    
    # 결과 일치성 확인
    diff = np.mean([
        cosine_similarity(individual_results[i], batch_results[i])
        for i in range(len(batch_texts))
    ])
    print(f"결과 일치도: {diff:.6f} (1.0에 가까울수록 동일)")

except Exception as e:
    print(f"배치 처리 테스트 오류: {e}")

# ==========================================
# 6. 한국어 vs 영어 처리 비교
# ==========================================

print("\n" + "="*60)
print("6. 한국어 vs 영어 처리 비교")
print("="*60)

language_texts = {
    "한국어": [
        "인공지능 기술의 발전",
        "자연어 처리와 머신러닝",
        "딥러닝 모델의 활용"
    ],
    "영어": [
        "Artificial intelligence technology development",
        "Natural language processing and machine learning", 
        "Application of deep learning models"
    ],
    "혼합": [
        "AI 인공지능 technology 기술",
        "Machine learning 머신러닝 algorithms",
        "Deep learning 딥러닝 applications"
    ]
}

try:
    print("언어별 임베딩 특성:")
    for lang, texts in language_texts.items():
        print(f"\n{lang} 텍스트:")
        vectors = embeddings.embed_documents(texts)
        
        for i, (text, vector) in enumerate(zip(texts, vectors), 1):
            vector_norm = np.linalg.norm(vector)
            print(f"  {i}. '{text}'")
            print(f"     벡터 크기: {vector_norm:.6f}")
            print(f"     샘플: {vector[:3]}")

except Exception as e:
    print(f"언어 비교 테스트 오류: {e}")


5. 배치 처리 성능 비교
방법 1: 개별 embed_query 호출
처리 시간: 3.29초
결과 수: 10

방법 2: embed_documents 배치 호출
처리 시간: 0.50초
결과 수: 10

성능 개선: 6.6배 빠름
결과 일치도: 0.999996 (1.0에 가까울수록 동일)

6. 한국어 vs 영어 처리 비교
언어별 임베딩 특성:

한국어 텍스트:
  1. '인공지능 기술의 발전'
     벡터 크기: 1.000000
     샘플: [0.020212875679135323, 0.0221174918115139, 0.010161282494664192]
  2. '자연어 처리와 머신러닝'
     벡터 크기: 1.000000
     샘플: [0.024258151650428772, 0.041878391057252884, 0.039761316031217575]
  3. '딥러닝 모델의 활용'
     벡터 크기: 1.000000
     샘플: [0.0246632918715477, 0.008793970569968224, -0.004436044488102198]

영어 텍스트:
  1. 'Artificial intelligence technology development'
     벡터 크기: 1.000000
     샘플: [-0.003238704986870289, -0.03795177862048149, 0.01901528425514698]
  2. 'Natural language processing and machine learning'
     벡터 크기: 1.000000
     샘플: [-0.03510593622922897, 0.024269666522741318, 0.04000912606716156]
  3. 'Application of deep learning models'
     벡터 크기: 1.000000
     샘플: [-0.011635662987828255, -0.037702687084674835, 0.04680833593010902