## OpenAIEmbeddings
### OpenAIEmbeddings 란?

`OpenAIEmbeddings`는 OpenAI에서 제공하는 텍스트 임베딩 모델을 활용하여 문장이나 단락을 벡터 형태로 변환하는 기능을 수행합니다. 이를 통해 의미적으로 유사한 텍스트를 찾거나, 검색 시스템, 문서 분류 등에 활용할 수 있습니다.

- 텍스트를 벡터화 하여 검색, 유사도 비교, 문서 분류 등의 작업을 수행할 수 있도록 돕는 도구입니다.
- 벡터화 된 데이터를 활용해 문장 간 유사도를 측정하고 의미적 검색을 구현할 수 있습니다.

### OpenAIEmbeddings의 주요 기능

- **텍스트를 벡터(숫자의 배열)로 변환**
    - 자연어 데이터를 머신러닝 모델이 이해할 수 있는 형태로 변환합니다.
    - 텍스트 간의 의미적 유사도를 비교하는 데 활용됩니다.
- **의미 검색(Semantic Search)**
    - 사용자의 쿼리와 데이터베이스 내 문서 간 유사도를 계산하여 관련성이 높은 결과를 찾습니다.
- **문서 분류 및 클러스터링**
    - 벡터화된 텍스트 데이터를 기반으로 특정 카테고리로 분류하거나 그룹화할 수 있습니다.
- **유사도 계산**
    - 코사인 유사도(cosine similarity) 등을 사용하여 두 문장 또는 문서 간의 의미적 유사성을 평가합니다.

In [2]:
from langchain_openai import OpenAIEmbeddings

# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩 객체 생성
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩할 텍스트 데이터
text = "심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다."

# 1. 쿼리(단일 텍스트)를 임베딩
query_result = embeddings.embed_query(text)
print(query_result[:5])  # 임베딩 벡터의 처음 5개 요소 출력

# 2. 문서(여러 개의 텍스트)를 임베딩
texts = [text, text, text, text]  # 동일한 문장을 4번 사용

doc_result = embeddings.embed_documents(texts)
print(len(doc_result))  # 생성된 문서 벡터 개수 출력
print(doc_result[0][:5])  # 첫 번째 문서 벡터의 처음 5개 요소 출력

# 3. 1024차원의 임베딩 생성
embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions=1024)
print(len(embeddings_1024.embed_documents([text])[0]))  # 벡터 차원 확인

[0.008908187039196491, 0.064468614757061, 0.02570197731256485, 0.027594521641731262, -0.0037850893568247557]
4
[0.008592899888753891, 0.06361493468284607, 0.026882702484726906, 0.027452509850263596, -0.0035027896519750357]
1024


In [None]:
import os
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [1]:
from langchain_openai import OpenAIEmbeddings
import numpy as np

# OpenAI의 "text-embedding-3-small" 모델을 사용하여 임베딩 객체 생성
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩할 텍스트 데이터
text = "심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다."

print(f"원본 텍스트: {text}")
print(f"텍스트 길이: {len(text)}자")

# ==========================================
# 1. 기본 임베딩 - embed_query vs embed_documents
# ==========================================

print("\n" + "="*60)
print("1. 기본 임베딩 - embed_query vs embed_documents")
print("="*60)

# 1-1. 단일 쿼리 임베딩
print("\n1-1. embed_query (단일 텍스트 임베딩):")
query_result = embeddings.embed_query(text)
print(f"임베딩 벡터 차원: {len(query_result)}")
print(f"벡터 타입: {type(query_result)}")
print(f"처음 10개 값: {query_result[:10]}")
print(f"벡터 범위: {min(query_result):.6f} ~ {max(query_result):.6f}")

# 1-2. 문서 임베딩 (여러 텍스트)
print("\n1-2. embed_documents (여러 텍스트 임베딩):")
texts = [
    "심층 신경망을 활용한 자연어 처리는 강력한 기술입니다.",
    "RAG는 검색과 생성을 결합한 하이브리드 AI 기법입니다.",
    "임베딩은 텍스트를 벡터로 변환하는 핵심 기술입니다.",
    "트랜스포머 모델은 자연어 처리의 혁신을 이끌었습니다."
]

doc_result = embeddings.embed_documents(texts)
print(f"입력 텍스트 수: {len(texts)}")
print(f"생성된 벡터 수: {len(doc_result)}")
print(f"각 벡터 차원: {len(doc_result[0])}")

for i, vec in enumerate(doc_result, 1):
    print(f"문서 {i} 벡터 처음 5개: {vec[:5]}")


원본 텍스트: 심층 신경망을 활용한 자연어 처리는 문맥을 이해하고 텍스트 생성을 가능하게 하는 강력한 기술로 자리 잡았습니다.
텍스트 길이: 62자

1. 기본 임베딩 - embed_query vs embed_documents

1-1. embed_query (단일 텍스트 임베딩):
임베딩 벡터 차원: 1536
벡터 타입: <class 'list'>
처음 10개 값: [0.00887755211442709, 0.06394278258085251, 0.027415670454502106, 0.027395332232117653, -0.0032006981782615185, -0.01915842853486538, -0.018710991367697716, 0.030568065121769905, -0.01881268061697483, 0.028107162564992905]
벡터 범위: -0.087779 ~ 0.107141

1-2. embed_documents (여러 텍스트 임베딩):
입력 텍스트 수: 4
생성된 벡터 수: 4
각 벡터 차원: 1536
문서 1 벡터 처음 5개: [0.0036747835110872984, 0.05500992387533188, 0.018194470554590225, 0.03370502218604088, 0.004782679956406355]
문서 2 벡터 처음 5개: [0.0024858955293893814, 0.011998895555734634, -0.008135136216878891, 0.009748384356498718, 0.0051411534659564495]
문서 3 벡터 처음 5개: [-0.003504116553813219, 0.033904965966939926, 0.006555764935910702, -0.01825961470603943, 0.012518293224275112]
문서 4 벡터 처음 5개: [0.024151062592864037, 0.04165542125701904, -0.0009663004893809557, 0.001

In [None]:

# ==========================================
# 2. 다양한 모델 및 차원 설정
# ==========================================

print("\n" + "="*60)
print("2. 다양한 모델 및 차원 설정")
print("="*60)

# 모델별 설정
model_configs = [
    ("text-embedding-3-small", 1536, "소형 모델, 빠른 속도"),
    ("text-embedding-3-large", 3072, "대형 모델, 높은 품질"),
    ("text-embedding-ada-002", 1536, "레거시 모델, 안정성")
]

test_text = "OpenAI 임베딩 모델 성능 테스트"

for model_name, default_dim, description in model_configs:
    print(f"\n모델: {model_name}")
    print(f"설명: {description}")
    print(f"기본 차원: {default_dim}")
    
    try:
        # 기본 차원
        model_embeddings = OpenAIEmbeddings(model=model_name)
        result = model_embeddings.embed_query(test_text)
        print(f"실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:3]}")
        
    except Exception as e:
        print(f"오류: {e}")

# ==========================================
# 3. 차원 축소 기능 테스트
# ==========================================

print("\n" + "="*60)
print("3. 차원 축소 기능 테스트 (text-embedding-3-small)")
print("="*60)

dimensions_list = [256, 512, 1024, 1536]  # 다양한 차원 설정

for dim in dimensions_list:
    print(f"\n차원: {dim}")
    try:
        embeddings_custom = OpenAIEmbeddings(
            model="text-embedding-3-small", 
            dimensions=dim
        )
        result = embeddings_custom.embed_query(test_text)
        print(f"설정 차원: {dim}, 실제 차원: {len(result)}")
        print(f"벡터 샘플: {result[:5]}")
        
        # 벡터 통계
        result_array = np.array(result)
        print(f"평균: {np.mean(result_array):.6f}")
        print(f"표준편차: {np.std(result_array):.6f}")
        
    except Exception as e:
        print(f"오류: {e}")

# ==========================================
# 4. 벡터 유사도 계산
# ==========================================

print("\n" + "="*60)
print("4. 벡터 유사도 계산")
print("="*60)

def cosine_similarity(vec1, vec2):
    """코사인 유사도 계산"""
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 유사도 테스트용 텍스트
similarity_texts = [
    "인공지능과 머신러닝 기술",      # 기준
    "AI와 기계학습 알고리즘",        # 유사
    "자연어 처리와 딥러닝",          # 관련
    "요리 레시피와 음식 문화"        # 무관
]

try:
    print("유사도 테스트:")
    vectors = embeddings.embed_documents(similarity_texts)
    base_vector = vectors[0]  # 첫 번째를 기준으로
    
    for i, (text, vector) in enumerate(zip(similarity_texts, vectors)):
        similarity = cosine_similarity(base_vector, vector)
        print(f"{i+1}. '{text}'")
        print(f"   유사도: {similarity:.4f}")
        
        if similarity > 0.8:
            print("   -> 매우 유사")
        elif similarity > 0.6:
            print("   -> 유사")
        elif similarity > 0.4:
            print("   -> 관련")
        else:
            print("   -> 무관")
        print()

except Exception as e:
    print(f"유사도 계산 오류: {e}")

# ==========================================
# 5. 배치 처리 성능 비교
# ==========================================

print("\n" + "="*60)
print("5. 배치 처리 성능 비교")
print("="*60)

# 테스트용 텍스트 생성
batch_texts = [
    f"이것은 테스트 문서 {i+1}번입니다. AI와 머신러닝에 대한 내용입니다."
    for i in range(10)
]

try:
    import time
    
    # 방법 1: 개별 처리
    print("방법 1: 개별 embed_query 호출")
    start_time = time.time()
    individual_results = []
    for text in batch_texts:
        result = embeddings.embed_query(text)
        individual_results.append(result)
    individual_time = time.time() - start_time
    print(f"처리 시간: {individual_time:.2f}초")
    print(f"결과 수: {len(individual_results)}")
    
    # 방법 2: 배치 처리
    print("\n방법 2: embed_documents 배치 호출")
    start_time = time.time()
    batch_results = embeddings.embed_documents(batch_texts)
    batch_time = time.time() - start_time
    print(f"처리 시간: {batch_time:.2f}초")
    print(f"결과 수: {len(batch_results)}")
    
    print(f"\n성능 개선: {(individual_time/batch_time):.1f}배 빠름")
    
    # 결과 일치성 확인
    diff = np.mean([
        cosine_similarity(individual_results[i], batch_results[i])
        for i in range(len(batch_texts))
    ])
    print(f"결과 일치도: {diff:.6f} (1.0에 가까울수록 동일)")

except Exception as e:
    print(f"배치 처리 테스트 오류: {e}")

# ==========================================
# 6. 한국어 vs 영어 처리 비교
# ==========================================

print("\n" + "="*60)
print("6. 한국어 vs 영어 처리 비교")
print("="*60)

language_texts = {
    "한국어": [
        "인공지능 기술의 발전",
        "자연어 처리와 머신러닝",
        "딥러닝 모델의 활용"
    ],
    "영어": [
        "Artificial intelligence technology development",
        "Natural language processing and machine learning", 
        "Application of deep learning models"
    ],
    "혼합": [
        "AI 인공지능 technology 기술",
        "Machine learning 머신러닝 algorithms",
        "Deep learning 딥러닝 applications"
    ]
}

try:
    print("언어별 임베딩 특성:")
    for lang, texts in language_texts.items():
        print(f"\n{lang} 텍스트:")
        vectors = embeddings.embed_documents(texts)
        
        for i, (text, vector) in enumerate(zip(texts, vectors), 1):
            vector_norm = np.linalg.norm(vector)
            print(f"  {i}. '{text}'")
            print(f"     벡터 크기: {vector_norm:.6f}")
            print(f"     샘플: {vector[:3]}")

except Exception as e:
    print(f"언어 비교 테스트 오류: {e}")