#  문장 내의 단어들을 임베딩
- keras.layers.Embedding 레이어 사용

In [8]:
# OpenAI 임베딩(text-embedding-3-small) 모델을 사용한 문장 임베딩 예제
import numpy as np
import pandas as pd
from openai import OpenAI
import os
from sklearn.metrics.pairwise import cosine_similarity

from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv()) # read local .env file

True

In [2]:
# OpenAI API 키를 환경변수에서 가져와 클라이언트 생성
from openai import OpenAI 
client = OpenAI()  # OpenAI 클라이언트 생성

embedding_model = "text-embedding-3-small"  # 사용할 텍스트 임베딩 모델

# 샘플 데이터: 간단한 문장들의 모음
sentences = [
    '나는 인공지능 공부를 좋아한다.',
    '인공지능은 매우 흥미롭다.',
    '오늘 날씨가 흐리고 비가 온다.'
]

In [3]:
# OpenAI Embedding API를 사용하여 문장 임베딩 함수
def get_embeddings(texts, model='text-embedding-3-small'):
    response = client.embeddings.create(
        input=texts,
        model=model
    )
    embeddings = [data.embedding for data in response.data]
    return np.array(embeddings)

In [4]:
# 문장 임베딩 실행
embeddings = get_embeddings(sentences)
print(f'임베딩 차원: {embeddings.shape[1]}')
print(f'임베딩 결과 shape: {embeddings.shape}')

임베딩 차원: 1536
임베딩 결과 shape: (3, 1536)


In [5]:
# 임베딩 결과 확인
print('첫 번째 문장의 임베딩 벡터 (처음 10개 값):')
print(embeddings[0][:10])

첫 번째 문장의 임베딩 벡터 (처음 10개 값):
[-0.02173833 -0.01200137 -0.01317295  0.01154849  0.04914752 -0.01533891
 -0.01949361  0.07962844 -0.02654281 -0.01011108]


In [10]:
# 임베딩 결과를 DataFrame으로 변환하여 시각화
embedding_df = pd.DataFrame(embeddings, index=sentences)
print(embedding_df.head())

                       0         1         2         3         4         5     \
나는 인공지능 공부를 좋아한다. -0.021738 -0.012001 -0.013173  0.011548  0.049148 -0.015339   
인공지능은 매우 흥미롭다.    -0.015396  0.010621 -0.042270  0.030104  0.010643 -0.035229   
오늘 날씨가 흐리고 비가 온다.  0.019867 -0.001774 -0.074277 -0.024289  0.029764  0.045755   

                       6         7         8         9     ...      1526  \
나는 인공지능 공부를 좋아한다. -0.019494  0.079628 -0.026543 -0.010111  ...  0.004903   
인공지능은 매우 흥미롭다.    -0.028661  0.067615  0.020155  0.009103  ... -0.002463   
오늘 날씨가 흐리고 비가 온다.  0.029293  0.041014 -0.052641 -0.038945  ... -0.013508   

                       1527      1528      1529      1530      1531      1532  \
나는 인공지능 공부를 좋아한다.  0.026405 -0.067184  0.024081  0.018224  0.026720  0.017554   
인공지능은 매우 흥미롭다.     0.023041 -0.031137  0.011348  0.016451  0.005494  0.038480   
오늘 날씨가 흐리고 비가 온다. -0.022031 -0.023969 -0.008438  0.024082  0.036386 -0.010282   

                       1533      1534      15

In [7]:
# 문장 간 코사인 유사도 계산
similarity_matrix = cosine_similarity(embeddings)

print('\n문장 간 코사인 유사도:')
for i in range(len(sentences)):
    for j in range(i+1, len(sentences)):
        similarity = similarity_matrix[i][j]
        print(f'{sentences[i]} vs {sentences[j]}: {similarity:.4f}') 


문장 간 코사인 유사도:
나는 인공지능 공부를 좋아한다. vs 인공지능은 매우 흥미롭다.: 0.5847
나는 인공지능 공부를 좋아한다. vs 오늘 날씨가 흐리고 비가 온다.: 0.1017
인공지능은 매우 흥미롭다. vs 오늘 날씨가 흐리고 비가 온다.: 0.1661
