# OpenAI Embedding API 활용 가이드

## 1. 환경 설정

In [2]:
!pip install openai numpy scikit-learn tenacity



## 2. API 키 설정

In [3]:
import os
os.environ['OPENAI_API_KEY'] = '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'

## 3. OpenAI Embedding API 사용하기

In [4]:
from openai import OpenAI
client = OpenAI()

In [5]:
response = client.embeddings.create(
    input="I don't wanna be your man!",
    model="text-embedding-ada-002"
)

print(response.data[0].embedding)

[-0.044733066111803055, -0.030935050919651985, 0.024171078577637672, -0.014424081891775131, -0.028700852766633034, 0.009446239098906517, -0.01800861954689026, 0.023262668401002884, -0.010876371525228024, -0.007377764210104942, 0.0056806327775120735, 0.009986374527215958, 0.025189971551299095, 0.005352254956960678, 0.002769730519503355, -0.017959516495466232, 0.03719571605324745, -0.007917900569736958, 0.0021329226437956095, -0.018205031752586365, -0.004956359975039959, -0.01533249206840992, 0.0035323654301464558, -0.0032039873767644167, -0.01625317707657814, 0.019678130745887756, 0.010244166478514671, -0.010532648302614689, 0.008237071335315704, -0.007469832897186279, 0.014510012231767178, 0.0038147091399878263, 0.0057542878203094006, -0.024895351380109787, -0.03176980838179588, -0.012091676704585552, 0.013061466626822948, -0.03137698024511337, 0.017456207424402237, -0.02078295312821865, 0.010109133087098598, -0.02186322584748268, -0.013196500018239021, -0.0008002296090126038, -0.02946

In [6]:
len(response.data[0].embedding)

1536

## 4. OpenAI Embedding API 호출 함수 만들기

In [7]:
import numpy as np
from tenacity import retry, wait_random_exponential, stop_after_attempt

In [8]:
@retry(wait=wait_random_exponential(min=1, max=20), stop=stop_after_attempt(6))
def encode(text):
    response = client.embeddings.create(
        input=text,
        model="text-embedding-ada-002")
    return np.array(response.data[0].embedding)

In [9]:
emb = encode("Hello!")

In [10]:
emb

array([-0.01908123, -0.01120431, -0.01294478, ..., -0.01557469,
       -0.00141574, -0.02467379])

In [11]:
emb.shape

(1536,)

## 5. 예제 - 유사 질의 찾기

In [12]:
from sklearn.metrics import pairwise_distances
from pprint import pprint

In [13]:
candidates = ["오늘 날씨 알려줘", "오늘 날씨 어때", "오늘 날씨 알고싶어",
              "내일 날씨 알려줘", "내일 날씨 어때", "내일 날씨 알고싶어",
              "아이유 노래 틀어", "아이유 노래 실행해",
              "7시 알람",
              "유재석이 누구야", "신동엽이 누구야",
              "tv 꺼줘", "tv 켜줘", "티비 꺼줘", "티비 켜줘",
              "그만", "멈춰", "꺼",
              "코로나 확진자 몇명이야",
              "코로나 알려줘",
              "코로나 요즘 어때",
              "아니모르겠어",
              "오늘 코로나 십구 부여 은 환자은 수 어때",
              "코로나 확진자 알려줘",
              "웰시 코기에 대해서 알려줘",
              "오늘 코로나 바이러스 인제군 상황이 보여줘",
              "pytorch 설치방법",
              "파이토치 설치 방법",
              "텐서플로우 설치 방법",
              "텐서플로우 사용법",
              ]

In [15]:
# num candidates x dim
candidates_embs = np.stack([encode(q) for q in candidates], axis=0)

In [17]:
candidates_embs.shape

(30, 1536)

In [29]:
query = "파이토치 실행법"
query_emb = encode(query)

In [30]:
query_emb

array([-0.01606607,  0.00030987,  0.01367388, ...,  0.02009736,
        0.0177347 , -0.00503911])

In [25]:
query_emb.shape

(1536,)

In [31]:
query_emb.reshape(1, -1).shape

(1, 1536)

In [23]:
query_emb

array([-0.01606607,  0.00030987,  0.01367388, ...,  0.02009736,
        0.0177347 , -0.00503911])

In [32]:
dist = pairwise_distances(query_emb.reshape(1,-1), candidates_embs, metric="cosine").flatten()

In [33]:
dist

array([0.27853705, 0.2836486 , 0.28433372, 0.25239465, 0.2522461 ,
       0.25509469, 0.21822533, 0.19772071, 0.22294112, 0.25924127,
       0.23250186, 0.2170397 , 0.22987308, 0.20463654, 0.21266076,
       0.25836812, 0.2430859 , 0.24548332, 0.27179471, 0.25351116,
       0.27047606, 0.23278403, 0.29025649, 0.25804644, 0.22536455,
       0.28131417, 0.17486195, 0.04661655, 0.14464407, 0.14473964])

In [34]:
ordered_by_distance_idx = dist.argsort()

In [35]:
ordered_by_distance_idx

array([27, 28, 29, 26,  7, 13, 14, 11,  6,  8, 24, 12, 10, 21, 16, 17,  4,
        3, 19,  5, 23, 15,  9, 20, 18,  0, 25,  1,  2, 22])

In [38]:
target_ordered_by_distance = [candidates[idx] for idx in ordered_by_distance_idx]
dist_ordered_by_distance = [dist[idx] for idx in ordered_by_distance_idx]

In [39]:
target_ordered_by_distance

['파이토치 설치 방법',
 '텐서플로우 설치 방법',
 '텐서플로우 사용법',
 'pytorch 설치방법',
 '아이유 노래 실행해',
 '티비 꺼줘',
 '티비 켜줘',
 'tv 꺼줘',
 '아이유 노래 틀어',
 '7시 알람',
 '웰시 코기에 대해서 알려줘',
 'tv 켜줘',
 '신동엽이 누구야',
 '아니모르겠어',
 '멈춰',
 '꺼',
 '내일 날씨 어때',
 '내일 날씨 알려줘',
 '코로나 알려줘',
 '내일 날씨 알고싶어',
 '코로나 확진자 알려줘',
 '그만',
 '유재석이 누구야',
 '코로나 요즘 어때',
 '코로나 확진자 몇명이야',
 '오늘 날씨 알려줘',
 '오늘 코로나 바이러스 인제군 상황이 보여줘',
 '오늘 날씨 어때',
 '오늘 날씨 알고싶어',
 '오늘 코로나 십구 부여 은 환자은 수 어때']

In [40]:
dist_ordered_by_distance

[0.046616553113024484,
 0.14464407066562457,
 0.14473964480233192,
 0.17486195115287395,
 0.1977207066061707,
 0.20463653583528896,
 0.21266075756881486,
 0.2170396979374838,
 0.21822533423203594,
 0.22294112433772262,
 0.22536454845856602,
 0.22987308002666618,
 0.2325018613328993,
 0.23278402635516193,
 0.2430858998543437,
 0.24548331967426573,
 0.2522461034037723,
 0.2523946498658337,
 0.2535111581427706,
 0.2550946947106676,
 0.2580464440322241,
 0.25836811700739315,
 0.259241273861879,
 0.2704760637583883,
 0.2717947091893851,
 0.2785370523337579,
 0.2813141661420726,
 0.2836485995129263,
 0.2843337229089762,
 0.2902564872081609]

In [41]:
# Print
print(f"query: {query}")
print("ordered_by_distance")
pprint([(t, d) for t, d in zip(target_ordered_by_distance, dist_ordered_by_distance)])

query: 파이토치 실행법
ordered_by_distance
[('파이토치 설치 방법', 0.046616553113024484),
 ('텐서플로우 설치 방법', 0.14464407066562457),
 ('텐서플로우 사용법', 0.14473964480233192),
 ('pytorch 설치방법', 0.17486195115287395),
 ('아이유 노래 실행해', 0.1977207066061707),
 ('티비 꺼줘', 0.20463653583528896),
 ('티비 켜줘', 0.21266075756881486),
 ('tv 꺼줘', 0.2170396979374838),
 ('아이유 노래 틀어', 0.21822533423203594),
 ('7시 알람', 0.22294112433772262),
 ('웰시 코기에 대해서 알려줘', 0.22536454845856602),
 ('tv 켜줘', 0.22987308002666618),
 ('신동엽이 누구야', 0.2325018613328993),
 ('아니모르겠어', 0.23278402635516193),
 ('멈춰', 0.2430858998543437),
 ('꺼', 0.24548331967426573),
 ('내일 날씨 어때', 0.2522461034037723),
 ('내일 날씨 알려줘', 0.2523946498658337),
 ('코로나 알려줘', 0.2535111581427706),
 ('내일 날씨 알고싶어', 0.2550946947106676),
 ('코로나 확진자 알려줘', 0.2580464440322241),
 ('그만', 0.25836811700739315),
 ('유재석이 누구야', 0.259241273861879),
 ('코로나 요즘 어때', 0.2704760637583883),
 ('코로나 확진자 몇명이야', 0.2717947091893851),
 ('오늘 날씨 알려줘', 0.2785370523337579),
 ('오늘 코로나 바이러스 인제군 상황이 보여줘', 0.2813141661420726

문서 분류, 유사도 계산 등 다양한 문제에 임베딩을 활용하는 방법을 소개합니다.

API 호출을 효율적으로 관리하고, 임베딩을 효과적으로 사용하는 다양한 팁을 제공합니다.

잠재적인 오류를 처리하고 문제를 디버깅하는 방법에 대해 설명합니다.

Embedding API와 관련된 추가 자료와 학습 리소스를 제공합니다.