# Embedding을 이용한 기사 추천 시스템 구축

- **임베딩 이해**: 임베딩의 개념을 이해하고 의미론적 의미를 포착하는 방식으로 텍스트 데이터를 표현하는 방법을 이해합니다.
- **OpenAI의 임베딩 API**: 임베딩 생성을 위한 OpenAI의 API에 대해 알아보고 이를 활용하여 영화 메타데이터를 추천 알고리즘에 적합한 형식으로 변환하는 방법을 알아보세요.
- **추천 로직**: 코사인 유사도를 사용하여 사용자 선호도에 따라 가장 관련성이 높은 영화 추천을 찾는 추천 시스템용 로직을 구현합니다.

- 최근접 이웃 검색 방식

In [1]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

In [2]:
import pandas as pd
import numpy as np
from openai import OpenAI 
client = OpenAI()  # OpenAI 클라이언트 생성

Model = "gpt-4o"
embedding_model = "text-embedding-3-small"  # 사용할 텍스트 임베딩 모델

### Data Load

In [3]:
# 데이터 로드(http://groups.di.unipi.it/~gulli/AG_corpus_of_news_articles.html에서 전체 데이터 세트 사용 가능)
dataset_path = "data/AG_news_samples.csv"
df_2000 = pd.read_csv(dataset_path)
print("전체 데이터 셋 크기:", df_2000.shape)

# 비용 절감을 위해 데이터 프레임을 500개의 샘플로 줄임
df = df_2000.sample(n=500, random_state=1)
print("줄인 데이터 셋 크기:", df.shape)

# 첫 5개의 샘플 출력
n_examples = 5
print(df.head(n_examples))

전체 데이터 셋 크기: (2000, 4)
줄인 데이터 셋 크기: (500, 4)
                                            title  \
674   Some consumers getting that sinking feeling   
1699                          Bryant Trial Begins   
1282                     Rivalry Lives Up to Hype   
1315   Vodafone #39;s New Handsets To Beat Rivals   
1210                               F1 test vetoed   

                                            description  label_int     label  
674   Consumers who cut it close by paying bills fro...          3  Business  
1699  After months of legal wrangling, the case of &...          2    Sports  
1282  While not quite a return to glory, Monday repr...          2    Sports  
1315  Vodafone has increased the competition ahead o...          3  Business  
1210  NICK Heidfeld #39;s test with Williams has bee...          2    Sports  


생략 부호로 잘리지 않은 동일한 예를 살펴보겠습니다.

In [5]:
# print the title, description, and label of each example
for idx, row in df.head(n_examples).iterrows():
    print("")
    print(f"Title: {row['title']}")
    print(f"Description: {row['description']}")
    print(f"Label: {row['label']}")


Title: Some consumers getting that sinking feeling
Description: Consumers who cut it close by paying bills from their checking accounts a couple of days before depositing funds will be out of luck under a new law that takes effect Oct. 28.
Label: Business

Title: Bryant Trial Begins
Description: After months of legal wrangling, the case of &lt;em&gt;People v. Kobe Bean Bryant&lt;/em&gt; commences on Friday in Eagle, Colo., with testimony set to begin next month.
Label: Sports

Title: Rivalry Lives Up to Hype
Description: While not quite a return to glory, Monday represents the Redskins' return to the national consciousness.
Label: Sports

Title: Vodafone #39;s New Handsets To Beat Rivals
Description: Vodafone has increased the competition ahead of Christmas with plans to launch 10 handsets before the festive season. The Newbury-based group said it will begin selling the phones in November.
Label: Business

Title: F1 test vetoed
Description: NICK Heidfeld #39;s test with Williams has b

- 이러한 기사에 대한 임베딩을 가져오기 전에 생성한 임베딩을 저장하기 위한 캐시를 설정해 보겠습니다. 일반적으로 나중에 다시 사용할 수 있도록 임베딩을 저장하는 것이 좋습니다. 저장하지 않으면 다시 계산할 때마다 비용을 다시 지불하게 됩니다.- 
캐시는 (텍스트, 모델)의 튜플을 부동 소수점 목록인 임베딩에 매핑하는 사전입니다. 캐시는 Python 피클 파일로 저장됩니다.

In [6]:
# 재계산을 피하기 위해 임베딩 캐시 설정
# 캐시는 튜플(텍스트, 모델)의 dictinary입니다 -> 임베딩, 피클 파일로 저장됨
import pickle

def get_embedding(text, model):
    # 입력 텍스트에서 줄바꿈 문자를 공백으로 대체
    text = text.replace("\n", " ")
    # 텍스트 임베딩 생성
    return client.embeddings.create(input=text, model=model).data[0].embedding

# embedding cache 경로 설정
embedding_cache_path = "data/recommendations_embeddings_cache.pkl"

# 저장된 캐시가 있으면 캐시의 초기값으로 로드합니다.
try:
    embedding_cache = pd.read_pickle(embedding_cache_path)
except:
    embedding_cache = {}

# 존재하는 경우 캐시에서 임베딩을 검색하고 그렇지 않은 경우 API를 통해 요청하는 함수를 정의합니다.
def embedding_from_string(
    string: str,
    model: str = embedding_model,
    embedding_cache=embedding_cache
) -> list:
    """재계산을 피하기 위해 캐시를 사용하여 주어진 문자열의 임베딩을 반환합니다."""
    if (string, model) not in embedding_cache.keys():
        embedding_cache[(string, model)] = get_embedding(string, model)
        with open(embedding_cache_path, "wb") as embedding_cache_file:
            pickle.dump(embedding_cache, embedding_cache_file)
    return embedding_cache[(string, model)]

In [8]:
# 현재의 cache size
len(embedding_cache)

500

임베딩을 가져와서 제대로 작동하는지 확인해 보겠습니다.

In [9]:
# 데이터 세트의 첫 번째 설명을 가져옵니다.
example_string = df["description"].values[0]
print(f"\nExample string: {example_string}")

# 임베딩의 처음 10차원을 인쇄합니다.
example_embedding = embedding_from_string(example_string)
print(f"\nExample embedding: {example_embedding[:10]}...")


Example string: Consumers who cut it close by paying bills from their checking accounts a couple of days before depositing funds will be out of luck under a new law that takes effect Oct. 28.

Example embedding: [0.030383672565221786, 0.019305197522044182, 0.012050963938236237, 0.0240887850522995, 0.0003535946016199887, 0.03172412887215614, 0.04013483226299286, 0.03750648722052574, 0.03811100870370865, -0.013943372294306755]...


In [11]:
# 현재의 cache size
len(embedding_cache)

500

### 임베딩을 기반으로 유사한 기사 추천  
유사한 기사를 찾으려면 다음 3단계 계획을 따르세요.

1. 모든 기사 설명의 유사성 임베딩을 가져옵니다.  
2. 소스 기사 제목과 다른 모든 기사 사이의 거리를 계산합니다.  
3. 소스 기사 제목에 가장 가까운 다른 기사를 인쇄하세요.

In [12]:
from scipy import spatial

def print_recommendations_from_strings(
    strings: list[str],
    index_of_source_string: int,
    k_nearest_neighbors: int = 1,
    model=embedding_model,
) -> list[int]:
    """주어진 문자열의 가장 가까운 이웃 k개를 인쇄합니다.."""
    # 모든 문자열에 대한 임베딩 가져오기
    embeddings = [embedding_from_string(string, model=model) for string in strings]

    # 소스 문자열의 임베딩을 가져옵니다.
    query_embedding = embeddings[index_of_source_string]

    # 소스 임베딩과 다른 임베딩 사이의 거리를 얻습니다.
    distances = [
        spatial.distance.cosine(query_embedding, embedding) for embedding in embeddings
    ]
    
    # 가장 가까운 이웃의 인덱스 가져오기
    indices_of_nearest_neighbors = np.argsort(distances)

    # 소스 문자열을 출력
    query_string = strings[index_of_source_string]
    print(f"Source string: {query_string}")
    # k개의 가장 가까운 이웃 출력
    k_counter = 0
    for i in indices_of_nearest_neighbors:
        # 시작 문자열과 동일하게 일치하는 문자열을 건너뜁니다.
        if query_string == strings[i]:
            continue
        # k개의 기사를 인쇄한 후 중지
        if k_counter >= k_nearest_neighbors:
            break
        k_counter += 1

        # 비슷한 문자열과 그것들의 거리를 출력
        print(
            f"""
        --- Recommendation #{k_counter} (nearest neighbor {k_counter} of {k_nearest_neighbors}) ---
        String: {strings[i]}
        Distance: {distances[i]:0.3f}"""
        )

    return indices_of_nearest_neighbors

### 추천 예시다음의  기사와 유사한 기사를 찾아보겠습니다.

In [13]:
IDX = 5
article_descriptions = df["description"].tolist()
article_descriptions[IDX]

'Israeli authorities have launched an investigation into death threats against Israeli Prime Minister Ariel Sharon and other officials supporting his disengagement plan from Gaza and parts of the West Bank, Jerusalem police said Tuesday.'

In [14]:
strings=article_descriptions
len(strings)

500

In [15]:
%%time
article_descriptions = df["description"].tolist()

tony_blair_articles = print_recommendations_from_strings(
    strings=article_descriptions,  # 기사 설명을 바탕으로 유사성을 판단해 보겠습니다.
    index_of_source_string=IDX,  # IDX 번째 기사와 유사한 기사
    k_nearest_neighbors=5,     # 가장 유사한 기사 5개
)

Source string: Israeli authorities have launched an investigation into death threats against Israeli Prime Minister Ariel Sharon and other officials supporting his disengagement plan from Gaza and parts of the West Bank, Jerusalem police said Tuesday.

        --- Recommendation #1 (nearest neighbor 1 of 5) ---
        String:  JERUSALEM (Reuters) - Israeli Prime Minister Ariel Sharon  said on Thursday Yasser Arafat's death could be a turning point  for peacemaking but he would pursue a unilateral plan that  would strip Palestinians of some land they want for a state.
        Distance: 0.359

        --- Recommendation #2 (nearest neighbor 2 of 5) ---
        String: Israels Shin Bet security service has tightened protection of the prime minister, MPs and parliament ahead of next weeks crucial vote on a Gaza withdrawal.
        Distance: 0.387

        --- Recommendation #3 (nearest neighbor 3 of 5) ---
        String:  GAZA (Reuters) - An Israeli helicopter fired a missile into  a tow

In [17]:
# 현재의 cache size
len(embedding_cache)

500