## 3. Semantic Search - Prep (FAQs)

Semantic Search - vectorize samples

In [1]:
import pandas as pd

In [2]:
df = pd.read_json('./sample_faqs.json')

In [3]:
df.head()

Unnamed: 0,id,category,title,body
0,469829,계정,계정 인증을 해제하고 싶어요.,계정 인증 해제는 아래의 방법을 참고해 주시길 바랍니다.\n■ 계정 인증 해제 방법...
1,412428,게임,밤까마귀 장비를 강화했는데 이벤트 및 업적 카운트에 반영되지 않아요.,"강화를 시도해도 파괴되지 않는 '보호의 밤까마귀 강화 주문서'로 강화했을 경우, 이..."
2,398796,결제(PC),"웹 상점 - 결제 취소는 되었지만, 결제 금액이 환불되지 않았어요.",결제 수단인 카드사 혹은 결제사의 정책에 따라 최종 결제 환불까지 영업일 기준 1~...
3,398795,결제(PC),웹 상점 - 결제 수단 별 한도가 궁금해요.,결제 수단 별 한도는 각 카드사 및 결제사의 정책에 따라 변동될 수 있습니다.\n▶...
4,398794,결제(PC),웹 상점 - 상품을 구매했지만 보관함에 들어오지 않았어요.,"웹 상점에서 상품을 구매하면, 공식 사이트 내 대표 캐릭터로 설정된 캐릭터에게 지급..."


In [4]:
import tiktoken
encoding = tiktoken.get_encoding("cl100k_base")

In [5]:
def get_tokensize(df):
    token_sizes = []
    for i in range(0, len(df)):
        token_sizes.append( len(encoding.encode( df['body'].iloc[i] )) )
    
    return token_sizes

In [6]:
df['token_size'] = get_tokensize(df)
df.head()

Unnamed: 0,id,category,title,body,token_size
0,469829,계정,계정 인증을 해제하고 싶어요.,계정 인증 해제는 아래의 방법을 참고해 주시길 바랍니다.\n■ 계정 인증 해제 방법...,211
1,412428,게임,밤까마귀 장비를 강화했는데 이벤트 및 업적 카운트에 반영되지 않아요.,"강화를 시도해도 파괴되지 않는 '보호의 밤까마귀 강화 주문서'로 강화했을 경우, 이...",67
2,398796,결제(PC),"웹 상점 - 결제 취소는 되었지만, 결제 금액이 환불되지 않았어요.",결제 수단인 카드사 혹은 결제사의 정책에 따라 최종 결제 환불까지 영업일 기준 1~...,121
3,398795,결제(PC),웹 상점 - 결제 수단 별 한도가 궁금해요.,결제 수단 별 한도는 각 카드사 및 결제사의 정책에 따라 변동될 수 있습니다.\n▶...,350
4,398794,결제(PC),웹 상점 - 상품을 구매했지만 보관함에 들어오지 않았어요.,"웹 상점에서 상품을 구매하면, 공식 사이트 내 대표 캐릭터로 설정된 캐릭터에게 지급...",93


In [11]:
df[df['token_size'] > 1000]

Unnamed: 0,id,category,title,body,token_size
6,299641,게임,클래스 체인지와 관련하여 단원님들이 많이 궁금해하시는 문의는 여기에서 확인해주세요.,1. 클래스 체인지 시 변경할 수 있는 클래스의 제한이 있나요?\n - 클래스 체인...,2118
11,38234,게임,아이템 상자의 확률이 궁금해요.,아이템 상자 확률을 안내해 드립니다.\n기타 확률형 아이템골드 상자이름수량확률골드3...,5200
12,38233,게임,마력 주입 확률이 궁금해요.,마력 주입 확률을 안내해 드립니다.\n 마력 주입마력 주입 I구분능력...,18649
13,38231,게임,밤까마귀 장비 세공 확률이 궁금해요.,밤까마귀 장비 세공 확률을 안내해 드립니다.\n 밤까마귀 장비 세공\...,1491
14,38229,게임,장신구 세공 확률이 궁금해요.,장신구 세공 확률을 안내해 드립니다.\n 장신구(목걸이 / 반지 / ...,6558
15,38228,게임,방어구 세공 확률이 궁금해요.,방어구 세공 확률을 안내해 드립니다.\n 방어구 세공방어구 세공 - ...,3397
16,38225,게임,무기 세공 확률이 궁금해요.,무기 세공 확률을 안내해 드립니다.\n 무기 세공무기 세공 - 희귀구...,2676
17,38223,게임,강화 확률이 궁금해요.,강화 확률을 안내해 드립니다.\n강화무기 강화목표 강화 단계일반 강화 주문서광휘의 ...,1861
18,38218,게임,제작 확률이 궁금해요.,제작 확률을 안내해드립니다.\n 제작제작 기술기술 등급아이템 등급제작...,92966
19,38216,게임,무기 외형 교체 확률이 궁금해요.,무기 외형 교체 확률을 안내해 드립니다.\n 무기 외형 교체무기 외형...,6568


## Chunking

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

In [12]:
recursive_text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
   encoding_name="cl100k_base",
   chunk_size=1000, 
   chunk_overlap=125
)

chunked_data = pd.DataFrame(columns=['title', 'chunk', 'category', 'parent_id', 'chunk_id'])

for i in range(len(df)):
    row = df.iloc[i]

    md_content = row['body']
    recursive_text_splitter_chunks = recursive_text_splitter.split_text(md_content)
    for j in range(len(recursive_text_splitter_chunks)):
        chunk = recursive_text_splitter_chunks[j]
        new_row = {'title':  row['title'], 'chunk': chunk, 'parent_id': row['id'], 'chunk_id': j, 'category': row['category']}
        chunked_data = pd.concat([chunked_data, pd.DataFrame([new_row])], ignore_index=True)

chunked_data

Unnamed: 0,title,chunk,category,parent_id,chunk_id
0,계정 인증을 해제하고 싶어요.,계정 인증 해제는 아래의 방법을 참고해 주시길 바랍니다.\n■ 계정 인증 해제 방법...,계정,469829,0
1,밤까마귀 장비를 강화했는데 이벤트 및 업적 카운트에 반영되지 않아요.,"강화를 시도해도 파괴되지 않는 '보호의 밤까마귀 강화 주문서'로 강화했을 경우, 이...",게임,412428,0
2,"웹 상점 - 결제 취소는 되었지만, 결제 금액이 환불되지 않았어요.",결제 수단인 카드사 혹은 결제사의 정책에 따라 최종 결제 환불까지 영업일 기준 1~...,결제(PC),398796,0
3,웹 상점 - 결제 수단 별 한도가 궁금해요.,결제 수단 별 한도는 각 카드사 및 결제사의 정책에 따라 변동될 수 있습니다.\n▶...,결제(PC),398795,0
4,웹 상점 - 상품을 구매했지만 보관함에 들어오지 않았어요.,"웹 상점에서 상품을 구매하면, 공식 사이트 내 대표 캐릭터로 설정된 캐릭터에게 지급...",결제(PC),398794,0
...,...,...,...,...,...
380,윈도우를 제외한 다른 OS에서 나이트크로우 PC 버전을 설치할 수 없나요?,현재 나이트크로우 PC 런처는 윈도우 계열(윈도우 10 이상)에서만 서비스를 진행하...,설치/실행(PC),11,0
381,앱 플레이어에서 나이트크로우를 실행할 수 있나요?,"나이트크로우는 앱 플레이어를 지원하지 않습니다. 공식 커뮤니티 내 ""GAME STA...",설치/실행(PC),10,0
382,단말기 OS 정보는 어떻게 확인할 수 있나요?,"OS 버전을 확인하기 위해서는 아래의 방법을 참고해주세요.\n\n■ iOS(아이폰,...",설치/실행(MO),9,0
383,나이트크로우를 해외에서 플레이할 수 있나요?,현재 나이트크로우는 국내 서비스만을 지원하고 있습니다. 그러므로 해외에서 다운로드 ...,설치/실행(MO),8,0


In [17]:
chunked_data[chunked_data['parent_id'] == 38218]

Unnamed: 0,title,chunk,category,parent_id,chunk_id
72,제작 확률이 궁금해요.,제작 확률을 안내해드립니다.,게임,38218,0
73,제작 확률이 궁금해요.,제작제작 기술기술 등급아이템 등급제작식(결과물)성공실패대성공확률 합계단련의 제작술수...,게임,38218,1
74,제작 확률이 궁금해요.,검사의 쌍검(귀속)100.00%0%0.00%100%단련의 제작술수습고급반짝이는 쌍검...,게임,38218,2
75,제작 확률이 궁금해요.,샤드(귀속)100.00%0%0.00%100%단련의 제작술수습일반금이 간 방패(귀속)...,게임,38218,3
76,제작 확률이 궁금해요.,제작술수습고급반짝이는 투구(귀속)100.00%0%0.00%100%단련의 제작술수습고...,게임,38218,4
...,...,...,...,...,...
175,제작 확률이 궁금해요.,영롱한 인내의 향로100.00%0%0.00%100%공통제한 없음영웅+12 영롱한 인...,게임,38218,103
176,제작 확률이 궁금해요.,없음영웅+8 영롱한 청옥의 나침반(귀속)100.00%0%0.00%100%공통제한 없...,게임,38218,104
177,제작 확률이 궁금해요.,영롱한 강옥의 나침반(귀속)100.00%0%0.00%100%공통제한 없음영웅+12 ...,게임,38218,105
178,제작 확률이 궁금해요.,제작없음특수+4 밤까마귀 꼬리깃 호각 상자(귀속)100.00%0%0.00%100%일...,게임,38218,106


In [None]:
from dotenv import load_dotenv
load_dotenv("./.env")

True

In [4]:
from openai import AzureOpenAI

import os

client = AzureOpenAI(
  api_key = os.getenv("AZURE_OPENAI_KEY"),  
  api_version = "2025-01-01-preview",
  azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT")
)

In [10]:
from tqdm import tqdm

# Parameters
batch_size = 20  # Number of rows to process in a batch, adjust as needed

# Function to get embeddings in batches
def get_embeddings_in_batches(df, batch_size, model_name="text-embedding-3-large"):
    embeddings = []
    for i in tqdm(range(0, len(df), batch_size)):
        # Prepare the batch
        batch_content = df['chunk'].iloc[i:i + batch_size].tolist()

        # Request embeddings from OpenAI in batch
        response = client.embeddings.create(
            input=batch_content,
            model=model_name
        )
        
        # Extract embeddings
        batch_embeddings = [item.embedding for item in response.data]
        embeddings.extend(batch_embeddings)
    
    return embeddings


In [11]:
chunked_data['embeddings'] = get_embeddings_in_batches(chunked_data, batch_size)
chunked_data.head()

100%|██████████| 20/20 [00:34<00:00,  1.73s/it]


Unnamed: 0,title,chunk,category,parent_id,chunk_id,embeddings
0,계정 인증을 해제하고 싶어요.,계정 인증 해제는 아래의 방법을 참고해 주시길 바랍니다.\n■ 계정 인증 해제 방법...,계정,469829,0,"[-0.009334231726825237, -0.07371649891138077, ..."
1,밤까마귀 장비를 강화했는데 이벤트 및 업적 카운트에 반영되지 않아요.,"강화를 시도해도 파괴되지 않는 '보호의 밤까마귀 강화 주문서'로 강화했을 경우, 이...",게임,412428,0,"[-0.0031998935155570507, -0.034888189285993576..."
2,"웹 상점 - 결제 취소는 되었지만, 결제 금액이 환불되지 않았어요.",결제 수단인 카드사 혹은 결제사의 정책에 따라 최종 결제 환불까지 영업일 기준 1~...,결제(PC),398796,0,"[-0.032882701605558395, -0.028877221047878265,..."
3,웹 상점 - 결제 수단 별 한도가 궁금해요.,결제 수단 별 한도는 각 카드사 및 결제사의 정책에 따라 변동될 수 있습니다.\n▶...,결제(PC),398795,0,"[-0.03583231195807457, -0.005664754193276167, ..."
4,웹 상점 - 상품을 구매했지만 보관함에 들어오지 않았어요.,"웹 상점에서 상품을 구매하면, 공식 사이트 내 대표 캐릭터로 설정된 캐릭터에게 지급...",결제(PC),398794,0,"[-0.030095618218183517, -0.008123816922307014,..."


In [12]:
chunked_data.to_pickle('./sample_faqs_chunked.pkl')