In [8]:
import pandas as pd
# 사전정의된 Query-Answer가 담긴 테이블
qna_df = pd.read_csv('qa_data.csv')[['질문', '답변']]

qna_df['질문'] = qna_df['질문'].apply(lambda x: x.split('질문\n')[1]) # "질문\n" 제거
qna_df['답변'] = qna_df['답변'].apply(lambda x: x.split('답변\n')[1]) # "답변\n" 제거

In [10]:
from sentence_transformers import SentenceTransformer

# SentenceTransformer 모델 로드
embedding_model = SentenceTransformer('jeonseonjin/embedding_BAAI-bge-m3')

# 쿼리 문장들에 대한 임베딩 벡터 생성
query_texts = qna_df['질문'].to_list()
query_embeddings = embedding_model.encode(query_texts)

In [11]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# query-answer 함수 정의
def qna_answer_to_query(new_query, embedding_model=embedding_model, query_embeddings=query_embeddings, top_k=1, verbose=True):
    # 쿼리 임베딩 계산
    new_query_embedding = embedding_model.encode([new_query])

    
    # 코사인 유사도 계산
    cos_sim = cosine_similarity(new_query_embedding, query_embeddings)
    
    # 코사인 유사도 값이 가장 큰 질문의 인덱스 찾기
    most_similar_idx = np.argmax(cos_sim)
    similarity = np.round(cos_sim[0][most_similar_idx], 2)
    
    # 가장 비슷한 질문과 답변 가져오기
    similar_query = query_texts[most_similar_idx]
    similar_answer = qna_df.iloc[most_similar_idx]['답변']
    
    if verbose == True:
        print("가장 비슷한 질문 : ", similar_query)
        print("가장 비슷한 질문의 유사도 : ", similarity)
        print("가장 비슷한 질문의 답: ", similar_answer)

    # 결과 반환
    return similar_query, similarity, similar_answer

In [12]:
qna_answer_to_query('전세계 외환시장의 거래규모')

가장 비슷한 질문 :  외환 전세계 외환시장의 거래규모
가장 비슷한 질문의 유사도 :  0.94
가장 비슷한 질문의 답:  세계 외환거래규모와 관련하여 보통 이용하는 통계는 국제결제은행(BIS)의 「세계 외환 및 장외파생상품 시장 거래규모」 조사 결과 자료인데 동 조사는 3년 주기로 실시되고 있습니다. 2017년 1월말 현재 최신 통계는 2016년 4월 기준 BIS 회원국들에 대한 조사 결과로서, 이에 따르면 2016년 4월중 BIS 회원국들의 일평균 외환거래규모(거래금액 기준)는 5조 880억달러(현물환 1조 654억달러, 선물환 7,000억달러, 외환스왑 2조 3,830억달러 등)입니다. 국가별(거주성 기준) 거래 비중은 영국 37.1%, 미국 19.4%, 싱가포르 7.9%, 홍콩 6.7%, 일본 6.1% 등 순이며, 우리나라는 0.7% 정도입니다. 외환거래규모와 관련하여 보다 자세한 자료가 필요한 경우에는 BIS 홈페이지(www.bis.org) 및 한국은행 보도자료 (2016년도 BIS 주관「세계 외환 및 장외파생상품 시장 조사(거래금액 부문)」결과, 2016.9.2)를 참고하시기 바랍니다.
  한편, 외환거래규모를 거래동기별로, 즉 위험회피 목적인지 아니면 투기 목적인지 구분한 통계는 공식적으로 발표되고 있지 않습니다. 
  <세계 외환시장 거래규모(2016년 4월중)>
세계 외환시장 거래규모(2016년 4월중)
외환상품별
일평균 거래규모
(십억달러)
국가별
거래비중(%)
현물환
1,654
영국
37.1
선물환
700
미국
19.4
외환스왑
2,383
싱가포르
7.9
통화스왑
96
홍콩
6.7
통화옵션 및 기타
254
일본
6.1
합계
5,088
한국
0.7
 


('외환 전세계 외환시장의 거래규모',
 0.94,
 '세계 외환거래규모와 관련하여 보통 이용하는 통계는 국제결제은행(BIS)의 「세계 외환 및 장외파생상품 시장 거래규모」 조사 결과 자료인데 동 조사는 3년 주기로 실시되고 있습니다. 2017년 1월말 현재 최신 통계는 2016년 4월 기준 BIS 회원국들에 대한 조사 결과로서, 이에 따르면 2016년 4월중 BIS 회원국들의 일평균 외환거래규모(거래금액 기준)는 5조 880억달러(현물환 1조 654억달러, 선물환 7,000억달러, 외환스왑 2조 3,830억달러 등)입니다. 국가별(거주성 기준) 거래 비중은 영국 37.1%, 미국 19.4%, 싱가포르 7.9%, 홍콩 6.7%, 일본 6.1% 등 순이며, 우리나라는 0.7% 정도입니다. 외환거래규모와 관련하여 보다 자세한 자료가 필요한 경우에는 BIS 홈페이지(www.bis.org) 및 한국은행 보도자료 (2016년도 BIS 주관「세계 외환 및 장외파생상품 시장 조사(거래금액 부문)」결과, 2016.9.2)를 참고하시기 바랍니다.\n  한편, 외환거래규모를 거래동기별로, 즉 위험회피 목적인지 아니면 투기 목적인지 구분한 통계는 공식적으로 발표되고 있지 않습니다. \n  <세계 외환시장 거래규모(2016년 4월중)>\n세계 외환시장 거래규모(2016년 4월중)\n외환상품별\n일평균 거래규모\n(십억달러)\n국가별\n거래비중(%)\n현물환\n1,654\n영국\n37.1\n선물환\n700\n미국\n19.4\n외환스왑\n2,383\n싱가포르\n7.9\n통화스왑\n96\n홍콩\n6.7\n통화옵션 및 기타\n254\n일본\n6.1\n합계\n5,088\n한국\n0.7\n ')

In [14]:
import gradio as gr

# 질문에 대한 답변을 제공하는 함수 (qna_answer_to_query 함수 사용)
def chat_with(message, history):
    # 사용자의 질문에 대해 full_answer_to_query를 사용하여 답변 생성
    response = qna_answer_to_query(message)[2]
    
    # 질문과 답변을 히스토리에 저장 (history는 대화 히스토리)
    history.append((message, response))  
    
    # Gradio가 (응답, history)를 반환해야 하므로, 대화 기록과 함께 반환
    return history, history


# Gradio Chatbot 인터페이스 생성
with gr.Blocks() as demo:
    chatbot = gr.Chatbot()  # 대화 기록을 표시하는 컴포넌트
    msg = gr.Textbox(label="질문 입력")  # 질문 입력을 위한 텍스트 박스
    clear = gr.Button("대화 기록 초기화")  # 대화 기록 초기화 버튼

    # 대화가 시작될 때 실행할 동작 정의
    msg.submit(chat_with, inputs=[msg, chatbot], outputs=[chatbot, msg])  # 입력값을 처리 후 출력

    # 기록 초기화 버튼 동작 정의
    clear.click(lambda: [], None, chatbot, queue=False)  # 대화 기록을 초기화

# 앱 실행
demo.launch(share=True)


Running on local URL:  http://127.0.0.1:7863


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Running on public URL: https://6b3b63e3ba7f964ed0.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from Terminal to deploy to Spaces (https://huggingface.co/spaces)




가장 비슷한 질문 :  "지역화폐" 지역사랑상품권의 발행주체 부도시 한국은행의 보상 여부?
가장 비슷한 질문의 유사도 :  0.59
가장 비슷한 질문의 답:  지역사랑상품권은 한국은행에서 발행한 법화(法貨)가 아니므로 발행주체의 부도시 한국은행은 이와 관련한 어떠한 보상도 하지 않습니다.
