## Indexing

#### Load Data

In [9]:
import pandas as pd

In [23]:
data = pd.read_csv('./대출상품설명.csv')
data=data.dropna(subset=['values'])


#### Set Elasticsearch

In [24]:
import elasticsearch

In [25]:
from elasticsearch import Elasticsearch
from tqdm import tqdm

from emb import get_embedding
#from es_gpt import ESGPT

In [29]:
es = Elasticsearch('http://localhost:9200/')


{'acknowledged': True, 'shards_acknowledged': True, 'index': 'test'}

#### Get Embedding

In [46]:
import tiktoken

# Load the cl100k_base tokenizer which is designed to work with the ada-002 model
tokenizer = tiktoken.get_encoding("cl100k_base")
max_tokens = 1000

In [47]:
def split_into_many(text, max_tokens = max_tokens):

    # Split the text into sentences
    sentences = text.split('. ')

    # Get the number of tokens for each sentence
    n_tokens = [len(tokenizer.encode(" " + sentence)) for sentence in sentences]
    
    chunks = []
    tokens_so_far = 0
    chunk = []

    # Loop through the sentences and tokens joined together in a tuple
    for sentence, token in zip(sentences, n_tokens):

        # If the number of tokens so far plus the number of tokens in the current sentence is greater 
        # than the max number of tokens, then add the chunk to the list of chunks and reset
        # the chunk and tokens so far
        if tokens_so_far + token > max_tokens:
            chunks.append(". ".join(chunk) + ".")
            chunk = []
            tokens_so_far = 0

        # If the number of tokens in the current sentence is greater than the max number of 
        # tokens, go to the next sentence
        if token > max_tokens:
            continue

        # Otherwise, add the sentence to the chunk and add the number of tokens to the total
        chunk.append(sentence)
        tokens_so_far += token + 1
    if chunk:
        chunks.append(". ".join(chunk) + ".")

    return chunks

In [None]:
def create_emb_dict_list(long_text):
    shortened = split_into_many(long_text)

    embeddings_dict_list = []

    for text in shortened:
        n_tokens = len(tokenizer.encode(text))
        embeddings = get_embedding(input=text)
        embeddings_dict = {}
        embeddings_dict["text"] = text
        embeddings_dict["n_tokens"] = n_tokens
        embeddings_dict["embeddings"] = embeddings.tolist()
        embeddings_dict_list.append(embeddings_dict)

    return embeddings_dict_list

#### indexing

In [None]:
if es.indices.exists(index_name) : es.indices.delete(index=index_name)
es.indices.create(index=index_name, body=mapping)

In [None]:
for idx,(product,key,value) in tqdm(enumerate(data.values),total = len(data)):
    if key=='상품명' : continue
    doc_id = str(idx)
    item_key= product+'\t'+key
    description = item_key+'\t'+value
    embeddings_dict_list=create_emb_dict_list(description)
    embeddings=get_embedding(input=description)
    
    es.index(index=index_name,id=doc_id, body={'item_key': item_key, 'description': description, 'embedding':embeddings.tolist(),'embeddings_dict_list':embeddings_dict_list})
    #es.index(index='test',id=doc_id,body={'product_key': product_key, 'value': text})



 51%|███████████████████▌                  | 827/1609 [09:38<09:36,  1.36it/s]

In [15]:
es.get(index=index_name, id='2')

{'_index': 'test',
 '_type': '_doc',
 '_id': '2',
 '_version': 1,
 '_seq_no': 1,
 '_primary_term': 1,
 'found': True,
 '_source': {'item_key': '쏠편한 비상금 대출\t대출고객',
  'description': '쏠편한 비상금 대출\t대출고객\t다음의 조건을 모두 만족하는 고객\t서울보증보험㈜ 보험증권 발급이 가능한 고객\t만 19세 이상 내국인\t당행 심사기준을 충족하는 고객\tKCB 평점 631점 이상, 서울보증보험 개인신용평점(등급) 1~6등급 이내\t',
  'embedding': [0.5764928460121155,
   0.4777856171131134,
   0.050824716687202454,
   -0.11643663793802261,
   -0.10273079574108124,
   0.14416362345218658,
   0.7521480917930603,
   0.1814219057559967,
   0.07700613141059875,
   -0.6588835120201111,
   0.026796963065862656,
   -1.1314804553985596,
   0.04645959287881851,
   0.034155212342739105,
   0.11250368505716324,
   -0.6115669012069702,
   -0.29821187257766724,
   0.5367856621742249,
   -0.7061519622802734,
   -0.11745034158229828,
   -0.09422627091407776,
   -0.20707187056541443,
   0.49299156665802,
   0.024907344952225685,
   -0.18777945637702942,
   0.3973599076271057,
   0.7729180455207825,
   0.1911047399

## Def

### context maxtoken 이하로 구축

In [19]:
def create_context(
    question, df, max_len=max_tokens, size="ada"
):
    """
    Create a context for a question by finding the most similar context from the dataframe
    """

    # Get the embeddings for the question
    q_embeddings = get_embedding(question)

    # Get the distances from the embeddings
    df['distances'] = distances_from_embeddings(q_embeddings, df['embeddings'].values, distance_metric='cosine')


    returns = []
    cur_len = 0

    # Sort by distance and add the text to the context until the context is too long
    for i, row in df.iterrows():#.sort_values('distances', ascending=True).iterrows():
        
        # Add the length of the text to the current length
        cur_len += row['n_tokens'] + 4
        
        # If the context is too long, break
        if cur_len > max_len:
            break
        
        # Else add it to the text that is being returned
        returns.append(row["text"])

    # Return the context
    return "\n\n###\n\n".join(returns),cur_len

### gpt prompt create 

In [None]:
def gptqnacontext(context,questions,p=True):
    
    header = """Answer the question using the provided context, and if the answer is not sure, answer with your information \n\nContext:\n"""
    header = """Context 내용으로 질문에 답변해줘, 답 없으면 너가 아는정보로 대답해줘 \n\nContext:\n"""
    
    _prompt= header + "".join(context) + "\n\n Q: " + questions + "\n A:"
    
    response = openai.Completion.create(
        model="text-davinci-003",
        prompt=_prompt, 
        temperature=0.1,
        max_tokens=1000,
        top_p=1,
        frequency_penalty=0,
        presence_penalty=0,
        stop=["END"]
    )
    if p:
        print("Q: " + questions)
        print("A: " +response["choices"][0]["text"])
    return response["choices"][0]["text"]

## Run

In [17]:
#import elasticsearch
import pandas as pd

In [21]:
from elasticsearch import Elasticsearch
from openai.embeddings_utils import distances_from_embeddings
from emb import get_embedding

In [None]:
import os
import openai

openai.api_key = "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"
#openai.api_key = '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'


In [None]:
index_name = 'test'
max_tokens = 1000

In [4]:
es = Elasticsearch('http://localhost:9200/')

In [5]:
query = '쏠편한 비상금 대출이 뭐야'

In [14]:
es_results=es.search(index=index_name,_source=['description','embeddings_dict_list'], body={'from':0, 'size':10, 'query':{'match':{'description':query}}})
es_results= es_results['hits']['hits']
returns = [result['_source']['description'] for result in es_results]
returns

['쏠편한 비상금 대출\t상환방법\t만기일시상환\t마이너스통장 방식\t매달 대출이자만 납부\t대출이 종료되는 날까지 대출상환 필요\t',
 '쏠편한 비상금 대출\t추가사항\t본 대출상품은 포켓론 상품과 중복 이용이 불가합니다.\t',
 '쏠편한 비상금 대출\t상품개요\t서울보증보험의 보증보험을 통해 간편하고 편리하게 사용 가능한 소액 마이너스 통장 대출\t',
 '쏠편한 비상금 대출\t대출한도\t최저 50만원 ~ 최대 3백만원\t서울보증보험에서 산출된 보증한도 내에서 가능\t채권보전 : 서울보증보험 전액담보 (대출금액의 100%, 보증료 은행 부담)\t',
 '쏠편한 비상금 대출\t중도상환해약금\t중도상환해약금 없음\t대출기간이 종료되기 전 언제든 소액을 상환해도 비용이 부과되지 않음\t대출기간 중 대출원금을 줄이면 매달 납부하는 이자도 낮아져 이자부담을 줄일 수 있음\t',
 '쏠편한 비상금 대출\t대출고객\t다음의 조건을 모두 만족하는 고객\t서울보증보험㈜ 보험증권 발급이 가능한 고객\t만 19세 이상 내국인\t당행 심사기준을 충족하는 고객\tKCB 평점 631점 이상, 서울보증보험 개인신용평점(등급) 1~6등급 이내\t',
 '쏠편한 비상금 대출\t대출기간\t1년\t대출기간 종료전 심사결과에 따라 대출기간연장이 가능하며 심사결과에 따라 최장 10년까지 1년단위로 연장함\t이자 계산 방법 및 납입 시기\t계산방법 : 1년을 365일(윤년은 366일)로 보고 1일 단위로 계산\t납입 시기 : 이자 납입일을 정하여 일정주기 (매월 등) 마다 이자를 납입\t휴일에 인터넷뱅킹 등을 통한 이자 납입 가능\t',
 "쏠편한 비상금 대출\t대출금리\t우대금리 (거래실적 충족여부에 따라 최고 0.3%)\t급여이체 및 MY급여클럽 (일정금액거래시)\t0.2%\t신한카드(신용/체크)이용\t0.1%\t연체금리\t대출이자를 납부하여야 하는 날에 납입하지 않거나 대출계약이 종료되는 날에 대출금을 상환하지 않으면 원래 약정한 이자에 가산되는 금리\t연체금리는 대출이자율에 연체가산금

In [None]:
input_token_len=0
for results in es_results:input_token_len+= results['_source']['embeddings_dict_list'][0]['n_tokens']

In [22]:


if input_token_len < max_tokens:
    
    returns = [result['_source']['description'] for result in es_results]
    if not returns:
        context = "No results found"    
    context="\n\n###\n\n".join(returns)

else:
    # Create a pandas DataFrame from the list of embeddings dictionaries
    df = pd.DataFrame(columns=["text", "n_tokens", "embeddings"])

    # extract embeddings_dict from es_results and append to the dataframe
    for hit in es_results:
        embeddings_dict_list = hit['_source']['embeddings_dict_list']
        for embeddings_dict in embeddings_dict_list:
            df = df.append(embeddings_dict, ignore_index=True)

    context, input_token_len = create_context(question=query,df=df)

  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)
  df = df.append(embeddings_dict, ignore_index=True)


In [23]:
context

'쏠편한 비상금 대출\t상환방법\t만기일시상환\t마이너스통장 방식\t매달 대출이자만 납부\t대출이 종료되는 날까지 대출상환 필요\t.\n\n###\n\n쏠편한 비상금 대출\t추가사항\t본 대출상품은 포켓론 상품과 중복 이용이 불가합니다.\t.\n\n###\n\n쏠편한 비상금 대출\t상품개요\t서울보증보험의 보증보험을 통해 간편하고 편리하게 사용 가능한 소액 마이너스 통장 대출\t.\n\n###\n\n쏠편한 비상금 대출\t대출한도\t최저 50만원 ~ 최대 3백만원\t서울보증보험에서 산출된 보증한도 내에서 가능\t채권보전 : 서울보증보험 전액담보 (대출금액의 100%, 보증료 은행 부담)\t.\n\n###\n\n쏠편한 비상금 대출\t중도상환해약금\t중도상환해약금 없음\t대출기간이 종료되기 전 언제든 소액을 상환해도 비용이 부과되지 않음\t대출기간 중 대출원금을 줄이면 매달 납부하는 이자도 낮아져 이자부담을 줄일 수 있음\t.\n\n###\n\n쏠편한 비상금 대출\t대출고객\t다음의 조건을 모두 만족하는 고객\t서울보증보험㈜ 보험증권 발급이 가능한 고객\t만 19세 이상 내국인\t당행 심사기준을 충족하는 고객\tKCB 평점 631점 이상, 서울보증보험 개인신용평점(등급) 1~6등급 이내\t.\n\n###\n\n쏠편한 비상금 대출\t대출기간\t1년\t대출기간 종료전 심사결과에 따라 대출기간연장이 가능하며 심사결과에 따라 최장 10년까지 1년단위로 연장함\t이자 계산 방법 및 납입 시기\t계산방법 : 1년을 365일(윤년은 366일)로 보고 1일 단위로 계산\t납입 시기 : 이자 납입일을 정하여 일정주기 (매월 등) 마다 이자를 납입\t휴일에 인터넷뱅킹 등을 통한 이자 납입 가능\t.'

In [24]:
input_token_len

1045

In [170]:

gptqnacontext(context,query,p=True)

Q: 쏠편한 비상금 대출이 뭐야
A:  쏠편한 비상금 대출은 서울보증보험의 보증보험을 통해 간편하고 편리하게 사용 가능한 소액 마이너스 통장 대출 상품입니다.


' 쏠편한 비상금 대출은 서울보증보험의 보증보험을 통해 간편하고 편리하게 사용 가능한 소액 마이너스 통장 대출 상품입니다.'

### COSSIM SEARCH

In [None]:
query = '쏠편한 비상금 대출 금리'

In [None]:
query_vector=get_embedding(query)

In [None]:
script_query = {
        "script_score": {
            "query": {"match_all": {}},
            "script": {
                "source": "cosineSimilarity(params.query_vector, doc['embedding']) + 1.0",
                "params": {"query_vector": query_vector.tolist()}
            }
        }
    }

In [None]:
es_results=es.search(
        index=index_name,
        body={
            'from':0, 'size':10,
            "query": script_query,
            "_source": {"includes": ["description"]}
        }
    )

In [None]:
es_results= es_results['hits']['hits']
returns = [result['_source']['description'] for result in es_results]
returns

['하늘장학생 교육비대출\t중도상환해약금\t중도상환해약금 없음\t',
 '신한 닥터론\t대출고객\t의사\t',
 '신한 청년월세대출\t중도상환해약금\t중도상환해약금 없음\t',
 '신한 청년전세대출\t중도상환해약금\t중도상환해약금 없음\t',
 '신한 금적립 담보대출\t중도상환해약금\t해당사항 없음\t\t\t\t\t',
 '특별대환대출\t상품개요\t가계대출\t신용대출\t',
 '쏠편한 직장인대출\t대출한도\t최대 5천 만원\t',
 '샐러리론\t대출한도\t대출 최고한도 50백만원\t',
 '보증대출\t대출고객\t성년인 내국인\t',
 '증서대출\t대출고객\t성년인 내국인\t']