In [None]:
################################################################################################
# sentence-bert와 Faiss 라이브러리를 이용하여 검색 MRR(Mean Reciprocal Rank)와 BM25 측정하는 예시임
# => bm25 설치 : !pip install rank_bm25
#
# 1. 검색모델 로딩
# 2. json QuA파일 로딩 하여, 각 항목별 리스트를 출력한후, contexts df, questions df를 만듬.
# 3. 정답리스트에 대해 임베딩 벡터 생성 후 FAISS에 인덱싱함.
# 4. 쿼리를 list로 만들고, 검색 후 예측된 결과를 list로 만듬
# 5. 정답리스트와 예측리스트를 가지고 MRR을 구함
# 6. contexts df 를 BM25 인덱싱 하고 , questions df 를 쿼리로 입력하여 BM25 스코어 구함
################################################################################################
import faiss
import numpy as np
import pandas as pd
import time
import json
import os
from tqdm.notebook import tqdm

from os import sys
sys.path.append('../../')
from myutils import GPU_info, seed_everything, mlogging

logger = mlogging(loggername="MRR-BM25", logfilename="../../../log/MRR-BM25")
device = GPU_info()

#------------------------------------------------------------------------------------
# 0. param 설정
#------------------------------------------------------------------------------------
seed = 111
query_num = 500            # 쿼리 최대 갯수: KorQuAD_v1.0_dev.json 최대값은 5533개임, 0이면 모든 5533개 쿼리함.
search_k = 20               # FAISS 검색시, 검색 계수(5=쿼리와 가장 근접한 5개 결과값을 반환함)
use_cross_encoder = True   # cross_encoder 사용할지 유.무 (true=사용함, false=사용안함)
use_bm25 = True            # BM25 출력 할지
embedding_paragraph_avg = True # True = 문장 임베딩 구할때 여러문장 평균으로 구함(느림), Fals=문장 전체를 하나의 벡터로 생성(빠름)
#------------------------------------------------------------------------------------

seed_everything(seed)

In [None]:
#-------------------------------------------------------------------------------------
# 1.sentence bert 모델 로딩
#-------------------------------------------------------------------------------------
from sentence_transformers import SentenceTransformer
from sentence_transformers import models
from sentence_transformers.cross_encoder import CrossEncoder

bi_encoder_path = "bongsoo/klue-sbert-v1" # klue-sbert-v1 # albert-small-kor-sbert-v1.1 # kpf-sbert-v1.1

# 임베딩 벡터 폴링 모드 선택 (*아래값중 문자열로 입력함, 기본=mean)
# mean=단어 평균, max=최대값, cls=문장, 
#['mean', 'max', 'cls', 'weightedmean', 'lasttoken']
pooling_mode = 'mean' # mean # cls

word_embedding_model = models.Transformer(bi_encoder_path, max_seq_length=256, do_lower_case=True, tokenizer_name_or_path=bi_encoder_path)
#pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension())  
pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension(), pooling_mode=pooling_mode)  
bi_encoder = SentenceTransformer(modules=[word_embedding_model, pooling_model])
#bi_encoder = SentenceTransformer(bi_encoder_path)
bi_encoder.to(device)

# cross-encoder 모델 로딩
if use_cross_encoder == True:
    cross_encoder_path = "bongsoo/klue-cross-encoder-v1"# klue-cross-encoder-v1 # albert-small-kor-cross-encoder-v1 # kpf_cross-encoder-v1
    cross_encoder = CrossEncoder(cross_encoder_path, max_length=512, device=device)


In [None]:
#-------------------------------------------------------------------------------------------------------
# 2. KorQuAD_v1.0_dev.json 파일 로딩 하여, 각 항목별 리스트를 출력한후, contexts df, questions df를 만듬.
#-------------------------------------------------------------------------------------------------------
from myutils import read_korquad_v1_json, read_aihub_qua_json

# aihub QuA 파일을 불러옴.
jsonfile = './data/KorQuAD_v1.0_dev.json' # VL_unanswerable.json # VL_text_entailment.json # VL_span_inference.json # KorQuAD_v1.0_dev.json
contexts, questions, answers, contextids, qcontextids = read_korquad_v1_json(jsonfile) # read_aihub_qua_json(jsonfile)

# list들을 zip 으로 묶고, dataframe 생성함
# context, contextid를 묶어서 context df 만듬.
df_contexts = pd.DataFrame((zip(contexts, contextids)), columns = ['context','contextid'])

# question, answer, contextids를 묶어서 question df 만듬
df_questions = pd.DataFrame((zip(questions, answers, qcontextids)), columns = ['question','answer', 'contextid'])

In [None]:
df_contexts.head()

In [None]:
df_questions.head()

In [None]:
#---------------------------------------------------------
# 3. 임베딩 벡터 생성 후 FAISS에 인덱싱함.
#---------------------------------------------------------
def embed_text(input):
    vectors =  bi_encoder.encode(input, convert_to_tensor=False)
    return np.array([embedding for embedding in vectors]).astype("float32")#float32 로 embeddings 타입 변경
    #return [vector.cpu().numpy().tolist() for vector in vectors]

#=============================================================================
# 문장을 .(마침표)로 여러 문장으로 나누고 한꺼번에 평균 임베딩 구하기2
# - GPU 환경에서 속도 매우 빠름)
#=============================================================================
def paragraph_index2(paragraph):
    avg_paragraph_vec = np.zeros((1,768))
    # 2차원 문장 배열로 만든다.
    sentences = [sentence for sentence in paragraph.split('. ') if sentence != '' and len(sentence) > 20]
    #print(sentences)
    
    # 한꺼번에 문장 배열을 임베딩 처리함
    avg_paragraph_vecs = embed_text(sentences)
    #print(type(avg_paragraph_vecs))
    #print(avg_paragraph_vecs.shape)
    
    # 배열로 만든 후 평균을 구함.
    arr = np.array(avg_paragraph_vecs)
    avg_paragraph_vec = arr.mean(axis=0)
    return avg_paragraph_vec.ravel(order='C') # 1차원 배열로 변경

#=============================================================================
# 문장을 .(마침표)로 여러 문장으로 나누고 나눈문장을 1개씩 임베딩 구한후 계수만큼 나워서 평균 임베딩 구하기
# => 속도 느림, 최대 15개만 함.(CPU 환경에서는 좋음)
#=============================================================================
def paragraph_index(paragraph):
    avg_paragraph_vec = np.zeros((1,768))
    sent_count = 0
    
    # ** kss로 분할할때 히브리어: מר, 기타 이상한 특수문자 있으면 에러남. 
    # 따라서 여기서는 그냥 . 기준으로 문장을 나누고 평균을 구함
    # 하나의 문장을 읽어와서 .기준으로 나눈다.
    sentences = [sentence for sentence in paragraph.split('. ') if sentence != '' and len(sentence) > 20]
    
    for sent in sentences:
        # 문장으로 나누고, 해당 vector들의 평균을 구함.
        avg_paragraph_vec += embed_text([sent])
        sent_count += 1
  
        # 최대 15개 문장만 처리함 
        if sent_count >= 15:
            break
         
    '''
    # kss로 분할할때 줄바꿈 있으면, 파싱하는데 에러남.따라서 "\n"는 제거함
    paragraph = paragraph.replace("\n","")
    
    print("==Start paragraph_index==")
    print(paragraph)
    for sent in kss.split_sentences(paragraph):
        # 문장으로 나누고, 해당 vector들의 평균을 구함.
        avg_paragraph_vec += embed_text([sent])
        sent_count += 1
        
        # 최대 10개 문장만 처리함 
        if sent_count >= 10:
            break
    '''
 
    # 0으로 나누면 배열이 nan(not a number)가 되어 버리므로, 반드시 0>큰지 확인해야 함
    if sent_count > 0:
        avg_paragraph_vec /= sent_count
    
    return avg_paragraph_vec.ravel(order='C') # 1차원 배열로 변경
   
#=============================================================================
# 임베딩 벡터 생성하여 FAISS에 인덱싱하고 ID와 매핑 처리하는 함수
# => IN : contextdf
# => OUT : FASSI index
#=============================================================================
def embeddingforfaiss(df, paragraph_avg):
           
    # embedding 생성(인코딩)
    start = time.time()
    paragraphs = df.context.to_list()
    print(f'*임베딩 할 context 계수: {len(paragraphs)}') 
    
    # paragraph_avg == True 이면 평균 문자 임베딩 벡터 구함.
    if paragraph_avg == True:
        print(f'*----평균 문장 임베딩 벡터 구하기----')
        embeddings = [paragraph_index2(paragraph) for paragraph in tqdm(paragraphs)]
    else:
        embeddings = bi_encoder.encode(paragraphs, show_progress_bar=True, convert_to_tensor=False)
       
    embeddings = np.array([embedding for embedding in embeddings]).astype("float32")#float32 로 embeddings 타입 변경
    #print(type(embeddings)) #print(embeddings.shape) #print(embeddings[0])    
    
    # instance index 생성
    index = faiss.IndexFlatL2(embeddings.shape[1])
   
    # id를 매핑 시켜줌 => 이때 idtype은 반드시 int64 type이어야 함.
    index = faiss.IndexIDMap2(index)
    index.add_with_ids(embeddings, df.contextid.values)

    print(f'*임베딩 시간 : {time.time()-start:.4f}')
    
    return index

#df 임베딩 구하고 faiss에 추가함.
index = embeddingforfaiss(df_contexts, paragraph_avg = embedding_paragraph_avg)

In [None]:
#----------------------------------------------------------------
# 4. 쿼리를 list로 만들고, 검색 후 예측된 결과를 list로 만듬
#----------------------------------------------------------------

from tqdm.notebook import tqdm

# Query를 list로 만들고 -> query 인코딩후->검색 결과 출력

if query_num == 0:   # query_num = 0 이면 모든 쿼리(5533개)
    user_query = df_questions['question'].values.tolist()
else:   # query_num > 0이면 해당 계수만큼 랜덤하게 샘플링하여 쿼리 목록을 만듬.
    df_questions = df_questions.sample(query_num, random_state=seed)
    df_questions = df_questions.reset_index(drop=True)  # index는 0부터 
    user_query = df_questions['question'].values.tolist()

print(f'Query-----------------------------------------------------')
print(user_query[0:3])

vector = bi_encoder.encode(user_query)
distance, idx = index.search(np.array(vector).astype("float32"), k=search_k)

# 예측검색결과를 리스트로 만듬.
bi_predictions_list = []

for i, query in enumerate(tqdm(user_query)):
    bi_predictions_list.append(idx[i].tolist())
    
print(f'----------------------------------------------------------')
print(f'bi-encoder 예측:{len(bi_predictions_list)}')
print(bi_predictions_list[0:3])

# cross-encoder 사용인 경우에
# - 한번더 검색된 결과에 {쿼리, 문장} 쌍으로 만들어서 cross-encoder로 스코어 출력함.
if use_cross_encoder == True:
    # {쿼리, 문장} 쌍 만듬.
    #count = 0
    cross_predictions_list = []
    for i, predicts in enumerate(tqdm(bi_predictions_list)):
        sentence_combinations = []
        query = user_query[i]
        #count += 1
             
        for predict in predicts:  
             sentence_combinations.append([query, df_contexts[df_contexts.contextid == predict]['context'].values.tolist()[0]])
                     
        # cross-enocoder 돌려서 출력된 score 추가함.
        cross_scores = cross_encoder.predict(sentence_combinations)+1
        #print(f'*cross_scores:{cross_scores}')
        
        dec_cross_idx = reversed(np.argsort(cross_scores))
        tmp_list = []
        for idx in dec_cross_idx:
            #print(f'idx:{idx}-predicts:{predicts[idx]}')
            tmp_list.append(predicts[idx])
         
        cross_predictions_list.append(tmp_list)   
    
    print(f'----------------------------------------------------------')
    print(f'cross-encoder 예측:{len(cross_predictions_list)}')
    print(f'{cross_predictions_list[0:3]}')


In [None]:
#--------------------------------------------------------------------------------------------------
# 5. MRR을 구함
##--------------------------------------------------------------------------------------------------
from myutils import mean_reciprocal_rank

# 정답, 여기서는 contextid를 리스트로 만듬.
ground_truths_list = df_questions['contextid'].values.tolist()
#print(f'gtlen:{len(ground_truths_list)}')
#print(ground_truths_list[0:9])

logger.info(f'--------------------------------------------------------------------------')
logger.info('json_file:{}'.format(jsonfile))

# MRR를 구함
if use_cross_encoder == True:
    predictions_list = bi_predictions_list
    bi_ranks, bi_score = mean_reciprocal_rank(ground_truths_list, predictions_list)

    # BI-MRR 출력
    logger.info(f'--------------------------------------------------------------------------')
    logger.info('*BI-ENCODER:{}'.format(bi_encoder_path))
    logger.info('*BI-MRR:{:.4f}'.format(bi_score))
    logger.info(f'*Ranks({len(bi_ranks)}):{bi_ranks[0:20]}')
    
    predictions_list = cross_predictions_list
    cross_ranks, cross_score = mean_reciprocal_rank(ground_truths_list, predictions_list)
    logger.info(f'---------------------------------------------------------------------------')
    logger.info('*CROSS-ENCODER:{}'.format(cross_encoder_path))
    logger.info('*CROSS-MRR:{:.4f}'.format(cross_score))
    logger.info(f'*Ranks({len(cross_ranks)}):{cross_ranks[0:20]}')
    
    # 검색 못한 계슈
    print(f'---------------------------------------------------------------------------')
    zero_count = 0
    for item in bi_ranks:
        if item == 0:
            zero_count += 1
    
    logger.info('*검색실패계수: {}/{}({:.2f}%)'.format(zero_count, len(bi_ranks), (zero_count/len(bi_ranks))*100))
    print(f'---------------------------------------------------------------------------')
    
    logger.info(f'\nBI -> CROSS---------------------------------------------------------------------------')
    df_scores = pd.DataFrame((zip(bi_ranks, cross_ranks)), columns = ['bi-rank','cross-rank'])
    logger.info(df_scores.head(20))

else:
    predictions_list = bi_predictions_list

    bi_ranks, bi_score = mean_reciprocal_rank(ground_truths_list, predictions_list)

    # BI-MRR 출력
    logger.info(f'----------------------------------------------------------------------------')
    logger.info('*BI-ENCODER:{}'.format(bi_encoder_path))
    logger.info('*BI-MRR:{:.4f}'.format(bi_score))
    logger.info(f'*Ranks({len(bi_ranks)}):{bi_ranks[0:20]}')
    
    # 검색 못한 계슈
    logger.info(f'---------------------------------------------------------------------------')
    zero_count = 0
    for item in bi_ranks:
        if item == 0:
            zero_count += 1
    
    logger.info('*검색실패계수: {}/{}({:.2f}%)'.format(zero_count, len(bi_ranks), (zero_count/len(bi_ranks))*100))
    logger.info(f'---------------------------------------------------------------------------')

In [None]:
#------------------------------------------------------------------------------------------------
# 6. BM25 계산
# => korquad_v1.0 말뭉치를 가지고 BM25 계산하는 함수
# => for문을 2번 돌면서 BM25 2번 계산함.
#    - 처음에는(0) 해당 쿼리와 contexts에 대해 mecab 적용 후 BM25 스코어 계산, 
#    - 2번째는 mecab 적용하지 않고 계산
#------------------------------------------------------------------------------------------------
if use_bm25 == True:

    import konlpy
    from konlpy.tag import Mecab
    from rank_bm25 import BM25Okapi
    from tqdm.notebook import tqdm

    def BM25tokenizer(sent):
      return sent.split(" ")

    # 입력된 contexts를 mecab을 이용하여 형태소 추출 후 " " 붙여서 형태소 문장을 만듬.
    # Mecab 선언
    mecab = Mecab()

    for count in range(2):
        mecab_str = ''
        # 0이면(처음엔) mecab 적용함=> tokeniaer 후 인덱싱
        if count == 0:
            mecab_str = "(mecab 적용)"
            mecab_contexts=[]
            for context in tqdm(contexts):
                temp = mecab.morphs(context)   # ['세계', '배달', '피자', '리더', '도미노피자','가'..] 식으로 temp 리스트가 생성됨
                sentence = " ".join(temp)      # 위 temp 리스트를 공백을 넣어서 한문장으로 합침 ['세계 배달 피자 리더 도미노피자 가 ...]
                mecab_contexts.append(sentence)

            print(f'*contexts_len:{len(mecab_contexts)}')  
            print(f'{mecab_contexts[0]}')

            # tokeniaer 후 인덱싱
            tokenized_corpus = [BM25tokenizer(doc) for doc in mecab_contexts]
        else:
            # 2번째는 그냥 인덱싱
            tokenized_corpus = [BM25tokenizer(doc) for doc in contexts]
            
        bm25 = BM25Okapi(tokenized_corpus)

        #print(f'bm25.doc_len:{bm25.doc_len}')
        #print(f'type(bm25.doc_freqs):{type(bm25.doc_freqs)}')
        
        bm5_predictions_list = []
     
        # 쿼리 후 get_scores 를 이용하여, scores를 구함.
        for idx, query in enumerate(user_query):
            
            # 처음에는 mecab적용해서 query문 전처리 함.
            if count == 0:
                tempq = mecab.morphs(query) 
                query = " ".join(tempq)
                
            # 쿼리에 따른 스코어 구함    
            tokenized_query = BM25tokenizer(query)
            doc_scores = bm25.get_scores(tokenized_query)

            # 정렬후 최대 스코어 search_k 만큼만 출력함
            top_lists = sorted(enumerate(doc_scores), key=lambda x: x[1], reverse=True)[:search_k]
            bm5_predictions_list.append([index + contextids[0] for index, score in top_lists])

        # 정답, 여기서는 contextid를 리스트로 만듬.
        ground_truths_list = df_questions['contextid'].values.tolist()

        # MPR 계산
        predictions_list = bm5_predictions_list  # 예측 결과 리스트
        bm25_ranks, bm25_score = mean_reciprocal_rank(ground_truths_list, predictions_list)

         # BM25-MRR 출력
        logger.info(f'--------------------------------------------------------------------------')
        logger.info('*BM25-MRR{}:{:.4f}'.format(mecab_str, bm25_score))
        logger.info(f'*Ranks({len(bm25_ranks)}):{bm25_ranks[0:20]}')
        # 검색 못한 계슈
        logger.info(f'---------------------------------------------------------------------------')
        zero_count = 0
        for item in bm25_ranks:
            if item == 0:
                zero_count += 1

        logger.info('*BM25{} 검색실패계수: {}/{}({:.2f}%)'.format(mecab_str, zero_count, len(bm25_ranks), (zero_count/len(bm25_ranks))*100))
        logger.info(f'---------------------------------------------------------------------------')