# TF-IDF

In [94]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    "세계 배달 피자 리더 도미노피자가 우리 고구마를 활용한 신메뉴를 출시한다.도미노피자는 오는 2월 1일 국내산 고구마와 4가지 치즈가 어우러진 신메뉴 `우리 고구마 피자`를 출시하고 전 매장에서 판매를 시작한다. 이번에 도미노피자가 내놓은 신메뉴 `우리 고구마 피자`는 까다롭게 엄선한 국내산 고구마를 무스와 큐브 형태로 듬뿍 올리고, 모차렐라, 카망베르, 체더 치즈와 리코타 치즈 소스 등 4가지 치즈와 와규 크럼블을 더한 프리미엄 고구마 피자다.",
    "피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.",
    "도미노피자가 삼일절을 맞아 '방문포장 1+1' 이벤트를 진행한다. 이번 이벤트는 도미노피자 102개 매장에서 3월 1일 단 하루 동안 방문포장 온라인, 오프라인 주문 시 피자 1판을 더 증정하는 이벤트다. 온라인 주문 시 장바구니에 2판을 담은 후 할인 적용이 가능하며, 동일 가격 또는 낮은 가격의 피자를 고객이 선택하면 무료로 증정한다."
]

def tokenizer(sent):
    return sent.split(" ")

tokenized_corpus = [tokenizer(doc) for doc in corpus]



tfidf_vec = TfidfVectorizer(
    tokenizer=tokenizer, #ngram_range=(1, 2), max_features=50000,
)

p_embedding = tfidf_vec.fit_transform(corpus)
p_embedding.toarray()
# p_embedding.shape
# tf_idf = tfidf_vec.fit_transform(corpus)

array([[0.        , 0.        , 0.        , 0.08734223, 0.        ,
        0.11484453, 0.        , 0.        , 0.22968907, 0.22968907,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.3445336 , 0.22968907, 0.11484453,
        0.22968907, 0.11484453, 0.        , 0.        , 0.        ,
        0.        , 0.11484453, 0.        , 0.        , 0.        ,
        0.        , 0.11484453, 0.        , 0.17468446, 0.        ,
        0.        , 0.11484453, 0.11484453, 0.        , 0.        ,
        0.11484453, 0.11484453, 0.        , 0.        , 0.        ,
        0.        , 0.08734223, 0.11484453, 0.        , 0.11484453,
        0.        , 0.        , 0.11484453, 0.        , 0.        ,
        0.        , 0.11484453, 0.11484453, 0.        , 0.        ,
        0.11484453, 0.        , 0.22968907, 0.11484453, 0.11484453,
        0.11484453, 0.11484453, 0.        , 0.        , 0.        ,
        0.11484453, 0.11484453, 0.11484453, 0.  

In [107]:
type(p_embedding)

scipy.sparse.csr.csr_matrix

In [110]:
p_embedding.toarray().shape

(3, 116)

In [67]:
tf_idf.shape

(3, 116)

In [87]:
query = "도미노피자 신메뉴"
query_vec = tfidf_vec.transform([query])

result = query_vec * p_embedding.T
result.toarray()

array([[0.1624147 , 0.        , 0.10092875]])

## retrieval.py (TF-IDF ver.)

In [1]:
import os
import pickle
import json

from sklearn.feature_extraction.text import TfidfVectorizer
from typing import List, NoReturn, Optional, Tuple, Union
from transformers import AutoTokenizer

class SparseRetrieval:
    def __init__(
        self,
        tokenize_fn,
        data_path: Optional[str] = "../data/",
        context_path: Optional[str] = "wikipedia_documents.json",
    ) -> NoReturn:

        """
        Arguments:
            tokenize_fn:
                기본 text를 tokenize해주는 함수입니다.
                아래와 같은 함수들을 사용할 수 있습니다.
                - lambda x: x.split(' ')
                - Huggingface Tokenizer
                - konlpy.tag의 Mecab

            data_path:
                데이터가 보관되어 있는 경로입니다.

            context_path:
                Passage들이 묶여있는 파일명입니다.

            data_path/context_path가 존재해야합니다.

        Summary:
            Passage 파일을 불러오고 TfidfVectorizer를 선언하는 기능을 합니다.
        """

        self.data_path = data_path
        with open(os.path.join(data_path, context_path), "r", encoding="utf-8") as f:
            wiki = json.load(f)

        self.contexts = list(
            dict.fromkeys([v["text"] for v in wiki.values()])
        )  # set 은 매번 순서가 바뀌므로
        
        print(f"Lengths of unique contexts : {len(self.contexts)}")
        self.ids = list(range(len(self.contexts)))

        # Transform by vectorizer
        self.tfidfv = TfidfVectorizer(
            tokenizer=tokenize_fn, ngram_range=(1, 2), max_features=50000,
        )

        self.p_embedding = None  # get_sparse_embedding()로 생성합니다
        self.indexer = None  # build_faiss()로 생성합니다.

    def get_sparse_embedding(self) -> NoReturn:

        """
        Summary:
            Passage Embedding을 만들고
            TFIDF와 Embedding을 pickle로 저장합니다.
            만약 미리 저장된 파일이 있으면 저장된 pickle을 불러옵니다.
        """

        # Pickle을 저장합니다.
        pickle_name = f"sparse_embedding.bin"
        tfidfv_name = f"tfidv.bin"
        emd_path = os.path.join(self.data_path, pickle_name)
        tfidfv_path = os.path.join(self.data_path, tfidfv_name)

        if os.path.isfile(emd_path) and os.path.isfile(tfidfv_path): # 파일 있으면 pickle 불러오기
            with open(emd_path, "rb") as file:
                self.p_embedding = pickle.load(file)
            with open(tfidfv_path, "rb") as file:
                self.tfidfv = pickle.load(file)
            print("Embedding pickle load.")
        else: # 없으면 pickle 저장
            print("Build passage embedding")
            self.p_embedding = self.tfidfv.fit_transform(self.contexts)
            print(self.p_embedding.shape)
            with open(emd_path, "wb") as file:
                pickle.dump(self.p_embedding, file)
            with open(tfidfv_path, "wb") as file:
                pickle.dump(self.tfidfv, file)
            print("Embedding pickle saved.")

In [2]:
data_path = "../data/"
context_path = "wikipedia_documents.json"
model_name_or_path = "bert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=False,)


retriever = SparseRetrieval(
        tokenize_fn=tokenizer.tokenize,
        data_path=data_path,
        context_path=context_path,
    )

Lengths of unique contexts : 56737


In [3]:
retriever.get_sparse_embedding()

Build passage embedding


KeyboardInterrupt: 

# BM25

## BM25Okapi 설치

In [13]:
# # BM25 패키지 설치
# !pip install rank_bm25

Collecting rank_bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl (8.6 kB)
Installing collected packages: rank_bm25
Successfully installed rank_bm25-0.2.2


## BM25 기반 Embedding 만들기

In [4]:
from rank_bm25 import BM25Okapi

corpus = [
    "세계 배달 피자 리더 도미노피자가 우리 고구마를 활용한 신메뉴를 출시한다.도미노피자는 오는 2월 1일 국내산 고구마와 4가지 치즈가 어우러진 신메뉴 `우리 고구마 피자`를 출시하고 전 매장에서 판매를 시작한다. 이번에 도미노피자가 내놓은 신메뉴 `우리 고구마 피자`는 까다롭게 엄선한 국내산 고구마를 무스와 큐브 형태로 듬뿍 올리고, 모차렐라, 카망베르, 체더 치즈와 리코타 치즈 소스 등 4가지 치즈와 와규 크럼블을 더한 프리미엄 고구마 피자다.",
    "피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.",
    "도미노피자가 삼일절을 맞아 '방문포장 1+1' 이벤트를 진행한다. 이번 이벤트는 도미노피자 102개 매장에서 3월 1일 단 하루 동안 방문포장 온라인, 오프라인 주문 시 피자 1판을 더 증정하는 이벤트다. 온라인 주문 시 장바구니에 2판을 담은 후 할인 적용이 가능하며, 동일 가격 또는 낮은 가격의 피자를 고객이 선택하면 무료로 증정한다."
]

def tokenizer(sent):
    return sent.split(" ")

tokenized_corpus = [tokenizer(doc) for doc in corpus]

bm25 = BM25Okapi(tokenized_corpus)

In [61]:
bm25.idf

{'세계': 0.5108256237659907,
 '배달': 0.5108256237659907,
 '피자': 0.11580621302033972,
 '리더': 0.5108256237659907,
 '도미노피자가': 0.11580621302033972,
 '우리': 0.5108256237659907,
 '고구마를': 0.5108256237659907,
 '활용한': 0.5108256237659907,
 '신메뉴를': 0.5108256237659907,
 '출시한다.도미노피자는': 0.5108256237659907,
 '오는': 0.5108256237659907,
 '2월': 0.5108256237659907,
 '1일': 0.11580621302033972,
 '국내산': 0.5108256237659907,
 '고구마와': 0.5108256237659907,
 '4가지': 0.5108256237659907,
 '치즈가': 0.5108256237659907,
 '어우러진': 0.5108256237659907,
 '신메뉴': 0.5108256237659907,
 '`우리': 0.5108256237659907,
 '고구마': 0.5108256237659907,
 '피자`를': 0.5108256237659907,
 '출시하고': 0.5108256237659907,
 '전': 0.5108256237659907,
 '매장에서': 0.11580621302033972,
 '판매를': 0.5108256237659907,
 '시작한다.': 0.5108256237659907,
 '이번에': 0.5108256237659907,
 '내놓은': 0.5108256237659907,
 '피자`는': 0.5108256237659907,
 '까다롭게': 0.5108256237659907,
 '엄선한': 0.5108256237659907,
 '무스와': 0.5108256237659907,
 '큐브': 0.5108256237659907,
 '형태로': 0.5108256237659907,
 '듬뿍'

In [20]:
bm25.doc_len

[59, 27, 47]

In [45]:
bm25.doc_freqs 

[{'세계': 1,
  '배달': 1,
  '피자': 1,
  '리더': 1,
  '도미노피자가': 2,
  '우리': 1,
  '고구마를': 2,
  '활용한': 1,
  '신메뉴를': 1,
  '출시한다.도미노피자는': 1,
  '오는': 1,
  '2월': 1,
  '1일': 1,
  '국내산': 2,
  '고구마와': 1,
  '4가지': 2,
  '치즈가': 1,
  '어우러진': 1,
  '신메뉴': 2,
  '`우리': 2,
  '고구마': 3,
  '피자`를': 1,
  '출시하고': 1,
  '전': 1,
  '매장에서': 1,
  '판매를': 1,
  '시작한다.': 1,
  '이번에': 1,
  '내놓은': 1,
  '피자`는': 1,
  '까다롭게': 1,
  '엄선한': 1,
  '무스와': 1,
  '큐브': 1,
  '형태로': 1,
  '듬뿍': 1,
  '올리고,': 1,
  '모차렐라,': 1,
  '카망베르,': 1,
  '체더': 1,
  '치즈와': 2,
  '리코타': 1,
  '치즈': 1,
  '소스': 1,
  '등': 1,
  '와규': 1,
  '크럼블을': 1,
  '더한': 1,
  '프리미엄': 1,
  '피자다.': 1},
 {'피자의': 1,
  '발상지이자': 1,
  '원조라고': 1,
  '할': 1,
  '수': 1,
  '있는': 1,
  '남부의': 1,
  '나폴리식': 1,
  '피자(Pizza': 1,
  'Napolitana)는': 1,
  '재료': 1,
  '본연의': 1,
  '맛에': 1,
  '집중하여': 1,
  '뛰어난': 1,
  '식감을': 1,
  '자랑한다.': 1,
  '대표적인': 1,
  '나폴리': 1,
  '피자로는': 1,
  '피자': 2,
  '마리나라(Pizza': 1,
  'Marinara)와': 1,
  '마르게리타(Pizza': 1,
  'Margherita)가': 1,
  '있다.': 1},
 {'도미노피자가': 1,
  '삼일절을': 1,
 

In [43]:
bm25.idf

{'세계': 0.5108256237659907,
 '배달': 0.5108256237659907,
 '피자': 0.11580621302033972,
 '리더': 0.5108256237659907,
 '도미노피자가': 0.11580621302033972,
 '우리': 0.5108256237659907,
 '고구마를': 0.5108256237659907,
 '활용한': 0.5108256237659907,
 '신메뉴를': 0.5108256237659907,
 '출시한다.도미노피자는': 0.5108256237659907,
 '오는': 0.5108256237659907,
 '2월': 0.5108256237659907,
 '1일': 0.11580621302033972,
 '국내산': 0.5108256237659907,
 '고구마와': 0.5108256237659907,
 '4가지': 0.5108256237659907,
 '치즈가': 0.5108256237659907,
 '어우러진': 0.5108256237659907,
 '신메뉴': 0.5108256237659907,
 '`우리': 0.5108256237659907,
 '고구마': 0.5108256237659907,
 '피자`를': 0.5108256237659907,
 '출시하고': 0.5108256237659907,
 '전': 0.5108256237659907,
 '매장에서': 0.11580621302033972,
 '판매를': 0.5108256237659907,
 '시작한다.': 0.5108256237659907,
 '이번에': 0.5108256237659907,
 '내놓은': 0.5108256237659907,
 '피자`는': 0.5108256237659907,
 '까다롭게': 0.5108256237659907,
 '엄선한': 0.5108256237659907,
 '무스와': 0.5108256237659907,
 '큐브': 0.5108256237659907,
 '형태로': 0.5108256237659907,
 '듬뿍'

In [90]:
len(bm25.idf)

116

In [96]:
nd = bm25._initialize(corpus)
bm25._calc_idf(nd)

In [119]:
bm25.corpus_size

3

## BM25 embedding matrix 만들기


In [5]:
import numpy as np
from rank_bm25 import BM25Okapi
from scipy import sparse

def tokenizer(sent):
    return sent.split(" ")

def get_p_embedding(corpus, tokenizer):
    tokenized_corpus = [tokenizer(doc) for doc in corpus]
    bm25 = BM25Okapi(tokenized_corpus)
    
    emb = list(bm25.idf.keys()) # embedding 차원
    embedding_mat = np.array([np.zeros(len(emb))] * len(corpus))
    doc_len = np.array(bm25.doc_len) # 각 context의 길이
    
    for i in range(len(emb)):
        word = emb[i]
        q_freq = np.array([(doc.get(word) or 0) for doc in bm25.doc_freqs])
        score = (bm25.idf.get(word) or 0) * (q_freq * (bm25.k1 + 1) / (q_freq + bm25.k1 * (1 - bm25.b + bm25.b * doc_len / bm25.avgdl)))
        for j in range(len(corpus)):
            embedding_mat[j][i] = score[j]
    
    # numpy array to scipy.sparse.csr.csr_matrix
    embedding_mat = sparse.csr_matrix(embedding_mat)
    
    return embedding_mat

In [6]:
corpus = [
    "세계 배달 피자 리더 도미노피자가 우리 고구마를 활용한 신메뉴를 출시한다.도미노피자는 오는 2월 1일 국내산 고구마와 4가지 치즈가 어우러진 신메뉴 `우리 고구마 피자`를 출시하고 전 매장에서 판매를 시작한다. 이번에 도미노피자가 내놓은 신메뉴 `우리 고구마 피자`는 까다롭게 엄선한 국내산 고구마를 무스와 큐브 형태로 듬뿍 올리고, 모차렐라, 카망베르, 체더 치즈와 리코타 치즈 소스 등 4가지 치즈와 와규 크럼블을 더한 프리미엄 고구마 피자다.",
    "피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.",
    "도미노피자가 삼일절을 맞아 '방문포장 1+1' 이벤트를 진행한다. 이번 이벤트는 도미노피자 102개 매장에서 3월 1일 단 하루 동안 방문포장 온라인, 오프라인 주문 시 피자 1판을 더 증정하는 이벤트다. 온라인 주문 시 장바구니에 2판을 담은 후 할인 적용이 가능하며, 동일 가격 또는 낮은 가격의 피자를 고객이 선택하면 무료로 증정한다."
]

bm25_emb = get_p_embedding(corpus, tokenizer)
bm25_emb

<3x116 sparse matrix of type '<class 'numpy.float64'>'
	with 121 stored elements in Compressed Sparse Row format>

## 계산된 BM25 이용하여 query에 대한 score 계산

In [7]:
query = "도미노피자 신메뉴"
tokenized_query = tokenizer(query)

doc_scores = bm25.get_scores(tokenized_query)
doc_scores

array([0.65960979, 0.        , 0.49736316])

In [8]:
bm25.get_batch_scores(tokenized_query, [0,1,2])

[0.6596097860279299, 0.0, 0.49736316223189436]

## retrieval.py (BM25 ver.)

In [1]:
import os
import pickle
import json

from sklearn.feature_extraction.text import TfidfVectorizer
from typing import List, NoReturn, Optional, Tuple, Union
from transformers import AutoTokenizer

import numpy as np
from rank_bm25 import BM25Okapi
from scipy import sparse

from tqdm import tqdm

class SparseRetrieval:
    def __init__(
        self,
        tokenize_fn,
        data_path: Optional[str] = "../data/",
        context_path: Optional[str] = "wikipedia_documents.json",
    ) -> NoReturn:

        """
        Arguments:
            tokenize_fn:
                기본 text를 tokenize해주는 함수입니다.
                아래와 같은 함수들을 사용할 수 있습니다.
                - lambda x: x.split(' ')
                - Huggingface Tokenizer
                - konlpy.tag의 Mecab

            data_path:
                데이터가 보관되어 있는 경로입니다.

            context_path:
                Passage들이 묶여있는 파일명입니다.

            data_path/context_path가 존재해야합니다.

        Summary:
            Passage 파일을 불러오고 TfidfVectorizer를 선언하는 기능을 합니다.
        """

        self.data_path = data_path
        with open(os.path.join(data_path, context_path), "r", encoding="utf-8") as f:
            wiki = json.load(f)

        self.contexts = list(
            dict.fromkeys([v["text"] for v in wiki.values()])
        )  # set 은 매번 순서가 바뀌므로
#         self.contexts = [
#     "세계 배달 피자 리더 도미노피자가 우리 고구마를 활용한 신메뉴를 출시한다.도미노피자는 오는 2월 1일 국내산 고구마와 4가지 치즈가 어우러진 신메뉴 `우리 고구마 피자`를 출시하고 전 매장에서 판매를 시작한다. 이번에 도미노피자가 내놓은 신메뉴 `우리 고구마 피자`는 까다롭게 엄선한 국내산 고구마를 무스와 큐브 형태로 듬뿍 올리고, 모차렐라, 카망베르, 체더 치즈와 리코타 치즈 소스 등 4가지 치즈와 와규 크럼블을 더한 프리미엄 고구마 피자다.",
#     "피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.",
#     "도미노피자가 삼일절을 맞아 '방문포장 1+1' 이벤트를 진행한다. 이번 이벤트는 도미노피자 102개 매장에서 3월 1일 단 하루 동안 방문포장 온라인, 오프라인 주문 시 피자 1판을 더 증정하는 이벤트다. 온라인 주문 시 장바구니에 2판을 담은 후 할인 적용이 가능하며, 동일 가격 또는 낮은 가격의 피자를 고객이 선택하면 무료로 증정한다."
# ]
        print(f"Lengths of unique contexts : {len(self.contexts)}")
        print(len(self.contexts))
        self.ids = list(range(len(self.contexts)))
        self.tokenizer = tokenize_fn
        

        # Transform by vectorizer
        ################################################################################
        self.tfidfv = TfidfVectorizer(
            tokenizer=tokenize_fn, ngram_range=(1, 2), max_features=50000,
        )
        self.bm25v = BM25Okapi
        ################################################################################

        self.p_embedding = None  # get_sparse_embedding()로 생성합니다
        self.indexer = None  # build_faiss()로 생성합니다.
    
    def get_p_embedding(self, corpus, tokenizer):

        tokenized_corpus = [tokenizer(doc) for doc in corpus]
        bm25 = BM25Okapi(tokenized_corpus)

        emb = list(bm25.idf.keys()) # embedding 차원
#         embedding_mat = np.array([np.zeros(len(emb))] * len(corpus))
        doc_len = np.array(bm25.doc_len) # 각 context의 길이
        
        row = np.array([])
        col = np.array([])
        s = np.array([])
        for i in range(len(emb)):
            print(f"##########{ i }##########")
            word = emb[i]
            q_freq = np.array([(doc.get(word) or 0) for doc in bm25.doc_freqs])
            score = (bm25.idf.get(word) or 0) * (q_freq * (bm25.k1 + 1) / (q_freq + bm25.k1 * (1 - bm25.b + bm25.b * doc_len / bm25.avgdl)))
            for j in range(len(corpus)):
                row = np.append(row, j)
                col = np.append(col, i)
                s = np.append(s,score[j])
        
        for i in range(len(doc_len)):
            for j in range(doc_len[i]):
                
            

        # numpy array to scipy.sparse.csr.csr_matrix
        embedding_mat = sparse.csr_matrix((s, (row, col)), shape = (len(corpus), len(emb)))
        return embedding_mat
    
    def get_sparse_embedding(self) -> NoReturn:
        # corpus가 너무 커서 너무 오래 걸림
        """
        Summary:
            Passage Embedding을 만들고
            TFIDF와 Embedding을 pickle로 저장합니다.
            만약 미리 저장된 파일이 있으면 저장된 pickle을 불러옵니다.
        """

        # Pickle을 저장합니다.
        ################################################################################
        pickle_name = f"sparse_embedding.bin"
        tfidfv_name = f"tfidv.bin"
        bm25v_name = f"bm25v.bin"
        emd_path = os.path.join(self.data_path, pickle_name)
        tfidfv_path = os.path.join(self.data_path, tfidfv_name)
        bm25v_path = os.path.join(self.data_path, bm25v_name)
        ################################################################################

        ################################################################################
        if os.path.isfile(emd_path) and os.path.isfile(bm25v_path): # 파일 있으면 pickle 불러오기
        ################################################################################
            with open(emd_path, "rb") as file:
                self.p_embedding = pickle.load(file)
            ################################################################################
            with open(bm25v_path, "rb") as file:
                self.bm25v = pickle.load(file)
            ################################################################################
            print("Embedding pickle load.")
        else: # 없으면 pickle 저장
            print("Build passage embedding")
            ################################################################################
            self.p_embedding = self.get_p_embedding(self.contexts, self.tokenizer)
            print("시작")
            ################################################################################
            print(self.p_embedding.shape)
            with open(emd_path, "wb") as file:
                pickle.dump(self.p_embedding, file)
            ################################################################################    
            with open(tfidfv_path, "wb") as file:
                pickle.dump(self.bm25v, file)
            ################################################################################
            print("Embedding pickle saved.")

In [2]:
data_path = "../data/"
context_path = "wikipedia_documents.json"
model_name_or_path = "bert-base-multilingual-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=False,)

retriever = SparseRetrieval(
        tokenize_fn=tokenizer.tokenize,
        data_path=data_path,
        context_path=context_path,
    )

Lengths of unique contexts : 56737
56737


In [3]:
retriever.get_sparse_embedding()

Build passage embedding
하하하
하하하
하하하
##########0##########
##########1##########
##########2##########
##########3##########
##########4##########
##########5##########
##########6##########
##########7##########
##########8##########
##########9##########
##########10##########
##########11##########
##########12##########
##########13##########
##########14##########
##########15##########
##########16##########
##########17##########
##########18##########
##########19##########


KeyboardInterrupt: 

In [None]:
# corpus에서 불러오기 :  분

# BM25 - get_score

In [None]:
import os
import pickle
import json

from sklearn.feature_extraction.text import TfidfVectorizer
from typing import List, NoReturn, Optional, Tuple, Union
from transformers import AutoTokenizer

import numpy as np
from rank_bm25 import BM25Okapi
from scipy import sparse

from tqdm import tqdm

class SparseRetrieval:
    def __init__(
        self,
        tokenize_fn,
        data_path: Optional[str] = "../data/",
        context_path: Optional[str] = "wikipedia_documents.json",
        emb_type,
    ) -> NoReturn:

        """
        Arguments:
            tokenize_fn:
                기본 text를 tokenize해주는 함수입니다.
                아래와 같은 함수들을 사용할 수 있습니다.
                - lambda x: x.split(' ')
                - Huggingface Tokenizer
                - konlpy.tag의 Mecab

            data_path:
                데이터가 보관되어 있는 경로입니다.

            context_path:
                Passage들이 묶여있는 파일명입니다.

            data_path/context_path가 존재해야합니다.

        Summary:
            Passage 파일을 불러오고 TfidfVectorizer를 선언하는 기능을 합니다.
        """

        self.data_path = data_path
        with open(os.path.join(data_path, context_path), "r", encoding="utf-8") as f:
            wiki = json.load(f)

        self.contexts = list(
            dict.fromkeys([v["text"] for v in wiki.values()])
        )  # set 은 매번 순서가 바뀌므로
#         self.contexts = [
#     "세계 배달 피자 리더 도미노피자가 우리 고구마를 활용한 신메뉴를 출시한다.도미노피자는 오는 2월 1일 국내산 고구마와 4가지 치즈가 어우러진 신메뉴 `우리 고구마 피자`를 출시하고 전 매장에서 판매를 시작한다. 이번에 도미노피자가 내놓은 신메뉴 `우리 고구마 피자`는 까다롭게 엄선한 국내산 고구마를 무스와 큐브 형태로 듬뿍 올리고, 모차렐라, 카망베르, 체더 치즈와 리코타 치즈 소스 등 4가지 치즈와 와규 크럼블을 더한 프리미엄 고구마 피자다.",
#     "피자의 발상지이자 원조라고 할 수 있는 남부의 나폴리식 피자(Pizza Napolitana)는 재료 본연의 맛에 집중하여 뛰어난 식감을 자랑한다. 대표적인 나폴리 피자로는 피자 마리나라(Pizza Marinara)와 피자 마르게리타(Pizza Margherita)가 있다.",
#     "도미노피자가 삼일절을 맞아 '방문포장 1+1' 이벤트를 진행한다. 이번 이벤트는 도미노피자 102개 매장에서 3월 1일 단 하루 동안 방문포장 온라인, 오프라인 주문 시 피자 1판을 더 증정하는 이벤트다. 온라인 주문 시 장바구니에 2판을 담은 후 할인 적용이 가능하며, 동일 가격 또는 낮은 가격의 피자를 고객이 선택하면 무료로 증정한다."
# ]
        print(f"Lengths of unique contexts : {len(self.contexts)}")
        print(len(self.contexts))
        self.ids = list(range(len(self.contexts)))
        self.tokenizer = tokenize_fn
        self.emb_type = emb_type ###

        # Transform by vectorizer
        self.tfidfv = TfidfVectorizer(
            tokenizer=tokenize_fn, ngram_range=(1, 2), max_features=50000,
        )

        self.p_embedding = None  # get_sparse_embedding()로 생성합니다
        self.indexer = None  # build_faiss()로 생성합니다.
    
    def get_sparse_embedding(self) -> NoReturn: # for both TF-IDF or BM25
        if self.emb_type == 'tfidf':
            # Pickle을 저장합니다.
            pickle_name = f"sparse_embedding.bin"
            tfidfv_name = f"tfidv.bin"
            emd_path = os.path.join(self.data_path, pickle_name)
            tfidfv_path = os.path.join(self.data_path, tfidfv_name)

            if os.path.isfile(emd_path) and os.path.isfile(tfidfv_path):
                with open(emd_path, "rb") as file:
                    self.p_embedding = pickle.load(file)
                with open(tfidfv_path, "rb") as file:
                    self.tfidfv = pickle.load(file)
                print("Embedding pickle load.")
            else:
                print("Build passage embedding")
                self.p_embedding = self.tfidfv.fit_transform(self.contexts)
                print(self.p_embedding.shape)
                with open(emd_path, "wb") as file:
                    pickle.dump(self.p_embedding, file)
                with open(tfidfv_path, "wb") as file:
                    pickle.dump(self.tfidfv, file)
                print("Embedding pickle saved.")
        else:
            with timer("bm25 building"):
                self.bm25 = BM25Okapi(self.contexts, tokenizer=self.tokenize_fn)
            
    def build_faiss(self, num_clusters=64) -> NoReturn: # for TF-IDF

        """
        Summary:
            속성으로 저장되어 있는 Passage Embedding을
            Faiss indexer에 fitting 시켜놓습니다.
            이렇게 저장된 indexer는 `get_relevant_doc`에서 유사도를 계산하는데 사용됩니다.

        Note:
            Faiss는 Build하는데 시간이 오래 걸리기 때문에,
            매번 새롭게 build하는 것은 비효율적입니다.
            그렇기 때문에 build된 index 파일을 저정하고 다음에 사용할 때 불러옵니다.
            다만 이 index 파일은 용량이 1.4Gb+ 이기 때문에 여러 num_clusters로 시험해보고
            제일 적절한 것을 제외하고 모두 삭제하는 것을 권장합니다.
        """

        indexer_name = f"faiss_clusters{num_clusters}.index"
        indexer_path = os.path.join(self.data_path, indexer_name)
        if os.path.isfile(indexer_path):
            print("Load Saved Faiss Indexer.")
            self.indexer = faiss.read_index(indexer_path)

        else:
            p_emb = self.p_embedding.astype(np.float32).toarray()
            emb_dim = p_emb.shape[-1]

            num_clusters = num_clusters
            quantizer = faiss.IndexFlatL2(emb_dim)

            self.indexer = faiss.IndexIVFScalarQuantizer(
                quantizer, quantizer.d, num_clusters, faiss.METRIC_L2
            )
            self.indexer.train(p_emb)
            self.indexer.add(p_emb)
            faiss.write_index(self.indexer, indexer_path)
            print("Faiss Indexer Saved.")
            
    def retrieve(  # for both TF-IDF or BM25
    ) -> Union[Tuple[List, List], pd.DataFrame]:

        """
        Arguments:
            query_or_dataset (Union[str, Dataset]):
                str이나 Dataset으로 이루어진 Query를 받습니다.
                str 형태인 하나의 query만 받으면 `get_relevant_doc`을 통해 유사도를 구합니다.
                Dataset 형태는 query를 포함한 HF.Dataset을 받습니다.
                이 경우 `get_relevant_doc_bulk`를 통해 유사도를 구합니다.
            topk (Optional[int], optional): Defaults to 1.
                상위 몇 개의 passage를 사용할 것인지 지정합니다.

        Returns:
            1개의 Query를 받는 경우  -> Tuple(List, List)
            다수의 Query를 받는 경우 -> pd.DataFrame: [description]

        Note:
            다수의 Query를 받는 경우,
                Ground Truth가 있는 Query (train/valid) -> 기존 Ground Truth Passage를 같이 반환합니다.
                Ground Truth가 없는 Query (test) -> Retrieval한 Passage만 반환합니다.
        """
        # 문제가 될 수도 있는 부분
        assert self.p_embedding is not None, "get_sparse_embedding() 메소드를 먼저 수행해줘야합니다."

        if isinstance(query_or_dataset, str):
            doc_scores, doc_indices = self.get_relevant_doc(query_or_dataset, k=topk)
            print("[Search query]\n", query_or_dataset, "\n")

            for i in range(topk):
                print(f"Top-{i+1} passage with score {doc_scores[i]:4f}")
                print(self.contexts[doc_indices[i]])

            return (doc_scores, [self.contexts[doc_indices[i]] for i in range(topk)])

        elif isinstance(query_or_dataset, Dataset):

            # Retrieve한 Passage를 pd.DataFrame으로 반환합니다.
            total = []
            with timer("query exhaustive search"):
                doc_scores, doc_indices = self.get_relevant_doc_bulk(
                    query_or_dataset["question"], k=topk
                )
            for idx, example in enumerate(
                tqdm(query_or_dataset, desc="Sparse retrieval: ")
            ):
                tmp = {
                    # Query와 해당 id를 반환합니다.
                    "question": example["question"],
                    "id": example["id"],
                    # Retrieve한 Passage의 id, context를 반환합니다.
                    "context": " ".join(
                        [self.contexts[pid] for pid in doc_indices[idx]]
                    ),
                }
                if "context" in example.keys() and "answers" in example.keys():
                    # validation 데이터를 사용하면 ground_truth context와 answer도 반환합니다.
                    tmp["original_context"] = example["context"]
                    tmp["answers"] = example["answers"]
                total.append(tmp)

            cqas = pd.DataFrame(total)
            return cqas
        
    def get_relevant_doc(self, query: str, k: Optional[int] = 1) -> Tuple[List, List]: # for both TF-IDF or BM25

        """
        Arguments:
            query (str):
                하나의 Query를 받습니다.
            k (Optional[int]): 1
                상위 몇 개의 Passage를 반환할지 정합니다.
        Note:
            vocab 에 없는 이상한 단어로 query 하는 경우 assertion 발생 (예) 뙣뙇?
        """
        if self.emb_type == 'tfidf':
            with timer("transform"):
                query_vec = self.tfidfv.transform([query])
            assert (
                np.sum(query_vec) != 0
            ), "오류가 발생했습니다. 이 오류는 보통 query에 vectorizer의 vocab에 없는 단어만 존재하는 경우 발생합니다."

            with timer("query ex search"):
                result = query_vec * self.p_embedding.T
            if not isinstance(result, np.ndarray):
                result = result.toarray()
            sorted_result = np.argsort(result.squeeze())[::-1]
            doc_score = result.squeeze()[sorted_result].tolist()[:k]
            doc_indices = sorted_result.tolist()[:k]
            return doc_score, doc_indices 
        
        else: # bm25
            with timer("transform"):
                tokenized_query = self.tokenize_fn(query)
            with timer("query ex search"):
                result = self.bm25.get_scores(tokenized_query)
            sorted_result = np.argsort(result)[::-1]
            doc_score = result[sorted_result].tolist()[:k]
            doc_indices = sorted_result.tolist()[:k]
            return doc_score, doc_indices

    def get_relevant_doc_bulk( # for both TF-IDF or BM25
        self, queries: List, k: Optional[int] = 1 # for TF-IDF
    ) -> Tuple[List, List]:

        """
        Arguments:
            queries (List):
                하나의 Query를 받습니다.
            k (Optional[int]): 1
                상위 몇 개의 Passage를 반환할지 정합니다.
        Note:
            vocab 에 없는 이상한 단어로 query 하는 경우 assertion 발생 (예) 뙣뙇?
        """
        if self.emb_type == 'tfidf':
            query_vec = self.tfidfv.transform(queries)
            assert (
                np.sum(query_vec) != 0
            ), "오류가 발생했습니다. 이 오류는 보통 query에 vectorizer의 vocab에 없는 단어만 존재하는 경우 발생합니다."

            result = query_vec * self.p_embedding.T
            if not isinstance(result, np.ndarray):
                result = result.toarray()
            doc_scores = []
            doc_indices = []
            for i in range(result.shape[0]):
                sorted_result = np.argsort(result[i, :])[::-1]
                doc_scores.append(result[i, :][sorted_result].tolist()[:k])
                doc_indices.append(sorted_result.tolist()[:k])
            return doc_scores, doc_indices
        else:
            with timer("transform"):
                tokenized_queris = [self.tokenize_fn(query) for query in queries]
            with timer("query ex search"):
                result = np.array([self.bm25.get_scores(tokenized_query) for tokenized_query in tqdm(tokenized_queris)])
            doc_scores = []
            doc_indices = []
            for i in range(result.shape[0]):
                sorted_result = np.argsort(result[i, :])[::-1]
                doc_scores.append(result[i, :][sorted_result].tolist()[:k])
                doc_indices.append(sorted_result.tolist()[:k])
            return doc_scores, doc_indices
    
    def retrieve_faiss(
        self, query_or_dataset: Union[str, Dataset], topk: Optional[int] = 1 # for TF-IDF
    ) -> Union[Tuple[List, List], pd.DataFrame]:

        """
        Arguments:
            query_or_dataset (Union[str, Dataset]):
                str이나 Dataset으로 이루어진 Query를 받습니다.
                str 형태인 하나의 query만 받으면 `get_relevant_doc`을 통해 유사도를 구합니다.
                Dataset 형태는 query를 포함한 HF.Dataset을 받습니다.
                이 경우 `get_relevant_doc_bulk`를 통해 유사도를 구합니다.
            topk (Optional[int], optional): Defaults to 1.
                상위 몇 개의 passage를 사용할 것인지 지정합니다.

        Returns:
            1개의 Query를 받는 경우  -> Tuple(List, List)
            다수의 Query를 받는 경우 -> pd.DataFrame: [description]

        Note:
            다수의 Query를 받는 경우,
                Ground Truth가 있는 Query (train/valid) -> 기존 Ground Truth Passage를 같이 반환합니다.
                Ground Truth가 없는 Query (test) -> Retrieval한 Passage만 반환합니다.
            retrieve와 같은 기능을 하지만 faiss.indexer를 사용합니다.
        """

        assert self.indexer is not None, "build_faiss()를 먼저 수행해주세요."

        if isinstance(query_or_dataset, str):
            doc_scores, doc_indices = self.get_relevant_doc_faiss(
                query_or_dataset, k=topk
            )
            print("[Search query]\n", query_or_dataset, "\n")

            for i in range(topk):
                print("Top-%d passage with score %.4f" % (i + 1, doc_scores[i]))
                print(self.contexts[doc_indices[i]])

            return (doc_scores, [self.contexts[doc_indices[i]] for i in range(topk)])

        elif isinstance(query_or_dataset, Dataset):

            # Retrieve한 Passage를 pd.DataFrame으로 반환합니다.
            queries = query_or_dataset["question"]
            total = []

            with timer("query faiss search"):
                doc_scores, doc_indices = self.get_relevant_doc_bulk_faiss(
                    queries, k=topk
                )
            for idx, example in enumerate(
                tqdm(query_or_dataset, desc="Sparse retrieval: ")
            ):
                tmp = {
                    # Query와 해당 id를 반환합니다.
                    "question": example["question"],
                    "id": example["id"],
                    # Retrieve한 Passage의 id, context를 반환합니다.
                    "context": " ".join(
                        [self.contexts[pid] for pid in doc_indices[idx]]
                    ),
                }
                if "context" in example.keys() and "answers" in example.keys():
                    # validation 데이터를 사용하면 ground_truth context와 answer도 반환합니다.
                    tmp["original_context"] = example["context"]
                    tmp["answers"] = example["answers"]
                total.append(tmp)

            return pd.DataFrame(total)

    def get_relevant_doc_faiss(
        self, query: str, k: Optional[int] = 1 # for TF-IDF
    ) -> Tuple[List, List]:

        """
        Arguments:
            query (str):
                하나의 Query를 받습니다.
            k (Optional[int]): 1
                상위 몇 개의 Passage를 반환할지 정합니다.
        Note:
            vocab 에 없는 이상한 단어로 query 하는 경우 assertion 발생 (예) 뙣뙇?
        """

        query_vec = self.tfidfv.transform([query])
        assert (
            np.sum(query_vec) != 0
        ), "오류가 발생했습니다. 이 오류는 보통 query에 vectorizer의 vocab에 없는 단어만 존재하는 경우 발생합니다."

        q_emb = query_vec.toarray().astype(np.float32)
        with timer("query faiss search"):
            D, I = self.indexer.search(q_emb, k)

        return D.tolist()[0], I.tolist()[0]

    def get_relevant_doc_bulk_faiss(
        self, queries: List, k: Optional[int] = 1 # for TF-IDF
    ) -> Tuple[List, List]:

        """
        Arguments:
            queries (List):
                하나의 Query를 받습니다.
            k (Optional[int]): 1
                상위 몇 개의 Passage를 반환할지 정합니다.
        Note:
            vocab 에 없는 이상한 단어로 query 하는 경우 assertion 발생 (예) 뙣뙇?
        """

        query_vecs = self.tfidfv.transform(queries)
        assert (
            np.sum(query_vecs) != 0
        ), "오류가 발생했습니다. 이 오류는 보통 query에 vectorizer의 vocab에 없는 단어만 존재하는 경우 발생합니다."

        q_embs = query_vecs.toarray().astype(np.float32)
        D, I = self.indexer.search(q_embs, k)

        return D.tolist(), I.tolist()
    
    
if __name__ == "__main__":

    import argparse

    parser = argparse.ArgumentParser(description="")
    parser.add_argument(
        "--dataset_name", metavar="../data/train_dataset", type=str, help=""
    )
    parser.add_argument(
        "--model_name_or_path",
        metavar="bert-base-multilingual-cased",
        type=str,
        help="",
    )
    parser.add_argument("--data_path", metavar="../data", type=str, help="")
    parser.add_argument(
        "--context_path", metavar="wikipedia_documents", type=str, help=""
    )
    parser.add_argument("--use_faiss", metavar=False, type=bool, default=False, help="")
    parser.add_argument("--emb_type", metavar='bm25', type=str, help="")
    
    args = parser.parse_args()

    # Test sparse
    org_dataset = load_from_disk(args.dataset_name)
    full_ds = concatenate_datasets(
        [
            org_dataset["train"].flatten_indices(),
            org_dataset["validation"].flatten_indices(),
        ]
    )  # train dev 를 합친 4192 개 질문에 대해 모두 테스트
    print("*" * 40, "query dataset", "*" * 40)
    print(full_ds)
    
    from transformers import AutoTokenizer
    
    tokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path, use_fast=False,)
    print("#" * 100)
    retriever = SparseRetrieval(
        tokenize_fn=tokenizer.tokenize,
        data_path=args.data_path,
        context_path=args.context_path,
        emb_type = args.emb_type,
    )
    print("#" * 100)
    ###
    retriever.get_sparse_embedding()
    retriever.build_faiss()
    ###

    query = "대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?"

    if args.use_faiss:

        # test single query
        with timer("single query by faiss"):
            scores, indices = retriever.retrieve_faiss(query)

        # test bulk
        with timer("bulk query by exhaustive search"):
            df = retriever.retrieve_faiss(full_ds)
            df["correct"] = df["original_context"] == df["context"]

            print("correct retrieval result by faiss", df["correct"].sum() / len(df))

    else:
        with timer("single query by exhaustive search"):
            scores, indices = retriever.retrieve(query)

        with timer("bulk query by exhaustive search"):
            df = retriever.retrieve(full_ds)
            df["correct"] = df["original_context"] == df["context"]
            print(
                "correct retrieval result by exhaustive search",
                df["correct"].sum() / len(df),
            )

In [None]:
class BM25: #(Retrieval):
    def __init__(
        self, tokenize_fn,
        data_path: Optional[str] = "../data/", 
        context_path: Optional[str] = "wikipedia_documents.json"
    ):
        super().__init__(tokenize_fn, data_path, context_path)
        self.bm25 = None
    def get_sparse_embedding(self):
        with timer("bm25 building"):
            self.bm25 = BM25Okapi(self.contexts, tokenizer=self.tokenize_fn) 
        
    def get_relevant_doc(self, query: str, k: Optional[int] = 1) -> Tuple[List, List]:
        with timer("transform"):
            tokenized_query = self.tokenize_fn(query)
        with timer("query ex search"):
            result = self.bm25.get_scores(tokenized_query)
        sorted_result = np.argsort(result)[::-1]
        doc_score = result[sorted_result].tolist()[:k]
        doc_indices = sorted_result.tolist()[:k]
        return doc_score, doc_indices

    def get_relevant_doc_bulk(
        self, queries: List, k: Optional[int] = 1
    ) -> Tuple[List, List]:
        with timer("transform"):
            tokenized_queris = [self.tokenize_fn(query) for query in queries]
        with timer("query ex search"):
            result = np.array([self.bm25.get_scores(tokenized_query) for tokenized_query in tqdm(tokenized_queris)])
        doc_scores = []
        doc_indices = []
        for i in range(result.shape[0]):
            sorted_result = np.argsort(result[i, :])[::-1]
            doc_scores.append(result[i, :][sorted_result].tolist()[:k])
            doc_indices.append(sorted_result.tolist()[:k])
        return doc_scores, doc_indices