# TF-IDF, BM25, ElasticSearch
# wikipedia로 임베딩을 만들고 valid set에 대해 테스트해보기
## TF-IDF, BM25는 xlm-roberta tokenizer 사용 / Elasticsearch는 내장 nori_tokenizer 사용

In [9]:
from rank_bm25 import BM25Okapi, BM25Plus
from sklearn.feature_extraction.text import TfidfVectorizer
from elasticsearch import Elasticsearch

from transformers import AutoTokenizer
import os
import json
import pickle
import numpy as np
import pandas as pd
import re
from tqdm import tqdm

from datasets import load_from_disk

### Tokenizer는 xlm-roberta를 기본 셋팅으로

In [10]:
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-base")

### 전처리 함수

In [11]:
def preprocess_retrieval(corpus):
    corpus = corpus.replace("\\n", "")
    corpus = re.sub(f"[\"<>\[\].,?!\(\)\:#\|'\=-]", " ", corpus)
    corpus = ' '.join(corpus.split())
    return corpus

## 데이터 불러오기

In [12]:
# wikipedia_documents.json
with open("../data/wikipedia_documents.json", "r", encoding="utf-8") as f:
    wiki = json.load(f)
contexts = list(dict.fromkeys([v["text"] for v in wiki.values()]))

In [13]:
# train/valid dataset
train_dataset = load_from_disk("../data/train_dataset")
train_context, valid_context = [], []
train_query, valid_query = [], []
for data in tqdm(train_dataset['train']):
    train_context.append(preprocess_retrieval(data['context']))
    train_query.append(preprocess_retrieval(data['question']))
for data in tqdm(train_dataset['validation']):
    valid_context.append(preprocess_retrieval(data['context']))
    valid_query.append(preprocess_retrieval(data['question']))

100%|██████████| 3952/3952 [00:00<00:00, 6043.59it/s]
100%|██████████| 240/240 [00:00<00:00, 5951.23it/s]


In [14]:
print(len(train_context), len(valid_context))
print(train_context[0])

3952 240
미국 상의원 또는 미국 상원 United States Senate 은 양원제인 미국 의회의 상원이다 미국 부통령이 상원의장이 된다 각 주당 2명의 상원의원이 선출되어 100명의 상원의원으로 구성되어 있다 임기는 6년이며 2년마다 50개주 중 1/3씩 상원의원을 새로 선출하여 연방에 보낸다 미국 상원은 미국 하원과는 다르게 미국 대통령을 수반으로 하는 미국 연방 행정부에 각종 동의를 하는 기관이다 하원이 세금과 경제에 대한 권한 대통령을 포함한 대다수의 공무원을 파면할 권한을 갖고 있는 국민을 대표하는 기관인 반면 상원은 미국의 주를 대표한다 즉 캘리포니아주 일리노이주 같이 주 정부와 주 의회를 대표하는 기관이다 그로 인하여 군대의 파병 관료의 임명에 대한 동의 외국 조약에 대한 승인 등 신속을 요하는 권한은 모두 상원에게만 있다 그리고 하원에 대한 견제 역할 하원의 법안을 거부할 권한 등 을 담당한다 2년의 임기로 인하여 급진적일 수밖에 없는 하원은 지나치게 급진적인 법안을 만들기 쉽다 대표적인 예로 건강보험 개혁 당시 하원이 미국 연방 행정부에게 퍼블릭 옵션 공공건강보험기관 의 조항이 있는 반면 상원의 경우 하원안이 지나치게 세금이 많이 든다는 이유로 퍼블릭 옵션 조항을 제외하고 비영리건강보험기관이나 보험회사가 담당하도록 한 것이다 이 경우처럼 상원은 하원이나 내각책임제가 빠지기 쉬운 국가들의 국회처럼 걸핏하면 발생하는 의회의 비정상적인 사태를 방지하는 기관이다 상원은 급박한 처리사항의 경우가 아니면 법안을 먼저 내는 경우가 드물고 하원이 만든 법안을 수정하여 다시 하원에 되돌려보낸다 이러한 방식으로 단원제가 빠지기 쉬운 함정을 미리 방지하는 것이다 날짜 2017 02 05


In [15]:
train_ids = list(range(len(train_context)))
valid_ids = list(range(len(valid_context)))
len(train_ids), type(valid_ids)

(3952, list)

In [16]:
contexts = [preprocess_retrieval(corpus) for corpus in contexts]

## BM25Okapi 실험

In [25]:
tokenized_wiki = [tokenizer.tokenize(corpus) for corpus in tqdm(contexts)]
bm25 = BM25Okapi(tqdm(tokenized_wiki))

100%|██████████| 56737/56737 [01:41<00:00, 560.25it/s]
100%|██████████| 56737/56737 [00:07<00:00, 7223.31it/s]


In [26]:
type(bm25)

rank_bm25.BM25Okapi

In [27]:
query = "트랜스포머"
tokenized_query = tokenizer.tokenize(preprocess_retrieval(query))

doc_scores = bm25.get_scores(tokenized_query)
doc_scores

array([0.        , 3.03814529, 5.30148683, ..., 0.        , 0.        ,
       0.        ])

In [28]:
bm25.get_top_n(tokenized_query, contexts, n=3)

['트랜스포머 실시영화 세계관에서는 1에서 처음등장하였다 비클모드는 머스탱이다 실사판 영화에서는 몸속의 프렌지를 데리고 다닌다 언뜻 보면 사운드웨이브처럼 숨기고 다닌다 트랜스포머 실사판 3편에서도 잠깐 휠잭를 죽일때나온다 그리고 군대쪽에서 총을 사격하자 그의 눈에 맞는다 그리고 군대쪽에서 빌딩에서 내려오고 군대쪽에서 바리케이드의 발쪽에 이상한 폭파무기를 다리쪽에 심어놓고는 폭파되어 사망한다 그후로 트랜스포머5 최후의 기사 에서도 부활하여 다시 출연한다 하지만 초반에는 메가트론과 좀 나오다가 중간에 시가전을 펼칠때 그림록의 꼬리에 밀려나간 후로부터 나오질 않는다 그 다음에는 스톤헨지에서 잠깐 메가트론 니트로제우스와 함께 포착되고 그 후로부터 등장이 없다 얼라인드 세계관에서 작품인 트랜스포머 워 포 사이버트론에서는 플레이캐릭터로 등장한다',
 '1969년 그렇게 개발된 것이 2254E 컴프레서/리미터이다 2254는 기본적으로 시그널이 게인의 변화를 주는 섹션을 지나서 다시 게인컨트롤 섹션에 영향을 주는 피드백 방식이었다 2254의 특징은 총 4개의 트랜스포머로 가득한 게인스테이지 덩어리라는 것이다 일단 인풋 게인 스테이지에서 첫 번째 트랜스포머가 들어온 신호에 색을 칠한다 그 다음 신호는 게인 리덕션 유닛으로 넘어오는데 니브만의 다이오드 브릿지 diode bridges 방식은 사실 레벨 효율이 매우 떨어지는 방식이었다 게인 리덕션 유닛을 지난 신호는 인풋신호에 비해 거의 40dB 가까이 떨어진채 두 번째 트랜스포머의 색을 묻힌 후 니브의 전매특허 BA283 아웃풋 앰프로 들어가게 된다 BA283에 포함된 총 세 번째 트랜스포머를 지나 원래의 라인신호 레벨을 되찾은 신호는 엔지니어 마음에 따라 리미터 사이드체인으로 들어가거나 말거나 중에 하나를 택한다 리미터까지 들어가면 총 4개의 트랜스포머를 거치게 되는 것이다 그로 인해 2254는 다른 기종에 비해 낮은 노이즈 대 시그널 비율을 가지고 있다 그리고 특유의 색깔도 매우 독특하다 이것이 2254만의 매력이다 게인리덕

In [40]:
def correct_retrieval(method, topk, passages, texts, queries):
    right, wrong = 0, 0
    for i in tqdm(range(len(texts))):
        tokenized_query = tokenizer.tokenize(preprocess_retrieval(queries[i]))
        predict = method.get_top_n(tokenized_query, passages, n=topk)
        if texts[i] in predict:
            right += 1
        else:
            wrong += 1
    print(f"Total Length : {right+wrong}")
    return right/(right+wrong)

In [32]:
bm25_acc = correct_retrieval(bm25, 1, contexts, valid_context, valid_query)
print(f"{100*bm25_acc:.2f}")

100%|██████████| 240/240 [02:15<00:00,  1.77it/s]

Total Length : 240
52.92





## BM25Plus 실험

In [36]:
bm25plus = BM25Plus(tqdm(tokenized_wiki))

100%|██████████| 56737/56737 [00:06<00:00, 8444.55it/s]


In [37]:
query = "트랜스포머"
tokenized_query = tokenizer.tokenize(preprocess_retrieval(query))

doc_scores = bm25plus.get_scores(tokenized_query)
doc_scores

array([12.41217118, 16.19212622, 18.9751972 , ..., 12.41217118,
       12.41217118, 12.41217118])

In [38]:
bm25plus.get_top_n(tokenized_query, contexts, n=3)

['트랜스포머 실시영화 세계관에서는 1에서 처음등장하였다 비클모드는 머스탱이다 실사판 영화에서는 몸속의 프렌지를 데리고 다닌다 언뜻 보면 사운드웨이브처럼 숨기고 다닌다 트랜스포머 실사판 3편에서도 잠깐 휠잭를 죽일때나온다 그리고 군대쪽에서 총을 사격하자 그의 눈에 맞는다 그리고 군대쪽에서 빌딩에서 내려오고 군대쪽에서 바리케이드의 발쪽에 이상한 폭파무기를 다리쪽에 심어놓고는 폭파되어 사망한다 그후로 트랜스포머5 최후의 기사 에서도 부활하여 다시 출연한다 하지만 초반에는 메가트론과 좀 나오다가 중간에 시가전을 펼칠때 그림록의 꼬리에 밀려나간 후로부터 나오질 않는다 그 다음에는 스톤헨지에서 잠깐 메가트론 니트로제우스와 함께 포착되고 그 후로부터 등장이 없다 얼라인드 세계관에서 작품인 트랜스포머 워 포 사이버트론에서는 플레이캐릭터로 등장한다',
 '1969년 그렇게 개발된 것이 2254E 컴프레서/리미터이다 2254는 기본적으로 시그널이 게인의 변화를 주는 섹션을 지나서 다시 게인컨트롤 섹션에 영향을 주는 피드백 방식이었다 2254의 특징은 총 4개의 트랜스포머로 가득한 게인스테이지 덩어리라는 것이다 일단 인풋 게인 스테이지에서 첫 번째 트랜스포머가 들어온 신호에 색을 칠한다 그 다음 신호는 게인 리덕션 유닛으로 넘어오는데 니브만의 다이오드 브릿지 diode bridges 방식은 사실 레벨 효율이 매우 떨어지는 방식이었다 게인 리덕션 유닛을 지난 신호는 인풋신호에 비해 거의 40dB 가까이 떨어진채 두 번째 트랜스포머의 색을 묻힌 후 니브의 전매특허 BA283 아웃풋 앰프로 들어가게 된다 BA283에 포함된 총 세 번째 트랜스포머를 지나 원래의 라인신호 레벨을 되찾은 신호는 엔지니어 마음에 따라 리미터 사이드체인으로 들어가거나 말거나 중에 하나를 택한다 리미터까지 들어가면 총 4개의 트랜스포머를 거치게 되는 것이다 그로 인해 2254는 다른 기종에 비해 낮은 노이즈 대 시그널 비율을 가지고 있다 그리고 특유의 색깔도 매우 독특하다 이것이 2254만의 매력이다 게인리덕

In [41]:
bm25plus_acc = correct_retrieval(bm25plus, 1, contexts, valid_context, valid_query)
print(f"{100*bm25plus_acc:.2f}")

100%|██████████| 240/240 [02:13<00:00,  1.80it/s]

Total Length : 240
52.92





## TF-IDF 실험 (max_features 제한 X)

In [43]:
def get_relevant_doc(tfidfv, p_embedding, query, k=1):
    query_vec = tfidfv.transform([query])
    result = query_vec * p_embedding.T
    result = result.toarray()

    sorted_result = np.argsort(result.squeeze())[::-1]
    doc_score = result.squeeze()[sorted_result].tolist()[:k]
    doc_indices = sorted_result.tolist()[:k]
    return doc_score, doc_indices

In [47]:
def retrieval(tfidfv, p_embedding, query_or_dataset, topk):
    doc_scores, doc_indices = get_relevant_doc(tfidfv, p_embedding, query_or_dataset, k=topk)
    answers = []
    for i in range(topk):
        answers.append(contexts[doc_indices[i]])
    return answers

In [46]:
tfidfv = TfidfVectorizer(tokenizer=tokenizer.tokenize, ngram_range=(1, 2))
p_embedding = tfidfv.fit_transform(tqdm(contexts))

100%|██████████| 56737/56737 [02:11<00:00, 430.41it/s]


In [55]:
def tfidf_retrieval(method, embedding, topk, passages, texts, queries):
    right, wrong = 0, 0
    for i in tqdm(range(len(texts))):
        predict = retrieval(tfidfv=tfidfv, p_embedding=embedding, query_or_dataset=queries[i], topk=topk)
        if texts[i] in predict:
            right += 1
        else:
            wrong += 1
    print(f"Total Length : {right+wrong}")
    return right/(right+wrong)

In [51]:
### (주의)시간 오래 걸림 - 약 15분 ###
tfidf_acc = tfidf_retrieval(tfidfv, p_embedding, 1, contexts, valid_context, valid_query)
print(f"{100*tfidf_acc:.2f}")

100%|██████████| 240/240 [14:58<00:00,  3.74s/it]

Total Length : 240
47.92





## Elastic Search 실험 (nori_tokenizer)

In [17]:
!service elasticsearch start

 * Starting Elasticsearch Server
 * Already running.
   ...done.


In [18]:
import pprint  
INDEX_NAME = "toy_index"


INDEX_SETTINGS = {
  "settings" : {
    "index":{
      "analysis":{
        "analyzer":{
          "korean":{
            "type":"custom",
            "tokenizer":"nori_tokenizer",
            "filter": [ "shingle" ],

          }
        }
      }
    }
  },
  "mappings": {

      "properties" : {
        "context" : {
          "type" : "text",
          "analyzer": "korean",
          "search_analyzer": "korean"
        },
      }

  }
}

In [19]:
DOCS = {}
for i in tqdm(range(len(contexts))):
    DOCS[i] = {'context':contexts[i]}

100%|██████████| 56737/56737 [00:00<00:00, 547561.06it/s]


In [20]:
try:
    es.transport.close()
except:
    pass
es = Elasticsearch()

In [21]:
es.info()



{'name': '13197ba8cc4f',
 'cluster_name': 'elasticsearch',
 'cluster_uuid': 'NsjOR1MlSNKPgkiGfKoBIg',
 'version': {'number': '7.15.1',
  'build_flavor': 'default',
  'build_type': 'deb',
  'build_hash': '83c34f456ae29d60e94d886e455e6a3409bba9ed',
  'build_date': '2021-10-07T21:56:19.031608185Z',
  'build_snapshot': False,
  'lucene_version': '8.9.0',
  'minimum_wire_compatibility_version': '6.8.0',
  'minimum_index_compatibility_version': '6.0.0-beta1'},
 'tagline': 'You Know, for Search'}

In [22]:
if es.indices.exists(INDEX_NAME):
    es.indices.delete(index=INDEX_NAME)
es.indices.create(index=INDEX_NAME, body=INDEX_SETTINGS)

  if es.indices.exists(INDEX_NAME):
  es.indices.create(index=INDEX_NAME, body=INDEX_SETTINGS)


{'acknowledged': True, 'shards_acknowledged': True, 'index': 'toy_index'}

In [24]:
import time
for doc_id, doc in DOCS.items():
    es.index(index=INDEX_NAME,  id=doc_id, body=doc)
    if doc_id % 2000 == 0:
        print(f"{100*doc_id/len(DOCS):.2f}% Done!")
    # time.sleep(0.1)

  es.index(index=INDEX_NAME,  id=doc_id, body=doc)


0.00% Done!
3.53% Done!
7.05% Done!
10.58% Done!
14.10% Done!
17.63% Done!
21.15% Done!
24.68% Done!
28.20% Done!
31.73% Done!
35.25% Done!
38.78% Done!
42.30% Done!
45.83% Done!
49.35% Done!
52.88% Done!
56.40% Done!
59.93% Done!
63.45% Done!
66.98% Done!
70.50% Done!
74.03% Done!
77.55% Done!
81.08% Done!
84.60% Done!
88.13% Done!
91.65% Done!
95.18% Done!
98.70% Done!


In [26]:
doc = es.get(index=INDEX_NAME, id=0)
pprint.pprint(doc)

{'_id': '0',
 '_index': 'toy_index',
 '_primary_term': 1,
 '_seq_no': 3761,
 '_source': {'context': '이 문서는 나라 목록이며 전 세계 206개 나라의 각 현황과 주권 승인 정보를 개요 형태로 '
                        '나열하고 있다 이 목록은 명료화를 위해 두 부분으로 나뉘어 있다 첫 번째 부분은 바티칸 시국과 '
                        '팔레스타인을 포함하여 유엔 등 국제 기구에 가입되어 국제적인 승인을 널리 받았다고 여기는 '
                        '195개 나라를 나열하고 있다 두 번째 부분은 일부 지역의 주권을 사실상 데 팍토 행사하고 '
                        '있지만 아직 국제적인 승인을 널리 받지 않았다고 여기는 11개 나라를 나열하고 있다 두 목록은 '
                        '모두 가나다 순이다 일부 국가의 경우 국가로서의 자격에 논쟁의 여부가 있으며 이 때문에 이러한 '
                        '목록을 엮는 것은 매우 어렵고 논란이 생길 수 있는 과정이다 이 목록을 구성하고 있는 국가를 '
                        '선정하는 기준에 대한 정보는 포함 기준 단락을 통해 설명하였다 나라에 대한 일반적인 정보는 국가 '
                        '문서에서 설명하고 있다'},
 '_type': '_doc',
 '_version': 2,
 'found': True}


In [27]:
query = "트랜스포머 영화"
res = es.indices.analyze(index=INDEX_NAME,
                                 body={
                                       "analyzer" : "korean",
                                        "text" : query
                                 }
                        )
pprint.pprint(res)

{'tokens': [{'end_offset': 5,
             'position': 0,
             'start_offset': 0,
             'token': '트랜스포머',
             'type': 'word'},
            {'end_offset': 8,
             'position': 0,
             'positionLength': 2,
             'start_offset': 0,
             'token': '트랜스포머 영화',
             'type': 'shingle'},
            {'end_offset': 8,
             'position': 1,
             'start_offset': 6,
             'token': '영화',
             'type': 'word'}]}


In [28]:
query = "트랜스포머 영화"
res = es.search(index=INDEX_NAME, q=query, size=3)
pprint.pprint(res)

{'_shards': {'failed': 0, 'skipped': 0, 'successful': 1, 'total': 1},
 'hits': {'hits': [{'_id': '39799',
                    '_index': 'toy_index',
                    '_score': 21.805086,
                    '_source': {'context': '트랜스포머 실시영화 세계관에서는 1에서 처음등장하였다 '
                                           '비클모드는 머스탱이다 실사판 영화에서는 몸속의 프렌지를 데리고 '
                                           '다닌다 언뜻 보면 사운드웨이브처럼 숨기고 다닌다 트랜스포머 '
                                           '실사판 3편에서도 잠깐 휠잭를 죽일때나온다 그리고 군대쪽에서 '
                                           '총을 사격하자 그의 눈에 맞는다 그리고 군대쪽에서 빌딩에서 '
                                           '내려오고 군대쪽에서 바리케이드의 발쪽에 이상한 폭파무기를 '
                                           '다리쪽에 심어놓고는 폭파되어 사망한다 그후로 트랜스포머5 '
                                           '최후의 기사 에서도 부활하여 다시 출연한다 하지만 초반에는 '
                                           '메가트론과 좀 나오다가 중간에 시가전을 펼칠때 그림록의 꼬리에 '
                                           '밀려나간 후로부터 나오질 않는다 그 다음에는 스톤헨지에서 잠깐 '
                  

In [29]:
res['hits']['hits'][0]['_source']['context']

'트랜스포머 실시영화 세계관에서는 1에서 처음등장하였다 비클모드는 머스탱이다 실사판 영화에서는 몸속의 프렌지를 데리고 다닌다 언뜻 보면 사운드웨이브처럼 숨기고 다닌다 트랜스포머 실사판 3편에서도 잠깐 휠잭를 죽일때나온다 그리고 군대쪽에서 총을 사격하자 그의 눈에 맞는다 그리고 군대쪽에서 빌딩에서 내려오고 군대쪽에서 바리케이드의 발쪽에 이상한 폭파무기를 다리쪽에 심어놓고는 폭파되어 사망한다 그후로 트랜스포머5 최후의 기사 에서도 부활하여 다시 출연한다 하지만 초반에는 메가트론과 좀 나오다가 중간에 시가전을 펼칠때 그림록의 꼬리에 밀려나간 후로부터 나오질 않는다 그 다음에는 스톤헨지에서 잠깐 메가트론 니트로제우스와 함께 포착되고 그 후로부터 등장이 없다 얼라인드 세계관에서 작품인 트랜스포머 워 포 사이버트론에서는 플레이캐릭터로 등장한다'

In [30]:
def right_es(texts, queries):
    right, wrong = 0, 0
    errors = []
    for i in range(len(queries)):
        try:
            res = res = es.search(index=INDEX_NAME, q=queries[i], size=1)
        except:
            mod_q = queries[i].replace("%", "").replace("~", "")
            res = res = es.search(index=INDEX_NAME, q=mod_q, size=1)
            
        answer = res['hits']['hits'][0]['_source']['context']
        if answer == texts[i]:
            right += 1
        else:
            wrong += 1
        if i%24 == 0:
            print(f"{100*i/len(texts)}% Done!")
    print(f"Total Length : {right+wrong}")
    return right/(right+wrong), errors

In [31]:
es_acc, error_query = right_es(valid_context, valid_query)
print(f"{100*es_acc:.2f}")

0.0% Done!




10.0% Done!
20.0% Done!
30.0% Done!
40.0% Done!
50.0% Done!
60.0% Done!
70.0% Done!
80.0% Done!
90.0% Done!
Total Length : 240
70.42


In [33]:
error_query

['병에 걸려 죽을 확률이 약 25~50%에 달하는 유형의 질병은']

### 추가 테스트 해볼 내용
1. nori_tokenizer 모든 query 처리 가능하게 preprocess
2. passage 길이 너무 긴 것 삭제 (2500 이상?)
3. 정답이 context 내 어디 쯤에 위치하는지 파악 -> 뒷단이나 앞단 random deletion