In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import sys
sys.path.append("../")

In [7]:
from abc import ABC, abstractmethod
from typing import List, Tuple, Any, Dict
import numpy as np

from rank_bm25 import BM25Okapi
from kiwipiepy import Kiwi


class Indexer(ABC):
    @abstractmethod
    def search(self, query_text: Any, top_k: int):
        pass


class KoreanBM25Indexer(Indexer):
    def __init__(self, corpus: List[Dict[str, Any]], top_k: int = 5):
        """
        corpus format:
        [
          {
            "id": chunk_id,
            "chunked_text": "...",
            "original_docid": ...
          },
          ...
        ]
        """
        self.top_k = top_k

        # üîπ chunk idÏôÄ ÌÖçÏä§Ìä∏ Î∂ÑÎ¶¨
        self.doc_ids = [item["id"] for item in corpus]
        self.texts = [item["chunked_text"] for item in corpus]

        # ÌïúÍµ≠Ïñ¥ ÌòïÌÉúÏÜå ÌÜ†ÌÅ¨ÎÇòÏù¥Ï†Ä
        self.kiwi = Kiwi()

        # Î¨∏ÏÑú ÌÜ†ÌÅ¨ÎÇòÏù¥Ï¶à
        tokenized_corpus = [self._tokenize(text) for text in self.texts]

        # BM25 Ïù∏Îç±Ïä§ ÏÉùÏÑ±
        self.bm25 = BM25Okapi(tokenized_corpus)

    def _tokenize(self, text: str) -> List[str]:
        # ÌòïÌÉúÏÜå Îã®ÏúÑ ÌÜ†ÌÅ∞
        return [tok.form for tok in self.kiwi.tokenize(text)]

    def search(self, query_text: Any, top_k: int = None):
        if top_k is None:
            top_k = self.top_k

        if isinstance(query_text, str):
            q_tokens = self._tokenize(query_text)
            scores = np.asarray(self.bm25.get_scores(q_tokens))

            top_idx = np.argsort(scores)[::-1][:top_k]
            doc_ids = [self.doc_ids[i] for i in top_idx]
            top_scores = scores[top_idx]

            return doc_ids, top_scores

        elif isinstance(query_text, list):
            return [self.search(q, top_k) for q in query_text]

        else:
            raise NotImplementedError("Input type not str nor list.")


In [8]:
from pipeline.dataset.news import get_news_dataset

dataset = get_news_dataset()

In [18]:
from pipeline.dataset.newsqa import load_news_qa_dataset
newsqa = load_news_qa_dataset()

Loading NewsQA dataset from /workspace/final_project/qa/newsqa.json


In [9]:
from pipeline.retriever.embed import chunk_korean_sentence

In [10]:
points = []

for doc_idx, _ in enumerate(dataset['text']):
    
    chunk_texts = chunk_korean_sentence(dataset[doc_idx]['text'], chunk_size=1000, chunk_overlap=200)
    
    for chunk_idx, chunk_text in enumerate(chunk_texts):
        point = {
            "id": doc_idx*1000+chunk_idx,
            'chunked_text' : chunk_text,
            'original_docid' : doc_idx
        }
        points.append(point)

In [None]:
indexer = KoreanBM25Indexer(corpus=points, top_k=100)

In [25]:
topk=5

In [21]:
results = []
from tqdm import tqdm
for q in tqdm([d['question'] for d in newsqa]):
    results.append(indexer.search(q))

  0%|          | 0/1000 [00:00<?, ?it/s]

100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1000/1000 [06:20<00:00,  2.63it/s]


In [35]:
indexer.texts[indexer.doc_ids.index(1)]

'Ïò¨Ìï¥ ÏÉÅÎ∞òÍ∏∞ Ïö∞Î¶¨ÎÇòÎùº Î¨¥Ïó≠ÏàòÏßÄÎäî Ïó≠ÎåÄ ÏµúÏïÖÏù∏ 103Ïñµ Îã¨Îü¨ Ï†ÅÏûêÎ•º Í∏∞Î°ùÌïú Í∞ÄÏö¥Îç∞, Ï†ïÎ∂ÄÍ∞Ä ÌïòÎ∞òÍ∏∞Ïóê Ïö∞Î¶¨ Í≤ΩÏ†úÏùò Î≤ÑÌåÄÎ™©Ïù∏ ÏàòÏ∂ú ÌôïÎåÄÎ•º ÏúÑÌï¥ Ï¥ùÎ†•ÏùÑ Í∏∞Ïö∏Ïù¥Í∏∞Î°ú Í≤∞Ï†ïÌïú Í∞ÄÏö¥Îç∞, ÌäπÌûà ÏàòÏ∂ú Ï§ëÏÜåÍ∏∞ÏóÖÏùò Î¨ºÎ•òÎÇú Ìï¥ÏÜåÎ•º ÏúÑÌï¥ Î¨¥Ïó≠Í∏àÏúµ Í∑úÎ™®Î•º 40Ï°∞ Ïõê Ïù¥ÏÉÅ ÌôïÎåÄÌïòÍ≥† Î¨ºÎ•òÎπÑ ÏßÄÏõêÍ≥º ÏûÑÏãúÏÑ†Î∞ï Ìà¨ÏûÖ Îì±ÏùÑ Ï∂îÏßÑÌïòÍ∏∞Î°ú ÌñàÎã§.'

In [40]:
all_retrieved_docs = []
for docids, scores in results:
    topk_docs = docids[:topk]
    topk_scores = scores[:topk].tolist()
    for docid, score in zip(topk_docs, topk_scores):
        retrieved_doc = {
            'id': docid,
            'score': score,
            'chunked_text': indexer.texts[indexer.doc_ids.index(docid)],
            'original_chunk_id': docid % 1000,
            'original_docid': docid // 1000
        }
        all_retrieved_docs.append(retrieved_doc)

In [41]:
all_retrieved_docs

[{'id': 6039002,
  'score': 76.44372064741206,
  'chunked_text': 'ÏñëÏûêÏ±ÑÎÑêÏù¥Ïö©Î£åÎäî ÏÜçÎèÑ Íµ¨Î∂Ñ ÏóÜÏù¥ Í±∞Î¶¨Ïóê Îî∞Îùº 3ÎÖÑ Í≥ÑÏïΩ Í∏∞Ï§Ä Ïõî 1Ïñµ 3Ïñµ 4000ÎßåÏõêÏùò ÏöîÍ∏àÏ†úÎ°ú Íµ¨ÏÑ±ÎêúÎã§. KTÏóê Îî∞Î•¥Î©¥ 7ÎÖÑ Ïù¥ÏÉÅ Ïû•Í∏∞ Í≥ÑÏïΩ Ïãú Ïù¥Ïö©Î£åÎäî ÏµúÏÜå 4000ÎßåÏõêÏúºÎ°ú 3ÎÖÑ Í≥ÑÏïΩÏúºÎ°ú Ïù¥Ïö©Ìï† ÎïåÎ≥¥Îã§ 50% Ïù¥ÏÉÅ Ï†ÄÎ†¥ÌïòÎã§. Ïû•ÎπÑ ÏûÑÎåÄÎ£åÎäî ÏµúÎåÄ 1Gbps ÏÜçÎèÑÏö© Ïû•ÎπÑÎäî Ïõî 1650ÎßåÏõêÏù¥Î©∞ 10GbpsÏö©ÏùÄ 1760ÎßåÏõêÏù¥Îã§. ÏòàÏª®ÎåÄ ÏÑúÏö∏Í≥º Ïö©ÏÇ∞ Í∞Ñ Íµ¨Í∞ÑÏùò 1Gbps ÏÜçÎèÑÏùò ÏñëÏûêÏïîÌò∏ÌÜµÏã† ÏÑúÎπÑÏä§ Ïù¥Ïö©Î£åÎäî 1Ïñµ 1650ÎßåÏõê 3ÎÖÑ Í≥ÑÏïΩ Í∏∞Ï§Ä Ïù¥Îã§. ÏÑúÏö∏Í≥º Î∂ÄÏÇ∞ Íµ¨Í∞ÑÏùÄ 3Ïñµ 8650ÎßåÏõêÏùò Ïõî ÏöîÍ∏àÏúºÎ°ú Ïù¥Ïö©Ìï† Ïàò ÏûàÎã§. KTÎäî ÏñëÏûêÏïîÌò∏ÌÜµÏã† Í∏∞Ïà† ÏÑ†ÎèÑÎ•º ÏúÑÌï¥ Í≥†ÏÜç ÏñëÏûêÏïîÌò∏ÌÜµÏã† ÏãúÏä§ÌÖú Í∞úÎ∞úÍ≥º ÏÑúÏö∏ Î∂ÄÏÇ∞ ÏµúÏû•Í±∞Î¶¨ ÏñëÏûêÏïîÌò∏ÌÜµÏã† ÏÑúÎπÑÏä§ Ïã§Ï¶ù Íµ≠Ï†úÌëúÏ§ÄÌôî ÏÑ†ÎèÑ Îì± Ïó∞Íµ¨Í∞úÎ∞úÏùÑ ÌôúÎ∞úÌûà ÏßÑÌñâ Ï§ëÏù¥Îã§. Î∞±ÏäπÌÉù KT Îç∞Ïù¥ÌÑ∞ Ïù∏ÌîÑÎùº ÎîîÏßÄÌÑ∏Ï†ÑÌôò DX ÏÇ¨ÏóÖÎã¥ÎãπÏùÄ ‚ÄúKTÎäî ÏÑ∏Í≥ÑÏóêÏÑú 

In [3]:
from pipeline.chain.generation import RAGChain
from pipeline.common import setup_logger

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
logger = setup_logger("ipynbDEMO")

In [5]:
rag = RAGChain(
    retrieval_type='hybrid',
    hybrid_alpha=0.5,
    encoder_name='bge',
    chunk_size=1000,
    overlap_size=200,
    generator_name='midm',
    top_k=5,
    generator_type='vllm',
    with_retrieval_results=True,
    logger=logger
)

[2025-12-19 19:35:57] INFO SentenceTransformer.py:219: Use pytorch device_name: cuda:0
[2025-12-19 19:35:57] INFO SentenceTransformer.py:227: Load pretrained SentenceTransformer: dragonkue/bge-m3-ko


Model is on device: cuda:0


In [13]:
rag.top_k

5

In [17]:
rag.ask(["Ïßë Í∑ºÏ≤òÏóêÏÑú ÎãπÍ∑ºÎßàÏºì ÌïòÎäî Î≤ï."])

Batches: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1/1 [00:00<00:00, 29.37it/s]


[('{"answer": "Ïßë Í∑ºÏ≤òÏóêÏÑú ÎãπÍ∑ºÎßàÏºìÏùÑ ÌïòÎäî Î≤ïÏùÄ ÎãπÍ∑ºÎßàÏºì ÎÇ¥ \'ÎÇ¥ Í∑ºÏ≤ò\' ÌÉ≠Ïùò \'ÎãπÍ∑ºÎØ∏Îãà\'ÏóêÏÑú ÎÇ®ÏùòÏßë ÏÑúÎπÑÏä§Î•º Ïù¥Ïö©ÌïòÎäî Í≤ÉÏûÖÎãàÎã§. Î≥ÑÎèÑÏùò Ïï± ÏÑ§Ïπò ÏóÜÏù¥ ÏÑúÎπÑÏä§ ÌéòÏù¥ÏßÄÏóêÏÑú Î∞îÎ°ú ÏõêÌïòÎäî Î™®ÏûÑÏóê Ïã†Ï≤≠Ìï¥ Ï∞∏Ïó¨Ìï† Ïàò ÏûàÏúºÎ©∞, Î™®ÏûÑÏùÄ ÎèôÎÑ§ Í∞ÄÍ≤åÎÇò ÏûëÏóÖÏã§ Í≥µÎ∞© Í∞ÄÏ†ïÏßë Îì± Ìò∏Ïä§Ìä∏Í∞Ä Ï¥àÏ≤≠Ìïú Îã§ÏñëÌïú Í≥µÍ∞ÑÏóêÏÑú Ïó¥Î¶ΩÎãàÎã§."}',
  [{'id': 10101002,
    'score': 0.615136,
    'original_chunk_id': 2,
    'category': 'economy',
    'press': 'ÏÑúÏö∏Ïã†Î¨∏ ',
    'link': 'https://n.news.naver.com/mnews/article/081/0003284684?sid=101',
    'bucket': 'train',
    'chunked_text': 'Ï†ïÍ∏∞ Î™®ÏûÑÎ≥¥Îã§Îäî Í∞ÄÎ≥çÍ≤å ‚ÄòÎ≤àÍ∞ú‚Äô Í∞ëÏûëÏä§Îü¨Ïö¥ ÎßåÎÇ® Î•º Ìï† Ïàò ÏûàÎäî ÏÑúÎπÑÏä§Î°ú Ïã§Ï†úÎ°ú ÏµúÍ∑º ‚ÄòÍ∞ôÏù¥Ìï¥Ïöî‚ÄôÎ•º ÌÜµÌï¥ ÎèôÎÑ§ ÏÇ¨ÎûåÎì§Í≥º Ìï®Íªò Ïö¥ÎèôÏùÑ ÌïòÍ±∞ÎÇò ÌòºÏûê Î®πÍ∏∞Îäî ÌûòÎì† ÏÇºÍ≤πÏÇ¥ÏßëÏùÑ Í∞ôÏù¥ Í∞ÄÎäî Îì±Ïùò Ï¶âÌù• Î™®ÏûÑÏù¥ ÎπàÎ≤àÌï¥ÏßÄÍ≥† ÏûàÏäµÎãàÎã§. ÎãπÍ∑ºÎßàÏºìÏùÄ ÏïûÏúºÎ°úÎèÑ Îã®ÏàúÌï

In [59]:
answer1 = rag.ask(["ÏÑúÏö∏ Í∑ºÍµê Í≥µÏõêÏùÑ ÏïåÎ†§Ï§ò"])
answer2 = rag.ask(["Î∂ÄÏÇ∞ Í∑ºÍµê Í≥µÏõêÏùÑ ÏïåÎ†§Ï§ò"])

[{'id': 26593001, 'score': 27.08803963993782, 'chunked_text': 'Ïï†ÌîåÏä§ÌÜ†Ïñ¥ Í∞ÄÎ°úÏàòÍ∏∏Ï†ê Ï¥àÎì±ÏÉù ÏïÑÏù¥Ìå®Îìú Ï≤¥Ìóò ÌñâÏÇ¨ ÏßÄÍµ¨ Î≥¥Ìò∏ Í¥ÄÎ†® ÎßåÌôî Ï†úÏûë‚Ä¶ Ïû†Ïû¨Í≥†Í∞ùÏ∏µ Î°ùÏù∏ Ï†ÑÎûµ Ïã†ÏÇ¨ ÏùÄÌñâÎÇòÎ¨¥ Í≥µÏõêÏóêÏÑú ÏïÑÏù¥Ìå®Îìú ÎßåÌôîÏóê Îì§Ïñ¥Í∞à ÏÇ¨ÏßÑÏùÑ Ï∞çÎäî Î™®Ïäµ. 2022.07.01. Ïò§ÌòÑÏ£º Í∏∞Ïûê ¬© Îâ¥Ïä§1 ÏÑúÏö∏ Îâ¥Ïä§1 Ïò§ÌòÑÏ£º Í∏∞Ïûê Ï†ú ÎòêÎûò ÏóÑÎßàÎì§ÏùÄ 10Î™Ö Ï§ë 2Î™ÖÎßå ÏïÑÏù¥Ìè∞ Í∞ôÏùÄ Ïï†Ìîå Ï†úÌíàÏùÑ Ïì∞ÎçòÎç∞ ÏïÑÏù¥Îì§ÏùÄ Ïïà Í∑∏ÎûòÏöî. ÏïåÌåå ÏÑ∏ÎåÄ 2010ÎÖÑ 2024ÎÖÑÏÉù Îäî ÌÇ§Ï¶àÌè∞ÏùÑ Ïì∞Í≥† ÏûàÏñ¥ÎèÑ ÏïÑÏù¥Ìè∞ÏùÑ Ïì∞Í≥† Ïã∂Ïñ¥ ÌïòÏ£†. ÏßÄÎÇú 1Ïùº Ïò§ÌõÑ 5Ïãú ÏÑúÏö∏ Í∞ïÎÇ®Íµ¨ Ïã†ÏÇ¨Îèô Í∞ÄÎ°úÏàòÍ∏∏ Ïù∏Í∑º ÏùÄÌñâÎÇòÎ¨¥ Í≥µÏõêÏóêÏÑú ÎßåÎÇú ÌïôÎ∂ÄÎ™® AÏî® 44ÏÑ∏ Ïùò ÎßêÏù¥Îã§. AÏî®Îäî Ïù¥ÎÇ† Ï¥àÎì±ÌïôÍµê 3ÌïôÎÖÑ¬∑5ÌïôÎÖÑ ÏïÑÎì§Í≥º Ïï†ÌîåÏä§ÌÜ†Ïñ¥ Í∞ÄÎ°úÏàòÍ∏∏Ï†êÍ≥º Í∑ºÏ≤ò ÎÜÄÏù¥ÌÑ∞ÏóêÏÑú Ïó¥Î¶∞ Ïï†Ìîå Ï∫†ÌîÑ Ïóê Ï∞∏Í∞ÄÌñàÎã§. ÏùºÏ∞çÎ∂ÄÌÑ∞ Ïä§ÎßàÌä∏Ìè∞ Í∞ôÏùÄ Ï†ÑÏûêÍ∏∞Í∏∞Ïóê ÏπúÏàôÌïú Îßå8 12ÏÑ∏ Ïñ¥Î¶∞Ïù¥Îì§Ïù¥ ÏïÑÏù¥Ìå®ÎìúÎ°ú ÏßÄÍµ¨ Î≥¥Ìò∏ Í¥ÄÎ†® ÎßåÌôî

In [62]:
answer1[0][1]

[{'id': 26593001,
  'score': 27.08803963993782,
  'chunked_text': 'Ïï†ÌîåÏä§ÌÜ†Ïñ¥ Í∞ÄÎ°úÏàòÍ∏∏Ï†ê Ï¥àÎì±ÏÉù ÏïÑÏù¥Ìå®Îìú Ï≤¥Ìóò ÌñâÏÇ¨ ÏßÄÍµ¨ Î≥¥Ìò∏ Í¥ÄÎ†® ÎßåÌôî Ï†úÏûë‚Ä¶ Ïû†Ïû¨Í≥†Í∞ùÏ∏µ Î°ùÏù∏ Ï†ÑÎûµ Ïã†ÏÇ¨ ÏùÄÌñâÎÇòÎ¨¥ Í≥µÏõêÏóêÏÑú ÏïÑÏù¥Ìå®Îìú ÎßåÌôîÏóê Îì§Ïñ¥Í∞à ÏÇ¨ÏßÑÏùÑ Ï∞çÎäî Î™®Ïäµ. 2022.07.01. Ïò§ÌòÑÏ£º Í∏∞Ïûê ¬© Îâ¥Ïä§1 ÏÑúÏö∏ Îâ¥Ïä§1 Ïò§ÌòÑÏ£º Í∏∞Ïûê Ï†ú ÎòêÎûò ÏóÑÎßàÎì§ÏùÄ 10Î™Ö Ï§ë 2Î™ÖÎßå ÏïÑÏù¥Ìè∞ Í∞ôÏùÄ Ïï†Ìîå Ï†úÌíàÏùÑ Ïì∞ÎçòÎç∞ ÏïÑÏù¥Îì§ÏùÄ Ïïà Í∑∏ÎûòÏöî. ÏïåÌåå ÏÑ∏ÎåÄ 2010ÎÖÑ 2024ÎÖÑÏÉù Îäî ÌÇ§Ï¶àÌè∞ÏùÑ Ïì∞Í≥† ÏûàÏñ¥ÎèÑ ÏïÑÏù¥Ìè∞ÏùÑ Ïì∞Í≥† Ïã∂Ïñ¥ ÌïòÏ£†. ÏßÄÎÇú 1Ïùº Ïò§ÌõÑ 5Ïãú ÏÑúÏö∏ Í∞ïÎÇ®Íµ¨ Ïã†ÏÇ¨Îèô Í∞ÄÎ°úÏàòÍ∏∏ Ïù∏Í∑º ÏùÄÌñâÎÇòÎ¨¥ Í≥µÏõêÏóêÏÑú ÎßåÎÇú ÌïôÎ∂ÄÎ™® AÏî® 44ÏÑ∏ Ïùò ÎßêÏù¥Îã§. AÏî®Îäî Ïù¥ÎÇ† Ï¥àÎì±ÌïôÍµê 3ÌïôÎÖÑ¬∑5ÌïôÎÖÑ ÏïÑÎì§Í≥º Ïï†ÌîåÏä§ÌÜ†Ïñ¥ Í∞ÄÎ°úÏàòÍ∏∏Ï†êÍ≥º Í∑ºÏ≤ò ÎÜÄÏù¥ÌÑ∞ÏóêÏÑú Ïó¥Î¶∞ Ïï†Ìîå Ï∫†ÌîÑ Ïóê Ï∞∏Í∞ÄÌñàÎã§. ÏùºÏ∞çÎ∂ÄÌÑ∞ Ïä§ÎßàÌä∏Ìè∞ Í∞ôÏùÄ Ï†ÑÏûêÍ∏∞Í∏∞Ïóê ÏπúÏàôÌïú Îßå8 12ÏÑ∏ Ïñ¥Î¶∞Ïù¥Îì§Ïù¥ ÏïÑÏù¥Ìå®ÎìúÎ°ú ÏßÄÍµ¨ Î≥¥Ìò∏ Í¥ÄÎ†® Îß

In [63]:
answer2[0][1]

[{'id': 2696002,
  'score': 30.794056415436927,
  'chunked_text': 'ÌòÑÏßÄ Î∂ÄÎèôÏÇ∞ Ï†ÑÎ¨∏Í∞ÄÎäî Ï¥âÏßÑ Íµ¨Ïó≠ ÏßÄÏ†ï 15ÎÖÑ ÎßåÏóê Î∂ÄÏÇ∞ ÏãúÎØºÍ≥µÏõê Ïû¨Ï†ïÎπÑÏ¥âÏßÑÏßÄÍµ¨Ïùò Ïú§Í≥ΩÏù¥ ÎìúÎü¨ÎÇ† Í≤É Ïù¥ÎùºÎ©∞ ÏÇ¨ÏóÖÏù¥ ÏôÑÍ≥µÎêòÎ©¥ Î∂ÄÏÇ∞ Ï§ëÏã¨ÏßÄÏóêÏÑú Ìñ•ÌõÑ Ï¥ù 8000Ïó¨Í∞ÄÍµ¨Í∞Ä ÎÑòÎäî ÎåÄÎã®ÏßÄ Ï£ºÍ±∞ÌÉÄÏö¥ÏùÑ ÌòïÏÑ±Ìï¥ ÏÉàÎ°úÏö¥ Î∂ÄÏÇ∞ ÎûúÎìúÎßàÌÅ¨ ÏßÄÏó≠ÏúºÎ°ú Î≥ÄÌôîÌï† Í≤É Ïù¥ÎùºÍ≥† ÌñàÎã§. Î∂ÄÏÇ∞ ÏãúÎØºÍ≥µÏõê Ïû¨Ï†ïÎπÑÏ¥âÏßÑÏßÄÍµ¨Ïùò Í∞úÎ∞ú Î©¥Ï†ÅÏùÄ 43Îßå6378„é°Î°ú 47ÎßåÏó¨„é° Í∑úÎ™® Î∂ÄÏÇ∞ ÎèÑÏã¨Í∂å ÌóàÌåå Í∏∞Îä•ÏùÑ Îã¥ÎãπÌïòÎäî Î∂ÄÏÇ∞ ÏãúÎØºÍ≥µÏõêÏùÑ ÎëòÎü¨Ïãº Ï±Ñ 5Í∞ú Íµ¨Ïó≠ÏúºÎ°ú ÎÇòÎàÑÏñ¥Ï†∏ ÏûàÎã§. 2007ÎÖÑ Ï†ïÎ∂ÄÏùò ÎèÑÏã¨ ÎÇ¥ Îâ¥ÌÉÄÏö¥ Ï°∞ÏÑ± Ï∂îÏßÑ Ï†ïÏ±ÖÏóê ÌûòÏûÖÏñ¥ Ïû¨Ï†ïÎπÑÏ¥âÏßÑÏßÄÍµ¨Î°ú ÏßÄÏ†ïÎèº Í≥µÎèôÏ£ºÌÉùÍ≥º Í∞ÅÏ¢Ö Ï£ºÍ±∞ Ïù∏ÌîÑÎùºÍ∞Ä Íµ¨Ï∂ïÎê† ÏòàÏ†ïÏù¥Îã§.',
  'original_chunk_id': 2,
  'original_docid': 2696},
 {'id': 1496000,
  'score': 29.547269717618192,
  'chunked_text': 'ÌïúÍµ≠ÎßàÏÇ¨Ìöå 3ÎÖÑÎßåÏóê ÏïºÍ∞Ñ Í≤ΩÎßà‚Ä¶78Ïõî Í∏à¬∑ÌÜ†ÏöîÏùº ÏãúÌñâ\nÌïúÍµ≠Îßà

In [67]:
from copy import deepcopy

def minmax_map(results, score_key="score"):
    """results(list[dict]) -> {id: scaled_score}"""
    if not results:
        return {}

    scores = [r[score_key] for r in results]
    mn, mx = min(scores), max(scores)

    if mx == mn:
        # Ï†ÑÎ∂Ä Í∞ôÏùÄ Ï†êÏàòÎ©¥ Î™®Îëê 1.0(ÎòêÎäî 0.0)Î°ú Îë¨ÎèÑ ÎêòÏßÄÎßå,
        # topK ÎÇ¥ ÏÉÅÎåÄÏàúÏúÑÍ∞Ä ÏùòÎØ∏ ÏóÜÏúºÎØÄÎ°ú 1.0ÏúºÎ°ú ÌÜµÏùºÌïòÎäî Ìé∏Ïù¥ Î≥¥ÌÜµ Î¨¥ÎÇú
        return {r["id"]: 1.0 for r in results}

    return {r["id"]: (r[score_key] - mn) / (mx - mn) for r in results}
def hybrid_union_merge(dense_results, sparse_results, alpha: float):
    """
    dense_results, sparse_results: topK Í≤∞Í≥º(list[dict]) - id ÏßëÌï©Ïù¥ Îã¨ÎùºÎèÑ Îê®
    alpha: dense Í∞ÄÏ§ëÏπò (0~1)
    return: unionÎêú Î¨∏ÏÑúÎì§ÏùÑ final_scoreÎ°ú ÎÇ¥Î¶ºÏ∞®Ïàú Ï†ïÎ†¨Ìïú list[dict]
    """
    assert 0.0 <= alpha <= 1.0

    dense_scaled = minmax_map(dense_results)
    sparse_scaled = minmax_map(sparse_results)

    dense_map = {r["id"]: r for r in dense_results}
    sparse_map = {r["id"]: r for r in sparse_results}

    all_ids = set(dense_map) | set(sparse_map)

    merged = []
    for doc_id in all_ids:
        d_item = dense_map.get(doc_id)
        s_item = sparse_map.get(doc_id)

        d_score = dense_scaled.get(doc_id, 0.0)   # ÏóÜÏúºÎ©¥ 0
        s_score = sparse_scaled.get(doc_id, 0.0)  # ÏóÜÏúºÎ©¥ 0

        final = alpha * d_score + (1 - alpha) * s_score

        # base item: denseÏóê ÏûàÏúºÎ©¥ dense Î©îÌÉÄÎ•º, ÏóÜÏúºÎ©¥ sparse Î©îÌÉÄÎ•º ÏÇ¨Ïö©
        base = deepcopy(d_item if d_item is not None else s_item)

        base["dense_score_scaled"] = d_score
        base["sparse_score_scaled"] = s_score
        base["final_score"] = final
        base["in_dense_topk"] = d_item is not None
        base["in_sparse_topk"] = s_item is not None

        merged.append(base)

    merged.sort(key=lambda x: x["final_score"], reverse=True)
    return merged

In [69]:
answer3 = [{'id': 26593001,
  'score': 27.08803963993782,
  'chunked_text': 'Ïï†ÌîåÏä§ÌÜ†Ïñ¥ Í∞ÄÎ°úÏàòÍ∏∏Ï†ê Ï¥àÎì±ÏÉù ÏïÑÏù¥Ìå®Îìú Ï≤¥Ìóò ÌñâÏÇ¨ ÏßÄÍµ¨ Î≥¥Ìò∏ Í¥ÄÎ†® ÎßåÌôî Ï†úÏûë‚Ä¶ Ïû†Ïû¨Í≥†Í∞ùÏ∏µ Î°ùÏù∏ Ï†ÑÎûµ Ïã†ÏÇ¨ ÏùÄÌñâÎÇòÎ¨¥ Í≥µÏõêÏóêÏÑú ÏïÑÏù¥Ìå®Îìú ÎßåÌôîÏóê Îì§Ïñ¥Í∞à ÏÇ¨ÏßÑÏùÑ Ï∞çÎäî Î™®Ïäµ. 2022.07.01. Ïò§ÌòÑÏ£º Í∏∞Ïûê ¬© Îâ¥Ïä§1 ÏÑúÏö∏ Îâ¥Ïä§1 Ïò§ÌòÑÏ£º Í∏∞Ïûê Ï†ú ÎòêÎûò ÏóÑÎßàÎì§ÏùÄ 10Î™Ö Ï§ë 2Î™ÖÎßå ÏïÑÏù¥Ìè∞ Í∞ôÏùÄ Ïï†Ìîå Ï†úÌíàÏùÑ Ïì∞ÎçòÎç∞ ÏïÑÏù¥Îì§ÏùÄ Ïïà Í∑∏ÎûòÏöî. ÏïåÌåå ÏÑ∏ÎåÄ 2010ÎÖÑ 2024ÎÖÑÏÉù Îäî ÌÇ§Ï¶àÌè∞ÏùÑ Ïì∞Í≥† ÏûàÏñ¥ÎèÑ ÏïÑÏù¥Ìè∞ÏùÑ Ïì∞Í≥† Ïã∂Ïñ¥ ÌïòÏ£†. ÏßÄÎÇú 1Ïùº Ïò§ÌõÑ 5Ïãú ÏÑúÏö∏ Í∞ïÎÇ®Íµ¨ Ïã†ÏÇ¨Îèô Í∞ÄÎ°úÏàòÍ∏∏ Ïù∏Í∑º ÏùÄÌñâÎÇòÎ¨¥ Í≥µÏõêÏóêÏÑú ÎßåÎÇú ÌïôÎ∂ÄÎ™® AÏî® 44ÏÑ∏ Ïùò ÎßêÏù¥Îã§. AÏî®Îäî Ïù¥ÎÇ† Ï¥àÎì±ÌïôÍµê 3ÌïôÎÖÑ¬∑5ÌïôÎÖÑ ÏïÑÎì§Í≥º Ïï†ÌîåÏä§ÌÜ†Ïñ¥ Í∞ÄÎ°úÏàòÍ∏∏Ï†êÍ≥º Í∑ºÏ≤ò ÎÜÄÏù¥ÌÑ∞ÏóêÏÑú Ïó¥Î¶∞ Ïï†Ìîå Ï∫†ÌîÑ Ïóê Ï∞∏Í∞ÄÌñàÎã§. ÏùºÏ∞çÎ∂ÄÌÑ∞ Ïä§ÎßàÌä∏Ìè∞ Í∞ôÏùÄ Ï†ÑÏûêÍ∏∞Í∏∞Ïóê ÏπúÏàôÌïú Îßå8 12ÏÑ∏ Ïñ¥Î¶∞Ïù¥Îì§Ïù¥ ÏïÑÏù¥Ìå®ÎìúÎ°ú ÏßÄÍµ¨ Î≥¥Ìò∏ Í¥ÄÎ†® ÎßåÌôîÎ•º ÎßåÎì§Ïñ¥Î≥¥Îäî ÌîÑÎ°úÍ∑∏Îû®Ïù¥Îã§. AÏî®Ïùò ÏûêÎÖÄÎì§ÏùÄ Îòê Îã§Î•∏ Ï¥àÎì±ÏÉù 3Î™ÖÍ≥º Ìï®Íªò ÏïÑÏù¥Ìå®Îìú ÌîÑÎ°ú 11Ïù∏Ïπò 3ÏÑ∏ÎåÄ Î•º Îì§Í≥† Í≥µÏõê ÏÜç ÎÇòÎ¨¥ÏôÄ ÎπÑÎëòÍ∏∞ Í∞ÄÏ°±Îì§Ïùò ÏÇ¨ÏßÑÏùÑ Ï∞çÍ≥† Ïù¥ÎØ∏ÏßÄ ÏúÑÏóê Ïï†ÌîåÌéúÏä¨Î°ú Í∑∏Î¶ºÏùÑ Í∑∏Î†∏Îã§. Ïñ¥Î¶∞Ïù¥Îì§ÏóêÍ≤å ÏïÑÏù¥Ìå®ÎìúÎ°ú ÎßåÌôî Í∑∏Î¶¨Îäî Î≤ïÏùÑ ÏïåÎ†§Ï£ºÎäî Ïï†ÌîåÏä§ÌÜ†Ïñ¥ ÏßÅÏõê2022.07.01. Ïò§ÌòÑÏ£º Í∏∞Ïûê¬© Îâ¥Ïä§1 ‚óáÏï†Ìîå 3ÎÖÑ ÎßåÏóê Ïñ¥Î¶∞Ïù¥ ÎåÄÏÉÅ Ïï†Ìîå Ï∫†ÌîÑ ‚Ä¶ÏïÑÏù¥Ìå®Îìú ÎßåÌôîÏ±Ö Ï†úÏûë ÌñâÏÇ¨ Ïù¥ÎÇ† Ï¥ù 8Î™Ö ÌïôÏÉù 5Î™Ö¬∑Î∂ÄÎ™® 3Î™Ö Ïù¥ Ï∞∏Ïó¨Ìïú ÌñâÏÇ¨Îäî Ïï†ÌîåÏù¥ 3ÎÖÑ ÎßåÏóê Ïó∞ Ïò§ÌîÑÎùºÏù∏ Ïñ¥Î¶∞Ïù¥ Ï∫†ÌîÑÏùò ÏùºÌôòÏù∏ ÏïÑÌä∏ Ïó∞Íµ¨ÏÜå Í∞ÄÏ°±Í≥º Ìï®Íªò ÎßåÌôîÏ±Ö ÎßåÎì§Í∏∞ ÎåÄÎ™®Ìóò Ïù¥Îã§. 8Ïõî 31ÏùºÍπåÏßÄ Íµ≠ÎÇ¥ 3Í≥≥ Í∞ÄÎ°úÏàòÍ∏∏¬∑Ïó¨ÏùòÎèÑ¬∑Î™ÖÎèôÏ†ê ÏùÑ Ìè¨Ìï®Ìïú Ï†Ñ ÏÑ∏Í≥Ñ Ïï†ÌîåÏä§ÌÜ†Ïñ¥ÏóêÏÑú Îß§Ï£º Ïó¥Î¶∞Îã§. Ïñ¥Î¶¥ ÎïåÎ∂ÄÌÑ∞ Ìú¥ÎåÄÏ†ÑÌôîÏóê ÏùµÏàôÌïú ÏïåÌåå ÏÑ∏ÎåÄ ÏóêÍ≤å Ïï†Ìîå Í∏∞Í∏∞Î•º ÎπåÎ†§Ï§ò Î∏åÎûúÎìúÎ•º ÏïåÎ¶¨Í≥† Ïñ¥Î¶∞Ïù¥Î•º ÎØ∏Îûò Ï£ºÏöî Íµ¨Îß§Ï∏µÏúºÎ°ú Ìè¨ÏÑ≠ÌïòÍ∏∞ ÏúÑÌïú ÏùºÏ¢ÖÏùò Î°ùÏù∏ Lock in Ï†ÑÎûµÏúºÎ°ú Î∂ÑÏÑùÎêúÎã§. Ïù¥ÎÇ† Í∞ÄÎ°úÏàòÍ∏∏Ï†ê ÌñâÏÇ¨Îäî Îã§ÏÑØ Í∞ÄÏßÄ ÌôúÎèôÏúºÎ°ú Íµ¨ÏÑ±ÎêêÎã§. ŒîÏïÑÏù¥Ìå®Îìú ÏûëÎèôÎ≤ï ÍµêÏú° Îì± ÏõåÎ∞çÏóÖ 10Î∂Ñ ŒîÎßåÌôîÏ±Ö ÎßåÎì§Í∏∞ ÏãúÎ≤î 20Î∂Ñ ŒîÍ≥µÏõê Ï£ºÎ≥Ä ÎëòÎü¨Î≥¥Í∏∞¬∑ÏÇ¨ÏßÑ Ï¥¨ÏòÅ ŒîÎßåÌôîÏ±Ö ÎîîÏûêÏù∏ 30Î∂Ñ ŒîÎ∞úÌëú 25Î∂Ñ Îã§.',
  'original_chunk_id': 1,
  'original_docid': 26593},
 {'id': 27120004,
  'score': 27.06476880084895,
  'chunked_text': 'ÌïòÎäòÍ≥µÏõê ÏΩîÏä§Îäî 1.2kmÎ°ú Ïó∞Ïù∏ÎÅºÎ¶¨ Îç∞Ïù¥Ìä∏ Ï¶êÍ∏∞Í±∞ÎÇò ÌòºÏûê Í≥†ÏöîÌûà Î≤§ÏπòÏóê ÏïâÏïÑ ÎèÖÏÑúÎ•º Ï¶êÍ∏∞Í∏∞ Ï¢ãÎã§. Ïú†ÏïÑÏà≤Ï≤¥ÌóòÏõê ÏΩîÏä§Îäî Î™®Îûò ÎÜÄÏù¥ÌÑ∞ÏôÄ Ìä∏Î¶¨ ÌïòÏö∞Ïä§Í∞Ä ÏûàÏñ¥ ÏòÅÏú†ÏïÑÎ•º ÎèôÎ∞òÌïú Í∞ÄÏ°±Îì§Ïù¥ Í±∑Í∏∞ Ï¢ãÏùÄ Ïà≤Í∏∏Ïù¥Îã§. ‚óá Ïù¥Íµ≠Ï†ÅÏù∏ Î∂ÑÏúÑÍ∏∞ ‚ÄòÏÑúÏÑúÏö∏Ìò∏ÏàòÍ≥µÏõê Î™¨ÎìúÎ¶¨Ïïà Ï†ïÏõê‚Äô ÏÑúÏÑúÏö∏Ìò∏ÏàòÍ≥µÏõêÏóêÎäî ÎπÑÌñâÍ∏∞Í∞Ä ÏßÄÎÇòÎ©¥ Î∂ÑÏàòÍ∞Ä ÏÜüÎäî ÏÜåÎ¶¨ Î∂ÑÏàòÍ∞Ä ÏûàÎã§. ÏÉùÍ∞ÅÎ≥¥Îã§ Í∞ÄÍπåÏù¥ÏóêÏÑú ÎÇ†ÏïÑÍ∞ÄÎäî ÎπÑÌñâÍ∏∞ÏôÄ Î∂ÑÏàòÎ•º Î∞îÎùºÎ≥¥Î©¥ ÎßàÏπò Ïñ¥ÎîîÎ°†Í∞Ä Ïó¨ÌñâÏùÑ Îñ†ÎÇòÎäî Í∏∞Î∂ÑÏùÑ ÎäêÎÇÑ Ïàò ÏûàÎã§. Ìò∏Ïàò Ï£ºÏúÑÎ•º Ìïú Î∞îÌÄ¥ Í±∑Í≥† ÎÇòÏÑú Í∞ÄÎßåÌûà Îç∞ÌÅ¨Ïóê ÏïâÏïÑ Î∂ÑÏàòÎ•º Î∞îÎùºÎ≥¥Îäî Í≤ÉÎèÑ Ï¢ãÏßÄÎßå Ïù¥Íµ≠Ï†ÅÏù∏ ÎäêÎÇåÏùò Î™¨ÎìúÎ¶¨Ïïà Ï†ïÏõêÎèÑ ÎÜìÏπòÏßÄ ÎßêÍ≥† Íº≠ ÎßåÎÇòÎ≥¥Ïûê. Í≥ºÍ±∞ Ï†ïÏàòÏû•Ïùò ÌùîÏ†ÅÏù∏ Ïπ®Ï†ÑÏ°∞Ïùò ÏΩòÌÅ¨Î¶¨Ìä∏Î≤ΩÍ≥º Îç©Íµ¥ÏãùÎ¨º Îã§ÏñëÌïú ÍΩÉÎì§Ïù¥ Ïñ¥Ïö∞Îü¨ÏßÑ Ï†ïÏõêÏùÄ Í≥≥Í≥≥Ïóê Îã§ÏñëÌïú Î≤§ÏπòÏôÄ ÌñáÎπõÏùÑ ÎßâÏïÑÏ£ºÎäî Í∑∏Îäò Í≥µÍ∞ÑÏù¥ ÏûàÏñ¥ Ïñ¥ÎîîÏÑúÎì† Ìú¥ÏãùÌï† Ïàò ÏûàÎã§. ÏïÑÎ¶ÑÎã§Ïö¥ Ï†ïÏõêÏóêÏÑú Ïù∏ÏÉùÏÇ¨ÏßÑÎèÑ ÎÇ®Í∏∞Î©∞ Ïó¨Ìñâ Ïò® ÎìØÌïú ÌûêÎßÅÏùò ÏãúÍ∞ÑÏùÑ Í∞ÄÏ†∏Î≥¥Ïûê. ÏÑúÏÑúÏö∏Ìò∏ÏàòÍ≥µÏõê ÏÇ¨ÏßÑ ÏÑúÏö∏Ïãú ‚óá ÎπÑÍ∞Ä ÏôÄÎèÑ Í¥úÏ∞ÆÏùÄ ‚ÄòÏ±ÖÏâºÌÑ∞ Í≥µÏõê Ïó¨Ìñâ‚Äô Í≥µÏõêÏù¥ ÏïºÏô∏Í≥µÍ∞ÑÏù¥ÎùºÍ≥†Îßå ÏÉùÍ∞ÅÌñàÎã§Î©¥ Í≥µÏõêÏÜç Ï±ÖÏâºÌÑ∞Ïóê Î∞©Î¨∏Ìï¥Î≥¥Ïûê. ÏãúÏõêÌïú Í≥µÍ∞ÑÏóêÏÑú Ï±ÖÏùÑ ÏùΩÏúºÎ©∞ Ï∞Ω Î∞ñ ÏûêÏó∞ÏùÑ Ï¶êÍ∏∏ Ïàò ÏûàÏñ¥ Î¨¥ÎçîÏö¥ ÎÇ†ÏóêÎèÑ ÎπÑÍ∞Ä Ïò§Îäî ÎÇ†ÏóêÎèÑ Í≥µÏõêÏùÑ Ï¶êÍ∏∞Í∏∞ Ï¢ãÎã§. ÌäπÌûà ÏûêÏó∞ ÌõºÏÜêÏùÑ ÏµúÏÜåÌôîÌïòÍ≥† Í±¥Ï∂ïÏ†ÅÏúºÎ°úÎèÑ ÏïÑÎ¶ÑÎãµÍ≤å ÏßÄÏñ¥ Í∞êÏÑ±Ï†ÅÏù∏ Î∂ÅÏπ¥ÌéòÏóê Ïò® ÎìØÌïú Í∏∞Î∂ÑÏùÑ ÎäêÎÇÑ Ïàò ÏûàÎã§. Í≥µÏõê ÎÇ¥ Ï±ÖÏâºÌÑ∞Îäî ÏùëÎ¥âÍ∑ºÎ¶∞Í≥µÏõê ÏñëÏ≤úÍ≥µÏõê ÏåçÎ¨∏Í∑ºÎ¶∞Í≥µÏõê Íµ¨Î°úÍµ¨ Ï≤úÏôïÏÇ∞ Í∑ºÎ¶∞Í≥µÏõêÏóêÏÑú ÎßåÎÇòÎ≥º Ïàò ÏûàÎã§.',
  'original_chunk_id': 4,
  'original_docid': 27120},
 {'id': 20561002,
  'score': 26.550626476328944,
  'chunked_text': 'ÍπÄÌï¥Í≥µÏõêÎ¨òÏõêÎèÑ ÏÑ±Î¨òÍ∞ùÎì§ÏùÑ ÏÑ§ÎìùÌï¥ Î¨ò 1Îßå7000Ïó¨Í∏∞Ïóê ÏûàÎäî Í∞ÄÏßúÍΩÉÏùÑ 3ÏõîÏóê Î™®Îëê ÏàòÍ±∞ÌñàÎã§. ÏµúÏù¥Ï≤ú ÍπÄÌï¥Í≥µÏõêÎ¨òÏõê Ïù¥ÏÇ¨Ïû•ÏùÄ ‚ÄúÍπÄÌï¥ÏãúÏôÄ Ìï®Íªò ÎØºÏõêÏù∏ÏùÑ ÏÑ§ÎìùÌïòÍ≥† ÏÑ±Î¨òÍ∞ùÏóêÍ≤å Í∑ºÏ†à Ï∑®ÏßÄÎ•º Ïûò ÏÑ§Î™ÖÌï¥ Í∞ÄÏßúÍΩÉÏùÑ Î™®Îëê Ï†úÍ±∞Ìï† Ïàò ÏûàÏóàÎã§‚ÄùÎ©∞ ‚ÄúÌôòÍ≤ΩÏóê Ïú†Ìï¥Ìïú Í∞ÄÏßúÍΩÉÏù¥ ÏÇ¨ÎùºÏ†∏ Í≥µÏõêÎ¨òÏõêÏù¥ ÍπîÎÅîÌï¥ÏßÄÍ≥† Î≥¥Í∏∞ Ï¢ãÎã§Îäî Î∞òÏùëÏù¥ ÎßéÎã§‚ÄùÍ≥† Í∑ÄÎùîÌñàÎã§. ÎØºÏõê ÎïåÎ¨∏Ïóê Ïñ¥Î†§ÏõÄ Í≤™Í∏∞ÎèÑ Î¨ò 5500Í∏∞Í∞Ä ÏûàÎäî ÏòÅÎùΩÍ≥µÏõêÎ¨òÏõêÏùÄ 5Ïõî Í∞ÄÏßúÍΩÉ ÏàòÍ±∞Î•º ÎßàÏ≥§ÏßÄÎßå Í∑∏ Í≥ºÏ†ïÏóêÏÑú ÎØºÏõêÏúºÎ°ú Í≥§ÌòπÏä§Îü¨Ïõ†Îã§Í≥† ÌïúÎã§. ÍπÄÎåÄÏÑù ÏòÅÎùΩÍ≥µÏõêÎ¨òÏõê ÎåÄÌëúÎäî ‚ÄúÏôú ÏÇ¨Ïú†Ïû¨ÏÇ∞Ïù∏ Í∞ÄÏßúÍΩÉÏùÑ Ìï®Î∂ÄÎ°ú ÏàòÍ±∞ÌïòÎÉêÎ©∞ ÎØºÏõêÏù∏Ïù¥ Í≤ΩÏ∞∞ÏÑúÏóê Ïã†Í≥†ÌñàÎã§‚ÄùÎ©∞ ‚ÄúÎåÄÏ†ÑÌòÑÏ∂©ÏõêÏù¥ÎÇò ÏÑúÏö∏ÌòÑÏ∂©ÏõêÏ≤òÎüº Íµ≠Í∞ÄÏóêÏÑú Í¥ÄÎ¶¨ÌïòÎäî Í≥≥Î∂ÄÌÑ∞ Í∞ÄÏßúÍΩÉÏùÑ Î®ºÏ†Ä ÏóÜÏï¥ÏúºÎ©¥ Îçî ÎÇòÏïòÍ≤†Îã§‚ÄùÍ≥† ÎßêÌñàÎã§. Î¨ò 8500Í∏∞Î•º Í¥ÄÎ¶¨ÌïòÎäî ÍπÄÌï¥ÌïòÎäòÍ≥µÏõêÏùÄ ÎØºÏõêÏù¥ ÎßéÏù¥ Îì§Ïñ¥ÏôÄ Í∞ÄÏßúÍΩÉ ÏàòÍ±∞Í∞Ä Ï§ëÎã®Îêú ÏÉÅÌÉúÎã§. ÍπÄÌï¥ÌïòÎäòÍ≥µÏõê Í¥ÄÍ≥ÑÏûêÎäî ‚ÄúÏÉùÌôîÎäî Í∏àÎ∞© ÏãúÎì†Îã§Îäî Ï†êÏùÑ ÏßÄÏ†ÅÌïòÎ©∞ ÎØºÏõêÏù¥ ÎßéÏù¥ Îì§Ïñ¥ÏôÄÏÑú ÌòÑÏû¨Îäî Í∞ÄÏßúÍΩÉÏùÑ ÏàòÍ±∞Ìï† Ïàò ÏóÜÎäî ÏÉÅÌô©‚ÄùÏù¥ÎùºÍ≥† ÌÜ†Î°úÌñàÎã§. Ïú§ÏàòÍ∑º ÍπÄÌï¥ÌïòÎäòÍ≥µÏõê Ïù¥ÏÇ¨Ïû•ÏùÄ ‚ÄúÏù¥Ïö©Í∞ùÎì§ÏóêÍ≤å Í∞ÄÏßúÍΩÉÏùò Ïú†Ìï¥ÏÑ±ÏùÑ Îçî ÏïåÎ¶¨Í≥† Î∞òÏûÖ Í∏àÏßÄÎ•º ÌôçÎ≥¥Ìï¥ÏÑú Ïò¨ Ï∂îÏÑù Ï†ÑÌõÑÎ°ú ÏàòÍ±∞Î•º Î≥∏Í≤© ÏãúÏûëÌïòÍ≤†Îã§‚ÄùÍ≥† ÏÑ§Î™ÖÌñàÎã§. Í∞ÄÏßúÍΩÉ ÎåÄÏ≤¥Ìíà ÎßàÎ†® ÎÇòÏÑú ÍπÄÌï¥ÏãúÎäî Í∞ÄÏßúÍΩÉ ÏÇ¨Ïö© Í∏àÏßÄÏóê Îî∞Î•∏ ÏãúÎØºÎì§ Î∂àÎßåÏùÑ Ìï¥Í≤∞ÌïòÍ∏∞ ÏúÑÌï¥ ÎåÄÏ≤¥Ìíà ÎßàÎ†®Ïóê ÌûòÏì∞Í≥† ÏûàÎã§. Í∞ÄÏßúÍΩÉ Í∑ºÏ†à ÏÇ¨ÏóÖÏùÑ Îã¥ÎãπÌïòÍ≥† ÏûàÎäî Í∞ïÎ¨∏Ïàô Ï≤≠ÏÜåÌñâÏ†ïÍ≥º Ï≤≠ÏÜåÍ¥ÄÎ¶¨ÌåÄÏû•ÏùÄ ‚ÄúÏûêÏ°∞Í∏àÌòëÏùòÌöå¬∑ÏòÅÎÇ®ÌôîÌõºÏõêÏòàÎÜçÌòëÍ≥º ÌòëÎ†•Ìï¥ ÏÉùÌôîÎ≥¥Îã§ Ïò§Îûò Ïú†ÏßÄÎêòÎäî ÎìúÎùºÏù¥ÌîåÎùºÏõåÎ•º Ï†ÄÎ†¥Ìïú Í∞íÏúºÎ°ú ÏãúÎØºÎì§ÏóêÍ≤å Ï†úÍ≥µÌï† ÏòàÏ†ï‚ÄùÏù¥ÎùºÎ©∞ ‚ÄúÏãúÎØºÎì§Ïù¥ ÌóåÌôîÎ•º Íµ¨ÏûÖÌï† Îïå Î∂àÌé∏Ìï®ÏùÑ ÎäêÎÅºÏßÄ ÏïäÎèÑÎ°ù Í≥ÑÏÜç ÏßÄÏõêÌï† Î∞©Ïπ®‚ÄùÏù¥ÎùºÍ≥† Î∞ùÌòîÎã§. Í∞ï ÌåÄÏû•ÏùÄ Ïù¥Ïñ¥ ‚ÄúÎìúÎùºÏù¥ÌîåÎùºÏõå ÏûêÌåêÍ∏∞Î•º 8ÏõîÍπåÏßÄ 4Í∞ú Í≥µÏõêÎ¨òÏõêÏóê ÏÑ§ÏπòÌï¥ÏÑú Ïò¨ Ï∂îÏÑùÎ∂ÄÌÑ∞ ÏãúÎØºÎì§Ïù¥ ÏÜêÏâΩÍ≤å Íµ¨Îß§Ìï† Ïàò ÏûàÎèÑÎ°ù ÌïòÍ≤†Îã§‚ÄùÍ≥† Í∞ïÏ°∞ÌñàÎã§. ÏòÅÎÇ®ÌôîÌõºÏõêÏòàÎÜçÌòëÎèÑ ÎìúÎùºÏù¥ÌîåÎùºÏõå Í≥µÍ∏â ÍΩÉ ÎÉâÏû•Í≥† Í∏∞Ï¶ù Îì±ÏùÑ ÌÜµÌï¥ ÏÉùÌôî ÏÜåÎπÑ Ï¥âÏßÑÏóê ÌûòÏì∏ ÏòàÏ†ïÏù¥Îã§.',
  'original_chunk_id': 2,
  'original_docid': 20561},
 {'id': 1496000,
  'score': 26.377055290675302,
  'chunked_text': 'ÌïúÍµ≠ÎßàÏÇ¨Ìöå 3ÎÖÑÎßåÏóê ÏïºÍ∞Ñ Í≤ΩÎßà‚Ä¶78Ïõî Í∏à¬∑ÌÜ†ÏöîÏùº ÏãúÌñâ\nÌïúÍµ≠ÎßàÏÇ¨ÌöåÎäî Í≥†Í∞ùÎì§ÏóêÍ≤å Îã§ÏñëÌïú Î≥ºÍ±∞Î¶¨Î•º Ï†úÍ≥µÌïòÍ≥† Î¨¥ÎçîÏö¥ Ïó¨Î¶Ñ Í≤ΩÏ£ºÎßàÏôÄ Í∏∞Ïàò Îì±ÏùÑ Î≥¥Ìò∏ÌïòÍ∏∞ ÏúÑÌï¥ 7Ïõî 1ÏùºÎ∂ÄÌÑ∞ ÏïΩ Îëê Îã¨Í∞Ñ ÏïºÍ∞ÑÍ≤ΩÎßàÎ•º Í∞úÏµúÌïúÎã§Í≥† Î∞ùÌòîÎã§. ÏÇ¨ÏßÑÏùÄ ÏÑúÏö∏Í≤ΩÎßàÍ≥µÏõêÏùò ÏïºÍ∞Ñ Í≤ΩÎßà Î™®Ïäµ. ÌïúÍµ≠ÎßàÏÇ¨Ìöå 7Ïõî 1ÏùºÎ∂ÄÌÑ∞ 9Ï£º Í∞Ñ Îß§Ï£º Í∏à¬∑ÌÜ†ÏöîÏùº ÏïºÍ∞ÑÍ≤ΩÎßàÍ∞Ä Ïó¥Î¶∞Îã§. ÌïúÍµ≠ÎßàÏÇ¨ÌöåÎäî Í≥†Í∞ùÎì§ÏóêÍ≤å Îã§ÏñëÌïú Î≥ºÍ±∞Î¶¨Î•º Ï†úÍ≥µÌïòÍ≥† Î¨¥ÎçîÏö¥ Ïó¨Î¶Ñ Í≤ΩÏ£ºÎßàÏôÄ Í∏∞Ïàò Îì±ÏùÑ Î≥¥Ìò∏ÌïòÍ∏∞ ÏúÑÌï¥ 1ÏùºÎ∂ÄÌÑ∞ ÏïΩ Îëê Îã¨Í∞Ñ ÏïºÍ∞ÑÍ≤ΩÎßàÎ•º Í∞úÏµúÌïúÎã§Í≥† Î∞ùÌòîÎã§. ÌòπÏÑúÍ∏∞ Í∏∞Í∞Ñ Î∞§Ïóê ÏßÑÌñâÎêòÎäî ÏïºÍ∞ÑÍ≤ΩÎßàÎäî ÏïΩ 3ÎÖÑ ÎßåÏóê Ïû¨Í∞úÎêúÎã§. Ïò¨Ìï¥ ÏïºÍ∞ÑÍ≤ΩÎßàÎäî 7Ïõî 1ÏùºÎ∂ÄÌÑ∞ 8Ïõî 28ÏùºÍπåÏßÄ 9Ï£º Í∞Ñ Îß§Ï£º Í∏àÏöîÏùºÍ≥º ÌÜ†ÏöîÏùº ÏãúÌñâÎêúÎã§. Í∏àÏöîÏùºÏóêÎäî Î∂ÄÏÇ∞Í≤ΩÎÇ®Í≥º Ï†úÏ£º Í≤ΩÎßàÍ≥µÏõêÏóêÏÑú ÏïºÍ∞Ñ Í≤ΩÏ£ºÍ∞Ä Ïó¥Î¶¨Î©∞ ÌÜ†ÏöîÏùºÏóêÎäî ÏÑúÏö∏ÏóêÏÑú Ïó¥Î¶∞Îã§. Îã® ÌÜ†ÏöîÏùº Î∂ÄÏÇ∞Í≤ΩÎÇ® Í≤ΩÎßàÍ≥µÏõêÏùÄ ÏÑúÏö∏Í≤ΩÎßàÍ≥µÏõê Ìú¥Ïû• Í∏∞Í∞ÑÏù∏ 8Ïõî Ï≤´Ïß∏Ï£ºÏóêÎèÑ ÏïºÍ∞Ñ Í≤ΩÎßàÎ•º ÏßÑÌñâÌïúÎã§. Ïù¥Ïóê Îî∞Îùº Í∏àÏöîÏùºÍ≥º ÌÜ†ÏöîÏùº ÎßàÏßÄÎßâ Í≤ΩÏ£º Ï∂úÎ∞úÏãúÍ∞ÅÏùÄ Î∞§ 9ÏãúÎã§. ÏùºÏöîÏùºÏùÄ Í∏∞Ï°¥Ï≤òÎüº ÏÑúÏö∏¬∑Î∂ÄÏÇ∞Í≤ΩÎÇ® Í≤ΩÏ£ºÍ∞Ä Ï£ºÍ∞Ñ Í≤ΩÎßàÎ°ú ÏãúÌñâÎêúÎã§. Í≥†Í∞ù ÏûÖÏû•ÏãúÍ∞ÑÎèÑ Î≥ÄÎèôÎêúÎã§. Í∏àÏöîÏùºÍ≥º ÌÜ†ÏöîÏùºÏùÄ ÎÇÆ 12Ïãú 30Î∂ÑÎ∂ÄÌÑ∞ ÏûÖÏû•Ïù¥ ÏãúÏûëÎêòÎ©∞ ÏùºÏöîÏùºÏùÄ Ïò§Ï†Ñ 9Ïãú 30Î∂ÑÏù¥Îã§. Ï≤´ Í≤ΩÏ£º Ï∂úÎ∞ú ÏãúÍ∞ÅÎèÑ Í∏àÏöîÏùº Ïò§ÌõÑ 2Ïãú 10Î∂Ñ ÌÜ†ÏöîÏùºÏùÄ Ïò§ÌõÑ 2ÏãúÎ°ú Î≥ÄÍ≤ΩÎêúÎã§. ÌïúÍµ≠ÎßàÏÇ¨ÌöåÎäî Ïó¨Î¶ÑÏ≤† ÌòπÏÑúÍ∏∞Ïóê Í≤ΩÎßàÏû•Î≥ÑÎ°ú Ìú¥Ïû• Í∏∞Í∞ÑÏùÑ Ïö¥ÏòÅÌïúÎã§. Ï†úÏ£º Í≤ΩÎßàÍ≥µÏõêÏùÄ 7Ïõî ÎßàÏßÄÎßâ Ï£ºÏóê Ìú¥Ïû•Ïù¥ ÏòàÏ†ïÎèº ÏûàÏúºÎ©∞ Í∑∏ Îã§Ïùå Ï£ºÏù∏ 8Ïõî Ï≤´Ïß∏ Ï£ºÎäî ÏÑúÏö∏ Í≤ΩÎßàÍ≥µÏõê 8Ïõî ÎëòÏß∏ Ï£ºÎäî Î∂ÄÏÇ∞Í≤ΩÎÇ® Í≤ΩÎßàÍ≥µÏõêÏù¥ ÎèåÏïÑÍ∞ÄÎ©¥ÏÑú Ìú¥Ïû•ÏùÑ ÏßÑÌñâÌïúÎã§.\nÌïúÍµ≠Îì§ÏóêÍ≤å Îã§ÏñëÌïú Î≥ºÍ±∞Î¶¨Î•º Ï†úÍ≥µÌïòÍ≥† Î¨¥ÎçîÏö¥ Ïó¨Î¶Ñ Í≤ΩÏ£ºÎßàÏôÄ Í∏∞Ïàò Îì±ÏùÑ Î≥¥Ìò∏ÌïòÍ∏∞ ÏúÑÌï¥ ÌïúÍµ≠ÎßàÏÇ¨ÌöåÎäî 7Ïõî 1ÏùºÎ∂ÄÌÑ∞ 8Ïõî 28ÏùºÍπåÏßÄ 9Ï£º Í∞Ñ Îß§Ï£º Í∏à¬∑ÌÜ†ÏöîÏùº ÏïºÍ∞ÑÍ≤ΩÎßàÎ•º Í∞úÏµúÌïòÎ©∞ Í∏àÏöîÏùºÏóêÎäî Î∂ÄÏÇ∞Í≤ΩÎÇ®Í≥º Ï†úÏ£º Í≤ΩÎßàÍ≥µÏõêÏóêÏÑú ÏïºÍ∞Ñ Í≤ΩÏ£ºÍ∞Ä Ïó¥Î¶¨Î©∞ ÌÜ†ÏöîÏùºÏóêÎäî ÏÑúÏö∏ÏóêÏÑú Ïó¥Î¶¨Í≥† Í∏àÏöîÏùºÍ≥º ÌÜ†ÏöîÏùº ÎßàÏßÄÎßâ Í≤ΩÏ£º Ï∂úÎ∞úÏãúÍ∞ÅÏùÄ Î∞§ 9ÏãúÎùºÍ≥† Î∞ùÌòîÎã§.',
  'original_chunk_id': 0,
  'original_docid': 1496},
 {'id': 27120003,
  'score': 26.21943343662731,
  'chunked_text': 'ÌäπÌûà Îç∞ÌÅ¨ÏÇ∞Ï±ÖÎ°ú ÏñëÏ™ΩÏúºÎ°ú 40Ïó¨ Ï¢ÖÏùò ÌÇ§ ÏûëÏùÄ ÎÇòÎ¨¥ÏôÄ ÌíÄÍΩÉÏù¥ Ïã¨Ïñ¥Ï†∏ ÏûàÏñ¥ Ìè¨ÌÜ†Ï°¥ÏúºÎ°úÎèÑ ÏÜêÏÉâÏù¥ ÏóÜÎã§. Î¨¥ÎçîÏö¥ Ïò¨Ïó¨Î¶Ñ Î≥¥ÎùºÎß§Í≥µÏõêÏóêÏÑú Ï±Ö Ìïú Í∂åÏùÑ ÏùΩÏúºÎ©∞ Î™∏Í≥º ÎßàÏùå Î™®Îëê Ï∂©Ï†ÑÌï¥Î≥¥Ïûê. ‚óá ÎèóÏûêÎ¶¨Îßå ÏûàÎã§Î©¥ ‚ÄòÏãúÎØºÏùòÏà≤Í≥µÏõê‚Äô Ïñ¥ÎîîÏÑúÎÇò ÌîºÌÅ¨Îãâ ÌïúÏ†ÅÌïòÍ≥† Ïö∏Ï∞ΩÌïú Ïà≤ÏÜçÏóêÏÑú ÌîºÌÅ¨ÎãâÌïòÎäî Í∏∞Î∂ÑÏùÑ ÎäêÍª¥Î≥¥Í≥† Ïã∂Îã§Î©¥ Ïö∞Î¶¨ÎÇòÎùº ÏµúÏ¥à Ïà≤ Í∞úÎÖêÏùÑ ÎèÑÏûÖÌïú Í≥µÏõêÏù∏ ÏñëÏû¨ ÏãúÎØºÏùòÏà≤ÏùÑ Ï∂îÏ≤úÌïúÎã§. 30ÎÖÑ Ïù¥ÏÉÅÏù¥ Îêú ÎÇòÎ¨¥Îì§Ïù¥ ÎèÑÏã¨ ÎÇ¥ Ïö∏Ï∞ΩÌïú Ïà≤ÏùÑ Ïù¥Î£®Í≥† ÏûàÏñ¥ ÏãúÎØºÎì§Ïù¥ Ï¥àÎ°ùÏùò Ïã±Í∑∏Îü¨ÏõÄÌôî Ìï®Íªò ÏãúÏõêÌïú ÎÇòÎ¨¥ Í∑∏ÎäòÏùÑ ÏâΩÍ≤å Ï∞æÏùÑ Ïàò ÏûàÎã§. Í≥µÏõêÏù¥ ÎÑìÍ≥† ÌÖåÏù¥Î∏îÏù¥ ÎÜìÏó¨ÏßÑ Í≥≥Í≥º ÎèóÏûêÎ¶¨Î•º ÌéºÎßåÌïú Ïû•ÏÜåÍ∞Ä ÎßéÏïÑ Î∂êÎπÑÏßÄ ÏïäÍ≥† Ïó¨Ïú†ÏûàÍ≤å Í≥µÏõê ÏÜç ÌûêÎßÅÏùÑ Ï¶êÍ∏∏ Ïàò ÏûàÎã§. ÎòêÌïú ÏÑúÏö∏ÎëòÎ†àÍ∏∏ 4ÏΩîÏä§ÏôÄ Ïó∞Í≤∞ÎêòÎäî Í≥µÏõêÏúºÎ°ú ÎëòÎ†àÍ∏∏ÏùÑ Í±∑Îäî ÎèÑÏ§ë Ïû†Ïãú Î©àÏ∂∞ Í∞ÑÏãùÏãúÍ∞ÑÏùÑ Í∞ñÍ∏∞ÏóêÎèÑ Ï¢ãÏùÄ Í≥≥Ïù¥Îã§. ÏãúÎØºÏùòÏà≤ Ïà≤ÏÜç ÌñáÏÇ¥ ÏÇ¨ÏßÑ ÏÑúÏö∏Ïãú ‚óá ÎèóÏûêÎ¶¨ Ìé¥Í∏∞ Îî± Ï¢ãÏùÄ ‚ÄòÎÇúÏßÄÏ≤úÍ≥µÏõê ÏûîÎîîÍ¥ëÏû•‚Äô ÎÇúÏßÄÏûîÎîîÍ¥ëÏû•Ïù¥ ÏûêÎ¶¨Ìïú ÎÇúÏßÄÏ≤úÍ≥µÏõêÏùÄ ÏÉùÌÉúÌôòÍ≤ΩÏù¥ Î≥µÏõêÎêòÍ≥† ÏûàÎäî Í≥≥ÏúºÎ°ú Îã§ÏñëÌïú ÏàòÏÉùÏãùÎ¨ºÏù¥ ÏÑúÏãùÌïòÍ≥† Î¨ºÍ≥†Í∏∞ÏôÄ ÏÉàÍ∞Ä Ï∞æÏïÑÎìúÎäî Í≥µÍ∞ÑÏù¥Îã§. ÌäπÌûà ÌÉÅ Ìä∏Ïù∏ ÏûîÎîîÍ¥ëÏû•ÏùÄ ÎèóÏûêÎ¶¨Î•º Ìé¥Í≥† ÌîºÌÅ¨ÎãâÏùÑ Ï¶êÍ∏∞Í∏∞ Ï¢ãÏùÄ Ïû•ÏÜåÏù¥Îã§. ÎÑàÎ•∏ ÏûîÎîî ÏúÑÏóêÏÑú Í∞ÄÏ°± ÏπúÍµ¨ÎÅºÎ¶¨ Î∞∞ÎìúÎØºÌÑ¥ Îì± Ïó¨Í∞ÄÌôúÎèôÏùÑ Ï¶êÍ∏∞Í∏∞ÏóêÎèÑ ÏÜêÏÉâÏù¥ ÏóÜÎã§. ÏûîÎîîÍ¥ëÏû• ÏñëÏòÜÏúºÎ°úÎäî Í∞ÅÍ∞Å Ïñ¥Î¶∞Ïù¥ ÎÜÄÏù¥ÌÑ∞ÏôÄ Ïò§Î¶¨Îì§ÏùÑ ÎßåÎÇ† Ïàò ÏûàÎäî Ïò§Î¶¨ Ïó∞Î™ªÏù¥ ÏûàÏñ¥ ÏòÅÏú†ÏïÑÎ•º ÎèôÎ∞òÌïú Í∞ÄÏ°±Îì§Ïù¥ Ï∞æÍ∏∞ÏóêÎèÑ Ï¢ãÏùÄ Ïû•ÏÜåÎã§. ‚óá Ïà≤Í∏∏ÏùÑ Í±∑Îäî Í∏∞Î∂Ñ ‚ÄòÏõîÎìúÏªµÍ≥µÏõê Î©îÌÉÄÏÑ∏ÏΩ∞Ïù¥ÏïÑÍ∏∏‚Äô Ïö∏Ï∞ΩÌïú ÎÇòÎ¨¥ÏïÑÎûòÎ•º Í±∏ÏúºÎ©∞ ÏÉùÍ∞ÅÏùÑ Ï†ïÎ¶¨ÌïòÍ≥† Ïã∂ÏùÑ ÎïåÍ∞Ä ÏûàÎã§. Í∑∏Îü¥ Îïå Î®º Í≥≥ÍπåÏßÄ Í∞ÄÏßÄ ÏïäÏïÑÎèÑ ÏõîÎìúÏªµÍ≥µÏõêÏóêÏÑú Î©îÌÉÄÏÑ∏ÏøºÏù¥ÏïÑÍ∏∏ÏùÑ Í±∏Ïñ¥Î≥¥Ïûê. ÌïòÎäòÍ≥µÏõê ÏΩîÏä§ÏôÄ Ïú†ÏïÑÏà≤Ï≤¥ÌóòÏõê ÏΩîÏä§ Ï¥ù 2Í∞àÎûò Í∏∏ÏùÑ ÎßåÎÇ† Ïàò ÏûàÎã§. ÌïòÎäòÍ≥µÏõê ÏΩîÏä§Îäî 1.2kmÎ°ú Ïó∞Ïù∏ÎÅºÎ¶¨ Îç∞Ïù¥Ìä∏ Ï¶êÍ∏∞Í±∞ÎÇò ÌòºÏûê Í≥†ÏöîÌûà Î≤§ÏπòÏóê ÏïâÏïÑ ÎèÖÏÑúÎ•º Ï¶êÍ∏∞Í∏∞ Ï¢ãÎã§. Ïú†ÏïÑÏà≤Ï≤¥ÌóòÏõê ÏΩîÏä§Îäî Î™®Îûò ÎÜÄÏù¥ÌÑ∞ÏôÄ Ìä∏Î¶¨ ÌïòÏö∞Ïä§Í∞Ä ÏûàÏñ¥ ÏòÅÏú†ÏïÑÎ•º ÎèôÎ∞òÌïú Í∞ÄÏ°±Îì§Ïù¥ Í±∑Í∏∞ Ï¢ãÏùÄ Ïà≤Í∏∏Ïù¥Îã§. ‚óá Ïù¥Íµ≠Ï†ÅÏù∏ Î∂ÑÏúÑÍ∏∞ ‚ÄòÏÑúÏÑúÏö∏Ìò∏ÏàòÍ≥µÏõê Î™¨ÎìúÎ¶¨Ïïà Ï†ïÏõê‚Äô ÏÑúÏÑúÏö∏Ìò∏ÏàòÍ≥µÏõêÏóêÎäî ÎπÑÌñâÍ∏∞Í∞Ä ÏßÄÎÇòÎ©¥ Î∂ÑÏàòÍ∞Ä ÏÜüÎäî ÏÜåÎ¶¨ Î∂ÑÏàòÍ∞Ä ÏûàÎã§.',
  'original_chunk_id': 3,
  'original_docid': 27120},
]

In [70]:
hybrid_union_merge(answer3, answer2[0][1], alpha=0.5)

[{'id': 2696002,
  'score': 30.794056415436927,
  'chunked_text': 'ÌòÑÏßÄ Î∂ÄÎèôÏÇ∞ Ï†ÑÎ¨∏Í∞ÄÎäî Ï¥âÏßÑ Íµ¨Ïó≠ ÏßÄÏ†ï 15ÎÖÑ ÎßåÏóê Î∂ÄÏÇ∞ ÏãúÎØºÍ≥µÏõê Ïû¨Ï†ïÎπÑÏ¥âÏßÑÏßÄÍµ¨Ïùò Ïú§Í≥ΩÏù¥ ÎìúÎü¨ÎÇ† Í≤É Ïù¥ÎùºÎ©∞ ÏÇ¨ÏóÖÏù¥ ÏôÑÍ≥µÎêòÎ©¥ Î∂ÄÏÇ∞ Ï§ëÏã¨ÏßÄÏóêÏÑú Ìñ•ÌõÑ Ï¥ù 8000Ïó¨Í∞ÄÍµ¨Í∞Ä ÎÑòÎäî ÎåÄÎã®ÏßÄ Ï£ºÍ±∞ÌÉÄÏö¥ÏùÑ ÌòïÏÑ±Ìï¥ ÏÉàÎ°úÏö¥ Î∂ÄÏÇ∞ ÎûúÎìúÎßàÌÅ¨ ÏßÄÏó≠ÏúºÎ°ú Î≥ÄÌôîÌï† Í≤É Ïù¥ÎùºÍ≥† ÌñàÎã§. Î∂ÄÏÇ∞ ÏãúÎØºÍ≥µÏõê Ïû¨Ï†ïÎπÑÏ¥âÏßÑÏßÄÍµ¨Ïùò Í∞úÎ∞ú Î©¥Ï†ÅÏùÄ 43Îßå6378„é°Î°ú 47ÎßåÏó¨„é° Í∑úÎ™® Î∂ÄÏÇ∞ ÎèÑÏã¨Í∂å ÌóàÌåå Í∏∞Îä•ÏùÑ Îã¥ÎãπÌïòÎäî Î∂ÄÏÇ∞ ÏãúÎØºÍ≥µÏõêÏùÑ ÎëòÎü¨Ïãº Ï±Ñ 5Í∞ú Íµ¨Ïó≠ÏúºÎ°ú ÎÇòÎàÑÏñ¥Ï†∏ ÏûàÎã§. 2007ÎÖÑ Ï†ïÎ∂ÄÏùò ÎèÑÏã¨ ÎÇ¥ Îâ¥ÌÉÄÏö¥ Ï°∞ÏÑ± Ï∂îÏßÑ Ï†ïÏ±ÖÏóê ÌûòÏûÖÏñ¥ Ïû¨Ï†ïÎπÑÏ¥âÏßÑÏßÄÍµ¨Î°ú ÏßÄÏ†ïÎèº Í≥µÎèôÏ£ºÌÉùÍ≥º Í∞ÅÏ¢Ö Ï£ºÍ±∞ Ïù∏ÌîÑÎùºÍ∞Ä Íµ¨Ï∂ïÎê† ÏòàÏ†ïÏù¥Îã§.',
  'original_chunk_id': 2,
  'original_docid': 2696,
  'dense_score_scaled': 0.0,
  'sparse_score_scaled': 1.0,
  'final_score': 0.5,
  'in_dense_topk': False,
  'in_sparse_topk': True},
 {'id': 2659300