Необходимо положить `data.tar.gz` в директорию `data`, выполнить клетку внизу, а потом 

* подменить `eval.py` на исправленный вариант;
* переименовать файл с правильными ответами на `test.qrel_clean`;
* создать файл для наших предсказаний с названием `train.qrel_clean`;
* в файле `eval.py` поменять названия файлов.

In [None]:
!tar -xvzf data/data.tar.gz

In [1]:
!head -30 data/cran.all.1400

.I 1
.T
experimental investigation of the aerodynamics of a
wing in a slipstream .
.A
brenckman,m.
.B
j. ae. scs. 25, 1958, 324.
.W
experimental investigation of the aerodynamics of a
wing in a slipstream .
  an experimental study of a wing in a propeller slipstream was
made in order to determine the spanwise distribution of the lift
increase due to slipstream at different angles of attack of the wing
and at different free stream to slipstream velocity ratios .  the
results were intended in part as an evaluation basis for different
theoretical treatments of this problem .
  the comparative span loading curves, together with
supporting evidence, showed that a substantial part of the lift increment
produced by the slipstream was due to a /destalling/ or
boundary-layer-control effect .  the integrated remaining lift
increment, after subtracting this destalling lift, was found to agree
well with a potential flow theory .
  an empirical evaluation of the destalling ef

In [2]:
import os
import sys
import abc
import math
import subprocess
import functools
import string
from itertools import chain, product
from operator import itemgetter

from typing import (
    Optional,
    Generator,
    List
)

from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords

import numpy as np
import pandas as pd
from pandas import DataFrame

from tqdm import tqdm


stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

BASE_DIR = "data"
TEXTS_FILE = os.path.join(BASE_DIR, "cran.all.1400")
QUERIES_FILE = os.path.join(BASE_DIR, "cran.qry")
CORRECT_ANSWERS_FILE = os.path.join(BASE_DIR, "test.qrel_clean")
PREDICTION_FILE = os.path.join(BASE_DIR, "train.qrel_clean")
NUMBER_TEXTS = 1400
NUMBER_QUERIES = 225

## Парсинг

In [3]:
class Text:
    __slots__ = ["i", "t", "a", "b", "w"]
    
    def __init__(self):
        self.i = None # type: str
        self.t = None # type: str
        self.a = None # type: str
        self.b = None # type: str
        self.w = None # type: str

        
class Query:
    __slots__ = ["i", "w"]
    
    def __init__(self):
        self.i = None # type: str
        self.w = None # type: str


def _read_file(filepath):
    # type: (str) -> str
    
    file = open(filepath)
    yield from file
        

def _parse(gen, cls, line_starts):
    # type: (Generator[str]) -> Text
    
    def set_current_state(line):
        nonlocal current_state
        
        for i, (s, _) in enumerate(line_starts):
            if line.startswith(s):
                current_state = i
    
    def yield_text():
        t = cls()
        for i, (_, s) in enumerate(line_starts):
            setattr(t, s, ''.join(text_lists[i]))
        
        return t
    
    text_lists = [[] for _ in range(len(line_starts))]
    current_state = -1

    for line in chain(gen, ['.I']):
        set_current_state(line)
        
        if current_state == 0:
            if any(text_lists):
                yield yield_text()
            text_lists = [[] for _ in range(len(line_starts))]
        
        text_lists[current_state].append(line)


def get_texts_gen(filepath):
    # type: (str) -> Generator[Text]

    gen = _read_file(filepath)
    texts = _parse(gen, Text, [('.I', 'i'), ('.T', 't'), ('.A', 'a'), ('.B', 'b'), ('.W', 'w')])
    return texts


def get_queries_gen(filepath):
    # type: (str) -> Generator[Query]
    
    gen = _read_file(filepath)
    queries = _parse(gen, Query, [('.I', 'i'), ('.W', 'w')])
    return queries

## Нормализация

Для нормализации будем использовать библиотеку `nltk`. 

1. Для начала удалим из текста все символы пунктуации и цифры. 
2. После разобъём на токены и удалим стоп слова и односимвольные токены.
3. И наконец приведём каждый токен к нормальной форме (лемматизация) и оставим от него только основу (стэмминг).

In [4]:
class ItemTokens:
    __slots__ = ["i", "tokens"]
    
    def __init__(self, text, attr):
        self.i = text.i
        
        assert hasattr(text, attr)
        
        self.tokens = self._filter(self._clean(getattr(text, attr)))
    
    def _clean(self, s):
        for t in chain(string.punctuation, string.digits):
            s = s.replace(t, " ")
        return s
    
    def _filter(self, s):
        stop_tokens = ["I", "T", "A", "B", "W"]
        return (stemmer.stem(lemmatizer.lemmatize(t)) for t in word_tokenize(s) 
                if (t not in stop_words) and (t not in stop_tokens) and (len(t) >= 2))
    
    def __iter__(self):
        return self.tokens

    
def get_item_tokens_gen(texts, attr):
    # type: (List[Text], str) -> Generator[TextTokens]
    
    item_tokens = (ItemTokens(text, attr) for text in texts)
    return item_tokens

## Инвертированный индекс

Хранить индекс будет в `pandas.DataFrame`.

In [5]:
class InvIndex:
    def __init__(self, text_tokens_gen):
        columns = ["doc_id", "token", "count"]
        index = ["doc_id", "token"]
        
        def get_part_df():
            for doc_id, text_tokens in tqdm(enumerate(text_tokens_gen)):
                data = [(doc_id, token, 1) for token in text_tokens]
                df = DataFrame(data, columns=columns).groupby(by=index).sum()
                yield df
        
        self.df = pd.concat(get_part_df())
        self.df["count"] = self.df["count"].astype(np.float32)
    
    @functools.lru_cache(maxsize=256, typed=False)
    def get_n(self, t=None):
        try:
            if t is None:
                return self.df["count"].sum()

            return self.df.loc[(slice(None), t), :]["count"].sum()
        except KeyError:
            return 0
    
    @functools.lru_cache(maxsize=256, typed=False)
    def get_f(self, t, doc_id=None):
        try:
            if doc_id is not None:
                return self.df.loc[(doc_id, t), :]
            
            return self.df.loc[(slice(None), t), :]
        except KeyError:
            pass
    
    @functools.lru_cache(maxsize=256, typed=False)
    def get_l(self, doc_id=None):
        try:
            if doc_id is not None:
                return self.df.loc[doc_id, :]["count"].sum()
            
            return self.df.reset_index().groupby("doc_id").sum()["count"].mean()
        except KeyError:
            pass

## RSV

Ниже способы подсчёта RSV, необходимые в задании.

#### RSVRankedList

Формула из условия.

#### RSV2RankedLIst

В условии $IDF = \log{(1 + \frac{N - N_t + 0.5}{N_t + 0.5})}$ по суте равен формуле из лекции $IDF = \log{\frac{N} {N_t}}$. Ради интереса будем считать $IDF$ по формуле $\log{\frac{N - N_t}{N_t}}$.

#### RSVNormRankedList

В одном из заданий предлагалось пронормировать $RSV$ на сумму $IDF$ токенов запроса. Имхо, раз формула $IDF$ не зависит от документа, то по сути мы просто поделим $RSV(q, d)$ на константи, и список релевантных документов для запроса не изменится.

#### RSVFullRankedList

Полная формула из лекции.

#### RSVNot10RankedList

В список релевантных документов будет брать те, $RSV$ для которых составляет не менее половины от максимального значения $RSV$ для этого запроса.

In [6]:
class RankedList:
    __metaclass__ = abc.ABCMeta

    @abc.abstractmethod
    def __call__(self, q, inv_index):
        """Возвращает упорядоченный список документов, релевантных запросу"""


class RSVRankedList(RankedList):
    """По формуле из дз"""
    def __init__(self, k1, b):
        self.k1 = k1
        self.b = b
    
    def __call__(self, q, inv_index):
        rsv = {}
        N = inv_index.get_n()
        
        for t in q:
            Nt = inv_index.get_n(t)
            F = inv_index.get_f(t)
            idf = math.log(1.0 + (N - Nt + 0.5) / (Nt + 0.5))
            
            if F is not None:
                for index, row in F.iterrows():
                    doc_id, ftd = index[0], row["count"]
                    Ld, L = inv_index.get_l(doc_id), inv_index.get_l()
                    tf = ftd * (self.k1 + 1.) / (self.k1 * ((1. - self.b) + self.b * Ld / L) + ftd)
                    rsv[doc_id] = rsv.get(doc_id, 0) + idf * tf
        return sorted(rsv.items(), key=itemgetter(1), reverse=True)[:10]

    
class RSV2RankedList(RankedList):
    """По другой формуле с лекции"""
    def __init__(self, k1, b):
        self.k1 = k1
        self.b = b
    
    def __call__(self, q, inv_index):
        rsv = {}
        N = inv_index.get_n()
        
        for t in q:
            Nt = inv_index.get_n(t)
            F = inv_index.get_f(t)
            idf = math.log((N - Nt + 0.5) / (Nt + 0.5))
            
            if F is not None:
                for index, row in F.iterrows():
                    doc_id, ftd = index[0], row["count"]
                    Ld, L = inv_index.get_l(doc_id), inv_index.get_l()
                    tf = ftd * (self.k1 + 1.) / (self.k1 * ((1. - self.b) + self.b * Ld / L) + ftd)
                    rsv[doc_id] = rsv.get(doc_id, 0) + idf * tf
        return sorted(rsv.items(), key=itemgetter(1), reverse=True)[:10]


class RSVNormRankedList(RankedList):
    """Нормирование на сумму IDF термов запроса"""
    def __init__(self, k1, b):
        self.k1 = k1
        self.b = b
    
    def __call__(self, q, inv_index):
        rsv = {}
        N = inv_index.get_n()
        idf_sum = 0.0
        
        for t in q:
            Nt = inv_index.get_n(t)
            F = inv_index.get_f(t)
            idf = math.log(1.0 + (N - Nt + 0.5) / (Nt + 0.5))
            idf_sum += idf
            
            if F is not None:
                for index, row in F.iterrows():
                    doc_id, ftd = index[0], row["count"]
                    Ld, L = inv_index.get_l(doc_id), inv_index.get_l()
                    tf = ftd * (self.k1 + 1.) / (self.k1 * ((1. - self.b) + self.b * Ld / L) + ftd)
                    rsv[doc_id] = rsv.get(doc_id, 0) + idf * tf
        
        for doc_id in rsv.keys():
            rsv[doc_id] /= idf_sum

        return sorted(rsv.items(), key=itemgetter(1), reverse=True)[:10]


class RSVFullRankedList(RankedList):
    """Общая формула"""
    def __init__(self, k1, k2, b):
        self.k1 = k1
        self.k2 = k2
        self.b = b
    
    def __call__(self, q, inv_index):
        rsv = {}
        N = inv_index.get_n()
        
        q, ftq = list(q), {}
        for t in q:
            ftq[t] = ftq.get(t, 0) + 1
        
        for t in q:
            Nt = inv_index.get_n(t)
            F = inv_index.get_f(t)
            idf = math.log(1.0 + (N - Nt + 0.5) / (Nt + 0.5))
            tf_q = (self.k2 + 1) * ftq[t] / (self.k2 + ftq[t])
            
            if F is not None:
                for index, row in F.iterrows():
                    doc_id, ftd = index[0], row["count"]
                    Ld, L = inv_index.get_l(doc_id), inv_index.get_l()
                    tf = ftd * (self.k1 + 1.) / (self.k1 * ((1. - self.b) + self.b * Ld / L) + ftd)
                    rsv[doc_id] = rsv.get(doc_id, 0) + idf * tf * tf_q
        return sorted(rsv.items(), key=itemgetter(1), reverse=True)[:10]


class RSVNot10RankedList(RankedList):
    """Возращает не 10 элементов"""
    def __init__(self, k1, b):
        self.k1 = k1
        self.b = b
    
    def __call__(self, q, inv_index):
        rsv = {}
        N = inv_index.get_n()
        
        for t in q:
            Nt = inv_index.get_n(t)
            F = inv_index.get_f(t)
            idf = math.log(1.0 + (N - Nt + 0.5) / (Nt + 0.5))
            
            if F is not None:
                for index, row in F.iterrows():
                    doc_id, ftd = index[0], row["count"]
                    Ld, L = inv_index.get_l(doc_id), inv_index.get_l()
                    tf = ftd * (self.k1 + 1.) / (self.k1 * ((1. - self.b) + self.b * Ld / L) + ftd)
                    rsv[doc_id] = rsv.get(doc_id, 0) + idf * tf

        ranged_list = sorted(rsv.items(), key=itemgetter(1), reverse=True)[:10]
        return list(filter(lambda x: x[1] >= ranged_list[0][1] * 0.5, ranged_list))

## 4. Оценка качества работы

По значениям метрик можно понять, что среди предсказанных нами документов действительно релевантными оказалось $29\%$, но это составило $42.46\%$ от числа всех релевантных документов.

Всего уникальных токенов $4270$. Среднее количество вхождений одного токена - $29.97$. Самый популярный токен - flow - встречается $2080$ раз, а $50\%$ токенов встречаются не более $3$-х раз. 

С одной стороны, чем реже встречается токен, тем больше $IDF$, с другой, чем больше встречается токен в документе, тем больше $TF$. Если же слово часто встречается во многих документах, то оно будет вносить примерно одинаковый вклад во все соответствующие $RSV$, а слишком редко встречающееся слово, может не попастаться в самом запросе, и скорее всего просто содержит ошибку. "Идеальными" для нас являются слова, которые очень часто встречаются в некоторых документах, тем самым они будут вносить существенный вклад в $RSV$ этих документов.

In [7]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "w")

queries_gen = get_queries_gen(QUERIES_FILE)
query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

rsv = RSVRankedList(k1=1.2, b=0.75)
inv_index = InvIndex(text_tokens_gen)
with open(PREDICTION_FILE, "w") as fout:
    for query_id, query in tqdm(enumerate(query_tokens_gen)):
        ranked_list = rsv(query, inv_index)
        for doc_id, _ in ranked_list:
            fout.write("{} {}\n".format(query_id + 1, doc_id + 1))

1400it [00:13, 107.17it/s]
225it [04:58,  1.33s/it]


In [8]:
!cd data && python3 eval.py

mean precision: 0.2902222222222223
mean recall: 0.42462172636971746
mean F-measure: 0.344787589721076
MAP@10: 0.35587606100053193


In [9]:
stat = inv_index.df.reset_index().groupby("token").sum().sort_values(by="count", ascending=False)["count"]
stat.head(15)

token
flow        2080.0
pressur     1390.0
number      1345.0
boundari    1214.0
layer       1161.0
result      1087.0
effect       997.0
method       888.0
theori       883.0
bodi         854.0
solut        849.0
heat         844.0
wing         838.0
mach         822.0
equat        777.0
Name: count, dtype: float32

In [10]:
stat.describe()

count    4270.000000
mean       29.973770
std        95.428993
min         1.000000
25%         1.000000
50%         3.000000
75%        16.000000
max      2080.000000
Name: count, dtype: float64

## 5. Сравнение

Аннотации содержат больше токенов чем заголовок, а значит больше шанс, что они содержат слова, специфичные для текста. При этом они содержат больше "общезначимых" слов, но у них будет меньше $tf-idf$, а значит и влияние на $RSV$.

|           | precision | recall | F-measure | MAP@10 |
|-----------|-----------|--------|-----------|--------|
| аннотации | 0.2902    | 0.4246 | 0.3448    | 0.3558 |
| заголовки | 0.2577    | 0.3735 | 0.3050    | 0.2982 |

In [11]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "t")

queries_gen = get_queries_gen(QUERIES_FILE)
query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

rsv = RSVRankedList(k1=1.2, b=0.75)
inv_index = InvIndex(text_tokens_gen)
with open(PREDICTION_FILE, "w") as fout:
    for query_id, query in tqdm(enumerate(query_tokens_gen)):
        ranked_list = rsv(query, inv_index)
        for doc_id, _ in ranked_list:
            fout.write("{} {}\n".format(query_id + 1, doc_id + 1))

1400it [00:05, 258.37it/s]
225it [00:57,  3.90it/s]


In [12]:
!cd data && python3 eval.py

mean precision: 0.25777777777777794
mean recall: 0.3735774885450877
mean F-measure: 0.3050579601111924
MAP@10: 0.29823958945718215


## 6. Перебор

Если бы в $TF$ учитывались только $f(t, d)$ [например, $\frac{(k1 + 1)f_{t, d}}{k1 + f_{t, d}}$)], то чем длинее был бы текст, тем больше это значение могло бы быть для токена. Поэтому $\frac{L_d}{\overline{L}}$ призван уравновесить шансы длинных и коротких текстов, а параметр $b$ обозначает насколько важно нам учитывать этот факт. А $k_1$ обозначает что нам важнее, просто количество вхождений токена или количество вхождений токена при учёте длины текста.

При фиксированном $k_1$ значения метрик увеличиваются при росте $b$ до $\approx 0.7-0.8$, и уменьшаются, при дальнейшем увеличении $b$. И оптимальными кажутся два пары $k_1$ и $b$ (см. таблица).

| k1  | b   | precision | recall | F-score | MAP@10 |
|-----|-----|-----------|--------|---------|--------|
| 1.2 | 0.0 | 0.2502    | 0.3717 | 0.2991  | 0.2866 |
| 1.2 | 0.3 | 0.2724    | 0.4025 | 0.3249  | 0.3252 |
| <b> 1.2 | <b> 0.7 | <b> 0.2876    | <b> 0.4201 | <b>0.3414  | <b>0.3544 |
| 1.2 | 1.0 | 0.2898    | 0.4234 | 0.3440  | 0.3547 |
| 1.4 | 0.0 | 0.2507    | 0.3731 | 0.2999  | 0.2858 |
| 1.4 | 0.3 | 0.2733    | 0.4033 | 0.3258  | 0.3277 |
| 1.4 | 0.7 | 0.2942    | 0.4309 | 0.3497  | 0.3602 |
| 1.4 | 1.0 | 0.2916    | 0.4260 | 0.3462  | 0.3560 |
| 1.7 | 0.0 | 0.2498    | 0.3693 | 0.2980  | 0.2835 |
| 1.7 | 0.3 | 0.2791    | 0.4122 | 0.3328  | 0.3322 |
| 1.7 | 0.7 | 0.2951    | 0.4322 | 0.3507  | 0.3619 |
| 1.7 | 1.0 | 0.2924    | 0.4273 | 0.3472  | 0.3472 |
| 2.0 | 0.0 | 0.2498    | 0.3691 | 0.2979  | 0.2829 |
| 2.0 | 0.3 | 0.2818    | 0.4139 | 0.3353  | 0.3346 |
| <b> 2.0 | <b> 0.7 | <b> 0.2969    | <b> 0.4341 | <b> 0.3526  | <b> 0.3628 |
| 2.0 | 1.0 | 0.2947    | 0.4322 | 0.3504  | 0.3573 |

In [13]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "w")
inv_index = InvIndex(text_tokens_gen)

for k1, b in product([1.2, 1.4, 1.7, 2.0], [0.0, 0.3, 0.7, 1.0]):

    queries_gen = get_queries_gen(QUERIES_FILE)
    query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

    rsv = RSVRankedList(k1=k1, b=b)
    with open(PREDICTION_FILE, "w") as fout:
        for query_id, query in tqdm(enumerate(query_tokens_gen)):
            ranked_list = rsv(query, inv_index)
            for doc_id, _ in ranked_list:
                fout.write("{} {}\n".format(query_id + 1, doc_id + 1))
    
    with subprocess.Popen("cd data && python3 eval.py", shell=True, stdout=subprocess.PIPE) as p:
        print("k1={} b={}\n {}".format(k1, b, p.stdout.read().decode()))

1400it [00:10, 128.92it/s]
225it [04:28,  1.19s/it]
0it [00:00, ?it/s]

k1=1.2 b=0.0
 mean precision: 0.25022222222222235
mean recall: 0.37170986708272963
mean F-measure: 0.2991004019982698
MAP@10: 0.28660730032753856



225it [04:27,  1.19s/it]
0it [00:00, ?it/s]

k1=1.2 b=0.3
 mean precision: 0.27244444444444454
mean recall: 0.4024949639631608
mean F-measure: 0.32494032940629947
MAP@10: 0.32524341283838654



225it [04:28,  1.19s/it]
0it [00:00, ?it/s]

k1=1.2 b=0.7
 mean precision: 0.2875555555555556
mean recall: 0.4200675028154939
mean F-measure: 0.3414042058522218
MAP@10: 0.3544446656028666



225it [04:28,  1.19s/it]
0it [00:00, ?it/s]

k1=1.2 b=1.0
 mean precision: 0.2897777777777779
mean recall: 0.42342078912050435
mean F-measure: 0.34407790769930774
MAP@10: 0.3546792670977857



225it [04:32,  1.21s/it]
0it [00:00, ?it/s]

k1=1.4 b=0.0
 mean precision: 0.2506666666666668
mean recall: 0.3731463493139485
mean F-measure: 0.299882654466029
MAP@10: 0.28581725035693295



225it [04:28,  1.19s/it]
0it [00:00, ?it/s]

k1=1.4 b=0.3
 mean precision: 0.27333333333333343
mean recall: 0.4033278430437178
mean F-measure: 0.3258438569079453
MAP@10: 0.3277454074633971



225it [04:37,  1.23s/it]
0it [00:00, ?it/s]

k1=1.4 b=0.7
 mean precision: 0.2942222222222223
mean recall: 0.4308948236428148
mean F-measure: 0.3496782575425439
MAP@10: 0.36022575165868814



225it [05:17,  1.41s/it]
0it [00:00, ?it/s]

k1=1.4 b=1.0
 mean precision: 0.29155555555555573
mean recall: 0.4260349113816855
mean F-measure: 0.34619424587426306
MAP@10: 0.35597095266089984



225it [05:08,  1.37s/it]
0it [00:00, ?it/s]

k1=1.7 b=0.0
 mean precision: 0.24977777777777785
mean recall: 0.36934844968271546
mean F-measure: 0.29801688539612997
MAP@10: 0.2835236639511774



225it [05:01,  1.34s/it]
0it [00:00, ?it/s]

k1=1.7 b=0.3
 mean precision: 0.2791111111111111
mean recall: 0.41221055909310067
mean F-measure: 0.33284808539625815
MAP@10: 0.33223726029506456



225it [05:02,  1.34s/it]
0it [00:00, ?it/s]

k1=1.7 b=0.7
 mean precision: 0.2951111111111112
mean recall: 0.4322190950141451
mean F-measure: 0.35074208742843543
MAP@10: 0.36186320861677995



225it [05:28,  1.46s/it]
0it [00:00, ?it/s]

k1=1.7 b=1.0
 mean precision: 0.2924444444444446
mean recall: 0.42730186664864084
mean F-measure: 0.3472391732369003
MAP@10: 0.35618574298031985



225it [05:01,  1.34s/it]
0it [00:00, ?it/s]

k1=2.0 b=0.0
 mean precision: 0.24977777777777788
mean recall: 0.3691234216243541
mean F-measure: 0.297943607374251
MAP@10: 0.2828864365499286



225it [05:18,  1.42s/it]
0it [00:00, ?it/s]

k1=2.0 b=0.3
 mean precision: 0.2817777777777778
mean recall: 0.4138503477846135
mean F-measure: 0.3352763554148436
MAP@10: 0.33462170501945643



225it [05:07,  1.37s/it]
0it [00:00, ?it/s]

k1=2.0 b=0.7
 mean precision: 0.296888888888889
mean recall: 0.4341141567425401
mean F-measure: 0.35262143001032775
MAP@10: 0.36280025965118545



225it [05:05,  1.36s/it]

k1=2.0 b=1.0
 mean precision: 0.29466666666666685
mean recall: 0.4321510729978472
mean F-measure: 0.3504056360415119
MAP@10: 0.3572706279219507






## 7. Другая формула вычисления IDF

In [14]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "w")

queries_gen = get_queries_gen(QUERIES_FILE)
query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

rsv = RSV2RankedList(k1=1.2, b=0.75)
inv_index = InvIndex(text_tokens_gen)
with open(PREDICTION_FILE, "w") as fout:
    for query_id, query in tqdm(enumerate(query_tokens_gen)):
        ranked_list = rsv(query, inv_index)
        for doc_id, _ in ranked_list:
            fout.write("{} {}\n".format(query_id + 1, doc_id + 1))

1400it [00:11, 126.09it/s]
225it [04:47,  1.28s/it]


In [15]:
!cd data && python3 eval.py

mean precision: 0.29066666666666674
mean recall: 0.42506617081416204
mean F-measure: 0.34524772516567925
MAP@10: 0.35587112272892696


## 8. Попробовать пронормировать

Нормировка ожидаемо ничего не дала. Значения метрик совпадают со значениями в 4 пункте.

In [16]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "w")

queries_gen = get_queries_gen(QUERIES_FILE)
query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

rsv = RSVNormRankedList(k1=1.2, b=0.75)
inv_index = InvIndex(text_tokens_gen)
with open(PREDICTION_FILE, "w") as fout:
    for query_id, query in tqdm(enumerate(query_tokens_gen)):
        ranked_list = rsv(query, inv_index)
        for doc_id, _ in ranked_list:
            fout.write("{} {}\n".format(query_id + 1, doc_id + 1))

1400it [00:10, 128.95it/s]
225it [05:03,  1.35s/it]


In [17]:
!cd data && python3 eval.py

mean precision: 0.2902222222222223
mean recall: 0.42462172636971746
mean F-measure: 0.344787589721076
MAP@10: 0.35587606100053193


## 9. Общая формула вычисления RSV

Добавления множетеля $TF(t, q)$ - попытка больше учитывать те токены, которые часто встречаются в запросе. Но в нашем случае, это только ухудшает значения метрик. Оптимальное значение при $k2 = 0$.

In [18]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "w")
inv_index = InvIndex(text_tokens_gen)

for k2 in [0., 1., 5., 10., 50., 100., 500., 1000.]:
    queries_gen = get_queries_gen(QUERIES_FILE)
    query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

    rsv = RSVFullRankedList(k1=1.2, k2=k2, b=0.75)
    with open(PREDICTION_FILE, "w") as fout:
        for query_id, query in tqdm(enumerate(query_tokens_gen)):
            ranked_list = rsv(query, inv_index)
            for doc_id, _ in ranked_list:
                fout.write("{} {}\n".format(query_id + 1, doc_id + 1))
    
    with subprocess.Popen("cd data && python3 eval.py", shell=True, stdout=subprocess.PIPE) as p:
        print("k2={} \n {}".format(k2, p.stdout.read().decode()))

1400it [00:11, 120.43it/s]
225it [04:58,  1.33s/it]
0it [00:00, ?it/s]

k2=0.0 
 mean precision: 0.2902222222222223
mean recall: 0.42462172636971746
mean F-measure: 0.344787589721076
MAP@10: 0.35587606100053193



225it [05:02,  1.34s/it]
0it [00:00, ?it/s]

k2=1.0 
 mean precision: 0.28888888888888903
mean recall: 0.4202494319974231
mean F-measure: 0.3424025691184888
MAP@10: 0.35060137174211237



225it [04:59,  1.33s/it]
0it [00:00, ?it/s]

k2=5.0 
 mean precision: 0.28844444444444456
mean recall: 0.41883657325123097
mean F-measure: 0.34162116517157276
MAP@10: 0.3458602292768961



225it [05:03,  1.35s/it]
0it [00:00, ?it/s]

k2=10.0 
 mean precision: 0.2875555555555556
mean recall: 0.41788419229885004
mean F-measure: 0.340680891429387
MAP@10: 0.34389379776602



225it [05:04,  1.35s/it]
0it [00:00, ?it/s]

k2=50.0 
 mean precision: 0.2862222222222223
mean recall: 0.4152460156606736
mean F-measure: 0.33886819374753546
MAP@10: 0.3422005563953977



225it [05:03,  1.35s/it]
0it [00:00, ?it/s]

k2=100.0 
 mean precision: 0.2862222222222223
mean recall: 0.4152460156606736
mean F-measure: 0.33886819374753546
MAP@10: 0.3421194276476022



225it [04:59,  1.33s/it]
0it [00:00, ?it/s]

k2=500.0 
 mean precision: 0.2862222222222223
mean recall: 0.4152460156606736
mean F-measure: 0.33886819374753546
MAP@10: 0.3419881099353322



225it [08:09,  2.18s/it]


k2=1000.0 
 mean precision: 0.2862222222222223
mean recall: 0.4152460156606736
mean F-measure: 0.33886819374753546
MAP@10: 0.3419881099353322



## 10. Не ограничивать количество релевантных запросов 10

Если считать релевантными не первые $10$ документов, а те документы, $RSV$ для которых для этого запроса не менее половины от максимального значения $RSV$ для этого запроса, то можно на $\approx 2.5\%$ улучшить точность.

In [19]:
texts_gen = get_texts_gen(TEXTS_FILE)
text_tokens_gen = get_item_tokens_gen(texts_gen, "w")

queries_gen = get_queries_gen(QUERIES_FILE)
query_tokens_gen = get_item_tokens_gen(queries_gen, "w")

rsv = RSVNot10RankedList(k1=1.2, b=0.75)
inv_index = InvIndex(text_tokens_gen)
with open(PREDICTION_FILE, "w") as fout:
    for query_id, query in tqdm(enumerate(query_tokens_gen)):
        ranked_list = rsv(query, inv_index)
        for doc_id, _ in ranked_list:
            fout.write("{} {}\n".format(query_id + 1, doc_id + 1))

1400it [00:16, 84.14it/s]
225it [06:22,  1.70s/it]


In [20]:
!cd data && python3 eval.py

mean precision: 0.31670017636684294
mean recall: 0.4163589225069136
mean F-measure: 0.35975528955969377
MAP@10: 0.36645434478318073
