# Игрушечный пример на TF-IDF

#### Text 1
The domestic cat is a small, typically furry, carnivorous mammal. They are often called house cats when kept as indoor pets or simply cats when there is no need to distinguish them from other felids and felines. There are more than seventy cat breeds recognized by various cat registries.<br>
**Text len**: 49 words

#### Text 2
Mammals include the largest animal on the planet, the blue whale. The basic body type is a terrestrial quadruped, but some mammals are adapted for life at sea, in the air, in trees, underground or on two legs. The largest group of mammals, the placentals, have a placenta, which enables the feeding of the fetus during gestation. <br>
**Text len**: 57 words

#### Text 3
The largest organisms found on Earth can be determined according to various aspects of an organism's size, such as: mass, volume, area, length, height, or even genome size. Some organisms group together to form a superorganism (such as ants or bees), but such are not classed as single large organisms.<br>
**Text len**: 51 words


Найдите TF-IDF следующих слов для этих текстов:
* cat (+cats) - для первого текста
* mammal (+mammals) - для первого и второго текста
* Earth - для третьего текста

In [1]:
from math import log

In [5]:
print((5 / 49) * log(3 / 1))
print((1 / 49) * log(3 / 2))
print((3 / 57) * log(3 / 2))
print((1 / 51) * log(3 / 1))

0.11210329476205202
0.008274798124656415
0.021340268847798126
0.021541417424864897


# Обратный индекс

## Задание 1.
Напишите функцию (или набор функций), которая считает метрику Okapi BM25 для одного слова в запросе (формулы можно посмотреть в презентации).

In [9]:
from math import log

k1 = 2.0
b = 0.75

def score_BM25(n, qf, N, dl, avdl):
    """
    Computes Okapi BM25 for a particular document and one word in a query.
    NB: min IDF 0 (use built-in max function)
    :param n: number of docs with a word
    :param qf: raw word frequence in doc
    :param N: number of docs in a collection
    :param dl: doc length (in words)
    :param avdl: average doc length in a collection
    :return: float: BM25 score
    """
    # YOUR CODE HERE
    pass
    tf = (qf * (k1 + 1)) / (qf + k1 * (1 - b + b * (dl / avdl)))
    dlf = log((N - n + 0.5) / (n + 0.5))
    return tf * dlf


0.3210731127394419


Вот значения, которые получились у меня при следующих параметрах в моем коде:
```
print(score_BM25(n=15, qf=5, N=100, dl=120, avdl=80))
3.30518003616293

print(score_BM25(n=40, qf=1, N=100, dl=120, avdl=80))
0.3210731127394419
```

## Задание 2.
Напишите функцию, которая по списку токенизированных документов возвращает обратный индекс, то есть словарь, где для каждого слова есть список документов, в которых оно есть. В индексе можно сохранять не только названия документов, но и любые другие данные, которые вам покажется полезным сохранить (вспомните Okapi BM25 и что для ее подсчета нужно).

In [27]:
def inverted_index(docs):
    """
    Compiles inverted index from document collection.
    :param docs: dict[list][str]: dict of tokenized documents, where key is document name and value is tokenized text
    :return: dict: inverted index
    """
    # YOUR CODE HERE
    index_map = {}
    for doc in docs:
        words = docs[doc]
        for word in words:
            if index_map.get(word) is None:
                index_map[word] = {}
            if index_map[word].get(doc) is None:
                index_map[word][doc] = [1]
            else:
                index_map[word][doc][0] += 1
    for word in index_map:
        for doc in index_map[word]:
            index_map[word][doc].append(index_map[word][doc][0] / len(docs[doc]))
    return index_map

docs = {
    '1.txt': 'cat dog cat'.split(),
    '2.txt': 'dog mouse home'.split(),
    '3.txt': 'cat dog mouse mouse home'.split(),
}
inverted_index(docs)

{'cat': {'1.txt': [2, 0.6666666666666666], '3.txt': [1, 0.2]},
 'dog': {'1.txt': [1, 0.3333333333333333],
  '2.txt': [1, 0.3333333333333333],
  '3.txt': [1, 0.2]},
 'mouse': {'2.txt': [1, 0.3333333333333333], '3.txt': [2, 0.4]},
 'home': {'2.txt': [1, 0.3333333333333333], '3.txt': [1, 0.2]}}

# Пример:
```
docs = {
    '1.txt': 'cat dog cat'.split(),
    '2.txt': 'dog mouse home'.split(),
    '3.txt': 'cat dog mouse mouse home'.split()
}

inverted_index(docs)
```
Результат:
```
{'cat': {'1.txt': 2, '3.txt': 1},
 'dog': {'1.txt': 1, '2.txt': 1, '3.txt': 1},
 'home': {'2.txt': 1, '3.txt': 1},
 'mouse': {'2.txt': 1, '3.txt': 2}}
```

# Дополнительное задание

Напишите функцию, которая для каждой статьи из нашего корпуса `lenta_articles.txt` выделяет ключевые слова и биграммы (полезно - `nltk.bigrams`) на основе TF-IDF.

In [78]:
s = str(input())
if (s == s[::-1]):
    print("YES")
else:
    print("NO")

Hello World!
NO


In [None]:
# YOUR CODE HERE

# Домашнее задание

## Задание 1.

Прочитайте корпус, предобработайте каждый документ и сделайте (и сохраните в формате json) обратный индекс. Обратный индекс - словарь, где для каждого слова из корпуса есть список документов, в которых оно есть. Также подумайте, какую информацию по корпусу вам нужно сохранить (вспомните, что нужно для подсчета Okapi BM25) и сохраните ее тоже.

In [212]:
from pymystem3 import Mystem
mystem_analyzer = Mystem()
from string import punctuation
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import json

def preprocessing(text):
    textarr = mystem_analyzer.analyze(text);
    preprocessed_text = ""
    for i in textarr:
        if not i.get('analysis') is None and len(i.get('analysis')) > 0:
            if not i.get('analysis')[0].get('lex') in stopwords.words('russian'):
                preprocessed_text += i.get('analysis')[0].get('lex').lower()
        else:
            preprocessed_text += i.get('text').lower()
    for sgn in punctuation + '«»—':
        preprocessed_text = preprocessed_text.replace(sgn, '')
    return preprocessed_text

def inverted_index(docs):
    index_map = {}
    for doc in docs:
        words = word_tokenize(doc["text"])
        for word in words:
            if index_map.get(word) is None:
                index_map[word] = {}
            if index_map[word].get(doc['url']) is None:
                index_map[word][doc['url']] = [1]
            else:
                index_map[word][doc['url']][0] += 1
    for word in index_map:
        i = 0
        for doc in index_map[word]:
            a = index_map[word][doc][0]
            b = len(word_tokenize(docs[i]['text']))
            index_map[word][doc].append(a / b)
            i += 1
    docs_map = {}
    for doc in docs:
        docs_map[doc['url']] = {"size": len(word_tokenize(doc['text'])), "theme": doc['theme'], "header": doc['header']} 
    return {'words': index_map, 'docs': docs_map}


def docs_get(s):
    docs = []
    l = s.split('=' * 50 + '\n')
    f = 0
    k = 0
    for i in l:
        i = i.split('\n');
        doc = {}
        doc['theme'] = i[0]
        doc['date'] = i[1]
        doc['url'] = i[2]
        doc['header'] = i[3]
        doc['text'] = preprocessing(' '.join(i[3:]))
        docs.append(doc)
    return {'size': len(l), 'value': docs}
    

with open('articles.txt', 'r', encoding='utf-8') as f:
    s = f.read()
docs = docs_get(s)
index = {'size': docs['size'], 'value': inverted_index(docs['value'])}
json.dump(index, open('articles.json', 'w', encoding='utf-8'))

## Задание 2.

Напишите функцию, которая по запросу выдает топ-10 наиболее релевантных документов.
* предобработка запроса
* поиск слов по обратному индексу
* подсчет метрики BM-25
* сортировка документов

(можно писать вспомогательные функции)

In [280]:
from math import log
from pymystem3 import Mystem
mystem_analyzer = Mystem()
from string import punctuation
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import json

def preprocessing(text):
    textarr = mystem_analyzer.analyze(text);
    preprocessed_text = ""
    for i in textarr:
        if not i.get('analysis') is None and len(i.get('analysis')) > 0:
            if not i.get('analysis')[0].get('lex') in stopwords.words('russian'):
                preprocessed_text += i.get('analysis')[0].get('lex').lower()
        else:
            preprocessed_text += i.get('text').lower()
    for sgn in punctuation + '«»—':
        preprocessed_text = preprocessed_text.replace(sgn, '')
    return preprocessed_text

def score_BM25(n, qf, N, dl, avdl):
    k1 = 2.0
    b = 0.75
    tf = (qf * (k1 + 1)) / (qf + k1 * (1 - b + b * (dl / avdl)))
    dlf = log((N - n + 0.5) / (n + 0.5))
    return tf * dlf

def average(docs):
    k = 0
    l = 0
    for doc in docs:
        l += docs[doc]['size']
        k += 1
    return l / k

def score(index, word, doc):
    if not index['value']['words'].get(word) is None:
        n = len(index['value']['words'][word])
        if not index['value']['words'][word].get(doc) is None:
            qf = index['value']['words'][word][doc][1]
        else:
            qf = 0
    else:
        n = 0
        qf = 0
    N = index['size']
    dl = index['value']['docs'][doc]['size']
    avdl = average(index['value']['docs'])
    return score_BM25(n, qf, N, dl, avdl)

index = json.load(open('articles.json'))
query = str(input())
query = word_tokenize(preprocessing(query))
rating = []
for doc in index['value']['docs']:
    current_rating = 0
    current_words_quanity = 0
    for word in query:
        current_score = score(index, word, doc)
        if current_score > 0:
            current_words_quanity += 1
        current_rating += current_score
    rating.append([current_rating * current_words_quanity, doc])

rating.sort()
i = len(rating) -1
while i >= 0 and rating[i][0] > 0:
    i -= 1
ans = (len(rating) - i - 1)
if ans % 10 == 1 and ans // 10 % 10 != 1:
    ans_str = "соответствие"
elif ans % 10 in [2, 3, 4] and ans // 10 % 10 != 1:
    ans_str = "соответствия"
else:
    ans_str = "соответствий"
print('По запросу найдено', len(rating) - i - 1, ans_str)
for i in range(len(rating) - 1, max(len(rating) - 11, i), -1):
    print(index['value']['docs'][rating[i][1]]['header'], rating[i][1])

Кто сел на обратной стороне луны?
По запросу найдено 29 соответствий
На обратной стороне Луны впервые сели https://lenta.ru/news/2019/01/03/china/
Опубликовано первое фото с обратной стороны Луны https://lenta.ru/news/2019/01/03/sputnik/
Директор российского Burger King подвезла попутчика и пропала https://lenta.ru/news/2018/12/27/blablacar/
Названы сроки создания российской сверхтяжелой ракеты для полета на Луну https://lenta.ru/news/2019/01/04/rocket/
WADA даст время российскому спорту https://lenta.ru/news/2019/01/04/wada/
Рыбаки на сломанной лодке застряли в кишащей крокодилами реке https://lenta.ru/news/2018/12/28/crocoriver/
Темная сторона Поднебесной https://lenta.ru/articles/2018/12/31/guizhou/
Российским лыжникам напророчили санкции на чемпионате мира-2019 https://lenta.ru/news/2019/01/04/mok/
Уходят с орбиты https://lenta.ru/articles/2019/01/02/space2019/
Вегетарианство назвали губительным для всего человечества https://lenta.ru/news/2018/12/27/vegan/
