# 3 задание по информационному поиску
---
## Inverted index BERT

In [164]:
! pip install corus

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [165]:
! wget https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz

--2023-06-24 07:02:18--  https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/download/v1.0/lenta-ru-news.csv.gz
Resolving github.com (github.com)... 140.82.114.3
Connecting to github.com (github.com)|140.82.114.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c235463bd6?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20230624%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20230624T070218Z&X-Amz-Expires=300&X-Amz-Signature=099105d747dbf6633c5d78f6a060fab0833a744ad3c57632142f7dd5333c6bc1&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=87156914&response-content-disposition=attachment%3B%20filename%3Dlenta-ru-news.csv.gz&response-content-type=application%2Foctet-stream [following]
--2023-06-24 07:02:18--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/87156914/0b363e00-0126-11e9-9e3c-e8c2

In [166]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [7]:
from transformers import BertTokenizer, BertModel

In [59]:
bert = BertModel.from_pretrained('bert-base-uncased', output_hidden_states = True)
bert.eval()

None

Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertModel: ['cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [10]:
import numpy as np
import re
import torch
import unicodedata

from scipy.spatial.distance import cosine

## *Realisation*

In [160]:
class Index:
    MAX_DOCUMENTS = 10
    def __init__(self, similarity_threshold = 0.5):
        self.index = {}
        self.bert_tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
        self.similarity_threshold = similarity_threshold

    def data_to_index(self, generator):
        record_idx = 0
        for record in generator:
            if record_idx >= Index.MAX_DOCUMENTS:
                break
            print(record)
            doc_name = record.url
            content = record.title + ' ' + record.text

            processed_content = ("[CLS] "
                + re.sub(
                    r'[^\w\s]','',unicodedata.normalize("NFKC", content[:512])
                )
                + " [SEP]"
            )

            tokens           = self.bert_tokenizer.tokenize(processed_content)
            indexed_tokens   = self.bert_tokenizer.convert_tokens_to_ids(tokens)
            tokens_tensor    = torch.tensor([ indexed_tokens ])
            segments_tensors = torch.ones((1, len(tokens)))

            with torch.no_grad():
                hidden_states = bert(tokens_tensor, segments_tensors)[2]

            tokens_embeddings = torch.squeeze(
                torch.stack(hidden_states, dim=0), dim=1
            ).permute(1,0,2)

            embedded_tokens_context = [torch.sum(embedding[-4:], dim=0) for embedding in tokens_embeddings]

            for position, token in enumerate(tokens[1:-1]):
                if token not in self.index.keys():
                    self.index[token] = {}
                if doc_name not in self.index[token].keys():
                    self.index[token][doc_name] = {}
                self.index[token][doc_name][position] = embedded_tokens_context[position + 1]

            record_idx += 1

    def vector_similarity(self, vector_1, vector_2):
        return 1 - cosine(vector_1, vector_2)

    def find(self, *words):
        # предобработка запроса
        query = ' '.join(words)
        processed_query = ("[CLS] "
            + re.sub(
                r'[^\w\s]','',unicodedata.normalize("NFKC", query)
            )
            + " [SEP]"
        )

        query_tokens     = self.bert_tokenizer.tokenize(processed_query)
        indexed_tokens   = self.bert_tokenizer.convert_tokens_to_ids(query_tokens)
        tokens_tensor    = torch.tensor([ indexed_tokens ])
        segments_tensors = torch.ones((1, len(query_tokens)))

        with torch.no_grad():
            hidden_states = bert(tokens_tensor, segments_tensors)[2]

        query_tokens_embeddings = torch.squeeze(
            torch.stack(hidden_states, dim=0), dim=1
        ).permute(1,0,2)

        query_embeddings = [torch.sum(embedding[-4:], dim=0) for embedding in query_tokens_embeddings]

        doc_name_result = {}

        for idx, query_token in enumerate(query_tokens[1:-1]):
            if query_token in self.index.keys():
                for doc_name in self.index[query_token].keys():
                    for position in self.index[query_token][doc_name].keys():
                        score = self.vector_similarity(
                            query_embeddings[idx],
                            self.index[query_token][doc_name][position]
                        )
                        if score > self.similarity_threshold:
                            if doc_name not in doc_name_result.keys():
                                doc_name_result[doc_name] = []
                            doc_name_result[doc_name].append( (query_token, position, score) )

        # Ранжирование
        doc_names = list(doc_name_result.keys())
        ranking_score = [ 0 ] * len(doc_names)
        for doc_idx, doc_name in enumerate(doc_names):
            for result in doc_name_result[doc_name]:
                ranking_score[doc_idx] = max(result[2], ranking_score[doc_idx])

        ranking_doc_names = sorted( list(doc_names), key=lambda x : ranking_score[doc_names.index(x)], reverse=True )

        result = []
        for doc_name in ranking_doc_names:
            result_list = doc_name_result[doc_name]
            result_list = sorted(result_list, key=lambda x : x[2], reverse=True)
            result.append( (doc_name, result_list) )

        return result

## *Testing*

In [82]:
from corus import load_lenta

records = load_lenta('lenta-ru-news.csv.gz')
next(records)

LentaRecord(
    url='https://lenta.ru/news/2018/12/14/cancer/',
    title='Названы регионы России с\xa0самой высокой смертностью от\xa0рака',
    text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.',
    topic='Россия',
    tags='Общество',
    date=None
)

In [161]:
idx = Index()
idx.data_to_index(load_lenta('lenta-ru-news.csv.gz'))

LentaRecord(url='https://lenta.ru/news/2018/12/14/cancer/', title='Названы регионы России с\xa0самой высокой смертностью от\xa0рака', text='Вице-премьер по социальным вопросам Татьяна Голикова рассказала, в каких регионах России зафиксирована наиболее высокая смертность от рака, сообщает РИА Новости. По словам Голиковой, чаще всего онкологические заболевания становились причиной смерти в Псковской, Тверской, Тульской и Орловской областях, а также в Севастополе. Вице-премьер напомнила, что главные факторы смертности в России — рак и болезни системы кровообращения. В начале года стало известно, что смертность от онкологических заболеваний среди россиян снизилась впервые за три года. По данным Росстата, в 2017 году от рака умерли 289 тысяч человек. Это на 3,5 процента меньше, чем годом ранее.', topic='Россия', tags='Общество', date=None)
LentaRecord(url='https://lenta.ru/news/2018/12/15/doping/', title='Австрия не\xa0представила доказательств вины российских биатлонистов', text='Австрийск

In [163]:
result = idx.find('Вице-премьер', 'Голикова', 'высокая смертность')

out = ''
for url_info in result:
    out += url_info[0] + '\n'

print(out)

https://lenta.ru/news/2018/12/14/cancer/
https://lenta.ru/news/2018/12/15/skrepy/
https://lenta.ru/news/2018/12/15/sobor/
https://lenta.ru/news/2018/12/15/zrk/
https://lenta.ru/news/2018/12/15/tu160/
https://lenta.ru/news/2018/12/15/disneyland/
https://lenta.ru/news/2018/12/15/integrity/
https://lenta.ru/news/2018/12/15/skripal/
https://lenta.ru/news/2018/12/15/usa25/
https://lenta.ru/news/2018/12/15/doping/



In [168]:
result = idx.find('Австрия', 'биатлон', 'правоохранительные ')

out = ''
for url_info in result:
    out += url_info[0] + '\n'

print(out)

https://lenta.ru/news/2018/12/15/doping/
https://lenta.ru/news/2018/12/14/cancer/
https://lenta.ru/news/2018/12/15/disneyland/
https://lenta.ru/news/2018/12/15/skripal/
https://lenta.ru/news/2018/12/15/sobor/
https://lenta.ru/news/2018/12/15/skrepy/
https://lenta.ru/news/2018/12/15/tu160/
https://lenta.ru/news/2018/12/15/usa25/
https://lenta.ru/news/2018/12/15/integrity/
https://lenta.ru/news/2018/12/15/zrk/

