In [72]:
from embedding import E5LargeEmbeddingFunction
import clickhouse_connect

import pandas as pd
import numpy as np
from rank_bm25 import BM25Okapi
import logging
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

client = clickhouse_connect.get_client(host='y1jzidyt9q.us-east-2.aws.clickhouse.cloud', port=8443, username='default', password='_lQ_JWXYQD3ym')
emb_func = E5LargeEmbeddingFunction()

In [73]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/gblssroman/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [74]:
def get_window_range(num, window_range):
    answer = [num]
    while len(answer) < window_range:
        f = 0
        left = answer[0] - 1
        right = answer[-1] + 1

        if left >= 0:
            answer = [left] + answer
            if len(answer) >= window_range:
                return answer

        answer.append(right)
    
    return answer

In [75]:
def _clickhouse_query_l2(query, client, emb_func, limit=5):
    emb_func.change_mode('query')
    embeddings = emb_func(query)[0]

    result = client.query(f'''SELECT
        ID, chunk_id,
        text,
        L2Distance(embedding, {embeddings}) AS score
    FROM index_texts
    ORDER BY score ASC
    LIMIT {limit}''')

    return result.result_rows

In [76]:
def _clickhouse_query_window(query, client, emb_func, limit_knn=5, docs_window=5):
    res = _clickhouse_query_l2(query, client, emb_func, limit=limit_knn)

    window_sql_query = ''
    for i, row in enumerate(res):
        #ids_with_chunks[row[0]].extend(get_window_range(row[1], window))
        if i > 0:
            window_sql_query += ' UNION DISTINCT '

        window_sql_query += f'''SELECT * FROM index_texts WHERE ID  in {tuple(get_window_range(row[0], docs_window))}'''

    result = client.query(window_sql_query)
    return result.result_rows

In [81]:
model = AutoModelForSequenceClassification.from_pretrained('SkolkovoInstitute/ruRoberta-large-paraphrase-v1')
tokenizer = AutoTokenizer.from_pretrained('SkolkovoInstitute/ruRoberta-large-paraphrase-v1')

def get_similarity(text1, text2):
    '''Cross-Encoder similarity thanks to Skolkovo fine-tuners'''
    with torch.inference_mode():
        batch = tokenizer(
            text1, text2, 
            truncation=True, max_length=model.config.max_position_embeddings, return_tensors='pt',
        ).to(model.device)
        proba = torch.softmax(model(**batch).logits, -1)
    return proba[0][1].item()

In [78]:
def bm25_ensemble(query, client, emb_func, bm25_n_results=10, cr_enc_n_results=2, limit_knn=70, knn_docs_window=3):
    res = _clickhouse_query_window(query, client, emb_func, limit_knn=limit_knn, docs_window=knn_docs_window)

    all_links = []
    all_docs = []
    all_pages = []

    for row in res:
        all_links.append(row[2])
        all_docs.append(row[3])
        all_pages.append(row[4])

    tokenized_corpus = [word_tokenize(doc, language='russian') for doc in all_docs]

    bm25 = BM25Okapi(tokenized_corpus)

    tokenized_query = word_tokenize(query, language='russian')

    doc_scores = bm25.get_scores(tokenized_query)

    if all(doc_scores == 0):
        return ['Все найденные через KNN документы не имеют ничего общего к запросу по мнению bm25']
    
    bm25_answer = []
    args = np.argsort(doc_scores, axis=0)
    print(args)

    for i in range(1, bm25_n_results+1):
        bm25_answer.append(res[args[-i]])
        
    crossenc_answer = []
    for p in range(bm25_n_results):
        crossenc_answer += get_similarity(query, bm25_answer[p][3])
        
    final_ans = []
    args_cr = np.flipud(np.argsort(a, axis=0))
    
    for f in range(cr_enc_n_results):
        final_ans.append(bm25_answer[f])
    
    return final_ans #knn может вернуть не n_results, а больше, если дистанции в точности равны!

In [82]:
res = bm25_ensemble(query='когда был основан тинькофф', client=client, emb_func=emb_func, bm25_n_results=10,
                    cr_enc_n_results=2, limit_knn=50, knn_docs_window=5)

In [56]:
res

[(2010,
  16,
  'https://cbr.ru//faq/dkp/',
  ', то есть формируется под воздействием изменения спроса и предложения иностранной валюты на валютном рынке. Банк России в нормальных условиях не совершает валютных интервенций, направленных на то, чтобы повлиять на динамику курса рубля. Это дает возможность Банку России более эффективно воздействовать на инфляцию. Режим плавающего курса рубля не предполагает полного отказа от валютных интервенций. Они могут проводиться при возникновении угроз для финансовой стабильности. Например, такая необходимость возникла в декабре 2014 г., когда чрезмерное ослабление рубля привело к его существенному отклонению от фундаментально обоснованных значений. В этот период Банк России в отдельные дни проводил продажи иностранной валюты. Когда колебания валютного курса создают угрозу финансовой стабильности, для стабилизации ситуации Банк России может также использовать механизмы валютного рефинансирования. При чрезвычайных обстоятельствах могут вводиться и вр

In [39]:
res = _clickhouse_query_l2('купить уникальные золотые монеты', client, emb_func)

In [175]:
res = client.query(f'''
    SELECT *
    FROM 
        index_texts
    WHERE
        chunk_id = 0
    order by ID asc
    limit 3000
    offset 21000''')

res = res.result_rows

with open('rows.txt', 'w') as f:
    for row in res:
        f.write(f'index: {row[0]}, {row[3]} \n')

In [180]:
print(list(range(18649, 18654)))

[18649, 18650, 18651, 18652, 18653]


In [9]:
errors = [174, 202, 203, 204, 1048, 1049, 1050, 1051, 1052, 1053, 1162, 1163, 1164, 1165, 1166, 1570, 1571, 1572, 1602, 1604, 3010, 3017, 3024, 3033, 3312, 3390, 3397, 3409,
          3411, 3516, 3643, 3650, 3670, 3674, 3783, 3835, 3851, 3857, 
          3867, 3870, 3877, 3880, 3882, 3884, 3887, 3890, 3937, 3942, 3944, 3947, 3950, 3955, 
          3981, 3983, 3989, 4001, 4004, 4011, 4015, 4019, 4024, 4030, 4042, 4045, 4052, 4056, 4059, 4062, 4107, 4116, 4132,
          4154, 4229, 4316, 4544, 4549, 4580, 4581, 4598, 4609, 4683, 4736, 4737, 4780, 4826, 4864, 4865, 4866, 4886,
          4918, 4919, 4920, 4958, 4981, 5039, 5069, 5308, 5413, 5449, 5478, 5495, 5496, 5549, 5550, 5624, 5641, 5742,
          6517, 13742, 13764, 13786, 13787, 28752, 28787, 28814, 28848, 28902, 28925, 26545, 26546, 26600, 26653, 26710,
          26767, 26818, 26871, 26927, 26981, 27736, 27792, 27953, 21789, 23496, 15047, 15194, 15267, 15398, 15465, 15526,
          15585, 15645, 15764, 16003, 16062, 16121, 16528, 16759, 16823, 16919, 16972, 16990, 17008, 17126, 18109, 18388, 
          18322, 18323, 18324, 18325, 18326, 18327, 18328, 18329, 18330, 18331, 18332, 18333, 18334 ,
          18343, 18388, 18422, 18595, 18596, 18597, 18598, 18599, 18600, 18601, 18602, 18603, 18604, 18605, 
          18649, 18650, 18651, 18652, 18653, 18821, 19039, 19041, 19597, 19598, 20009, 20574, 20576, 20580, 20585]

In [192]:
max(errors)

28925

In [102]:
window=5

window_sql_query = ''
for i, row in enumerate(res):
    #ids_with_chunks[row[0]].extend(get_window_range(row[1], window))
    if i > 0:
        window_sql_query += ' UNION DISTINCT '
    window_sql_query += f'''SELECT * FROM index_texts WHERE ID = {row[0]} and chunk_id in {tuple(get_window_range(row[1], window))}'''

result = client.query(window_sql_query)
for row in result.result_rows:
    print(row)

(2281, 0, 'https://cbr.ru//Content/Document/File/145782/coins_cbr_2022_pr.pdf', ' СЕРИЯ «ИСТОРИЧЕСКИЕ СОБЫТИЯ» HISTORICAL EVENTS SERIES', 0, [0.04344139248132706, -0.013093809597194195, -0.02887667343020439, -0.04186256602406502, 0.03471691533923149, -0.029531968757510185, -0.02673668973147869, 0.10153445601463318, 0.09412192553281784, -0.021929247304797173, 0.025504300370812416, 0.02842095121741295, -0.03722936660051346, -0.01014799065887928, -0.015470435842871666, -0.02467544935643673, -0.03324734792113304, 0.04855277016758919, -0.0014074755599722266, 0.009713017381727695, 0.03557945415377617, -0.0164401326328516, -0.06035260111093521, -0.025361690670251846, -0.040080733597278595, -0.01564004085958004, -0.014126590453088284, -0.0271231010556221, -0.019423730671405792, -0.05740168318152428, -0.007917541079223156, 0.0005825345288030803, -0.03380168601870537, -0.037218693643808365, 0.003797924844548106, 0.031004922464489937, 0.026787137612700462, 0.04488537460565567, -0.0542599298059940

In [96]:
window_sql_query = ''
for i, (k, v) in enumerate(ids_with_chunks.items()):
    if i > 0:
        window_sql_query += ' UNION ALL '
    window_sql_query += f'''SELECT * FROM index_texts WHERE ID = {k} and chunk_id in {tuple(v)}'''
    
window_sql_query

'SELECT * FROM index_texts WHERE ID = 1952 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2281 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2321 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2261 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2267 and chunk_id in (0, 1, 2, 3, 4)'

In [98]:
result = client.query(window_sql_query)
for row in result.result_rows:
    print(row)

(1952, 0, 'https://cbr.ru//hd_base/seldomc/', ' Базы данных Котировки редких валют Курсы валют к доллару США на заданную дату Динамика курса заданной валюты к доллару США', 0, [0.02669902704656124, -0.025725161656737328, -0.040822550654411316, -0.018318643793463707, 0.013429258950054646, -0.016236204653978348, -0.017121678218245506, 0.08162964880466461, 0.07342529296875, -0.031194956973195076, 0.046875257045030594, 0.019426213577389717, -0.03225695714354515, 0.0032085629645735025, -0.005864734295755625, 0.00622314028441906, -0.038016147911548615, 0.03280050307512283, -0.01603180542588234, 0.006390362977981567, 0.032759763300418854, -4.647437162930146e-05, -0.03209870681166649, -0.02839742600917816, -0.039633143693208694, -0.027064036577939987, -0.03786955773830414, -0.03547101467847824, 0.0029091208707541227, -0.04915853217244148, -0.01963597908616066, 0.017102131620049477, 0.002590649062767625, -0.05121168866753578, -0.03817499801516533, 0.030823180451989174, 0.008691269904375076, 0.0

In [94]:
result = client.query(f'''
SELECT * FROM index_texts WHERE ID = 1952 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2281 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2321 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2261 and chunk_id in (0, 1, 2, 3, 4) UNION ALL SELECT * FROM index_texts WHERE ID = 2267 and chunk_id in (0, 1, 2, 3, 4)''')

In [95]:
for row in result.result_rows:
    print(row)

(1952, 0, 'https://cbr.ru//hd_base/seldomc/', ' Базы данных Котировки редких валют Курсы валют к доллару США на заданную дату Динамика курса заданной валюты к доллару США', 0, [0.02669902704656124, -0.025725161656737328, -0.040822550654411316, -0.018318643793463707, 0.013429258950054646, -0.016236204653978348, -0.017121678218245506, 0.08162964880466461, 0.07342529296875, -0.031194956973195076, 0.046875257045030594, 0.019426213577389717, -0.03225695714354515, 0.0032085629645735025, -0.005864734295755625, 0.00622314028441906, -0.038016147911548615, 0.03280050307512283, -0.01603180542588234, 0.006390362977981567, 0.032759763300418854, -4.647437162930146e-05, -0.03209870681166649, -0.02839742600917816, -0.039633143693208694, -0.027064036577939987, -0.03786955773830414, -0.03547101467847824, 0.0029091208707541227, -0.04915853217244148, -0.01963597908616066, 0.017102131620049477, 0.002590649062767625, -0.05121168866753578, -0.03817499801516533, 0.030823180451989174, 0.008691269904375076, 0.0