In [1]:
import pandas as pd

try:
    questions = pd.read_csv('questions_clean.csv')
    websites = pd.read_csv('websites.csv')
    sample_submission = pd.read_csv('sample_submission.csv')
    print("Вопросы:")
    print(questions.head())
    print("\nБаза знаний (сайты):")
    print(websites.head())
    
except FileNotFoundError:
    print("Ошибка: Убедитесь, что файлы Questions.csv и Websites.csv находятся в той же папке.")

Вопросы:
   q_id                                              query
0     1                                        Номер счета
1     2                              Где узнать бик и счёт
2     3  Мне не приходят коды для подтверждения данной ...
3     4  Оформила рассрочку ,но уведомлений никаких не ...
4     5  Здравствуйте, когда смогу пользоваться кредитн...

База знаний (сайты):
   web_id                                   url  kind  \
0       1                  https://alfabank.ru/  html   
1       2           https://alfabank.ru/a-club/  html   
2       3  https://alfabank.ru/a-club/ultimate/  html   
3       4    https://alfabank.ru/actions/rules/  html   
4       5       https://alfabank.ru/alfafuture/  html   

                                               title  \
0  Альфа-Банк - кредитные и дебетовые карты, кред...   
1                      А-Клуб. Деньги имеют значение   
2                      А-Клуб. Деньги имеют значение   
3                                   Скидки по ка

In [2]:
# Этот код вставляем после загрузки websites.csv

# -- Начало нового блока (Чанкование) --

def get_chunks(text, chunk_size=256, overlap=64):
    """Простая функция для нарезки текста на слова."""
    words = text.split()
    if not words:
        return []
    
    chunks = []
    for i in range(0, len(words), chunk_size - overlap):
        chunk_words = words[i:i + chunk_size]
        chunks.append(" ".join(chunk_words))
    return chunks

chunk_data = [] # Это будет наша новая "база знаний"

print("Начинаем процесс чанкования...")

# Итерируемся по каждой строке в websites
for index, row in websites.iterrows():
    web_id = row['web_id']
    title = row['title'] if pd.notna(row['title']) else ''
    text = row['text'] if pd.notna(row['text']) else ''
    
    # Мы добавим заголовок к каждому чанку, это часто улучшает релевантность
    # (модель будет знать, из какого раздела этот текст)
    text_with_title = f"Заголовок: {title}\nТекст: {text}"
    
    chunks = get_chunks(text_with_title, chunk_size=256, overlap=64)
    
    for chunk_text in chunks:
        chunk_data.append({
            'web_id': web_id,  # Сохраняем, какому 'web_id' принадлежит чанк
            'text': chunk_text
        })

print(f"Готово. Получили {len(chunk_data)} чанков из {len(websites)} документов.")

# Создадим DataFrame из чанков для удобства
# (Это необязательно, но так проще)
chunks_df = pd.DataFrame(chunk_data)

# -- Конец нового блока --

Начинаем процесс чанкования...
Готово. Получили 9902 чанков из 1937 документов.


In [3]:
questions['query'].sample()

19    Здравствуйте, отправил деньги с т банка на аль...
Name: query, dtype: object

In [4]:
sample_submission[sample_submission['q_id'] == 1014].sample()

Unnamed: 0,q_id,web_list
1013,1014,"[394, 1223, 1270, 1929, 403]"


In [5]:
questions[questions['q_id'] == 1014]['query'].sample()

1013    Здравствуйте, подскажите, сколько в день % нач...
Name: query, dtype: object

In [6]:
websites[websites['web_id'] == 394].sample()

Unnamed: 0,web_id,url,kind,title,text
393,394,https://alfabank.ru/help/articles/sme/start/ot...,html,Предпринимательство без регистрации: штрафы и ...,Альфа-Банк\nПолезное о продуктах\nРассказываем...


In [7]:
from sentence_transformers import SentenceTransformer
from sentence_transformers import CrossEncoder
# 1. Загружаем модель
# 'paraphrase-multilingual-MiniLM-L12-v2' - хорошая, быстрая модель
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') 

# Загружаем cross-encoder
# 'mrm8488/mBERT-v2-msmarco-mMiniLMv2-L12-H384-pt' - хорошая
# многоязычная модель, обученная на задачах поиска (msmarco)
print("Загружаем Cross-encoder...")
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
print("Cross-encoder загружен.")
# 2. Векторизуем базу знаний (сайты)
# Убедимся, что нет пропусков (NaN), иначе эмбеддер выдаст ошибку
print("Начинаем векторизацию корпуса (чанков)... Это займет больше времени.")
# Передаем список текстов из наших чанков
corpus_embeddings = model.encode(
    chunks_df['text'].tolist(), 
    show_progress_bar=True
)

# Векторизация вопросов (этот блок остается БЕЗ ИЗМЕНЕНИЙ):
questions['query'] = questions['query'].fillna('')
print("Начинаем векторизацию вопросов...")
query_embeddings = model.encode(
    questions['query'].tolist(), 
    show_progress_bar=True
)

print(f"Форма эмбеддингов корпуса (чанков): {corpus_embeddings.shape}")
print(f"Форма эмбеддингов вопросов: {query_embeddings.shape}")

Загружаем Cross-encoder...


config.json:   0%|          | 0.00/794 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/132 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

Cross-encoder загружен.
Начинаем векторизацию корпуса (чанков)... Это займет больше времени.


Batches:   0%|          | 0/310 [00:00<?, ?it/s]

Начинаем векторизацию вопросов...


Batches:   0%|          | 0/219 [00:00<?, ?it/s]

Форма эмбеддингов корпуса (чанков): (9902, 384)
Форма эмбеддингов вопросов: (6977, 384)


In [11]:
# Этот код остается таким же, он просто будет работать с эмбеддингами чанков
import faiss
import numpy as np

corpus_embeddings = corpus_embeddings.astype('float32')
query_embeddings = query_embeddings.astype('float32')

faiss.normalize_L2(corpus_embeddings)
faiss.normalize_L2(query_embeddings)

d = corpus_embeddings.shape[1]
index = faiss.IndexFlatIP(d)    

index.add(corpus_embeddings)

print(f"Индекс создан. Всего векторов в базе (чанков): {index.ntotal}")

Индекс создан. Всего векторов в базе (чанков): 9902


In [12]:
# Этот код остается таким же, он просто будет работать с эмбеддингами чанков
import faiss
import numpy as np

corpus_embeddings = corpus_embeddings.astype('float32')
query_embeddings = query_embeddings.astype('float32')

faiss.normalize_L2(corpus_embeddings)
faiss.normalize_L2(query_embeddings)

d = corpus_embeddings.shape[1]
index = faiss.IndexFlatIP(d)    

index.add(corpus_embeddings)

print(f"Индекс создан. Всего векторов в базе (чанков): {index.ntotal}")

Индекс создан. Всего векторов в базе (чанков): 9902


In [14]:
# --- НОВЫЙ Шаг 5 (Переранжировка и Агрегация) ---
k_candidates = 5  # Ищем 50 лучших чанков-кандидатов

print(f"Начинаем поиск топ-{k_candidates} кандидатов для каждого вопроса...")
# I - это индексы (порядковые номера) чанков из chunks_df
D, I = index.search(query_embeddings, k_candidates)

print(f"Форма массива индексов: {I.shape}")
print("Начинаем Переранжировку и Агрегацию...")

# Получаем массивы с данными
chunk_web_ids_array = chunks_df['web_id'].values
chunk_texts_array = chunks_df['text'].values
q_ids_array = questions['q_id'].values

results_list = []

# Используем .tolist() для вопросов, это немного ускорит доступ в цикле
query_texts_list = questions['query'].tolist()

# I - это наши топ-50 индексов чанков из faiss (Шаг 4)

for i in range(len(q_ids_array)):
    q_id = q_ids_array[i]
    query_text = query_texts_list[i]
    
    # 1. Получаем 50 чанков-кандидатов
    top_chunk_indices = I[i]
    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]

    # 2. Создаем пары [вопрос, чанк] для Cross-encoder'а
    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]
    
    # 3. Получаем оценки (scores) от Cross-encoder'а
    # show_progress_bar=False, чтобы не засорять вывод
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=False)
    
    # 4. Агрегация оценок (лучше, чем голосование)
    # Мы будем не просто считать, а СУММИРОВАТЬ оценки
    web_id_scores = {}
    
    # Собираем данные (оценка, web_id)
    reranked_data = list(zip(cross_scores, top_chunks_web_ids))
    
    for score, web_id in reranked_data:
        if web_id not in web_id_scores:
            web_id_scores[web_id] = 0.0
        # Суммируем "силу" релевантности
        web_id_scores[web_id] += score
        
    # 5. Сортируем web_id по их суммарной оценке
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    
    # 6. Берем топ-5 web_id
    top_5_web_ids = [web_id for web_id, score in sorted_web_ids[:5]]
    
    # 7. Добавляем в список для submit
    for web_id in top_5_web_ids:
        results_list.append({'q_id': q_id, 'web_id': web_id})

    if (i + 1) % 100 == 0:
        print(f"Обработано {i+1} / {len(q_ids_array)} вопросов...")

# Создаем финальный DataFrame
submit_df = pd.DataFrame(results_list)

# Сохраняем в CSV
submit_df.to_csv('submit.csv', index=False)

print("\nФайл submit.csv (с Cross-encoder'ом) успешно создан!")
print(submit_df.head(10))

# --- Конец НОВОГО Шага 5 ---

Начинаем поиск топ-5 кандидатов для каждого вопроса...
Форма массива индексов: (6977, 5)
Начинаем Переранжировку и Агрегацию...
Обработано 100 / 6977 вопросов...
Обработано 200 / 6977 вопросов...
Обработано 300 / 6977 вопросов...
Обработано 400 / 6977 вопросов...
Обработано 500 / 6977 вопросов...
Обработано 600 / 6977 вопросов...
Обработано 700 / 6977 вопросов...
Обработано 800 / 6977 вопросов...
Обработано 900 / 6977 вопросов...
Обработано 1000 / 6977 вопросов...
Обработано 1100 / 6977 вопросов...
Обработано 1200 / 6977 вопросов...
Обработано 1300 / 6977 вопросов...
Обработано 1400 / 6977 вопросов...
Обработано 1500 / 6977 вопросов...
Обработано 1600 / 6977 вопросов...
Обработано 1700 / 6977 вопросов...
Обработано 1800 / 6977 вопросов...
Обработано 1900 / 6977 вопросов...
Обработано 2000 / 6977 вопросов...
Обработано 2100 / 6977 вопросов...
Обработано 2200 / 6977 вопросов...
Обработано 2300 / 6977 вопросов...
Обработано 2400 / 6977 вопросов...
Обработано 2500 / 6977 вопросов...
Обрабо

In [18]:
# --- Начало блока для проверки ---

# Убедитесь, что эти переменные доступны в вашей сессии:
# model - наша SentenceTransformer модель
# index - наш faiss-индекс
# chunks_df - DataFrame с чанками и их web_id

# --- НОВАЯ функция check_my_question ---

# Убедитесь, что 'model', 'cross_encoder', 'index' и 'chunks_df' доступны

def check_my_question_RERANKED(query_text, k=5):
    print(f"Поисковый запрос: '{query_text}'\n")
    
    # 1. Векторизуем ОДИН наш вопрос (Bi-encoder)
    query_vector = model.encode([query_text]).astype('float32')
    faiss.normalize_L2(query_vector)
    
    # 2. Ищем в индексе (faiss) 50 лучших чанков-кандидатов
    k_candidates = 50 
    D, I = index.search(query_vector, k_candidates)
    
    top_chunk_indices = I[0]
    
    chunk_web_ids_array = chunks_df['web_id'].values
    chunk_texts_array = chunks_df['text'].values
    
    # 3. Готовим данные для Cross-encoder'а
    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]
    
    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]
    
    # 4. Получаем оценки (Scores)
    print("Cross-encoder оценивает 50 кандидатов...")
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=True)
    
    # 5. Собираем данные (оценка, web_id, текст чанка)
    reranked_data = []
    for score, web_id, text in zip(cross_scores, top_chunks_web_ids, top_chunks_texts):
        reranked_data.append({
            'score': score,
            'web_id': web_id,
            'text': text
        })
        
    # Сортируем чанки по оценке
    reranked_data = sorted(reranked_data, key=lambda x: x['score'], reverse=True)

    print("\n--- 5 лучших ЧАНКОВ (по оценке Cross-encoder'а): ---")
    for i in range(5):
        item = reranked_data[i]
        print(f"Место #{i+1} (Чанк): web_id={item['web_id']}, Оценка={item['score']:.4f}")
        print(f"  Текст: '{item['text'][:250]}...'\n")

    # 6. Агрегация оценок (как в пакетном режиме)
    web_id_scores = {}
    for item in reranked_data:
        if item['web_id'] not in web_id_scores:
            web_id_scores[item['web_id']] = 0.0
        web_id_scores[item['web_id']] += item['score']
        
    # 7. Сортируем web_id по их суммарной оценке
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    
    print(f"\n--- {k} лучших web_id (по сумме оценок): ---")
    
    for i in range(k):
        web_id, total_score = sorted_web_ids[i]
        print(f"Место #{i+1} (Документ): web_id = {web_id} (Сумма оценок: {total_score:.4f})")

# --- Конец НОВОЙ функции ---

# --- ПРИМЕР ИСПОЛЬЗОВАНИЯ ---
# (Вызовите, когда все будет готово)
check_my_question_RERANKED("Как получить кредитную карту?", k=5)

#check_my_question("Как получить кредитную карту?", k=5)
#check_my_question("Сколько стоит обслуживание Альфа-Карты?", k=5)

Поисковый запрос: 'Как получить кредитную карту?'

Cross-encoder оценивает 50 кандидатов...


Batches:   0%|          | 0/2 [00:00<?, ?it/s]


--- 5 лучших ЧАНКОВ (по оценке Cross-encoder'а): ---
Место #1 (Чанк): web_id=1587, Оценка=8.7019
  Текст: 'Заголовок: Как получить кредитную карту Текст: На сайте. Выберите подходящую карту, заполните анкету и дождитесь одобрения банка. Пластиковую карту доставим в отделение, которое вы указали в анкете, или курьером. • В мобильном приложении или Альфа-Он...'

Место #2 (Чанк): web_id=921, Оценка=8.4769
  Текст: 'точках наших партнёров (в билайн, Мегафон, М-Видео и не только). Как начать пользоваться кредитной картой? Получите карту с помощью доставки или в офисе, подпишите договор и активируйте карту. Сделать это можно в приложении или Альфа‑Онлайн: выберите...'

Место #3 (Чанк): web_id=1033, Оценка=8.4611
  Текст: 'Заголовок: Как сделать чтобы одобрили кредитную карту – Как повысить вероятность одобрения кредитки – Блог "Альфа-Банка" Текст: Кредитная карта — полезный и удобный инструмент, с помощью которого можно осуществлять безналичные расчёты в магазинах, ре...'

Место #4 (Чанк): 