In [1]:
import pandas as pd

try:
    questions = pd.read_csv('questions_clean.csv')
    websites = pd.read_csv('websites.csv')
    sample_submission = pd.read_csv('sample_submission.csv')
    print("Вопросы:")
    print(questions.head())
    print("\nБаза знаний (сайты):")
    print(websites.head())
    
except FileNotFoundError:
    print("Ошибка: Убедитесь, что файлы Questions.csv и Websites.csv находятся в той же папке.")

Вопросы:
   q_id                                              query
0     1                                        Номер счета
1     2                              Где узнать бик и счёт
2     3  Мне не приходят коды для подтверждения данной ...
3     4  Оформила рассрочку ,но уведомлений никаких не ...
4     5  Здравствуйте, когда смогу пользоваться кредитн...

База знаний (сайты):
   web_id                                   url  kind  \
0       1                  https://alfabank.ru/  html   
1       2           https://alfabank.ru/a-club/  html   
2       3  https://alfabank.ru/a-club/ultimate/  html   
3       4    https://alfabank.ru/actions/rules/  html   
4       5       https://alfabank.ru/alfafuture/  html   

                                               title  \
0  Альфа-Банк - кредитные и дебетовые карты, кред...   
1                      А-Клуб. Деньги имеют значение   
2                      А-Клуб. Деньги имеют значение   
3                                   Скидки по ка

In [2]:
from sklearn.model_selection import train_test_split

# Убедимся, что в 'query' нет пропусков
questions['query'] = questions['query'].fillna('')

# Отделим 400 вопросов на валидацию
# (Если у вас есть ground_truth, лучше делить его, а потом джойнить вопросы)
try:
    # Идеальный сценарий: у вас есть файл с 'q_id' и 'web_id'
    # Замените 'ground_truth.csv' на ваш файл с разметкой
    ground_truth_df = pd.read_csv('train.csv') # <--- ЗАМЕНИ НА СВОЙ ФАЙЛ
    
    # Получаем уникальные q_id из разметки
    all_q_ids = ground_truth_df['q_id'].unique()
    
    # Делим q_id
    train_q_ids, val_q_ids = train_test_split(
        all_q_ids, 
        test_size=400, # 400 вопросов на валидацию
        random_state=42
    )
    
    # Создаем обучающую и валидационную выборки
    questions_train = questions[questions['q_id'].isin(train_q_ids)]
    questions_val = questions[questions['q_id'].isin(val_q_ids)]
    
    # Сохраняем "правильные" ответы для валидации
    ground_truth_val = ground_truth_df[ground_truth_df['q_id'].isin(val_q_ids)]

    print("Разделение на основе файла разметки (ground_truth):")
    
except FileNotFoundError:
    # Если файла разметки нет, просто делим все вопросы
    print("ВНИМАНИЕ: Файл 'train.csv' не найден. Делим 'questions.csv' случайным образом.")
    print("Для корректного подсчета Hit@5 нужен файл с 'правильными' web_id.")
    
    questions_train, questions_val = train_test_split(
        questions,
        test_size=400, # или 0.1, 0.2 и т.д.
        random_state=42 # Для воспроизводимости
    )
    ground_truth_val = None # Не сможем посчитать метрику

print(f"Вопросов для 'submit.csv' (train): {len(questions_train)}")
print(f"Вопросов для валидации (val): {len(questions_val)}")

ВНИМАНИЕ: Файл 'train.csv' не найден. Делим 'questions.csv' случайным образом.
Для корректного подсчета Hit@5 нужен файл с 'правильными' web_id.
Вопросов для 'submit.csv' (train): 6577
Вопросов для валидации (val): 400


In [3]:
def get_chunks(text, chunk_size=256, overlap=64):
    words = text.split()
    if not words:
        return []
    chunks = []
    for i in range(0, len(words), chunk_size - overlap):
        chunk_words = words[i:i + chunk_size]
        chunks.append(" ".join(chunk_words))
    return chunks

chunk_data = []

print("Начинаем процесс чанкования...")


for index, row in websites.iterrows():
    web_id = row['web_id']
    title = row['title'] if pd.notna(row['title']) else ''
    text = row['text'] if pd.notna(row['text']) else ''
    
    text_with_title = f"Заголовок: {title}\nТекст: {text}"
    
    chunks = get_chunks(text_with_title, chunk_size=256, overlap=64)
    
    for chunk_text in chunks:
        chunk_data.append({
            'web_id': web_id,  # Сохраняем, какому 'web_id' принадлежит чанк
            'text': chunk_text
        })

print(f"Готово. Получили {len(chunk_data)} чанков из {len(websites)} документов.")
chunks_df = pd.DataFrame(chunk_data)

Начинаем процесс чанкования...
Готово. Получили 9902 чанков из 1937 документов.


In [4]:
from sentence_transformers import SentenceTransformer
from sentence_transformers import CrossEncoder

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') 
print("Загружаем Cross-encoder...")
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
print("Cross-encoder загружен.")

# Векторизация корпуса (чанков) - остается без изменений
print("Начинаем векторизацию корпуса (чанков)...")
corpus_embeddings = model.encode(
    chunks_df['text'].tolist(), 
    show_progress_bar=True
)
print(f"Форма эмбеддингов корпуса (чанков): {corpus_embeddings.shape}")


# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Векторизация ОБУЧАЮЩИХ вопросов (для submit.csv)
print("Начинаем векторизацию ОБУЧАЮЩИХ вопросов...")
query_embeddings_train = model.encode(
    questions_train['query'].tolist(), 
    show_progress_bar=True
)
print(f"Форма эмбеддингов ОБУЧАЮЩИХ вопросов: {query_embeddings_train.shape}")

# Векторизация ВАЛИДАЦИОННЫХ вопросов (для проверки)
print("Начинаем векторизацию ВАЛИДАЦИОННЫХ вопросов...")
query_embeddings_val = model.encode(
    questions_val['query'].tolist(), 
    show_progress_bar=True
)
print(f"Форма эмбеддингов ВАЛИДАЦИОННЫХ вопросов: {query_embeddings_val.shape}")


Загружаем Cross-encoder...
Cross-encoder загружен.
Начинаем векторизацию корпуса (чанков)...


Batches:   0%|          | 0/310 [00:00<?, ?it/s]

Форма эмбеддингов корпуса (чанков): (9902, 384)
Начинаем векторизацию ОБУЧАЮЩИХ вопросов...


Batches:   0%|          | 0/206 [00:00<?, ?it/s]

Форма эмбеддингов ОБУЧАЮЩИХ вопросов: (6577, 384)
Начинаем векторизацию ВАЛИДАЦИОННЫХ вопросов...


Batches:   0%|          | 0/13 [00:00<?, ?it/s]

Форма эмбеддингов ВАЛИДАЦИОННЫХ вопросов: (400, 384)


In [5]:
import faiss
import numpy as np

# Нормализация корпуса (остается)
corpus_embeddings_norm = corpus_embeddings.astype('float32')
faiss.normalize_L2(corpus_embeddings_norm)

# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Нормализация ОБУЧАЮЩИХ вопросов
query_embeddings_train_norm = query_embeddings_train.astype('float32')
faiss.normalize_L2(query_embeddings_train_norm)

# Нормализация ВАЛИДАЦИОННЫХ вопросов
query_embeddings_val_norm = query_embeddings_val.astype('float32')
faiss.normalize_L2(query_embeddings_val_norm)
# ---

# Создание индекса (остается)
d = corpus_embeddings_norm.shape[1]
index = faiss.IndexFlatIP(d)    
index.add(corpus_embeddings_norm)

print(f"Индекс создан. Всего векторов в базе (чанков): {index.ntotal}")

Индекс создан. Всего векторов в базе (чанков): 9902


In [None]:
# --- ЗАМЕНА для Ячейки 6 (Переранжировка и Агрегация) ---
# Этот блок теперь создает submit.csv ТОЛЬКО для обучающей выборки

k_candidates = 15 

print(f"Начинаем поиск топ-{k_candidates} кандидатов для ОБУЧАЮЩИХ вопросов...")

# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Ищем только по ОБУЧАЮЩИМ эмбеддингам
D, I = index.search(query_embeddings_train_norm, k_candidates) 
print(f"Форма массива индексов: {I.shape}")
print("Начинаем Переранжировку и Агрегацию (для submit.csv)...")

# Получаем массивы с данными (чанков)
chunk_web_ids_array = chunks_df['web_id'].values
chunk_texts_array = chunks_df['text'].values

# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Берем данные ОБУЧАЮЩИХ вопросов
q_ids_array = questions_train['q_id'].values
query_texts_list = questions_train['query'].tolist()
# ---

results_list = []

for i in range(len(q_ids_array)):
    q_id = q_ids_array[i]
    query_text = query_texts_list[i]
    
    top_chunk_indices = I[i]
    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]

    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=False)
    
    web_id_scores = {}
    reranked_data = list(zip(cross_scores, top_chunks_web_ids))
    
    for score, web_id in reranked_data:
        if web_id not in web_id_scores:
            web_id_scores[web_id] = 0.0
        web_id_scores[web_id] += score
        
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    top_5_web_ids = [web_id for web_id, score in sorted_web_ids[:5]]
    
    for web_id in top_5_web_ids:
        results_list.append({'q_id': q_id, 'web_id': web_id})

    if (i + 1) % 100 == 0:
        print(f"Обработано {i+1} / {len(q_ids_array)} ОБУЧАЮЩИХ вопросов...")

# Создаем финальный DataFrame
submit_df = pd.DataFrame(results_list)

# Сохраняем в CSV
submit_df.to_csv('submit.csv', index=False)

print(f"\nФайл submit.csv (с {len(q_ids_array)} вопросами) успешно создан!")
print(submit_df.head(10))



Начинаем поиск топ-15 кандидатов для ОБУЧАЮЩИХ вопросов...
Форма массива индексов: (6577, 15)
Начинаем Переранжировку и Агрегацию (для submit.csv)...


In [None]:
print(f"\n--- Начинаем Валидацию на {len(questions_val)} вопросах ---")

k_candidates = 15

print(f"Начинаем поиск топ-{k_candidates} кандидатов для ВАЛИДАЦИОННЫХ вопросов...")

# --- ИСПОЛЬЗУЕМ ВАЛИДАЦИОННЫЕ ДАННЫЕ ---
D_val, I_val = index.search(query_embeddings_val_norm, k_candidates) 

print("Начинаем Переранжировку и Агрегацию (для Валидации)...")

q_ids_array_val = questions_val['q_id'].values
query_texts_list_val = questions_val['query'].tolist()

# Здесь мы будем хранить наши предсказания
# {q_id_1: [web_id_1, web_id_2, ...], q_id_2: [...]}
val_predictions = {}

for i in range(len(q_ids_array_val)):
    q_id = q_ids_array_val[i]
    query_text = query_texts_list_val[i]
    
    top_chunk_indices = I_val[i]
    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]

    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=False)
    
    web_id_scores = {}
    reranked_data = list(zip(cross_scores, top_chunks_web_ids))
    
    for score, web_id in reranked_data:
        if web_id not in web_id_scores:
            web_id_scores[web_id] = 0.0
        web_id_scores[web_id] += score
        
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    
    # Сохраняем Топ-5 предсказанных web_id
    top_5_web_ids = [web_id for web_id, score in sorted_web_ids[:5]]
    val_predictions[q_id] = top_5_web_ids

    if (i + 1) % 50 == 0:
        print(f"Обработано {i+1} / {len(q_ids_array_val)} ВАЛИДАЦИОННЫХ вопросов...")

print("Валидация завершена. Предсказания сохранены в 'val_predictions'.")

# --- Конец новой ячейки ---

In [None]:
# --- НОВАЯ ЯЧЕЙКА: Подсчет метрики Hit@5 ---

def calculate_hit_at_5(predictions, ground_truth):
    """
    predictions: dict {q_id: [web_id_1, ...]}
    ground_truth: dict {q_id: {web_id_a, web_id_b, ...}}
    """
    hits = 0
    total_questions = 0
    
    for q_id, predicted_ids in predictions.items():
        if q_id in ground_truth:
            total_questions += 1
            # Множество "правильных" web_id для этого q_id
            true_ids = ground_truth[q_id]
            
            # Проверяем, есть ли ХОТЯ БЫ ОДНО пересечение
            if not set(predicted_ids).isdisjoint(true_ids):
                hits += 1
                
    if total_questions == 0:
        print("Ошибка: В 'ground_truth' нет вопросов из валидационной выборки.")
        return 0.0

    hit_rate = hits / total_questions
    return hit_rate

# ---

if ground_truth_val is not None:
    print("Подготовка 'правильных' ответов для подсчета метрики...")
    
    # Группируем 'правильные' ответы в словарь
    # {q_id_1: {web_id_a, web_id_b}, q_id_2: {web_id_c}, ...}
    ground_truth_map = ground_truth_val.groupby('q_id')['web_id'].apply(set).to_dict()
    
    # Считаем Hit@5
    hit_at_5_score = calculate_hit_at_5(val_predictions, ground_truth_map)
    
    print("\n" + "="*30)
    print(f"   ВАШ РЕЗУЛЬТАТ (Hit@5): {hit_at_5_score:.4f}")
    print("="*30)
    print(f"(Это означает, что {hit_at_5_score*100:.2f}% ваших валидационных вопросов")
    print("имеют хотя бы один 'правильный' web_id в топ-5 предсказанных.)")

else:
    print("\nНе удалось рассчитать Hit@5, так как файл с 'правильными' ответами")
    print("(например, 'train.csv' или 'ground_truth.csv') не был загружен на Шаге 1.")

# --- Конец новой ячейки ---