In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np

# --- ГЛАВНЫЙ ПЕРЕКЛЮЧАТЕЛЬ ---
# True  = Разделить данные, посчитать Hit@5 (для разработки)
# False = Использовать ВСЕ вопросы, создать финальный submit.csv (для платформы)
RUN_VALIDATION = False
# ---

# --- Загрузка данных ---
try:
    questions = pd.read_csv('questions_clean.csv')
    websites = pd.read_csv('websites.csv')
    sample_submission = pd.read_csv('sample_submission.csv')
    print("Вопросы:")
    print(questions.head())
    print("\nБаза знаний (сайты):")
    print(websites.head())
except FileNotFoundError:
    print("Ошибка: Убедитесь, что файлы .csv находятся в той же папке.")

questions['query'] = questions['query'].fillna('')

# --- Переменные для данных ---
questions_to_process = None # Вопросы, которые пойдут в submission.csv
questions_to_validate = None # Вопросы для подсчета Hit@5
ground_truth_val = None      # "Правильные" ответы для Hit@5

if RUN_VALIDATION:
    print("\n--- РЕЖИM: ВАЛИДАЦИЯ (RUN_VALIDATION = True) ---")
    try:
        # ЗАМЕНИТЕ 'train.csv' НА ВАШ ФАЙЛ С РАЗМЕТКОЙ (q_id, web_id)
        ground_truth_df = pd.read_csv('train.csv') 
        
        all_q_ids = ground_truth_df['q_id'].unique()
        
        # Делим q_id
        train_q_ids, val_q_ids = train_test_split(
            all_q_ids, 
            test_size=400, # 400 вопросов на валидацию
            random_state=42
        )
        
        # Это вопросы, которые пойдут в submission.csv
        questions_to_process = questions[questions['q_id'].isin(train_q_ids)]
        # Это вопросы, на которых считаем Hit@5
        questions_to_validate = questions[questions['q_id'].isin(val_q_ids)]
        # Это "правильные" ответы для Hit@5
        ground_truth_val = ground_truth_df[ground_truth_df['q_id'].isin(val_q_ids)]

        print(f"Вопросов для обработки (submission): {len(questions_to_process)}")
        print(f"Вопросов для валидации (Hit@5): {len(questions_to_validate)}")

    except FileNotFoundError:
        print("\nОШИБКА: Файл 'train.csv' (с правильными ответами) не найден.")
        print("Не могу запустить режим валидации. Установите RUN_VALIDATION = False")
        # В реальном коде здесь лучше остановить выполнение
        raise Exception("Файл 'train.csv' не найден для режима валидации.")
else:
    print("\n--- РЕЖИM: ФИНАЛЬНАЯ ОТПРАВКА (RUN_VALIDATION = False) ---")
    # Обрабатываем ВСЕ вопросы для финального submission.csv
    questions_to_process = questions 
    questions_to_validate = None
    ground_truth_val = None
    
    print(f"Вопросов для обработки (full submission): {len(questions_to_process)}")

Вопросы:
   q_id                                              query
0     1                                        Номер счета
1     2                              Где узнать бик и счёт
2     3  Мне не приходят коды для подтверждения данной ...
3     4  Оформила рассрочку ,но уведомлений никаких не ...
4     5  Здравствуйте, когда смогу пользоваться кредитн...

База знаний (сайты):
   web_id                                   url  kind  \
0       1                  https://alfabank.ru/  html   
1       2           https://alfabank.ru/a-club/  html   
2       3  https://alfabank.ru/a-club/ultimate/  html   
3       4    https://alfabank.ru/actions/rules/  html   
4       5       https://alfabank.ru/alfafuture/  html   

                                               title  \
0  Альфа-Банк - кредитные и дебетовые карты, кред...   
1                      А-Клуб. Деньги имеют значение   
2                      А-Клуб. Деньги имеют значение   
3                                   Скидки по ка

In [2]:
# Этот код вставляем после загрузки websites.csv

# -- Начало нового блока (Чанкование) --

def get_chunks(text, chunk_size=256, overlap=64):
    """Простая функция для нарезки текста на слова."""
    words = text.split()
    if not words:
        return []
    
    chunks = []
    for i in range(0, len(words), chunk_size - overlap):
        chunk_words = words[i:i + chunk_size]
        chunks.append(" ".join(chunk_words))
    return chunks

chunk_data = [] # Это будет наша новая "база знаний"

print("Начинаем процесс чанкования...")

# Итерируемся по каждой строке в websites
for index, row in websites.iterrows():
    web_id = row['web_id']
    title = row['title'] if pd.notna(row['title']) else ''
    text = row['text'] if pd.notna(row['text']) else ''
    
    text_with_title = f"Заголовок: {title}\nТекст: {text}"
    
    chunks = get_chunks(text_with_title, chunk_size=256, overlap=64)
    
    for chunk_text in chunks:
        chunk_data.append({
            'web_id': web_id,  # Сохраняем, какому 'web_id' принадлежит чанк
            'text': chunk_text
        })

print(f"Готово. Получили {len(chunk_data)} чанков из {len(websites)} документов.")

chunks_df = pd.DataFrame(chunk_data)

# -- Конец нового блока --

Начинаем процесс чанкования...
Готово. Получили 9902 чанков из 1937 документов.


In [3]:
from sentence_transformers import SentenceTransformer
from sentence_transformers import CrossEncoder

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') 
print("Загружаем Cross-encoder...")
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
print("Cross-encoder загружен.")

# Векторизация корпуса (чанков) - остается без изменений
print("Начинаем векторизацию корпуса (чанков)...")
corpus_embeddings = model.encode(
    chunks_df['text'].tolist(), 
    show_progress_bar=True
)
print(f"Форма эмбеддингов корпуса (чанков): {corpus_embeddings.shape}")


# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Векторизация вопросов для ОБРАБОТКИ (train или full)
print("Начинаем векторизацию вопросов для ОБРАБОТКИ...")
query_embeddings_process = model.encode(
    questions_to_process['query'].tolist(), 
    show_progress_bar=True
)
print(f"Форма эмбеддингов для ОБРАБОТКИ: {query_embeddings_process.shape}")

# Векторизация ВАЛИДАЦИОННЫХ вопросов (если нужно)
query_embeddings_val = None
if RUN_VALIDATION and questions_to_validate is not None:
    print("Начинаем векторизацию ВАЛИДАЦИОННЫХ вопросов...")
    query_embeddings_val = model.encode(
        questions_to_validate['query'].tolist(), 
        show_progress_bar=True
    )
    print(f"Форма эмбеддингов ВАЛИДАЦИОННЫХ вопросов: {query_embeddings_val.shape}")

Загружаем Cross-encoder...
Cross-encoder загружен.
Начинаем векторизацию корпуса (чанков)...


Batches:   0%|          | 0/310 [00:00<?, ?it/s]

Форма эмбеддингов корпуса (чанков): (9902, 384)
Начинаем векторизацию вопросов для ОБРАБОТКИ...


Batches:   0%|          | 0/219 [00:00<?, ?it/s]

Форма эмбеддингов для ОБРАБОТКИ: (6977, 384)


In [4]:
import faiss

# Нормализация корпуса
corpus_embeddings_norm = corpus_embeddings.astype('float32')
faiss.normalize_L2(corpus_embeddings_norm)

# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Нормализация вопросов для ОБРАБОТКИ
query_embeddings_process_norm = query_embeddings_process.astype('float32')
faiss.normalize_L2(query_embeddings_process_norm)

# Нормализация ВАЛИДАЦИОННЫХ вопросов (если нужно)
query_embeddings_val_norm = None
if RUN_VALIDATION and query_embeddings_val is not None:
    query_embeddings_val_norm = query_embeddings_val.astype('float32')
    faiss.normalize_L2(query_embeddings_val_norm)
# ---

# Создание индекса (остается)
d = corpus_embeddings_norm.shape[1]
index = faiss.IndexFlatIP(d)    
index.add(corpus_embeddings_norm)

print(f"Индекс создан. Всего векторов в базе (чанков): {index.ntotal}")

Индекс создан. Всего векторов в базе (чанков): 9902


In [None]:
# --- Этот блок создает submission.csv из questions_to_process ---
k_candidates = 10

print(f"\nНачинаем поиск топ-{k_candidates} кандидатов для {len(questions_to_process)} вопросов (submission)...")

# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Ищем только по эмбеддингам 'to_process'
D, I = index.search(query_embeddings_process_norm, k_candidates) 
print(f"Форма массива индексов: {I.shape}")
print("Начинаем Переранжировку и Агрегацию (для submission.csv)...")

# Получаем массивы с данными (чанков)
chunk_web_ids_array = chunks_df['web_id'].values
chunk_texts_array = chunks_df['text'].values

# --- ИЗМЕНЕНИЯ ЗДЕСЬ ---
# Берем данные вопросов 'to_process'
q_ids_array = questions_to_process['q_id'].values
query_texts_list = questions_to_process['query'].tolist()
# ---

results_list = []

for i in range(len(q_ids_array)):
    q_id = q_ids_array[i]
    query_text = query_texts_list[i]
    
    top_chunk_indices = I[i]
    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]

    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=False)
    
    web_id_scores = {}
    reranked_data = list(zip(cross_scores, top_chunks_web_ids))
    
    for score, web_id in reranked_data:
        if web_id not in web_id_scores:
            web_id_scores[web_id] = 0.0
        web_id_scores[web_id] += score
        
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    top_5_web_ids = [web_id for web_id, score in sorted_web_ids[:5]]
    
    for web_id in top_5_web_ids:
        results_list.append({'q_id': q_id, 'web_id': web_id})

    if (i + 1) % 100 == 0:
        print(f"Обработано {i+1} / {len(q_ids_array)} вопросов для submission...")

# Создаем финальный DataFrame
submit_df = pd.DataFrame(results_list)

# Сохраняем в CSV
# Имя файла 'submission.csv' соответствует требованиям
submit_df.to_csv('submission.csv', index=False) 

print(f"\nФайл submission.csv (с {len(q_ids_array)} вопросами) успешно создан!")
print(submit_df.head(10))


Начинаем поиск топ-10 кандидатов для 6977 вопросов (submission)...
Форма массива индексов: (6977, 10)
Начинаем Переранжировку и Агрегацию (для submission.csv)...
