In [11]:
import pandas as pd

try:
    questions = pd.read_csv('questions_clean.csv')
    websites = pd.read_csv('websites.csv')
    sample_submission = pd.read_csv('sample_submission.csv')
    print("Вопросы:")
    print(questions.head())
    print("\nБаза знаний (сайты):")
    print(websites.head())
    
except FileNotFoundError:
    print("Ошибка: Убедитесь, что файлы Questions.csv и Websites.csv находятся в той же папке.")

Вопросы:
   q_id                                              query
0     1                                        Номер счета
1     2                              Где узнать бик и счёт
2     3  Мне не приходят коды для подтверждения данной ...
3     4  Оформила рассрочку ,но уведомлений никаких не ...
4     5  Здравствуйте, когда смогу пользоваться кредитн...

База знаний (сайты):
   web_id                                   url  kind  \
0       1                  https://alfabank.ru/  html   
1       2           https://alfabank.ru/a-club/  html   
2       3  https://alfabank.ru/a-club/ultimate/  html   
3       4    https://alfabank.ru/actions/rules/  html   
4       5       https://alfabank.ru/alfafuture/  html   

                                               title  \
0  Альфа-Банк - кредитные и дебетовые карты, кред...   
1                      А-Клуб. Деньги имеют значение   
2                      А-Клуб. Деньги имеют значение   
3                                   Скидки по ка

In [12]:
def get_chunks(text, chunk_size=256, overlap=64):
    words = text.split()
    if not words:
        return []
    chunks = []
    for i in range(0, len(words), chunk_size - overlap):
        chunk_words = words[i:i + chunk_size]
        chunks.append(" ".join(chunk_words))
    return chunks

chunk_data = []

print("Начинаем процесс чанкования...")


for index, row in websites.iterrows():
    web_id = row['web_id']
    title = row['title'] if pd.notna(row['title']) else ''
    text = row['text'] if pd.notna(row['text']) else ''
    
    text_with_title = f"Заголовок: {title}\nТекст: {text}"
    
    chunks = get_chunks(text_with_title, chunk_size=256, overlap=64)
    
    for chunk_text in chunks:
        chunk_data.append({
            'web_id': web_id,  # Сохраняем, какому 'web_id' принадлежит чанк
            'text': chunk_text
        })

print(f"Готово. Получили {len(chunk_data)} чанков из {len(websites)} документов.")
chunks_df = pd.DataFrame(chunk_data)

Начинаем процесс чанкования...
Готово. Получили 9902 чанков из 1937 документов.


In [13]:
from sentence_transformers import SentenceTransformer
from sentence_transformers import CrossEncoder

model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') 
print("Загружаем Cross-encoder...")
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2')
print("Cross-encoder загружен.")
print("Начинаем векторизацию корпуса (чанков)... Это займет больше времени.")
corpus_embeddings = model.encode(
    chunks_df['text'].tolist(), 
    show_progress_bar=True
)
questions['query'] = questions['query'].fillna('')
print("Начинаем векторизацию вопросов...")
query_embeddings = model.encode(
    questions['query'].tolist(), 
    show_progress_bar=True
)

print(f"Форма эмбеддингов корпуса (чанков): {corpus_embeddings.shape}")
print(f"Форма эмбеддингов вопросов: {query_embeddings.shape}")

Загружаем Cross-encoder...
Cross-encoder загружен.
Начинаем векторизацию корпуса (чанков)... Это займет больше времени.


Batches:   0%|          | 0/310 [00:00<?, ?it/s]

Начинаем векторизацию вопросов...


Batches:   0%|          | 0/219 [00:00<?, ?it/s]

Форма эмбеддингов корпуса (чанков): (9902, 384)
Форма эмбеддингов вопросов: (6977, 384)


In [14]:
import faiss
import numpy as np

corpus_embeddings = corpus_embeddings.astype('float32')
query_embeddings = query_embeddings.astype('float32')

faiss.normalize_L2(corpus_embeddings)
faiss.normalize_L2(query_embeddings)

d = corpus_embeddings.shape[1]
index = faiss.IndexFlatIP(d)    

index.add(corpus_embeddings)

print(f"Индекс создан. Всего векторов в базе (чанков): {index.ntotal}")

Индекс создан. Всего векторов в базе (чанков): 9902


In [None]:
k_candidates = 15  

print(f"Начинаем поиск топ-{k_candidates} кандидатов для каждого вопроса...")

D, I = index.search(query_embeddings, k_candidates)

print(f"Форма массива индексов: {I.shape}")
print("Начинаем Переранжировку и Агрегацию...")

# Получаем массивы с данными
chunk_web_ids_array = chunks_df['web_id'].values
chunk_texts_array = chunks_df['text'].values
q_ids_array = questions['q_id'].values

results_list = []

query_texts_list = questions['query'].tolist()


for i in range(len(q_ids_array)):
    q_id = q_ids_array[i]
    query_text = query_texts_list[i]
    
    top_chunk_indices = I[i]
    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]

    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]
    
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=False)
    
    web_id_scores = {}
    
    reranked_data = list(zip(cross_scores, top_chunks_web_ids))
    
    for score, web_id in reranked_data:
        if web_id not in web_id_scores:
            web_id_scores[web_id] = 0.0

        web_id_scores[web_id] += score
        
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    
    top_5_web_ids = [web_id for web_id, score in sorted_web_ids[:5]]
    
    for web_id in top_5_web_ids:
        results_list.append({'q_id': q_id, 'web_id': web_id})

    if (i + 1) % 100 == 0:
        print(f"Обработано {i+1} / {len(q_ids_array)} вопросов...")

submit_df = pd.DataFrame(results_list)

submit_df.to_csv('submitttttttttttttt.csv', index=False)

print("\nФайл submit.csv (с Cross-encoder'ом) успешно создан!")
print(submit_df.head(10))


Начинаем поиск топ-15 кандидатов для каждого вопроса...


In [None]:
def check_my_question_RERANKED(query_text, k=5):
    print(f"Поисковый запрос: '{query_text}'\n")
    query_vector = model.encode([query_text]).astype('float32')
    faiss.normalize_L2(query_vector)

    k_candidates = 50 
    D, I = index.search(query_vector, k_candidates)
    
    top_chunk_indices = I[0]
    
    chunk_web_ids_array = chunks_df['web_id'].values
    chunk_texts_array = chunks_df['text'].values

    top_chunks_texts = chunk_texts_array[top_chunk_indices]
    top_chunks_web_ids = chunk_web_ids_array[top_chunk_indices]
    
    cross_inp = [[query_text, chunk_text] for chunk_text in top_chunks_texts]

    print("Cross-encoder оценивает 50 кандидатов...")
    cross_scores = cross_encoder.predict(cross_inp, show_progress_bar=True)
    
    reranked_data = []
    for score, web_id, text in zip(cross_scores, top_chunks_web_ids, top_chunks_texts):
        reranked_data.append({
            'score': score,
            'web_id': web_id,
            'text': text
        })

    reranked_data = sorted(reranked_data, key=lambda x: x['score'], reverse=True)

    print("\n--- 5 лучших ЧАНКОВ (по оценке Cross-encoder'а): ---")
    for i in range(5):
        item = reranked_data[i]
        print(f"Место #{i+1} (Чанк): web_id={item['web_id']}, Оценка={item['score']:.4f}")
        print(f"  Текст: '{item['text'][:250]}...'\n")

    web_id_scores = {}
    for item in reranked_data:
        if item['web_id'] not in web_id_scores:
            web_id_scores[item['web_id']] = 0.0
        web_id_scores[item['web_id']] += item['score']
        
    sorted_web_ids = sorted(web_id_scores.items(), key=lambda item: item[1], reverse=True)
    
    print(f"\n--- {k} лучших web_id (по сумме оценок): ---")
    
    for i in range(k):
        web_id, total_score = sorted_web_ids[i]
        print(f"Место #{i+1} (Документ): web_id = {web_id} (Сумма оценок: {total_score:.4f})")


check_my_question_RERANKED("Как получить кредитную карту?", k=5)


In [10]:
print(questions)

      q_id                                              query
0        1                                        Номер счета
1        2                              Где узнать бик и счёт
2        3  Мне не приходят коды для подтверждения данной ...
3        4  Оформила рассрочку ,но уведомлений никаких не ...
4        5  Здравствуйте, когда смогу пользоваться кредитн...
...    ...                                                ...
6972  6973  Здравствуйте, оплатил вчера ЖКХ а кэшбек не на...
6973  6974  Здравствуйте,  можно ли заказать реквизиты бан...
6974  6975  Здравствуйте, подскажите пожалуйста где я могу...
6975  6976                  Реквизиты для оплаты номера карты
6976  6977  Можно ли отключить автопополнение брокерского ...

[6977 rows x 2 columns]
