In [21]:
import pandas as pd

try:
    questions = pd.read_csv('questions_clean.csv')
    websites = pd.read_csv('websites.csv')
    sample_submission = pd.read_csv('sample_submission.csv')
    print("Вопросы:")
    print(questions.head())
    print("\nБаза знаний (сайты):")
    print(websites.head())
    
except FileNotFoundError:
    print("Ошибка: Убедитесь, что файлы Questions.csv и Websites.csv находятся в той же папке.")

Вопросы:
   q_id                                              query
0     1                                        Номер счета
1     2                              Где узнать бик и счёт
2     3  Мне не приходят коды для подтверждения данной ...
3     4  Оформила рассрочку ,но уведомлений никаких не ...
4     5  Здравствуйте, когда смогу пользоваться кредитн...

База знаний (сайты):
   web_id                                   url  kind  \
0       1                  https://alfabank.ru/  html   
1       2           https://alfabank.ru/a-club/  html   
2       3  https://alfabank.ru/a-club/ultimate/  html   
3       4    https://alfabank.ru/actions/rules/  html   
4       5       https://alfabank.ru/alfafuture/  html   

                                               title  \
0  Альфа-Банк - кредитные и дебетовые карты, кред...   
1                      А-Клуб. Деньги имеют значение   
2                      А-Клуб. Деньги имеют значение   
3                                   Скидки по ка

In [29]:
questions['query'].sample()

4629    Здравствуйте, как поменять счёт на инвескопилке?
Name: query, dtype: object

In [33]:
sample_submission[sample_submission['q_id'] == 1014].sample()

Unnamed: 0,q_id,web_list
1013,1014,"[394, 1223, 1270, 1929, 403]"


In [35]:
questions[questions['q_id'] == 1014]['query'].sample()

1013    Здравствуйте, подскажите, сколько в день % нач...
Name: query, dtype: object

In [36]:
websites[websites['web_id'] == 394].sample()

Unnamed: 0,web_id,url,kind,title,text
393,394,https://alfabank.ru/help/articles/sme/start/ot...,html,Предпринимательство без регистрации: штрафы и ...,Альфа-Банк\nПолезное о продуктах\nРассказываем...


In [37]:
from sentence_transformers import SentenceTransformer

# 1. Загружаем модель
# 'paraphrase-multilingual-MiniLM-L12-v2' - хорошая, быстрая модель
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2') 

# 2. Векторизуем базу знаний (сайты)
# Убедимся, что нет пропусков (NaN), иначе эмбеддер выдаст ошибку
websites['text'] = websites['text'].fillna('') 

print("Начинаем векторизацию корпуса (сайтов)... Это может занять время.")
# .tolist() - передаем список текстов
corpus_embeddings = model.encode(
    websites['text'].tolist(), 
    show_progress_bar=True
)

# 3. Векторизуем вопросы
questions['query'] = questions['query'].fillna('')

print("Начинаем векторизацию вопросов...")
query_embeddings = model.encode(
    questions['query'].tolist(), 
    show_progress_bar=True
)

print(f"Форма эмбеддингов корпуса: {corpus_embeddings.shape}")
print(f"Форма эмбеддингов вопросов: {query_embeddings.shape}")

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Начинаем векторизацию корпуса (сайтов)... Это может занять время.


Batches:   0%|          | 0/61 [00:00<?, ?it/s]

Начинаем векторизацию вопросов...


Batches:   0%|          | 0/219 [00:00<?, ?it/s]

Форма эмбеддингов корпуса: (1937, 384)
Форма эмбеддингов вопросов: (6977, 384)


In [38]:
import faiss
import numpy as np

# 1. Приводим эмбеддинги к формату float32, с которым работает faiss
corpus_embeddings = corpus_embeddings.astype('float32')
query_embeddings = query_embeddings.astype('float32')

# 2. Нормализуем векторы (это нужно для косинусного сходства)
faiss.normalize_L2(corpus_embeddings)
faiss.normalize_L2(query_embeddings)

# 3. Создаем индекс
d = corpus_embeddings.shape[1]  # Размерность векторов (у этой модели 384)
index = faiss.IndexFlatIP(d)    # IndexFlatIP = Inner Product (Скалярное произведение)
                                # Для L2-нормализованных векторов это = косинусному сходству

# 4. Добавляем наши векторы из websites.csv в индекс
index.add(corpus_embeddings)

print(f"Индекс создан. Всего векторов в базе: {index.ntotal}")

Индекс создан. Всего векторов в базе: 1937


In [39]:
k = 5  # Нам нужно топ-5 документов 

# D - расстояния (в нашем случае - косинусное сходство)
# I - индексы (порядковые номера) документов из websites.csv
D, I = index.search(query_embeddings, k)

# I - это 2D-массив, где I[i] - это список из 5 индексов (позиций)
# из websites.csv для i-го вопроса.
print(f"Форма массива индексов: {I.shape}") # (количество_вопросов, 5)

# Посмотрим на результат для первого вопроса:
print(f"\nТоп-5 индексов (позиций) для первого вопроса: {I[0]}")
# Посмотрим на их 'web_id'
top_5_web_ids_example = websites.loc[I[0], 'web_id'].values
print(f"Этим индексам соответствуют web_id: {top_5_web_ids_example}")

Форма массива индексов: (6977, 5)

Топ-5 индексов (позиций) для первого вопроса: [1158 1566 1156 1761 1757]
Этим индексам соответствуют web_id: [1159 1567 1157 1762 1758]


In [40]:
# I - это массив индексов из `websites`, который вернул faiss (размер N_вопросов x 5)
# Получаем массив `web_id` из `websites`
web_ids_array = websites['web_id'].values

# Получаем массив `q_id` из `questions`
q_ids_array = questions['q_id'].values

results_list = []

# Итерируемся по результатам поиска
for i in range(len(q_ids_array)):
    q_id = q_ids_array[i]
    # I[i] - это список из 5 *индексов* (позиций)
    for idx in I[i]:
        # Находим web_id по этому индексу (позиции)
        found_web_id = web_ids_array[idx]
        results_list.append({'q_id': q_id, 'web_id': found_web_id})

# Создаем финальный DataFrame
submit_df = pd.DataFrame(results_list)

# Сохраняем в CSV
submit_df.to_csv('submit.csv', index=False)

print("\nФайл submit.csv успешно создан!")
print(submit_df.head(10)) # Посмотрим на первые 10 строк


Файл submit.csv успешно создан!
   q_id  web_id
0     1    1159
1     1    1567
2     1    1157
3     1    1762
4     1    1758
5     2     861
6     2      25
7     2    1567
8     2     468
9     2    1517
