# 1. Information Retrieval + Ranking

Sberquad as corpus (db)

\+ easy to implement

\- limited by knowledge base of corpus


In [None]:
!pip install spacy
!python -m spacy download ru_core_news_sm
!pip install -U scikit-learn

In [1]:
import spacy

nlp = spacy.load('ru_core_news_sm')

def preprocess_text(text):
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc if not token.is_stop]
    return ' '.join(tokens)

question = "Население Москвы составляет 12 миллионов человек. Какое население Москвы?"
preprocessed_question = preprocess_text(question)

In [None]:
corpus = [
    "Население Москвы составляет 12 миллионов человек.",
    "Париж — столица Франции.",
    "Нью-Йорк — крупнейший город в США."
]

Using TF-IDF

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

def retrieve_best_match(question, vectorizer, X):
    query_vector = vectorizer.transform([question])
    similarities = cosine_similarity(query_vector, X)
    best_match_idx = similarities.argmax()
    return corpus[best_match_idx]

answer = retrieve_best_match(preprocessed_question, vectorizer, X)
print(answer)

Население Москвы составляет 12 миллионов человек.


# 2. Information Retrieval + RAG

The same as previous, but storing corpus in vector db.

# 3. Encoder-decoder model

Sbequad as train dataset for model

\+ allows model to learn to find answer, not to take existing answer from somewhere

\- inference time?

In [3]:
!pip install transformers
!pip install datasets transformers[sentencepiece]
!pip install sentencepiece
!pip install torch --index-url https://download.pytorch.org/whl/cu124

Looking in indexes: https://download.pytorch.org/whl/cu124


In [1]:
from transformers import T5ForConditionalGeneration, T5Tokenizer

model_name = "t5-base"  # "t5-small" или "t5-large"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

  from .autonotebook import tqdm as notebook_tqdm
You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [7]:
input_text = "question: Какое население Москвы? context: Население Москвы составляет 12 миллионов человек. "

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**inputs, max_length=50)

answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Ответ:", answer)

Ответ: 12 миллионов еловек


In [8]:
input_text = "question: Какие мандарины я люблю? context: Я люблю зеленые мандарины. "

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**inputs, max_length=50)

answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Ответ:", answer)

Ответ: елене


In [9]:
input_text = "context: Я люблю зеленые мандарины. question: Какие мандарины я люблю?"

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**inputs, max_length=50)

answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Ответ:", answer)

Ответ: елене мандарин


In [10]:
input_text = "Какие мандарины я люблю? Я люблю зеленые мандарины."

inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(**inputs, max_length=50)

answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Ответ:", answer)

Ответ: лл елене мандарин  лл?  лл елене мандарин


Окей, оно работает не плохо, кода мы не определяем context и question в запросе, и когда переставляем вопрос и ответ. Так что для начала я попробую затюнить модель на данных без определения вопроса и ответа, если модель будет работать не очень, я попробую затюнить модель на данных с разделением вопроса и ответа.

In [None]:
from transformers import Trainer, TrainingArguments

# Загружаем данные (например, SberQUAD)
train_data = [...]  # Здесь будет загрузка вашего датасета

# Аргументы для обучения
training_args = TrainingArguments(
    output_dir="./results",
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    num_train_epochs=3,
    evaluation_strategy="steps",
    save_steps=500,
    save_total_limit=2,
)

# Trainer для обучения
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_data,
    eval_dataset=eval_data,
)

# Запуск обучения
trainer.train()


# 4. Start/end token search

\- требуется разделение входного текста на вопрос и контекст

Можно использовать языковые модели для более точного разделения вопроса и контекста, особенно если структура текста неочевидна или разнообразна. Например, вы можете применить модель **NER (Named Entity Recognition)** или классификацию предложений, чтобы автоматически определять, что является вопросом, а что контекстом.

Пример с использованием модели BERT для классификации:
Обучение или использование готовой модели: можно обучить модель, которая будет классифицировать, является ли предложение вопросом или частью контекста. Для этого можно использовать библиотеки, такие как **transformers или spacy**.

Использование NER для идентификации вопросительных предложений: Если у вас есть модели или паттерны, которые распознают вопросительные предложения, вы можете их использовать для разделения.

? что если вопрос и контекст в одном предложении?

In [None]:
!pip install transformers



In [None]:
from transformers import BertTokenizer, BertForQuestionAnswering
import torch

# Загрузка предобученной модели и токенизатора
tokenizer = BertTokenizer.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')
model = BertForQuestionAnswering.from_pretrained('bert-large-uncased-whole-word-masking-finetuned-squad')

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

config.json:   0%|          | 0.00/443 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

Some weights of the model checkpoint at bert-large-uncased-whole-word-masking-finetuned-squad were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [None]:
question = "Какое население Москвы?"
context = "Население Москвы составляет 12 миллионов человек."

# Токенизация вопроса и контекста
inputs = tokenizer(question, context, return_tensors="pt")

In [None]:
with torch.no_grad():
    outputs = model(**inputs)

# Индексы начального и конечного токенов
start_scores = outputs.start_logits
end_scores = outputs.end_logits

start_index = torch.argmax(start_scores)
end_index = torch.argmax(end_scores)

In [None]:
# Извлечение токенов ответа
tokens = inputs['input_ids'][0][start_index:end_index+1]

# Преобразование токенов обратно в текст
answer = tokenizer.decode(tokens)
print(f"Ответ: {answer}")

Ответ: составляет 12 миллионов человек


# Вывод

1. пробую encoder-decoder:
  - без разделения входного текста
  - с разделением текста на вопрос и контекст

2. start/end token search (с разделением текста на вопрос и контекст)