# Создание простой RAG системы

Я реализую простую RAG систему как чат с электронным психологом. То есть за данные берем известные книги по психологии

## Шаг 1: Препроцессинг данных и создание эмбедингов
План:
1. Импорт pdf файлов
2. Препроцессинг текста для эмбедингов (разделение на чанки)
3. Эмбендинг чанков текста с помощью эмбендинговой модели
4. Сохранение эмбендингов в файл

## 1. Импорт pdf файлов

In [1]:
import os
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"  # Снижает фрагментацию VRAM

In [2]:
import os
import requests

pdf_path = 'psichology books/'
books = ['Allana-Piza-YAzyk-telodvizhenij', 'Eric-Berne-games-that-people-play', 'Goleman-D.-Emotional-Intelligence.-Why-it-may-be-more-important-than-IQ', 'Gurina-Koshenova-Rabota-psikhologa-s_detskoi', 'Psihology-Aykido', 'Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauchitsya-ubezhdat-y-dobivatsya-uspeha']

for book in books:
    if os.path.exists(pdf_path + book + '.pdf'):
        print(f'[INFO] File exists. Skipping {book}...')
    else:
        print(f'[INFO] {book} is not found')



[INFO] File exists. Skipping Allana-Piza-YAzyk-telodvizhenij...
[INFO] File exists. Skipping Eric-Berne-games-that-people-play...
[INFO] File exists. Skipping Goleman-D.-Emotional-Intelligence.-Why-it-may-be-more-important-than-IQ...
[INFO] File exists. Skipping Gurina-Koshenova-Rabota-psikhologa-s_detskoi...
[INFO] File exists. Skipping Psihology-Aykido...
[INFO] File exists. Skipping Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauchitsya-ubezhdat-y-dobivatsya-uspeha...


In [3]:
 #\xa0

In [4]:
import fitz
from tqdm.auto import tqdm

def text_formatter(text : str) -> str:
    """Performs basic text formatting."""
    cleaned_text = text.replace("\n", " ").strip()
    return cleaned_text

def open_and_read_pdf(file_path: str) -> list[str]:
    doc = fitz.open(file_path)
    pages_and_texts = []
    for page_num, page in tqdm(enumerate(doc)):
        text = page.get_text("text")
        text = text_formatter(text=text)
        if "Goleman" in file_path:
            text = text.replace("\xa0", " ")
        pages_and_texts.append({"book": file_path[17:-4], "page_num": page_num, "page_char_count": len(text), "page_word_count": len(text.split()), "page_token_count": len(text)/4, "text": text})
    return  pages_and_texts

texts = []
for book in books:
    texts.extend(open_and_read_pdf(pdf_path + book + '.pdf'))
len(texts)

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

1748

In [5]:
# Дополнительный препроцессинг текста

import re
from nltk import sent_tokenize  # Assuming NLTK is available or can be used; if not, implement custom sentence splitter

# Additional preprocessing steps:
# 1. Hyphen removal for word breaks: Merge words split by hyphens across lines, e.g., "паци- ентам" -> "пациентам". This uses regex to find patterns like "word- " followed by another word and joins them without the hyphen.
# 2. Multiple spaces normalization: Replace multiple whitespace characters with a single space to clean up extra gaps.
# 3. Remove special annotations: Strip out common footnote markers like "— Примеч. пер." using regex patterns for known formats.
# 4. Sentence tokenization: Split the cleaned text into individual sentences using NLTK's sent_tokenize, which handles Russian punctuation reasonably well. If NLTK isn't available, a custom regex-based splitter is provided as fallback.
# 5. Lowercase normalization (optional): Convert text to lowercase for consistency, but can be skipped if case sensitivity is needed.
# 6. Trim leading/trailing punctuation: Remove any leading or trailing non-alphabetic characters from sentences if they don't belong.

def advanced_text_formatter(text: str) -> str:
    """Enhanced text formatting beyond basic."""
    # Step 1: Remove hyphens from word breaks
    text = re.sub(r'(\w+)-\s+(\w+)', r'\1\2', text)
    
    # Step 2: Normalize multiple spaces
    text = re.sub(r'\s+', ' ', text)
    
    # Step 3: Remove specific annotations like footnotes
    text = re.sub(r'—\s*Примеч\.\s*пер\.\s*', '', text)  # Target "— Примеч. пер."
    text = re.sub(r'\(\s*\d+\s*\)\.', '', text)  # Remove numbered lists like "(1).", "(2)." etc.
    
    # Step 4: Optional lowercase
    # text = text.lower()  # Uncomment if needed
    
    return text.strip()

# Fallback sentence splitter if NLTK not available
def custom_sent_tokenize(text: str) -> list[str]:
    """Custom regex-based sentence tokenizer for Russian text."""
    sentence_end = re.compile(r'(?<!\w\.\w.)(?<![A-ZА-Я][a-zа-я]\.)(?<=\.|\\?|\\!|\…)\s')
    sentences = sentence_end.split(text)
    return [s.strip() for s in sentences if s.strip()]

# Apply advanced formatting to existing texts
for item in texts:
    item['text'] = advanced_text_formatter(item['text'])

# Now split into sentences
sentences = []
for item in texts:
    # Use NLTK if available
    try:
        page_sentences = sent_tokenize(item['text'], language='russian')
    except:
        page_sentences = custom_sent_tokenize(item['text'])
    
    for sent in page_sentences:
        # Step 6: Trim leading/trailing punctuation if unnecessary
        sent = re.sub(r'^[^\w]+', '', sent)  # Remove leading non-word chars
        sent = re.sub(r'[^\w]+$', '', sent)  # Remove trailing non-word chars
        
        sentences.append({
            "book": item['book'],
            "page_num": item['page_num'],
            "sentence": sent,
            "sent_char_count": len(sent),
            "sent_word_count": len(sent.split()),
            "sent_token_count": len(sent) / 4
        })

print(f"Total sentences extracted: {len(sentences)}")

# Optionally, save to file or further process
import json
with open('processed_sentences.json', 'w', encoding='utf-8') as f:
    json.dump(sentences, f, ensure_ascii=False, indent=4)

Total sentences extracted: 27035


In [6]:
texts[700]['text']

'Психика и медицина 281 Глава 11 Психика и медицина «Кто научил вас этому всему, доктор?» Ответ последовал незамедлительно: «Страдание». Альбер Камю . Чума Непонятная тупая боль в паху погнала меня в больницу. Осмотр не выявил ничего необычного, пока врач не увидел результаты анализа мочи: в ней были обнаружены следы крови. — Я хочу, чтобы вы легли в больницу и прошли коекакие исследования. Надо проверить работу почек, сделать цитологию… — сказал он деловым тоном. Не помню, что он говорил дальше. Мое сознание, казалось, застыло на слове «цитология». Рак. У меня осталось смутное воспоминание, что он объяснял, где и когда я должен пройти диагностику. Простейшие указания, но даже их пришлось просить несколько раз повторить. «Цитология…» — мой ум не желал расставаться с этим словом. Оно вызвало у меня такое чувство, будто меня сзади схватили за горло и грабят на пороге собственного дома.'

In [7]:
import pandas as pd

df = pd.DataFrame(texts)
df.head()


Unnamed: 0,book,page_num,page_char_count,page_word_count,page_token_count,text
0,Allana-Piza-YAzyk-telodvizhenij,0,0,0,0.0,
1,Allana-Piza-YAzyk-telodvizhenij,1,1378,182,344.5,Annotation Книга Аллана Пиза «Язык телодвижени...
2,Allana-Piza-YAzyk-telodvizhenij,2,1021,138,255.25,Различие Пространственных Зон у Горожан и Жите...
3,Allana-Piza-YAzyk-telodvizhenij,3,1052,142,263.0,"Жест Скрещивание Рук, Усиленное Сжатием Пальце..."
4,Allana-Piza-YAzyk-telodvizhenij,4,902,112,225.5,"Жесты, Используемые Мужчинами при Ухаживании Ж..."


In [8]:
df.describe().round(2)

Unnamed: 0,page_num,page_char_count,page_word_count,page_token_count
count,1748.0,1748.0,1748.0,1748.0
mean,187.05,1719.6,239.63,429.9
std,135.44,618.48,93.74,154.62
min,0.0,0.0,0.0,0.0
25%,74.0,1514.25,211.0,378.56
50%,161.0,1939.0,264.0,484.75
75%,275.0,2102.0,288.0,525.5
max,544.0,3273.0,1386.0,818.25


In [9]:
from spacy.lang.ru import Russian
nlp = Russian()

nlp.add_pipe("sentencizer")

doc = nlp('Это первое предложение. Это второе предложение! А это третье предложение?')
assert len(list(doc.sents)) == 3

list(doc.sents)

[Это первое предложение., Это второе предложение!, А это третье предложение?]

In [10]:
for item in tqdm(texts):
    item['sentences'] = list(nlp(item['text']).sents)

    item['sentences'] = [str(sent) for sent in item['sentences']]

    item['page_sentence_count_spacy'] = len(item['sentences'])

  0%|          | 0/1748 [00:00<?, ?it/s]

In [11]:
import random
random.sample(texts, k=1)

[{'book': 'Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauchitsya-ubezhdat-y-dobivatsya-uspeha',
  'page_num': 75,
  'page_char_count': 2009,
  'page_word_count': 256,
  'page_token_count': 502.25,
  'text': 'мощи тактики «большеезатемменьшее требование». Порази \u200b- тельными являются два других вывода. Ответственность. По мнению этих людей, им удалось повлиять на оппонента и заставить его оставить им больше денег. Однако мы знаем, что от испытуемых практически ничего не зависело. Экспериментатор дал указание оппоненту постепенно отступать от своего первоначального требования независимо от того, что делал испытуемый. Но испытуемым казалось, что это они заставили оппонента изменить позицию и вынудили его пойти на уступки. В результате испытуемые начинали чувствовать себя более ответственными за конечный исход переговоров. Не требуется больших усилий, чтобы понять, почему методика «отказзатемотступление» заставляет тех, на кого она нацелена, выполнять условия договоров. Уступка требующе

In [12]:
data = pd.DataFrame(texts)
data.describe().round(2)


Unnamed: 0,page_num,page_char_count,page_word_count,page_token_count,page_sentence_count_spacy
count,1748.0,1748.0,1748.0,1748.0,1748.0
mean,187.05,1719.6,239.63,429.9,14.68
std,135.44,618.48,93.74,154.62,8.53
min,0.0,0.0,0.0,0.0,0.0
25%,74.0,1514.25,211.0,378.56,10.0
50%,161.0,1939.0,264.0,484.75,14.0
75%,275.0,2102.0,288.0,525.5,18.0
max,544.0,3273.0,1386.0,818.25,73.0


In [13]:
# chunking with spacy sentences (1 chunk = ?10? sentences). 

num_sentences_per_chunk = 10

def split_list(input_list: list[str], slice_size: int=num_sentences_per_chunk) -> list[list[str]]:
    return [input_list[i:i + slice_size] for i in range(0, len(input_list), slice_size)]

test_list = list(range(25))
split_list(test_list)

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
 [20, 21, 22, 23, 24]]

In [14]:
import re


all_sentences = []
for item in tqdm(texts):
    for sent in item['sentences']:
        all_sentences.append({
            "sentence": str(sent),
            "book": item['book'],
            "page_num": item['page_num']
        })


sentence_chunks = split_list(all_sentences, slice_size=num_sentences_per_chunk)


pages_and_chunks = []
for chunk in tqdm(sentence_chunks):
    chunk_dict = {}
    chunk_dict['book'] = chunk[0]['book']
    chunk_dict['page_num'] = chunk[0]['page_num']
    
    # Join the sentences in the chunk
    joined_sentence_chunk = " ".join([item['sentence'] for item in chunk]).replace("  ", " ").strip()
    joined_sentence_chunk = re.sub(r'\.([A-Z])', r'. \1', joined_sentence_chunk)
    chunk_dict['sentence_text'] = joined_sentence_chunk
    
    # Recalculate stats for the new chunk
    chunk_dict['chunk_char_count'] = len(joined_sentence_chunk)
    chunk_dict['chunk_word_count'] = len(joined_sentence_chunk.split(" "))
    chunk_dict['chunk_token_count'] = len(joined_sentence_chunk) / 4
    
    pages_and_chunks.append(chunk_dict)

len(pages_and_chunks)

  0%|          | 0/1748 [00:00<?, ?it/s]

  0%|          | 0/2566 [00:00<?, ?it/s]

2566

In [15]:
random.sample(texts, k=1)

[{'book': 'Allana-Piza-YAzyk-telodvizhenij',
  'page_num': 237,
  'page_char_count': 2114,
  'page_word_count': 304,
  'page_token_count': 528.5,
  'text': 'Продуманная Расстановка Мебели в Кабинете Прочитав эту книгу, вы сможете теперь так обставить свой кабинет и расставить в нем мебель таким образом, чтобы иметь столько власти, статуса и возможности контролировать ситуацию, сколько вы пожелаете. Приведем пример, в котором рассказывается, как мы переделали кабинет одного босса и тем самым помогли ему решить некоторые проблемы во взаимоотношениях с подчиненными. Джон, рядовой служащий страховой компании, получил назначение на должность руководителя компании и свой отдельный кабинет. Через несколько месяцев работы в этой должности он заметил, что его подчиненные относятся к нему с неприязнью, и их отношение становится особенно враждебным, когда они общаются с ним в его кабинете. Они отказывались подчиняться его указаниям и руководству, он узнал, что они сплетничают о нем за его спиной.

In [16]:
df = pd.DataFrame(texts)
df.describe().round(2)

Unnamed: 0,page_num,page_char_count,page_word_count,page_token_count,page_sentence_count_spacy
count,1748.0,1748.0,1748.0,1748.0,1748.0
mean,187.05,1719.6,239.63,429.9,14.68
std,135.44,618.48,93.74,154.62,8.53
min,0.0,0.0,0.0,0.0,0.0
25%,74.0,1514.25,211.0,378.56,10.0
50%,161.0,1939.0,264.0,484.75,14.0
75%,275.0,2102.0,288.0,525.5,18.0
max,544.0,3273.0,1386.0,818.25,73.0


In [17]:
import re
from tqdm.auto import tqdm

num_sentences_per_chunk = 10
def split_list(input_list: list, slice_size: int = num_sentences_per_chunk) -> list[list]:
    return [input_list[i:i + slice_size] for i in range(0, len(input_list), slice_size)]

for item in tqdm(texts):
    if 'sentences' in item:
        item['sentence_chunks'] = split_list(item['sentences'])
        item['num_chunks'] = len(item['sentence_chunks'])

pages_and_chunks = []
for item in tqdm(texts):
    if 'sentence_chunks' in item:
        for sentence_chunk in item['sentence_chunks']:
            chunk_dict = {}
            chunk_dict['book'] = item['book']
            chunk_dict['page_num'] = item['page_num']
            joined_sentence_chunk = ' '.join(map(str, sentence_chunk)).replace("  ", " ").strip()
            joined_sentence_chunk = re.sub(r'\.([A-Z])', r'. \1', joined_sentence_chunk)
            chunk_dict['sentence_text'] = joined_sentence_chunk
            
            chunk_dict['chunk_char_count'] = len(joined_sentence_chunk)
            chunk_dict['chunk_word_count'] = len(joined_sentence_chunk.split(" "))
            chunk_dict['chunk_token_count'] = len(joined_sentence_chunk)/4

            pages_and_chunks.append(chunk_dict)

len(pages_and_chunks)

  0%|          | 0/1748 [00:00<?, ?it/s]

  0%|          | 0/1748 [00:00<?, ?it/s]

3427

In [18]:
random.sample(pages_and_chunks, k=1)

[{'book': 'Eric-Berne-games-that-people-play',
  'page_num': 124,
  'sentence_text': 'Ирония нашего вступительного описания направлена не против пациентов, а против их учителей и культурной среды, поощряющей подобную сверхутончённость. Скептическое замечание, сделанное в надлежащий момент, может успешно избавить таких пациентов от влияния Родительского фатовства и привести их к более здоровому, менее эгоцентрическому способу общения. Вместо культивирования чувств в чём-то вроде парника они дадут им расти естественным образом и соберут урожай, когда они созреют. Самое очевидное преимущество этой игры — внешнее психологическое, поскольку в ней избегают близости, устанавливая специальные условия выражения чувств и специальные ограничения на реакции присутствующих. 2. Я только стараюсь вам помочь Тезис. Эта игра может разыгрываться в любой профессиональной ситуации, а не только у психотерапевтов и в благотворительных учреждениях. Но чаще всего и в наиболее развитой форме она',
  'chunk_cha

In [19]:
df = pd.DataFrame(texts)
df.describe().round(2)

Unnamed: 0,page_num,page_char_count,page_word_count,page_token_count,page_sentence_count_spacy,num_chunks
count,1748.0,1748.0,1748.0,1748.0,1748.0,1748.0
mean,187.05,1719.6,239.63,429.9,14.68,1.96
std,135.44,618.48,93.74,154.62,8.53,0.88
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,74.0,1514.25,211.0,378.56,10.0,1.0
50%,161.0,1939.0,264.0,484.75,14.0,2.0
75%,275.0,2102.0,288.0,525.5,18.0,2.0
max,544.0,3273.0,1386.0,818.25,73.0,8.0


In [20]:
df = pd.DataFrame(pages_and_chunks)
df.describe().round(2)

Unnamed: 0,page_num,chunk_char_count,chunk_word_count,chunk_token_count
count,3427.0,3427.0,3427.0,3427.0
mean,191.52,862.12,118.67,215.53
std,142.89,505.03,67.04,126.26
min,0.0,2.0,1.0,0.5
25%,70.5,453.0,63.0,113.25
50%,159.0,806.0,114.0,201.5
75%,286.0,1260.0,173.0,315.0
max,543.0,2214.0,293.0,553.5


In [21]:
min_token_length = 30
for row in df[df['chunk_token_count'] <= min_token_length].sample(5).iterrows():

    print(f'Chunk token count: {row[1]["chunk_token_count"]} | Text: {row[1]["sentence_text"]}')

Chunk token count: 5.25 | Text: Прим. Л. П. Петровой.
Chunk token count: 2.5 | Text: Прим. ред.
Chunk token count: 19.25 | Text: Экзистенциальное: Все хотят причинить мне вред. 1Похваляющийся пороком (фр.).
Chunk token count: 15.25 | Text: Для их разрушения требуется много усилий, специальные приемы.
Chunk token count: 8.75 | Text: Приведу типичный пример из дневника


In [22]:
pages_and_chunks_over_min_token_len = df[df['chunk_token_count'] > min_token_length].to_dict(orient='records')
pages_and_chunks_over_min_token_len[20:25]

[{'book': 'Allana-Piza-YAzyk-telodvizhenij',
  'page_num': 17,
  'sentence_text': 'Конгруэнтность — Совпадение Слов и Жестов Если бы вы были собеседником человека, показанного на рис. 4, и попросили его выразить свое мнение относительно того, что вы только что сказали, на что он бы ответил, что с вами не согласен, то его невербальные сигналы были бы конгруэнтными, т.е. соответ-ствовали бы его словесным высказываниям. Если же он скажет, что ему очень нравится все, что вы говорите, он будет лгать, потому что его слова и жесты будут не конгруэнтными. Исследования доказывают, что невербальные сигналы несут в 5 раз больше информации, чем вербальные, и в случае, если сигналы не — конгруэнтны, люди полагаются на невербальную информацию, предпочитая ее словесной. Часто можно наблюдать, как какой-нибудь политик стоит на трибуне, крепко скрестив руки на груди ( защитная поза ) с опущенным подбородком ( критическая или враждебная поза), и говорит аудитории о том, как восприимчиво и дружелюбно он 

In [23]:
random.sample(pages_and_chunks_over_min_token_len, k=1)

[{'book': 'Goleman-D.-Emotional-Intelligence.-Why-it-may-be-more-important-than-IQ',
  'page_num': 403,
  'sentence_text': '404 Эмоциональная грамотность У трех из четырех детей, страдавших настолько серьезной депрессией, что их направляли на лечение, впоследствии случался более тяжелый приступ, согласно данным, собранным Марией Ковач, психологом из Западного психиатрического института и клиники Университета Питтсбурга27. Ковач изучала детей с диагнозом «депрессия» с восьмилетнего возраста, оценивая их состояние каждые несколько лет, пока им не исполнилось 24 года. У детей, страдавших серьезной депрессией, приступы длились в среднем около 11 месяцев, хотя у одного из шести она не проходила по 18 месяцев. Депрессия в легкой форме, начинавшаяся у некоторых уже в пять лет, мучила меньше, но тянулась гораздо дольше, в среднем около четырех лет. Как обнаружила Ковач, у детей с незначительным депрессивным синдромом гораздо выше вероятность его усиления и перехода в серьезную — так называемую

## Эмбендинг

In [24]:
import requests

model_id = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2" #hugging face model
hf_token = "get your token in http://hf.co/settings/tokens"

from sentence_transformers import SentenceTransformer
embedding_model = SentenceTransformer(model_name_or_path=model_id, device='cpu')

sentences = ["Своевременное управление своими эмоциями помогает человеку лучше адаптироваться в обществе и достигать успехов в различных сферах жизни.", 
             "Эмоциональный интеллект включает в себя способность распознавать, понимать и управлять своими эмоциями, а также эмоциями других людей.",
             "Мне нравятся лошади"]

embeddings = embedding_model.encode(sentences)
embeddings_dictionary = dict(zip(sentences, embeddings))

for sentence, embedding in embeddings_dictionary.items():
    print(f'Sentence: {sentence}\\nEmbedding: {embedding[:5]}\\n')

Sentence: Своевременное управление своими эмоциями помогает человеку лучше адаптироваться в обществе и достигать успехов в различных сферах жизни.\nEmbedding: [ 0.09367367  0.06438737  0.15397336  0.2767258  -0.28899652]\n
Sentence: Эмоциональный интеллект включает в себя способность распознавать, понимать и управлять своими эмоциями, а также эмоциями других людей.\nEmbedding: [-0.18342027 -0.0097036   0.11679666  0.56001997 -0.31229797]\n
Sentence: Мне нравятся лошади\nEmbedding: [ 0.09567399  0.13053125  0.00370113  0.27585265 -0.23311624]\n


In [25]:
embeddings[0].shape

(384,)

%%time

embedding_model.to('cpu')

for item in tqdm(pages_and_chunks_over_min_token_len):
    item['embedding'] = embedding_model.encode(item['sentence_text'])

In [26]:
%%time

embedding_model.to('cuda')

for item in tqdm(pages_and_chunks_over_min_token_len):
    item['embedding'] = embedding_model.encode(item['sentence_text'])

  return t.to(


  0%|          | 0/3245 [00:00<?, ?it/s]

CPU times: total: 37.2 s
Wall time: 36.1 s


In [27]:
%%time
embedding_model.to('cuda')

text_chunks = [item["sentence_text"] for item in pages_and_chunks_over_min_token_len]
text_chunks[419]

CPU times: total: 0 ns
Wall time: 2 ms


'Глава 5. Игры 55 B. Наконец, игра третьей степени — это игра безудержная; доведённая до конца, она завершается в больнице, в суде или морге. Игры можно классифицировать также и по другим специфическим признакам, указанным при анализе ВИТ: по целям, ролям, наиболее очевидным преимуществам. Для систематической научной классификации наиболее подходящей может оказаться, вероятно, экзистенциальная точка зрения; но поскольку этот фактор ещё недостаточно изучен, такую классификацию придётся отложить на будущее. За неимением её, в настоящее время самой удобной классификацией представляется социологическая, которой мы и будем придерживаться в следующей части. Примечания Необходимо отметить заслуги Стивена Поттера с его чутким, пронизанным юмором анализом манёвров или “проделок” в повседневных жизненных ситуациях [2], и Дж. Г. Мида, пионера в исследовании общественной роли игр [3]. Игры, ведущие к психиатрическим расстройствам, систематически изучались на Сан-Францисских семинарах по социальной

In [28]:
len(text_chunks)

3245

In [29]:
%%time

text_chunk_embeddings = embedding_model.encode(text_chunks, batch_size=32, convert_to_tensor=True)

text_chunk_embeddings

CPU times: total: 8.44 s
Wall time: 2.91 s


tensor([[-0.0269, -0.2128, -0.1893,  ...,  0.1641, -0.1914,  0.0047],
        [ 0.0649,  0.0589,  0.1032,  ...,  0.0837, -0.1090,  0.0020],
        [-0.0734,  0.0245,  0.1093,  ...,  0.0689, -0.0012,  0.3155],
        ...,
        [-0.0400, -0.0541, -0.0252,  ...,  0.0221,  0.0211,  0.0897],
        [-0.0159, -0.0377, -0.2868,  ...,  0.1625, -0.0704,  0.1459],
        [-0.0337,  0.0736, -0.1271,  ...,  0.1303, -0.0517,  0.1671]],
       device='cuda:0')

## Сохранение эмбеддингов в файл

In [30]:
text_chunks_and_embeddings_df = pd.DataFrame(pages_and_chunks_over_min_token_len)
embeddings_df_save_path = 'text_chunks_and_embeddings_df.csv'
text_chunks_and_embeddings_df.to_csv(embeddings_df_save_path, index=False)

In [31]:
embeddings_df_save_path = 'text_chunks_and_embeddings_df.csv'
text_chunks_and_embeddings_df = pd.read_csv(embeddings_df_save_path)
text_chunks_and_embeddings_df.head()

Unnamed: 0,book,page_num,sentence_text,chunk_char_count,chunk_word_count,chunk_token_count,embedding
0,Allana-Piza-YAzyk-telodvizhenij,1,Annotation Книга Аллана Пиза «Язык телодвижени...,1377,183,344.25,[-0.02687061 -0.212832 -0.18931839 -0.023208...
1,Allana-Piza-YAzyk-telodvizhenij,2,Различие Пространственных Зон у Горожан и Жите...,1021,138,255.25,[ 0.06494357 0.05886629 0.10323059 -0.055009...
2,Allana-Piza-YAzyk-telodvizhenij,3,"Жест Скрещивание Рук, Усиленное Сжатием Пальце...",1052,142,263.0,[-7.34471381e-02 2.44905725e-02 1.09274082e-...
3,Allana-Piza-YAzyk-telodvizhenij,4,"Жесты, Используемые Мужчинами при Ухаживании Ж...",893,112,223.25,[-0.01165801 0.00611222 0.04863156 0.022569...
4,Allana-Piza-YAzyk-telodvizhenij,5,Как Ступени Ног Выражают Заинтересованность Ра...,764,103,191.0,[ 0.1991961 -0.00937766 -0.03220402 -0.164424...


Если бы у меня была действительно большая база данных эмбэндингов (100K - 1M) то тогда бы использовала векторную базу данных qdrant

# Поиск и ответы

In [32]:
import random
import torch
import numpy as np
import pandas as pd
device = "cpu"



text_chunks_and_embeddings_df = pd.read_csv("text_chunks_and_embeddings_df.csv")


text_chunks_and_embeddings_df['embedding'] = text_chunks_and_embeddings_df['embedding'].apply(lambda x: np.fromstring(x.strip("[]"), sep=' '))

embeddings = torch.tensor(np.stack(text_chunks_and_embeddings_df['embedding'].tolist(), axis=0), dtype=torch.float32).to(device)

pages_and_chunks = text_chunks_and_embeddings_df.to_dict(orient='records')

text_chunks_and_embeddings_df

Unnamed: 0,book,page_num,sentence_text,chunk_char_count,chunk_word_count,chunk_token_count,embedding
0,Allana-Piza-YAzyk-telodvizhenij,1,Annotation Книга Аллана Пиза «Язык телодвижени...,1377,183,344.25,"[-0.02687061, -0.212832, -0.18931839, -0.02320..."
1,Allana-Piza-YAzyk-telodvizhenij,2,Различие Пространственных Зон у Горожан и Жите...,1021,138,255.25,"[0.06494357, 0.05886629, 0.10323059, -0.055009..."
2,Allana-Piza-YAzyk-telodvizhenij,3,"Жест Скрещивание Рук, Усиленное Сжатием Пальце...",1052,142,263.00,"[-0.0734471381, 0.0244905725, 0.109274082, -0...."
3,Allana-Piza-YAzyk-telodvizhenij,4,"Жесты, Используемые Мужчинами при Ухаживании Ж...",893,112,223.25,"[-0.01165801, 0.00611222, 0.04863156, 0.022569..."
4,Allana-Piza-YAzyk-telodvizhenij,5,Как Ступени Ног Выражают Заинтересованность Ра...,764,103,191.00,"[0.1991961, -0.00937766, -0.03220402, -0.16442..."
...,...,...,...,...,...,...,...
3240,Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauc...,403,"Journal of Personality and Social Psychology, ...",742,108,185.50,"[-0.2240675, 0.03327263, 0.05968623, 0.2548973..."
3241,Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauc...,404,"University, Institute for Research in the Beha...",789,111,197.25,"[-0.00610837713, 0.0936156958, 0.0434962139, 0..."
3242,Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauc...,405,убийства в Вирджинии и Северном Иллинойсе). 2....,955,124,238.75,"[-0.0400359742, -0.0540543161, -0.0251563713, ..."
3243,Robert-Chaldyny_Psyhologyya-vliyaniya_Kak-nauc...,405,"Удвоившееся количество отчетов читателей, их р...",631,82,157.75,"[-0.01591558, -0.03768359, -0.2867751, 0.10031..."


In [33]:
random.sample(list(text_chunks_and_embeddings_df['sentence_text']), k=1)

['Близкие враги 249 Спокойствие В основе каждого сильного чувства лежит побуждение к действию, и умение управлять этим импульсом — задача эмоционального интеллекта. Особые трудности в данном случае возникают у людей, состоящих в близких отношениях, в которых слишком многое для них поставлено на карту. Эмоциональные реакции в таких ситуациях затрагивают самые сокровенные желания: потребность быть любимым и чувствовать уважение партнера; страх, что тебя бросят или станут воспринимать как пустое место. Стоит ли удивляться, что партнеры в парах ссорятся так, словно речь идет о жизни и смерти. Нельзя прийти к позитивному решению, если муж или жена пребывают в состоянии «захвата эмоций», а значит, главное, что можно посоветовать супругам, — научиться умерять собственные взбудораженные чувства. Другими словами, каждый из супругов должен уметь быстро справляться с «затоплением», спровоцированным «захватом». В минуты эмоциональных вспышек человек лишается способности слушать, думать и ясно выра

In [34]:
embeddings.shape

torch.Size([3245, 384])

In [35]:
from sentence_transformers import SentenceTransformer, util
embedding_model = SentenceTransformer(model_name_or_path=model_id, device=device)

In [36]:
from time import perf_counter as timer

query = 'Здоровые отношения между женщиной и мужчиной'
print(f'Query: {query}')

query_embedding = embedding_model.encode(query, convert_to_tensor=True).to(device)

print(query_embedding.shape)


cosine_scores = util.cos_sim(query_embedding, embeddings)[0]

start_time = timer()
dot_scores = util.dot_score(query_embedding, embeddings)[0]
end_time = timer()

print(f'[INFO] Time taken to compute dot product scores: {end_time - start_time:.4f} seconds \\n len = {len(embeddings)}')

top_results = torch.topk(cosine_scores, k=5)
top_results

Query: Здоровые отношения между женщиной и мужчиной
torch.Size([384])
[INFO] Time taken to compute dot product scores: 0.0003 seconds \n len = 3245


torch.return_types.topk(
values=tensor([0.6334, 0.6161, 0.5887, 0.5878, 0.5758]),
indices=tensor([1073, 1208,  996, 2521, 1075]))

In [37]:
for i in top_results.indices.tolist():
    print(text_chunks_and_embeddings_df['sentence_text'][i])

Получается, что женщины вступают в брак готовыми к роли эмоционального управителя, тогда как мужчины в гораздо меньшей степени понимают важность стратегии для сохранения отношений. По результатам опроса 264 пар, самой важной составляющей удовлетворенности взаимоотношениями для женщин — но не для мужчин! — было ощущение, что между супругами хорошо налажено общение9. Тед Хастон, психолог из Техасского университета, изучавший супружеские пары, замечает: «Что касается жен, то для них близость подразумевает обсуждение всех дел, особенно разговоры о самих отношениях. Мужчины же не понимают, чего жены от них хотят. Они
Психика и медицина 307 лет, чем медицинские показатели (нестабильное кровяное давление, повышение концентрации триглицеридов в крови или уровня холестерина). Однако среди мужчин, имевших, по их словам, вполне надежную сеть близких контактов, включающую, например, жену, детей, друзей, не обнаружено никакой взаимосвязи между высоким уровнем стресса и коэффициентом смертности. Сам

In [38]:
larger_embeddings = torch.randn(1000 * embeddings.shape[0], embeddings.shape[1]).to(device)
print(f"Larger embeddings shape: {larger_embeddings.shape}")

start_time = timer()
dot_scores = util.dot_score(query_embedding, larger_embeddings)[0]
end_time = timer()

print(f'[INFO] Time taken to compute dot product scores with larger embeddings: {end_time - start_time:.4f} seconds \\n len = {len(larger_embeddings)}')

Larger embeddings shape: torch.Size([3245000, 384])
[INFO] Time taken to compute dot product scores with larger embeddings: 0.3797 seconds \n len = 3245000


In [39]:
import textwrap

def print_wrapped(text: str, width: int=80):
    wrapped_text = textwrap.fill(text, width=width)
    print(wrapped_text)

In [40]:
print(f"Query: {query}\\n")
print("Results:")

for score, idx in zip(top_results[0], top_results[1]):
    print_wrapped(f"Score: {score:.4f} | Text: {pages_and_chunks[idx]['sentence_text']}\\n")

Query: Здоровые отношения между женщиной и мужчиной\n
Results:
Score: 0.6334 | Text: Получается, что женщины вступают в брак готовыми к роли
эмоционального управителя, тогда как мужчины в гораздо меньшей степени понимают
важность стратегии для сохранения отношений. По результатам опроса 264 пар,
самой важной составляющей удовлетворенности взаимоотношениями для женщин — но не
для мужчин! — было ощущение, что между супругами хорошо налажено общение9. Тед
Хастон, психолог из Техасского университета, изучавший супружеские пары,
замечает: «Что касается жен, то для них близость подразумевает обсуждение всех
дел, особенно разговоры о самих отношениях. Мужчины же не понимают, чего жены от
них хотят. Они\n
Score: 0.6161 | Text: Психика и медицина 307 лет, чем медицинские показатели
(нестабильное кровяное давление, повышение концентрации триглицеридов в крови
или уровня холестерина). Однако среди мужчин, имевших, по их словам, вполне
надежную сеть близких контактов, включающую, например, жену, д

## А теперь заворачиваем все в функции

In [41]:
import torch
from sentence_transformers import SentenceTransformer
# Функции для поиска чанков по запросу
def retrive_relevant_resources(query: str, embeddings: torch.tensor, model: SentenceTransformer, n_resources_to_return: int=5, print_time: bool=True):
    query_embedding = model.encode(query, convert_to_tensor=True)

    start_time = timer()
    dot_scores = util.dot_score(query_embedding, embeddings)[0].to(embeddings.device)
    end_time = timer()
    if print_time:
        print(f"[INFO] Time taken to get scores on {len(embeddings)} embeddings: {end_time - start_time:.5f} seconds")
    
    scores, indices = torch.topk(dot_scores, k=n_resources_to_return)
    return scores, indices


# Функция для печати топ результатов по запросу
def print_top_results_and_scores(query: str, embeddings: torch.tensor, pages_and_chunks: list[dict] = pages_and_chunks, n_resources_to_return: int=5, print_time: bool=True):
    scores, indices = retrive_relevant_resources(query=query, embeddings=embeddings, model=embedding_model, n_resources_to_return=n_resources_to_return)
    
    for score, idx in zip(scores, indices):
        print_wrapped(f"Score: {score:.4f} | Text: {pages_and_chunks[idx]['sentence_text']}\\n")


## LLM локальная генерация

In [42]:
import torch
gpu_memory_bytes = torch.cuda.get_device_properties(0).total_memory
gpu_memory_gb = gpu_memory_bytes / (1024 ** 3)
print(f"GPU Memory: {gpu_memory_gb:.2f} GB")


GPU Memory: 8.00 GB


In [43]:
# Note: the following is Gemma focused, however, there are more and more LLMs of the 2B and 7B size appearing for local use.
if gpu_memory_gb < 5.1:
    print(f"Your available GPU memory is {gpu_memory_gb}GB, you may not have enough memory to run a Gemma LLM locally without quantization.")
elif gpu_memory_gb < 8.1:
    print(f"GPU memory: {gpu_memory_gb} | Recommended model: Gemma 2B in 4-bit precision.")
    use_quantization_config = True 
    model_id = "google/gemma-2b-it"
elif gpu_memory_gb < 19.0:
    print(f"GPU memory: {gpu_memory_gb} | Recommended model: Gemma 2B in float16 or Gemma 7B in 4-bit precision.")
    use_quantization_config = False 
    model_id = "google/gemma-2b-it"
elif gpu_memory_gb > 19.0:
    print(f"GPU memory: {gpu_memory_gb} | Recommend model: Gemma 7B in 4-bit or float16 precision.")
    use_quantization_config = False 
    model_id = "google/gemma-7b-it"

print(f"use_quantization_config set to: {use_quantization_config}")
print(f"model_id set to: {model_id}")


GPU memory: 7.99969482421875 | Recommended model: Gemma 2B in 4-bit precision.
use_quantization_config set to: True
model_id set to: google/gemma-2b-it


## Загрузка локального LLM

Попробуем так. Но если результаты будут неудовлетворительные, то лучше перейти в google colab

In [44]:
# Если не работает, перезапустите ядро и запустите ячейку снова
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from transformers.utils import is_flash_attn_2_available
import time
import subprocess
import gc
import os
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"  # Перед всем кодом, если не добавлено раньше

# Освобождение памяти перед загрузкой модели (чтобы очистить от предыдущих ячеек)
if torch.cuda.is_available():
    torch.cuda.synchronize()
    gc.collect()
    torch.cuda.empty_cache()
    print(torch.cuda.memory_summary(device=0, abbreviated=True))  # Мониторинг: должно показать ~0-1 ГБ занято

# Логирование CUDA и VRAM
print("Проверка CUDA:")
print(f"torch.cuda.is_available(): {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"Количество GPU: {torch.cuda.device_count()}")
    print(f"Имя GPU: {torch.cuda.get_device_name(0)}")

    torch.cuda.empty_cache()  # Очистка кэша GPU

    total_vram = torch.cuda.get_device_properties(0).total_memory / (1024 ** 3)
    used_vram = torch.cuda.memory_allocated(0) / (1024 ** 3)
    free_vram = total_vram - used_vram
    print(f"Всего VRAM: {total_vram:.2f} GiB, Занято: {used_vram:.2f} GiB, Свободно: {free_vram:.2f} GiB")
    if free_vram < 5:
        raise RuntimeError("Недостаточно VRAM! Освободите память и перезапустите.")

# Конфигурация квантизации (4bit nf4) - для моей модели Qwen3-8B
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True
)

if is_flash_attn_2_available() and torch.cuda.get_device_capability(0)[0] >= 8:
    attn_implementation = "flash_attention_2"
else:
    attn_implementation = "eager"

model_id = "Qwen/Qwen3-8B"  # модель 2025 года, ссылка на HF: https://huggingface.co/Qwen/Qwen3-8B

# Токенизатор
tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)

# Загрузка модели
print("Загрузка модели...")
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    attn_implementation=attn_implementation,
    dtype="auto", 
    device_map="auto",  
    trust_remote_code=True,
    low_cpu_mem_usage=True  # Оптимизация загрузки
)
model.eval()  # Режим evaluation для экономии

# Логи устройства
print(f"Устройство модели: {next(model.parameters()).device}")
if 'cuda' not in str(next(model.parameters()).device):
    print("Внимание: Модель на CPU! Проверьте VRAM и bitsandbytes.")

|                  PyTorch CUDA memory summary, device ID 0                 |
|---------------------------------------------------------------------------|
|            CUDA OOMs: 0            |        cudaMalloc retries: 0         |
|        Metric         | Cur Usage  | Peak Usage | Tot Alloc  | Tot Freed  |
|---------------------------------------------------------------------------|
| Allocated memory      |  13187 KiB | 547975 KiB | 502133 MiB | 502120 MiB |
|---------------------------------------------------------------------------|
| Active memory         |  13187 KiB | 547975 KiB | 502133 MiB | 502120 MiB |
|---------------------------------------------------------------------------|
| Requested memory      |  13187 KiB | 547961 KiB | 501995 MiB | 501982 MiB |
|---------------------------------------------------------------------------|
| GPU reserved memory   |  20480 KiB | 616448 KiB | 616448 KiB | 595968 KiB |
|---------------------------------------------------------------

Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

Устройство модели: cuda:0


In [45]:
# Количество параметров модели
def get_model_num_params(model):
    return sum(p.numel() for p in model.parameters())

get_model_num_params(model)

4717851648

In [46]:
# Размер модели в GB
def get_model_mem_size(model):
    mem_params = sum(p.numel() * p.element_size() for p in model.parameters())
    mem_buffers = sum([buf.nelement() * buf.element_size() for buf in model.buffers()])

    model_mem_bytes = mem_params + mem_buffers
    model_mem_gb = model_mem_bytes / (1024 ** 3)
    return model_mem_gb

get_model_mem_size(model)

5.553308725357056

## Пишем промпт для нашей локальной llm

Инструкции для промпта:
1. Писать чистые запросы
2. Добавить несколько примеров ввод/вывода данных
3. Пространство на подумать: сделаем наброски/давай будем думать шаг за шагом и т.д.

In [63]:
query_list = ["Что такое эмоциональный интеллект?",  
              "Как распознать ложь?", 
              "Как развить эмпатию?", 
              "Как справиться с выгоранием?"]

В итоге хотим получить что-то вроде:
```
Основывась на следующей информации: {чанк текста}
Ответь на следующий вопрос: {запрос}
Ответ:

```

In [64]:
query="Как выявить ложь"
embeddings = embeddings.to(query_embedding.device)
retrive_relevant_resources(query=query, embeddings=embeddings, model=embedding_model, n_resources_to_return=5)
print_top_results_and_scores(query=query, embeddings=embeddings, n_resources_to_return=5)

[INFO] Time taken to get scores on 3245 embeddings: 0.00082 seconds
[INFO] Time taken to get scores on 3245 embeddings: 0.00066 seconds
Score: 9.8382 | Text: Как Сказать Неправду, не Раскрыв Себя Проблема с ложью
заключается в том, что наше подсознание работает автоматически и независимо от
нас, поэтому наш язык телодвижений выдает нас с головой. Вот почему сразу
заметно, когда лгут люди, редко говорящие неправду, независимо от того,
насколько убедительно они это преподносят. В тот самый момент, когда они
начинают лгать, их тело начинает давать совершенно противоположные сигналы, что
дает вам ощущение, что вам лгут. Во время обмана наше подсознание выбрасывает
пучок нервной энергии, которая проявляется в жестах, противоречащих тому, что
сказал человек. Некоторые ? 1юди, чьи профессии непосредственно связаны с
обманом в разных формах, такие как политические деятели, адвокаты, актеры и
телекомментаторы, до такой степени выдрессировали свои телодвижения, что у них
трудно заметить, что они

In [83]:
import random
def prompt_formatter(query: str, context_items: list[dict]) -> str:
    context = "- " + "\n- ".join([item['sentence_text'] for item in context_items])
    prompt = context
    base_prompt = f""" Основываясь на следующем контексте, дай подробный ответ на вопрос. 
Дай исчерпывающий ответ, используя информацию из контекста. Не возвращай рассуждения, только ответ. Убедись что твой ответ точен и соответствует контексту.
Используй русский язык. Убедись что ответ выглядит целостным. Вот примеры формата ответа:
Вопрос: Что такое эмоциональный интеллект?
Ответ: это способность человека осознавать, понимать и регулировать свои эмоции, а также управлять эмоциональными реакциями других людей. Он включает в себя несколько ключевых компонентов: самосознание по отношению к своим эмоциям, способность распознавать и понимать эмоции других, умение управлять своими эмоциями и использовать их для достижения целей. Эмоциональный интеллект важен для построения и поддержания социальных связей, эффективного коммуникации и успешного взаимодействия в коллективе. В контексте текста, он также включает в себя навыки эмоциональной проницательности и способность успокаивать других, что позволяет людям лучше справляться с конфликтами и стрессовыми ситуациями, например, в рабочей среде.
Контекст:
{context}
Вопрос: {query}
Ответ:
"""
    prompt = base_prompt.format(context=context, query=query)
    return prompt

query = random.choice(query_list)
print(f"Запрос: {query}")

scores, indices = retrive_relevant_resources(query=query, embeddings=embeddings, model=embedding_model, n_resources_to_return=5)
context_items = [pages_and_chunks[i] for i in indices.tolist()]
print("Контекстные элементы:")
for item in context_items:
    print(f"- {item['sentence_text']}")
prompt = prompt_formatter(query=query, context_items=context_items)
print(f"Сформированный промпт:\n{prompt}")

Запрос: Как развить эмпатию?
[INFO] Time taken to get scores on 3245 embeddings: 0.00047 seconds
Контекстные элементы:
- Корни эмпатии 189 Эти вопросы морали сформулированы исследователем эмпатии Мартином Хоффманом. Он утверждает, что корни нравственного поведения следует искать в эмпатии. Только умение поставить себя на место потенциальных жертв — скажем, человека страдающего, оказавшегося в опасности или испытывающего лишения, — и таким образом разделить их горе побуждает людей действовать так, чтобы помочь им15. Непосредственная связь между эмпатией и альтруизмом обнаруживается при личном общении. Та же способность к эмпатической эмоциональной реакции — умение поставить себя на место другого человека, — как полагает Хоффман, и заставляет людей следовать определенным моральным принципам. Хоффман считает, что развитие эмпатии происходит естественным путем, начиная с младенчества. Как мы уже знаем, годо - ва лый ребенок ощущает беспокойство, увидев, что рядом с ним упал и заплакал друг

In [84]:
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")

outputs = model.generate(input_ids,
                         temperature=0.7,
                         max_new_tokens=256,
                         do_sample=True)

outputs_text = tokenizer.decode(outputs[0])
print_wrapped(f"Запрос:\n{prompt}")

print_wrapped(f"\n RAG ответ: \n{outputs_text[len(prompt):].strip()}")


Запрос:  Основываясь на следующем контексте, дай подробный ответ на вопрос.  Дай
исчерпывающий ответ, используя информацию из контекста. Не возвращай
рассуждения, только ответ. Убедись что твой ответ точен и соответствует
контексту. Используй русский язык. Убедись что ответ выглядит целостным. Вот
примеры формата ответа: Вопрос: Что такое эмоциональный интеллект? Ответ: это
способность человека осознавать, понимать и регулировать свои эмоции, а также
управлять эмоциональными реакциями других людей. Он включает в себя несколько
ключевых компонентов: самосознание по отношению к своим эмоциям, способность
распознавать и понимать эмоции других, умение управлять своими эмоциями и
использовать их для достижения целей. Эмоциональный интеллект важен для
построения и поддержания социальных связей, эффективного коммуникации и
успешного взаимодействия в коллективе. В контексте текста, он также включает в
себя навыки эмоциональной проницательности и способность успокаивать других, что
позволяет лю

## Оборачиваем все в функцию

In [None]:
def ask(query: str, tempreature: float=0.7, max_new_tokens: int=256, format_answer_test=True, return_answer_only=True, n_resources_to_return: int=5):
    scores, indices = retrive_relevant_resources(query=query, embeddings=embeddings, model=embedding_model, n_resources_to_return=n_resources_to_return)
    context_items = [pages_and_chunks[i] for i in indices.tolist()]
    prompt = prompt_formatter(query=query, context_items=context_items)
    
    input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")

    outputs = model.generate(input_ids,
                             temperature=tempreature,
                             max_new_tokens=max_new_tokens,
                             do_sample=True)

    outputs_text = tokenizer.decode(outputs[0])
    
    if format_answer_test:
        print_wrapped(f"Запрос:\n{query}")
        print_wrapped(f"\n RAG: \n{outputs_text[len(prompt):]}")
    
    if return_answer_only:
        return outputs_text[len(prompt):]
    else:
        return outputs_text

In [86]:
ask(query="Как понять другого человека?")

[INFO] Time taken to get scores on 3245 embeddings: 0.00043 seconds
Запрос: Как понять другого человека?
  RAG ответ:  Ответ: Понимание другого человека требует способности читать
невербальные сигналы, умения распознавать разногласия между языком тела и
словами, а также умения создавать непринужденную атмуосферу в общении. Важно
уметь воспринимать и интерпретировать невербальные сигналы, такие как поза,
жесты, мимика, что позволяет предсказывать реакции и адаптировать поведение.
Женщины, как правило, более чувствительны к таким сигналам, что связано с
врожденной способностью замечать мельчайшие детали. Кроме того, для эффективного
взаимодействия необходимо находиться в позиции делового сотрудничества, а не
конкурирующей, чтобы создать атмосферу доверия и взаимопонимания. Это включает в
себя короткие и специфичные разговоры, а также расположение тела так, чтобы не
создавать ощущ


'Ответ: Понимание другого человека требует способности читать невербальные сигналы, умения распознавать разногласия между языком тела и словами, а также умения создавать непринужденную атмуосферу в общении. Важно уметь воспринимать и интерпретировать невербальные сигналы, такие как поза, жесты, мимика, что позволяет предсказывать реакции и адаптировать поведение. Женщины, как правило, более чувствительны к таким сигналам, что связано с врожденной способностью замечать мельчайшие детали. Кроме того, для эффективного взаимодействия необходимо находиться в позиции делового сотрудничества, а не конкурирующей, чтобы создать атмосферу доверия и взаимопонимания. Это включает в себя короткие и специфичные разговоры, а также расположение тела так, чтобы не создавать ощущ'

In [50]:
# Генерация
messages = [{"role": "user", "content": "Who are you?"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)


start_time = time.time()
with torch.no_grad():  # Экономия VRAM во время генерации
    outputs = model.generate(**inputs, max_new_tokens=512, temperature=0.6, top_p=0.95, top_k=20)
end_time = time.time()

print(f"Время генерации: {end_time - start_time:.2f} секунд")


print(tokenizer.decode(outputs[0]))
torch.cuda.empty_cache()  # Очистка кэша GPU
total_vram = torch.cuda.get_device_properties(0).total_memory / (1024 ** 3)
used_vram = torch.cuda.memory_allocated(0) / (1024 ** 3)
free_vram = total_vram - used_vram
print(f"После генерации:  VRAM: {total_vram:.2f} GiB, Занято: {used_vram:.2f} GiB, Свободно: {free_vram:.2f} GiB")


# Очистка VRAM после генерации
del inputs, outputs  # Удалите временные тензоры
gc.collect()  # Сбор мусора
torch.cuda.empty_cache()  # Теперь очистит кэш

Время генерации: 26.72 секунд
<|im_start|>user
Who are you?<|im_end|>
<|im_start|>assistant
<think>
Okay, the user is asking "Who are you?" I need to explain my identity clearly. Let me start by stating my name, Qwen, and my role as a large language model developed by Alibaba Cloud. I should mention my capabilities, like answering questions, creating text, and understanding multiple languages. It's important to highlight that I don't have personal experiences or consciousness. I should also invite the user to ask any questions they have. Let me make sure the response is friendly and informative without any technical jargon. Let me check if I covered all the key points: name, developer, capabilities, and openness to help. Yes, that should cover it.
</think>

I am Qwen, a large language model developed by Alibaba Cloud. I was created to assist with a wide range of tasks, including answering questions, creating text, generating ideas, and providing information in multiple languages. I don

In [51]:
model

Qwen3ForCausalLM(
  (model): Qwen3Model(
    (embed_tokens): Embedding(151936, 4096)
    (layers): ModuleList(
      (0-35): 36 x Qwen3DecoderLayer(
        (self_attn): Qwen3Attention(
          (q_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear4bit(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear4bit(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear4bit(in_features=4096, out_features=4096, bias=False)
          (q_norm): Qwen3RMSNorm((128,), eps=1e-06)
          (k_norm): Qwen3RMSNorm((128,), eps=1e-06)
        )
        (mlp): Qwen3MLP(
          (gate_proj): Linear4bit(in_features=4096, out_features=12288, bias=False)
          (up_proj): Linear4bit(in_features=4096, out_features=12288, bias=False)
          (down_proj): Linear4bit(in_features=12288, out_features=4096, bias=False)
          (act_fn): SiLUActivation()
        )
        (input_layernorm): Qwen3RMSNorm((4096,), eps=1e-06