In [1]:
import re
import json

import numpy as np
import pandas as pd

pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

In [17]:
from pathlib import Path

file_path = Path("../data/brief_history_of_time.txt")
start_word_num = 23

with file_path.open() as file:
    paragraphs = [line for line in file if line.strip()][start_word_num:]

paragraphs[:10]

In [5]:
chapter_pattern: re.Pattern = re.compile(r'^\d+\.[a-zA-ZА-Яа-я0-9\s\-]*[^?.]$')
chapter_exceptions: list[str] = ['Благодарности', 'Предисловие', 'Великие физики', 'Словарь терминов', 'Послесловие']

chapter_names = [paragraph for paragraph in paragraphs if chapter_pattern.match(paragraph) or paragraph in chapter_exceptions]

chapter_names

['Благодарности',
 'Предисловие',
 '1. Наше представление о Вселенной',
 '2. Пространство и время',
 '3. Расширяющаяся Вселенная',
 '4. Принцип неопределенности',
 '5. Элементарные частицы и силы в природе',
 '6. Черные дыры',
 '7. Черные дыры не так уж черны',
 '8. Рождение и гибель Вселенной',
 '9. Стрела времени',
 '10. Объединение физики',
 '11. Заключение',
 'Великие физики',
 'Словарь терминов',
 'Послесловие']

In [63]:
paragraphs[0]

'Благодарности\n'

In [74]:
import requests


def send_message(user_input: str):
    api_url = "http://localhost:8000/ask/"

    payload = {"question": user_input}
    response = requests.post(api_url, json=payload)

    return response

In [86]:
response = send_message("Есть ли в мире бог?")

In [87]:
response.status_code

200

In [88]:
response.json()['contexts']

[{'text': 'Из представления о том, что пространство и время образуют замкнутую поверхность, вытекают также очень важные следствия относительно роли Бога в жизни Вселенной. В связи с успехами, достигнутыми научными теориями в описании событий, большинство ученых пришло к убеждению, что Бог позволяет Вселенной развиваться в соответствии с определенной системой законов и не вмешивается в ее развитие, не нарушает эти законы. Но законы ничего не говорят нам о том, как выглядела Вселенная, когда она только возникла, — завести часы и выбрать начало все-таки могло быть делом Бога. Пока мы считаем, что у Вселенной было начало, мы можем думать, что у нее был Создатель. Если же Вселенная действительно полностью замкнута и не имеет ни границ, ни краев, то тогда у нее не должно быть ни начала, ни конца: она просто есть, и все! Остается ли тогда место для Создателя?',
  'chapter': '8. Рождение и гибель Вселенной\n',
  'type': 'semantic'},
 {'text': 'Однажды Эйнштейн задал вопрос: «Какой выбор был у 

In [21]:
for chapter in chapter_names:
    print(f"- {chapter}") 

- Благодарности
- Предисловие
- 1. Наше представление о Вселенной
- 2. Пространство и время
- 3. Расширяющаяся Вселенная
- 4. Принцип неопределенности
- 5. Элементарные частицы и силы в природе
- 6. Черные дыры
- 7. Черные дыры не так уж черны
- 8. Рождение и гибель Вселенной
- 9. Стрела времени
- 10. Объединение физики
- 11. Заключение
- Великие физики
- Словарь терминов
- Послесловие


In [7]:
from langchain.text_splitter import RecursiveCharacterTextSplitter


text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2048,
    chunk_overlap=256,
    length_function=len,
    is_separator_regex=False
)

chunks = text_splitter.split_documents(documents)
len(chunks)

504

In [31]:
text_splitter.split_text('ddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwka wkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwka')

['ddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkadasdddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsasdwkaddsas

In [8]:
chunks[:20]

[Document(page_content='Благодарности'),
 Document(page_content='Книга посвящается Джейн'),
 Document(page_content='Я решил попробовать написать популярную книгу о пространстве и времени после того, как прочитал в 1982 г. курс Лёбовских лекций в Гарварде. Тогда уже было немало книг, посвященных ранней Вселенной и черным дырам, как очень хороших, например книга Стивена Вайнберга «Первые три минуты», так и очень плохих, которые здесь незачем называть. Но мне казалось, что ни в одной из них фактически не затрагиваются те вопросы, которые побудили меня заняться изучением космологии и квантовой теории: откуда взялась Вселенная? как и почему она возникла? придет ли ей конец, а если придет, то как? Эти вопросы интересуют всех нас. Но современная наука очень насыщена математикой, и лишь немногочисленные специалисты достаточно владеют последней, чтобы разобраться в этом. Однако основные представления о рождении и дальнейшей судьбе Вселенной можно изложить и без помощи математики так, что они ст

In [56]:
from elasticsearch import Elasticsearch
from elasticsearch.helpers import scan


es_client = Elasticsearch(([{"host": "localhost", "port": "9200"}]))

In [108]:
res = list(scan(client=es_client, query={"query": {"match_all": {}}},
        scroll="25m", index='chunks', raise_on_error=False,
        preserve_order=False, clear_scroll=True))

In [109]:
len(res)

111

In [110]:
from pprint import pprint

for val in res:
    if val['_source']['text'] == 'Благодарности':
        print(val)

In [111]:
val['_source']

{'text': 'Потом я несколько лет разрабатывал новый математический аппарат, который позволил бы устранить это и другие технические условия из теоремы о необходимости сингулярности. В итоге в 1970 г. мы с Пенроузом написали совместную статью, в которой наконец доказали, что сингулярная точка большого взрыва должна существовать, опираясь только на то, что верна общая теория относительности и что во Вселенной содержится столько вещества, сколько мы видим. Наша работа вызвала массу возражений, частично со стороны советских ученых, которые из-за приверженности марксистской философии верили в научный детерминизм, а частично и со стороны тех, кто не принимал саму идею сингулярностей как нарушающую красоту теории Эйнштейна. Но с математической теоремой не очень поспоришь, и поэтому, когда работа была закончена, ее приняли, и сейчас почти все считают, что Вселенная возникла в особой точке большого взрыва. По иронии судьбы мои представления изменились, и теперь я пытаюсь убедить физиков в том, чт