# Подготовка сервера

In [2]:
# !pip list

In [1]:
import numpy as np
import pandas as pd

import pickle

import os
import getpass

## Подготовка модели GigaChat MAX

In [2]:
def set_env(var: str):
    if not os.environ.get(var):
        os.environ[var] = getpass.getpass(f"{var}: ")

In [4]:
set_env("GIGACHAT_API_KEY")

In [5]:
!pip install langchain-gigachat



In [6]:
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_gigachat.chat_models import GigaChat

In [7]:
!pip install langchain



In [8]:
from langchain.schema import HumanMessage

In [9]:
llm_max = GigaChat(
    credentials=os.environ.get("GIGACHAT_API_KEY"),
    scope="GIGACHAT_API_PERS",
    model="GigaChat-Max",
    # Отключает проверку наличия сертификатов НУЦ Минцифры
    verify_ssl_certs=False,
    streaming=True, #False,
)

In [19]:
question = "Рассскажи подробно о достопримечательностях Пекина"
answer = llm_max([HumanMessage(content=question)])

In [14]:
print('Пекин – столица Китая и один из самых древних городов мира с богатой историей и культурой. Здесь сосредоточено множество достопримечательностей, которые привлекают туристов со всего света. Вот некоторые из них:\n\n### 1. **Великая Китайская стена (长城)**\n   Это одно из самых известных сооружений в мире, которое простирается более чем на 21 тысячу километров. Великая стена была построена для защиты китайских территорий от набегов кочевников. В окрестностях Пекина находятся несколько участков стены, наиболее популярные среди которых Бадалин (八达岭), Мутяньюй (慕田峪) и Симатай (司马台). Эти участки хорошо отреставрированы и оборудованы для посещения туристами.\n\n### 2. **Запретный город (紫禁城)**\n   Запретный город, также известный как Дворец Гугун, был резиденцией императоров династии Мин и Цин. Он расположен в самом центре Пекина и является крупнейшим дворцовым комплексом в мире. Внутри комплекса находится около 980 зданий, украшенных традиционными китайскими орнаментами и росписями. Запретный город включен в список Всемирного наследия ЮНЕСКО.\n\n### 3. **Храм Неба (天坛)**\n   Храм Неба – это религиозное сооружение, построенное в XV веке во времена династии Мин. Он использовался императорами для проведения ритуалов поклонения небу и молений о хорошем урожае. Комплекс состоит из нескольких храмов и павильонов, окруженных парком. Самым известным зданием храма является Круглый алтарь (圜丘坛).\n\n### 4. **Площадь Тяньаньмэнь (天安门广场)**\n   Площадь Тяньаньмэнь – самая большая городская площадь в мире, расположенная перед входом в Запретный город. Она известна не только своими размерами, но и историческим значением. На площади проходили важные политические события, такие как провозглашение Китайской Народной Республики Мао Цзэдуном в 1949 году. Также здесь можно увидеть портрет Мао Цзэдуна и мавзолей, где покоится его тело.\n\n### 5. **Летний дворец (颐和园)**\n   Летний дворец – это огромный парковый комплекс, расположенный к северо-западу от центра Пекина. Он был построен в XVIII веке как летняя резиденция императорской семьи. Парк включает в себя озера, сады, храмы и павильоны. Главной достопримечательностью является Длинная галерея (长廊), протяженностью почти 730 метров, которая украшена тысячами картин и сценками из китайской мифологии и истории.\n\n### 6. **Ламаистский храм Юнхэгун (雍和宫)**\n   Ламаистский храм Юнхэгун – крупнейший буддийский монастырь в Пекине. Он был основан в XVII веке и первоначально служил резиденцией императора Юнчжэна до того, как он взошел на трон. Впоследствии здание было преобразовано в ламаистский храм. В храме хранится огромная статуя Будды высотой 18 метров, вырезанная из цельного куска сандалового дерева.\n\n### 7. **Парк Бэйхай (北海公园)**\n   Парк Бэйхай – это живописный парк, расположенный рядом с Запретным городом. Он известен своим озером, островами и пагодами. Главная достопримечательность парка – Белая Пагода (白塔), построенная в XIII веке. В парке также есть несколько храмов и павильонов, а зимой озеро замерзает, превращаясь в каток.\n\n### 8. **Национальный музей Китая (中国国家博物馆)**\n   Национальный музей Китая расположен на площади Тяньаньмэнь и посвящен истории и культуре Китая. В музее представлены экспонаты, охватывающие период от древнейших времен до современности, включая археологические находки, произведения искусства и исторические документы. Музей занимает два этажа и имеет общую экспозицию площадью более 65 тысяч квадратных метров.\n\n### 9. **Оперный театр Гуоляньтан (国剧院)**\n   Оперный театр Гуоляньтан – современное архитектурное чудо, расположенное в центре Пекина. Театр был спроектирован французским архитектором Полем Андрэ и открыт в 2007 году. Здание выполнено в форме эллипса и покрыто титановыми пластинами, что придает ему футуристический вид. Внутри театра проходят концерты классической музыки, оперы и балетные представления.\n\n### 10. **Улица Ванфуцзин (王府井大街)**\n   Улица Ванфуцзин – одна из главных торговых улиц Пекина. Здесь можно найти магазины, рестораны, кафе и кинотеатры. Улица особенно популярна благодаря своей ночной жизни и разнообразию блюд местной кухни. Также на улице расположены знаменитые "ванфудзинские пельмени" (王府井饺子), которые считаются одним из символов Пекина.\n\nЭти достопримечательности лишь малая часть того, что может предложить Пекин. Город богат культурными и историческими памятниками, каждый из которых рассказывает свою уникальную историю.')

Пекин – столица Китая и один из самых древних городов мира с богатой историей и культурой. Здесь сосредоточено множество достопримечательностей, которые привлекают туристов со всего света. Вот некоторые из них:

### 1. **Великая Китайская стена (长城)**
   Это одно из самых известных сооружений в мире, которое простирается более чем на 21 тысячу километров. Великая стена была построена для защиты китайских территорий от набегов кочевников. В окрестностях Пекина находятся несколько участков стены, наиболее популярные среди которых Бадалин (八达岭), Мутяньюй (慕田峪) и Симатай (司马台). Эти участки хорошо отреставрированы и оборудованы для посещения туристами.

### 2. **Запретный город (紫禁城)**
   Запретный город, также известный как Дворец Гугун, был резиденцией императоров династии Мин и Цин. Он расположен в самом центре Пекина и является крупнейшим дворцовым комплексом в мире. Внутри комплекса находится около 980 зданий, украшенных традиционными китайскими орнаментами и росписями. Запретный город

Пекин – столица Китая и один из самых древних городов мира с богатой историей и культурой. Здесь сосредоточено множество достопримечательностей, которые привлекают туристов со всего света. Вот некоторые из них:

### 1. **Великая Китайская стена (长城)**
   Это одно из самых известных сооружений в мире, которое простирается более чем на 21 тысячу километров. Великая стена была построена для защиты китайских территорий от набегов кочевников. В окрестностях Пекина находятся несколько участков стены, наиболее популярные среди которых Бадалин (八达岭), Мутяньюй (慕田峪) и Симатай (司马台). Эти участки хорошо отреставрированы и оборудованы для посещения туристами.

### 2. **Запретный город (紫禁城)**
   Запретный город, также известный как Дворец Гугун, был резиденцией императоров династии Мин и Цин. Он расположен в самом центре Пекина и является крупнейшим дворцовым комплексом в мире. Внутри комплекса находится около 980 зданий, украшенных традиционными китайскими орнаментами и росписями. Запретный город включен в список Всемирного наследия ЮНЕСКО.

### 3. **Храм Неба (天坛)**
   Храм Неба – это религиозное сооружение, построенное в XV веке во времена династии Мин. Он использовался императорами для проведения ритуалов поклонения небу и молений о хорошем урожае. Комплекс состоит из нескольких храмов и павильонов, окруженных парком. Самым известным зданием храма является Круглый алтарь (圜丘坛).

### 4. **Площадь Тяньаньмэнь (天安门广场)**
   Площадь Тяньаньмэнь – самая большая городская площадь в мире, расположенная перед входом в Запретный город. Она известна не только своими размерами, но и историческим значением. На площади проходили важные политические события, такие как провозглашение Китайской Народной Республики Мао Цзэдуном в 1949 году. Также здесь можно увидеть портрет Мао Цзэдуна и мавзолей, где покоится его тело.

### 5. **Летний дворец (颐和园)**
   Летний дворец – это огромный парковый комплекс, расположенный к северо-западу от центра Пекина. Он был построен в XVIII веке как летняя резиденция императорской семьи. Парк включает в себя озера, сады, храмы и павильоны. Главной достопримечательностью является Длинная галерея (长廊), протяженностью почти 730 метров, которая украшена тысячами картин и сценками из китайской мифологии и истории.

### 6. **Ламаистский храм Юнхэгун (雍和宫)**
   Ламаистский храм Юнхэгун – крупнейший буддийский монастырь в Пекине. Он был основан в XVII веке и первоначально служил резиденцией императора Юнчжэна до того, как он взошел на трон. Впоследствии здание было преобразовано в ламаистский храм. В храме хранится огромная статуя Будды высотой 18 метров, вырезанная из цельного куска сандалового дерева.

### 7. **Парк Бэйхай (北海公园)**
   Парк Бэйхай – это живописный парк, расположенный рядом с Запретным городом. Он известен своим озером, островами и пагодами. Главная достопримечательность парка – Белая Пагода (白塔), построенная в XIII веке. В парке также есть несколько храмов и павильонов, а зимой озеро замерзает, превращаясь в каток.

### 8. **Национальный музей Китая (中国国家博物馆)**
   Национальный музей Китая расположен на площади Тяньаньмэнь и посвящен истории и культуре Китая. В музее представлены экспонаты, охватывающие период от древнейших времен до современности, включая археологические находки, произведения искусства и исторические документы. Музей занимает два этажа и имеет общую экспозицию площадью более 65 тысяч квадратных метров.

### 9. **Оперный театр Гуоляньтан (国剧院)**
   Оперный театр Гуоляньтан – современное архитектурное чудо, расположенное в центре Пекина. Театр был спроектирован французским архитектором Полем Андрэ и открыт в 2007 году. Здание выполнено в форме эллипса и покрыто титановыми пластинами, что придает ему футуристический вид. Внутри театра проходят концерты классической музыки, оперы и балетные представления.

### 10. **Улица Ванфуцзин (王府井大街)**
   Улица Ванфуцзин – одна из главных торговых улиц Пекина. Здесь можно найти магазины, рестораны, кафе и кинотеатры. Улица особенно популярна благодаря своей ночной жизни и разнообразию блюд местной кухни. Также на улице расположены знаменитые "ванфудзинские пельмени" (王府井饺子), которые считаются одним из символов Пекина.

Эти достопримечательности лишь малая часть того, что может предложить Пекин. Город богат культурными и историческими памятниками, каждый из которых рассказывает свою уникальную историю.

In [20]:
print(answer.content)

Пекин – столица Китая и один из самых древних городов мира с богатой историей и культурой. В этом городе сосредоточено множество достопримечательностей, которые привлекают туристов со всего света. Вот некоторые из них:

### 1. **Великая Китайская стена (长城)**
   Великая Китайская стена – одно из семи чудес света и символ Китая. Она простирается более чем на 21 тысячу километров через северные регионы страны. Хотя стена проходит по нескольким провинциям, наиболее популярные участки для посещения находятся недалеко от Пекина.
   
   - **Бадалин** (八达岭): Самый известный участок стены, расположенный примерно в 70 км к северо-западу от центра города. Этот участок был отреставрирован и оборудован для массового туризма.
   - **Мутяньюй** (慕田峪): Менее переполненный туристами участок, который также предлагает отличные виды и возможность прогулок по стене.
   - **Симатай** (司马台): Более дикий и менее восстановленный участок, идеально подходящий для тех, кто хочет испытать настоящий дух Великой ст

Пекин – столица Китая и один из крупнейших городов мира с богатой историей, насчитывающей более 3000 лет. В этом городе сосредоточено множество культурных, исторических и архитектурных достопримечательностей, которые привлекают туристов со всего света.

### Великая Китайская стена

Великая Китайская стена – одно из самых известных сооружений в мире, символ Китая. Хотя она проходит через несколько провинций страны, одна из наиболее популярных частей стены находится недалеко от Пекина – участок Бадалин (八达岭). Этот участок был отреставрирован и открыт для посещения туристами. Стена впечатляет своими размерами и величием, а также потрясающими видами на окружающие горы.

### Запретный город (Гугун)

Запретный город, известный как Гугун (故宫), является крупнейшим дворцовым комплексом в мире. Он служил резиденцией китайских императоров династии Мин и Цин на протяжении почти 500 лет. Комплекс состоит из множества зданий, павильонов, садов и дворов, каждый из которых имеет свое значение и историю. Запретный город включен в список Всемирного наследия ЮНЕСКО и является обязательным местом для посещения при поездке в Пекин.

### Храм Неба (Тяньтань)

Храм Неба (天坛) – это храмовый комплекс, построенный в 1420 году во времена династии Мин. Это место было священным для императоров, где они молились за хороший урожай и благополучие народа. Главное здание комплекса – Зал молитвы за хороший урожай (祈年殿) – знаменито своей архитектурой и акустическими свойствами. Храм Неба также внесен в список Всемирного наследия ЮНЕСКО.

### Летний дворец (Ихэюань)

Летний дворец (颐和园) – это огромный парк с озером Куньминху и множеством павильонов, храмов и садов. Дворец был построен как летний отдых для императорской семьи. Главной достопримечательностью парка является длинная галерея, украшенная живописными сценами из китайской истории и мифологии. Летний дворец – идеальное место для прогулок и отдыха от городской суеты.

### Площадь Тяньаньмэнь

Площадь Тяньаньмэнь (天安门广场) – самая большая городская площадь в мире. Она расположена в центре Пекина и является символом современной китайской истории. На площади находятся такие важные здания, как Национальный музей Китая и Дом народных собраний. Здесь же расположен мавзолей Мао Цзэдуна, основателя современного китайского государства.

### Ламаистский храм Юнхэгун

Ламаистский храм Юнхэгун (雍和宫) – крупнейший буддийский монастырь в Пекине. Он был основан в 1694 году и первоначально использовался как резиденция императора Юнчжэна. Позже он стал монастырем тибетского буддизма. Главная достопримечательность храма – статуя Будды Майтреи высотой 26 метров, вырезанная из цельного куска сандалового дерева.

### Парк Бэйхай

Парк Бэйхай (北海公园) – один из старейших парков Пекина, расположенный рядом с Запретным городом. Его главная достопримечательность – озеро Бэйхай, вокруг которого расположены различные храмы, павильоны и сады. Особой популярностью пользуется остров Цюнхуадао, на котором находится Белая пагода, построенная в честь визита Далай-ламы V.

### Хутуны

Хутуны (胡同) – узкие улочки старого Пекина, представляющие собой традиционную застройку города. Прогулка по хутунам позволяет окунуться в атмосферу старой столицы и увидеть жизнь местных жителей. Некоторые хутоны были сохранены и превращены в музеи, рестораны и кафе.

### Национальные музеи

В Пекине расположено множество музеев, среди которых особенно выделяются:

1. **Национальный музей Китая** (中国国家博物馆) – крупнейший музей страны, посвященный истории и культуре Китая.
2. **Музей Капитолийского музея** (首都博物馆) – музей искусства и археологических находок.
3. **Военный музей Китайской народной революции** (中国人民革命军事博物馆) – посвящен военной истории Китая.

### Олимпийские объекты

Пекин принимал летние Олимпийские игры 2008 года, что оставило после себя ряд уникальных спортивных объектов:

1. **Пекинский национальный стадион ("Птичье гнездо")** (北京国家体育场) – главный олимпийский стадион, ставший символом игр.
2. **Пекинский национальный водный центр ("Водяной куб")** (北京国家游泳中心) – крытый плавательный комплекс, использовавшийся для соревнований по водным видам спорта.

### Пекинская опера

Пекинская опера (京剧) – традиционный китайский театр, который зародился в XVIII веке. Представления включают пение, декламацию, акробатику и танцы. Если вы хотите познакомиться с китайской культурой, посещение представления Пекинской оперы будет отличным выбором.

### Рынки и торговые улицы

Для любителей шопинга Пекин предлагает множество рынков и торговых улиц:

1. **Панцзяюань антикварный рынок** (潘家园古玩市场) – самый большой антикварный рынок в Китае.
2. **Улица Ванфуцзин** (王府井大街) – одна из главных торговых улиц Пекина, известная своими магазинами и ресторанами.
3. **Сянъян рынок шелка** (香港丝绸城) – здесь можно купить качественные изделия из шелка по доступным ценам.

Эти достопримечательности лишь малая часть того, что может предложить Пекин своим гостям. Город богат культурными и историческими памятниками, а его атмосфера сочетает в себе древнюю мудрость и современную динамику.

## Создание эмбеддингов

In [5]:
# !pip install torch torchvision torchaudio

Collecting torch
  Downloading torch-2.5.1-cp312-cp312-win_amd64.whl.metadata (28 kB)
Collecting torchvision
  Downloading torchvision-0.20.1-cp312-cp312-win_amd64.whl.metadata (6.2 kB)
Collecting torchaudio
  Downloading torchaudio-2.5.1-cp312-cp312-win_amd64.whl.metadata (6.5 kB)
Collecting sympy==1.13.1 (from torch)
  Downloading sympy-1.13.1-py3-none-any.whl.metadata (12 kB)
Downloading torch-2.5.1-cp312-cp312-win_amd64.whl (203.0 MB)
   ---------------------------------------- 0.0/203.0 MB ? eta -:--:--
   ---------------------------------------- 0.3/203.0 MB ? eta -:--:--
   ---------------------------------------- 1.3/203.0 MB 5.1 MB/s eta 0:00:40
    --------------------------------------- 3.1/203.0 MB 6.6 MB/s eta 0:00:31
    --------------------------------------- 5.0/203.0 MB 7.5 MB/s eta 0:00:27
   - -------------------------------------- 5.8/203.0 MB 6.4 MB/s eta 0:00:31
   - -------------------------------------- 7.3/203.0 MB 6.7 MB/s eta 0:00:30
   - --------------------

In [9]:
import torch
import torch.nn.functional as F

In [26]:
# !pip install cudatoolkit

Defaulting to user installation because normal site-packages is not writeable


ERROR: Could not find a version that satisfies the requirement cudatoolkit (from versions: none)
ERROR: No matching distribution found for cudatoolkit


In [11]:
pip install transformers

Collecting tokenizers<0.22,>=0.21 (from transformers)
  Using cached tokenizers-0.21.0-cp39-abi3-win_amd64.whl.metadata (6.9 kB)
Using cached tokenizers-0.21.0-cp39-abi3-win_amd64.whl (2.4 MB)
Installing collected packages: tokenizers
  Attempting uninstall: tokenizers
    Found existing installation: tokenizers 0.20.3
    Uninstalling tokenizers-0.20.3:
      Successfully uninstalled tokenizers-0.20.3
Successfully installed tokenizers-0.21.0
Note: you may need to restart the kernel to use updated packages.


  You can safely remove it manually.
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
chromadb 0.5.23 requires tokenizers<=0.20.3,>=0.13.2, but you have tokenizers 0.21.0 which is incompatible.


In [12]:
from transformers import AutoTokenizer, AutoModel

In [13]:
pip install sentence-transformers

Note: you may need to restart the kernel to use updated packages.


In [14]:
from sentence_transformers import SentenceTransformer

In [6]:
tokenizer_mul_e5_large = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')
model_mul_e5_large = AutoModel.from_pretrained('intfloat/multilingual-e5-large')

In [21]:
def get_embedding(sentence):

    #Mean Pooling - Take attention mask into account for correct averaging
    def _mean_pooling(model_output, attention_mask):
        token_embeddings = model_output[0] #First element of model_output contains all token embeddings
        input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
        return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

    # Tokenize sentences
    encoded_input = tokenizer_mul_e5_large([sentence], padding=True, truncation=True, return_tensors='pt')

    # Compute token embeddings
    with torch.no_grad():
        model_output = model_mul_e5_large(**encoded_input)

    # Perform pooling
    sentence_embeddings = _mean_pooling(model_output, encoded_input['attention_mask'])

    # Normalize embeddings
    sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

    return sentence_embeddings

In [22]:
emb_database_test = torch.empty((0, 1024), dtype=torch.float32)

In [23]:
locations = ["Лондон", "Париж", "Пекин", "Москва"]

In [24]:
for location in locations:
    emb = get_embedding(location)
    emb_database_test = torch.cat((emb_database_test, emb), 0)

In [25]:
def get_cos_sim_test(question):
    emb = get_embedding(question)
    cos_sim = F.cosine_similarity(emb_database_test, emb, dim=1, eps=1e-8)
    return cos_sim

In [27]:
cos_sim = get_cos_sim_test("Достопримечательности Китая")
cos_sim

tensor([0.7401, 0.7357, 0.7943, 0.7326])

In [28]:
cos_sim = get_cos_sim_test("Достопримечательности Англии")
cos_sim

tensor([0.7891, 0.7370, 0.7224, 0.7283])

In [29]:
cos_sim = get_cos_sim_test("Достопримечательности Франции")
cos_sim

tensor([0.7427, 0.7919, 0.7160, 0.7389])

In [30]:
cos_sim = get_cos_sim_test("Достопримечательности России")
cos_sim

tensor([0.7289, 0.7253, 0.7188, 0.7739])

In [31]:
def get_max_cos_sim(cos_sim) -> tuple[int]:
    max_el = 0
    ind_max_el = 0
    for i, el in enumerate(cos_sim):
        if el.item() > max_el:
            max_el = el.item()
            ind_max_el = i

    return (max_el, ind_max_el)

In [32]:
get_max_cos_sim(cos_sim)

(0.7739477157592773, 3)

### Загрузка датасета

In [10]:
data = pd.read_csv("2024_12_14 China full 02.csv")

In [11]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 156 entries, 0 to 155
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Chapters     156 non-null    object
 1   Subchapters  156 non-null    object
 2   RAW          156 non-null    object
 3   Clean_Text   156 non-null    object
 4   Requests     156 non-null    object
 5   HTML         156 non-null    object
 6   File_name    156 non-null    object
dtypes: object(7)
memory usage: 8.7+ KB


In [12]:
data.head()

Unnamed: 0,Chapters,Subchapters,RAW,Clean_Text,Requests,HTML,File_name
0,КИТАЙ,ВВЕДЕНИЕ,"Трудно себе представить более загадочную, свое...","Трудно себе представить более загадочную, свое...",Какова площадь Китая по сравнению с другими ст...,"```html\n<!DOCTYPE html>\n<html lang=""ru"">\n<h...",001_китай_введение.html
1,ОРГАНИЗАЦИЯ ТУРА,КАК ОРГАНИЗОВАТЬ ТУР,"Если Вы готовы к самостоятельному путешествию,...","Если вы готовы к самостоятельному путешествию,...",Как забронировать гостиницу и авиабилеты через...,"```html\n<!DOCTYPE html>\n<html lang=""ru"">\n<h...",002_организация_тура_как_организовать_тур.html
2,ВИЗЫ,ВИЗЫ,Китай Согласно «Закону КНР о контроле над въез...,Китай Согласно «Закону КНР о контроле над въез...,Как получить визу в Китай? \nКакие документы ...,"```html\n<!DOCTYPE html>\n<html lang=""ru"">\n<h...",003_визы_визы.html
3,СТРАХОВКА,СТРАХОВКА,Для поездки в Китай необходимо приобрести меди...,Для поездки в Китай необходимо приобрести меди...,- Как оформить медицинскую страховку для поезд...,"```html\n<!DOCTYPE html>\n<html lang=""ru"">\n<h...",004_страховка_страховка.html
4,ГОСТИНИЦЫ,ВЫБОР ГОСТИНИЦЫ,"Выбрать место проживания в Китае очень просто,...","Выбрать место проживания в Китае очень просто,...",Какой единственный вид размещения доступен тур...,"```html\n<!DOCTYPE html>\n<html lang=""ru"">\n<h...",005_гостиницы_выбор_гостиницы.html


### Формирование базы эмбеддингов

In [37]:
limits = []

In [70]:
emb_database = torch.empty((0, 1024), dtype=torch.float32)

In [71]:
for ind in range(data.shape[0]):
    print(f"{ind+1} {data['Chapters'][ind]}")
    requests = data['Requests'][ind].split("\n")
    limits.append(len)
    for question in requests:
        req = f"{data['Chapters'][ind]} {data['Subchapters'][ind]} {question.strip()}"

        # print(req)
        emb = get_embedding(req)
        emb_database = torch.cat((emb_database, emb), 0)
    break

1 КИТАЙ


## Вектоная база Chroma

In [61]:
# pip install -qU "langchain-chroma>=0.1.2"

Note: you may need to restart the kernel to use updated packages.


  You can safely remove it manually.
  You can safely remove it manually.
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
transformers 4.47.0 requires tokenizers<0.22,>=0.21, but you have tokenizers 0.20.3 which is incompatible.


In [13]:
from chromadb.utils import embedding_functions

In [14]:
from sentence_transformers import SentenceTransformer

In [26]:
pip install langchain-community

Collecting langchain-community
  Downloading langchain_community-0.3.12-py3-none-any.whl.metadata (2.9 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.23.1-py3-none-any.whl.metadata (7.5 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Downloading langchain_community-0.3.12-py3-none-any.whl (2.5 MB)
   ---------------------------------------- 0.0/2.5 MB ? eta -:--:--
   ---- ----------------------------------- 0.3/2.5 MB ? eta -:--:--
   ---------------- ----------------------- 1.0/2.5 MB 5.6 MB/s eta 0:00:01
   --------------------

In [52]:
pip install --upgrade --quiet  langchain sentence_transformers

Note: you may need to restart the kernel to use updated packages.


In [15]:
pip install langchain_huggingface

Note: you may need to restart the kernel to use updated packages.


In [16]:
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

In [17]:
sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="intfloat/multilingual-e5-large")
# sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="all-MiniLM-L6-v2")
# from langchain_community.embeddings import HuggingFaceBgeEmbeddings

# model_name = "sentence-transformers/all-MiniLM-L6-v2"
# model_kwargs = {"device": "cpu"}
# # encode_kwargs = {"normalize_embeddings": True}
# sentence_transformer_ef = HuggingFaceBgeEmbeddings(
#     model_name=model_name, model_kwargs=model_kwargs, # encode_kwargs=encode_kwargs
# )

# sentence_transformer_ef_cl = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
sentence_transformer_ef_cl = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

In [18]:
import chromadb

In [82]:
persistent_client = chromadb.PersistentClient(path="./example_db_0")

In [83]:
collection = persistent_client.get_or_create_collection("example_collection", embedding_function=sentence_transformer_ef)

In [26]:
from uuid import uuid4

In [85]:
documents = [
    "Какие достопримечательности в Шанхае?",
    "Какие местные блюда в Шанхае?",
    "Какие достопримечательности в Пекине?",
    "Какие местные блюда в Пекине?",
    "Какие достопримечательности в Ухане?",
    "Какие местные блюда в Ухане?",
    "Какие достопримечательности в Гонконге?",
    "Какие местные блюда в Гонконге?",
    "Какие достопримечательности в Макао?",
    "Какие местные блюда в Макао?"
]

metadata = [
    {"Chapters": "ШАНХАЙ", "Subchapters": "ДОСТОПРИМЕЧАТЕЛЬНОСТИ"},
    {"Chapters": "ШАНХАЙ", "Subchapters": "КУХНЯ"},
    {"Chapters": "ПЕКИН", "Subchapters": "ДОСТОПРИМЕЧАТЕЛЬНОСТИ"},
    {"Chapters": "ПЕКИН", "Subchapters": "КУХНЯ"},
    {"Chapters": "УХАНЬ", "Subchapters": "ДОСТОПРИМЕЧАТЕЛЬНОСТИ"},
    {"Chapters": "УХАНЬ", "Subchapters": "КУХНЯ"},
    {"Chapters": "ГОНКОНГ", "Subchapters": "ДОСТОПРИМЕЧАТЕЛЬНОСТИ"},
    {"Chapters": "ГОНКОНГ", "Subchapters": "КУХНЯ"},
    {"Chapters": "МАКАО", "Subchapters": "ДОСТОПРИМЕЧАТЕЛЬНОСТИ"},
    {"Chapters": "МАКАО", "Subchapters": "КУХНЯ"}
]

uuids = [str(uuid4()) for _ in range(len(documents))]

In [86]:
collection.add(
    ids=uuids, 
    documents=documents,
    metadatas=metadata
)

In [87]:
collection.get()

{'ids': ['88bcb09d-e82e-49bb-a911-7e95c8e6793c',
  '0cb1a86d-66ff-4d93-97ee-86c23b2761ae',
  '95ed2419-5593-41e3-a439-90d3a03dcbfc',
  '973d92f1-6a92-49af-82eb-e0826921f959',
  '6c6ef100-f52f-408b-af03-dea3fa4e86a8',
  'c62bbb3b-8b65-4ea4-aee7-8b9a430cd0dd',
  '0952de81-b529-4324-b357-c144f02f5697',
  '8dbafbf8-f305-4323-9702-52a98431f734',
  '8ad148e3-460b-46c3-9856-8c66f8e577ec',
  'd614f3c3-bfed-4652-bf8a-99d50fad2212'],
 'embeddings': None,
 'documents': ['Какие достопримечательности в Шанхае?',
  'Какие местные блюда в Шанхае?',
  'Какие достопримечательности в Пекине?',
  'Какие местные блюда в Пекине?',
  'Какие достопримечательности в Ухане?',
  'Какие местные блюда в Ухане?',
  'Какие достопримечательности в Гонконге?',
  'Какие местные блюда в Гонконге?',
  'Какие достопримечательности в Макао?',
  'Какие местные блюда в Макао?'],
 'uris': None,
 'data': None,
 'metadatas': [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'},
  {'Chapters': 'ШАНХАЙ', 'Subchapters'

In [25]:
from langchain_chroma import Chroma

In [89]:
vector_store_from_client = Chroma(
    client=persistent_client,
    collection_name="example_collection",
    embedding_function=sentence_transformer_ef_cl,
)

In [90]:
vector_store_from_client

<langchain_chroma.vectorstores.Chroma at 0x28b0fd3dc70>

In [91]:
# from langchain_core.documents import Document

In [92]:
# document_1 = Document(
#     page_content="I had chocolate chip pancakes and scrambled eggs for breakfast this morning.",
#     metadata={"source": "tweet"},
#     id=1,
# )

# document_2 = Document(
#     page_content="The weather forecast for tomorrow is cloudy and overcast, with a high of 62 degrees.",
#     metadata={"source": "news"},
#     id=2,
# )

# document_3 = Document(
#     page_content="Building an exciting new project with LangChain - come check it out!",
#     metadata={"source": "tweet"},
#     id=3,
# )

# document_4 = Document(
#     page_content="Robbers broke into the city bank and stole $1 million in cash.",
#     metadata={"source": "news"},
#     id=4,
# )

# document_5 = Document(
#     page_content="Wow! That was an amazing movie. I can't wait to see it again.",
#     metadata={"source": "tweet"},
#     id=5,
# )

# document_6 = Document(
#     page_content="Is the new iPhone worth the price? Read this review to find out.",
#     metadata={"source": "website"},
#     id=6,
# )

# document_7 = Document(
#     page_content="The top 10 soccer players in the world right now.",
#     metadata={"source": "website"},
#     id=7,
# )

# document_8 = Document(
#     page_content="LangGraph is the best framework for building stateful, agentic applications!",
#     metadata={"source": "tweet"},
#     id=8,
# )

# document_9 = Document(
#     page_content="The stock market is down 500 points today due to fears of a recession.",
#     metadata={"source": "news"},
#     id=9,
# )

# document_10 = Document(
#     page_content="I have a bad feeling I am going to get deleted :(",
#     metadata={"source": "tweet"},
#     id=10,
# )

# documents = [
#     document_1,
#     document_2,
#     document_3,
#     document_4,
#     document_5,
#     document_6,
#     document_7,
#     document_8,
#     document_9,
#     document_10,
# ]
# uuids = [str(uuid4()) for _ in range(len(documents))]

# vector_store.add_documents(documents=documents, ids=uuids)

In [93]:
results = vector_store_from_client.similarity_search(
    "Чем известен Гонконг?",
    k=2,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

* Какие достопримечательности в Гонконге? [{'Chapters': 'ГОНКОНГ', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
* Какие местные блюда в Гонконге? [{'Chapters': 'ГОНКОНГ', 'Subchapters': 'КУХНЯ'}]


### Формирование базы эмбеддингов Chroma

In [20]:
persistent_client_serv = chromadb.PersistentClient(path="./serv_db_3")

In [21]:
collection_serv = persistent_client_serv.get_or_create_collection("serv_collection", embedding_function=sentence_transformer_ef)

In [22]:
documents_questions = []
metadatas_questions = []

In [23]:
for ind in range(data.shape[0]):
    print(f"{ind+1} {data['Chapters'][ind]}")
    requests = data['Requests'][ind].split("\n")

    for question in requests[:20]:
        req = f"{data['Chapters'][ind]} {data['Subchapters'][ind]} {question.strip()}"
        # collection_serv.add(
        #     ids=[str(uuid4())], 
        #     documents=[req],
        #     metadatas=[{"Chapters": data['Chapters'][ind], "Subchapters": data['Subchapters'][ind]}]
        # )
        documents_questions.append(req)
        metadatas_questions.append({"Chapters": data['Chapters'][ind], "Subchapters": data['Subchapters'][ind]})

    # break

1 КИТАЙ
2 ОРГАНИЗАЦИЯ ТУРА
3 ВИЗЫ
4 СТРАХОВКА
5 ГОСТИНИЦЫ
6 КАК ДОБРАТЬСЯ ДО КИТАЯ
7 ПРИБЫТИЕ
8 ПРИБЫТИЕ
9 ПРИБЫТИЕ
10 КИТАЙ
11 КИТАЙ
12 КИТАЙ
13 КИТАЙ
14 КИТАЙ
15 КИТАЙ
16 КИТАЙ
17 КИТАЙ
18 КИТАЙ
19 ГОНКОНГ
20 ГОНКОНГ
21 ГОНКОНГ
22 ГОНКОНГ
23 ГОНКОНГ
24 ГОНКОНГ
25 ГОНКОНГ
26 ГОНКОНГ
27 ГОНКОНГ
28 ГОНКОНГ
29 ГУАНЧЖОУ
30 ГУАНЧЖОУ
31 ГУАНЧЖОУ
32 ГУАНЧЖОУ
33 ГУАНЧЖОУ
34 ГУАНЧЖОУ
35 ГУАНЧЖОУ
36 ГУАНЧЖОУ
37 ГУАНЧЖОУ
38 ГУАНЧЖОУ
39 ГУАНЧЖОУ
40 ГУЙЛИНЬ
41 ГУЙЛИНЬ
42 ГУЙЛИНЬ
43 ГУЙЛИНЬ
44 ГУЙЛИНЬ
45 ГУЙЛИНЬ
46 КУНЬМИН
47 КУНЬМИН
48 КУНЬМИН
49 КУНЬМИН
50 КУНЬМИН
51 КУНЬМИН
52 КУНЬМИН
53 КУНЬМИН
54 ЛИЦЗЯН
55 ЛИЦЗЯН
56 ЛИЦЗЯН
57 ЛИЦЗЯН
58 ЛИЦЗЯН
59 ЛОЯН
60 ЛОЯН
61 ЛОЯН
62 ЛОЯН
63 ЛОЯН
64 ЛОЯН
65 ЛОЯН
66 ЛОЯН
67 ЛХАСА
68 ЛХАСА
69 ЛХАСА
70 ЛХАСА
71 ЛХАСА
72 ЛХАСА
73 ЛХАСА
74 МАКАО
75 МАКАО
76 МАКАО
77 МАКАО
78 МАКАО
79 МАКАО
80 МАКАО
81 МАКАО
82 МАКАО
83 МАКАО
84 ПЕКИН
85 ПЕКИН
86 ПЕКИН
87 ПЕКИН
88 ПЕКИН
89 ПЕКИН
90 ПЕКИН
91 ПЕКИН
92 ПЕКИН
93 СИАНЬ
94 СИАНЬ
95 СИАНЬ
96 СИАНЬ
97 СИАНЬ
98 СИАНЬ
99 СИ

In [27]:
uuids_questions = [str(uuid4()) for _ in range(len(documents_questions))]

In [33]:
len(documents_questions)

2779

In [101]:
# collection_serv.get()

{'ids': ['36d1dbe4-08d9-4848-b627-d83dc5fa7dc9',
  '26d6e210-835c-4b3d-a14d-0af627def152',
  '60483ef6-305b-4273-bbf1-47083ced64d2',
  '879d63dd-b05b-4132-85ca-4a106e97daaf',
  'da274590-eee3-4c46-ab17-566074362d55',
  '369f79a5-ea34-431a-9a6e-78440c8e2791',
  'add4660f-ffcc-481b-b9f6-008b2125ee35',
  'b0cb3484-7edc-4385-86c3-634777301bf1',
  '696e427b-7a69-46e1-94c2-739883ba737b',
  '4f4c0401-9f5e-4a85-8709-ce3e73c122d6',
  '42f5d084-cdf8-4d68-b085-e2afe0a81086',
  'ec3bc116-bac5-4542-aefa-b43953529e8d',
  'a9d909a6-52ea-4a01-974f-afb6433385ad',
  'bad2a37c-d703-4daf-aaf7-8d643ef41110',
  'd56f7433-78ec-4177-840e-3f73199f8c1b',
  'a38aeffa-ad6e-427f-9d64-cedaf86ddb10',
  '78b059f2-713e-40bd-98ab-d1c0be2b6792',
  '110c77dc-936f-4bd5-b3de-8ce494c3901c',
  '870763aa-d52c-43f5-9e81-cf73f6c810eb',
  'efff5eac-6dec-422c-9803-003bff97e745',
  '3375ede7-6f4a-442d-8ab3-b0672af1c02a'],
 'embeddings': None,
 'documents': ['КИТАЙ ВВЕДЕНИЕ Какова площадь Китая по сравнению с другими странами?',
  

In [28]:
import time

In [29]:
start_time = time.time()

collection_serv.add(
    ids=uuids_questions, 
    documents=documents_questions,
    metadatas=metadatas_questions
)

response_time = time.time() - start_time
print(f"Время заполнения: {response_time:.4f} секунды")

Время заполнения: 745.4415


In [30]:
start_time = time.time()

vector_store_serv_from_client = Chroma(
    client=persistent_client_serv,
    collection_name="serv_collection",
    embedding_function=sentence_transformer_ef_cl,
)

response_time = time.time() - start_time
print(f"Время построения клиента: {response_time:.4f} секунды")

Время построения с эмбеддингами: 0.0050 секунды


In [71]:
results = vector_store_serv_from_client.similarity_search(
    "Где находится Запретный город?",
    k=3,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

* ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова площадь Запретного города? [{'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
* ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова длина крепостной стены Запретного города? [{'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
* ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова стоимость билета в Запретный город? [{'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]


In [73]:
results = vector_store_serv_from_client.similarity_search(
    "Какие достопримечательности в Шанхае?",
    k=3,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

* ШАНХАЙ ПОКУПКИ Каковы главные достопримечательности шопинга в Шанхае? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ПОКУПКИ'}]
* ШАНХАЙ МУЗЕИ Где находится Музей истории Шанхая? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'МУЗЕИ'}]
* ШАНХАЙ ПОКУПКИ Какие торговые комплексы стоит посетить в Шанхае? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ПОКУПКИ'}]


### Формирование рабочего варианта базы Chroma

In [80]:
persistent_client_serv_res = chromadb.PersistentClient(path="./serv_db_res_crop")

In [81]:
collection_serv_res = persistent_client_serv_res.get_or_create_collection("serv_collection", embedding_function=sentence_transformer_ef)

In [82]:
documents_questions = []
metadatas_questions = []

In [83]:
for ind in range(data.shape[0]):
    requests = data['Requests'][ind].split("\n")
    print(f"{ind+1} {data['Chapters'][ind]} вопросов: {len(requests)}")

    for question in requests[:50]:
        req = f"{data['Chapters'][ind]} {data['Subchapters'][ind]} {question.strip()}"
        documents_questions.append(req)
        metadatas_questions.append({"Chapters": data['Chapters'][ind], "Subchapters": data['Subchapters'][ind]})

1 КИТАЙ вопросов: 21
2 ОРГАНИЗАЦИЯ ТУРА вопросов: 969
3 ВИЗЫ вопросов: 835
4 СТРАХОВКА вопросов: 15
5 ГОСТИНИЦЫ вопросов: 942
6 КАК ДОБРАТЬСЯ ДО КИТАЯ вопросов: 778
7 ПРИБЫТИЕ вопросов: 10
8 ПРИБЫТИЕ вопросов: 20
9 ПРИБЫТИЕ вопросов: 20
10 КИТАЙ вопросов: 20
11 КИТАЙ вопросов: 880
12 КИТАЙ вопросов: 21
13 КИТАЙ вопросов: 22
14 КИТАЙ вопросов: 16
15 КИТАЙ вопросов: 21
16 КИТАЙ вопросов: 21
17 КИТАЙ вопросов: 1021
18 КИТАЙ вопросов: 21
19 ГОНКОНГ вопросов: 904
20 ГОНКОНГ вопросов: 21
21 ГОНКОНГ вопросов: 848
22 ГОНКОНГ вопросов: 30
23 ГОНКОНГ вопросов: 835
24 ГОНКОНГ вопросов: 21
25 ГОНКОНГ вопросов: 1114
26 ГОНКОНГ вопросов: 13
27 ГОНКОНГ вопросов: 20
28 ГОНКОНГ вопросов: 11
29 ГУАНЧЖОУ вопросов: 21
30 ГУАНЧЖОУ вопросов: 10
31 ГУАНЧЖОУ вопросов: 21
32 ГУАНЧЖОУ вопросов: 40
33 ГУАНЧЖОУ вопросов: 17
34 ГУАНЧЖОУ вопросов: 16
35 ГУАНЧЖОУ вопросов: 21
36 ГУАНЧЖОУ вопросов: 1088
37 ГУАНЧЖОУ вопросов: 20
38 ГУАНЧЖОУ вопросов: 14
39 ГУАНЧЖОУ вопросов: 20
40 ГУЙЛИНЬ вопросов: 21
41 ГУЙЛИНЬ вопро

In [84]:
len(documents_questions)

3535

In [85]:
uuids_questions = [str(uuid4()) for _ in range(len(documents_questions))]

In [86]:
start_time = time.time()

collection_serv_res.add(
    ids=uuids_questions, 
    documents=documents_questions,
    metadatas=metadatas_questions
)

response_time = time.time() - start_time
print(f"Время заполнения: {response_time:.3f} секунды")

Время заполнения: 991.082 секунды


In [87]:
start_time = time.time()

vector_store_serv_res_from_client = Chroma(
    client=persistent_client_serv_res,
    collection_name="serv_collection",
    embedding_function=sentence_transformer_ef_cl,
)

response_time = time.time() - start_time
print(f"Время построения клиента: {response_time:.3f} секунды")

Время построения клиента: 0.005 секунды


In [88]:
start_time = time.time()

results = vector_store_serv_res_from_client.similarity_search(
    "Какие достопримечательности в Шанхае?",
    k=3,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

response_time = time.time() - start_time
print(f"Время обработки запроса: {response_time:.7f} секунды")

* ШАНХАЙ ПОКУПКИ Каковы главные достопримечательности шопинга в Шанхае? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ПОКУПКИ'}]
* ШАНХАЙ ДОСТОПРИМЕЧАТЕЛЬНОСТИ Что можно увидеть в музее истории Шанхая? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
* ШАНХАЙ МУЗЕИ Где находится Музей истории Шанхая? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'МУЗЕИ'}]
Время обработки запроса: 0.3476250 секунды


In [89]:
start_time = time.time()

results = vector_store_serv_res_from_client.similarity_search(
    "Где находится Запретный город?",
    k=3,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

response_time = time.time() - start_time
print(f"Время обработки запроса: {response_time:.7f} секунды")

* ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова площадь Запретного города? [{'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
* ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова длина крепостной стены Запретного города? [{'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
* ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова стоимость билета в Запретный город? [{'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}]
Время обработки запроса: 0.2335246 секунды


In [90]:
start_time = time.time()

results = vector_store_serv_res_from_client.similarity_search(
    "Расскажи про историю Китая",
    k=3,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

response_time = time.time() - start_time
print(f"Время обработки запроса: {response_time:.7f} секунды")

* КИТАЙ НАСЕЛЕНИЕ Какова история ханьцев? [{'Chapters': 'КИТАЙ', 'Subchapters': 'НАСЕЛЕНИЕ'}]
* КИТАЙ НЕМНОГО ИСТОРИИ Какова история доисторического периода Китая? [{'Chapters': 'КИТАЙ', 'Subchapters': 'НЕМНОГО ИСТОРИИ'}]
* КИТАЙ ОБЩАЯ ИНФОРМАЦИЯ Какое население у Китая? [{'Chapters': 'КИТАЙ', 'Subchapters': 'ОБЩАЯ ИНФОРМАЦИЯ'}]
Время обработки запроса: 0.2179425 секунды


In [91]:
start_time = time.time()

results = vector_store_serv_res_from_client.similarity_search(
    "Какой транспорт в Шанхае?",
    k=3,
    # filter={"source": "tweet"},
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")

response_time = time.time() - start_time
print(f"Время обработки запроса: {response_time:.7f} секунды")

* ШАНХАЙ ТРАНСПОРТ Сколько маршрутов общественного транспорта в Шанхае? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ТРАНСПОРТ'}]
* ШАНХАЙ РАЗВЛЕЧЕНИЯ Какой транспорт удобен для посещения развлекательных заведений в Шанхае? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'РАЗВЛЕЧЕНИЯ'}]
* ШАНХАЙ ТРАНСПОРТ Какой вид транспорта в Шанхае не касается поверхности рельса во время движения? [{'Chapters': 'ШАНХАЙ', 'Subchapters': 'ТРАНСПОРТ'}]
Время обработки запроса: 0.2594244 секунды


In [93]:
res.metadata, res.metadata['Chapters'], res.metadata['Subchapters']

({'Chapters': 'ШАНХАЙ', 'Subchapters': 'ТРАНСПОРТ'}, 'ШАНХАЙ', 'ТРАНСПОРТ')

In [98]:
data.loc[(data['Chapters'] == res.metadata['Chapters']) & (data['Subchapters'] == res.metadata['Subchapters'])].index[0]

149

In [115]:
data.loc[(data['Chapters'] == res.metadata['Chapters']) & (data['Subchapters'] == res.metadata['Subchapters']), 'Clean_Text'].values[0]

'Шанхай единственный в Китае город, который имеет 2 аэропорта. Аэропорт «Хунцяо» находится в западной части города в 13 км от центральной площади Жэньминь. Международный аэропорт «Пудун» расположен в приморской зоне Пудунского нового района. Расстояние до города составляет 30 км, до «Хунцяо» 40 км. Специальный автобусный маршрут №1 связывает аэропорт «Пудун» с аэропортом «Хунцяо»; №2 с Шанхайским выставочным центром; №3 с ул. Цзуньилу (отель «Янцзы»); №4 с ул. Дунцзянваньлу (парк им. Лу Синя); №5 с Шанхайским вокзалом; №6 с Западным вокзалом. Чтобы увидеть воплощенные в реальность новейшие технические разработки, прокатитесь на скоростном поезде на магнитной подушке. Во время движения поезд «Maglev», напоминающий ракету, движется почти бесшумно и очень плавно. Не веришь глазам, когда на табло высвечивается его скорость 431 км/час! На дорогу уходит всего 7,5 мин. Такой состав, в отличие от традиционных поездов, во время движения не касается поверхности рельса. Строительство линии длиной

## Функция потоковой генерации

In [101]:
import asyncio

In [137]:
user_request = "Расскажи подробно про Запретный город"

In [138]:
messages = []

In [139]:
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage, trim_messages

In [140]:
llm_max = GigaChat(
    credentials=os.environ.get("GIGACHAT_API_KEY"),
    scope="GIGACHAT_API_PERS",
    model="GigaChat-Max",
    # Отключает проверку наличия сертификатов НУЦ Минцифры
    verify_ssl_certs=False,
    streaming=True, #False,
)

In [141]:
trimmer = trim_messages(
    max_tokens=31000,
    strategy="last",
    token_counter=llm_max,
    include_system=True,
    allow_partial=False,
    start_on="human",
)

In [142]:
sys_mess = SystemMessage(content="Ты профессиональный путеводетель по Китаю. Ты подробно отвечаешь на запросы пользователя используя контекст. Придерживайся фактов!")
messages.append(sys_mess)

In [143]:
results = vector_store_serv_res_from_client.similarity_search(
    user_request,
    k=2,
)

prompt = f"{user_request}\nКонтекст:\n"
if (results[0].metadata['Chapters'] == results[1].metadata['Chapters']) and (results[0].metadata['Subchapters'] == results[1].metadata['Subchapters']):
    prompt += data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n"
else:
    prompt += "* " + data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n* " + \
        data.loc[(data['Chapters'] == results[1].metadata['Chapters']) & (data['Subchapters'] == results[1].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n"

print(data.loc[(data['Chapters'] == res.metadata['Chapters']) & (data['Subchapters'] == res.metadata['Subchapters'])].index[0])

messages.append(HumanMessage(content=prompt))

149


In [144]:
results

[Document(metadata={'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}, page_content='ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Какова стоимость билета в Запретный город?'),
 Document(metadata={'Chapters': 'ПЕКИН', 'Subchapters': 'ДОСТОПРИМЕЧАТЕЛЬНОСТИ'}, page_content='ПЕКИН ДОСТОПРИМЕЧАТЕЛЬНОСТИ Как была устроена система отопления в Запретном городе?')]

In [145]:
print(messages[-1].content[:150])

Расскажи подробно про Запретный город
Контекст:
Площадь Тяньаньмэнь. Авт. 1, 2, 4, 5, 10, 20, 22, 52, 54, 57, 120, 802, 9, 17, 44, 48, 53, 59, 66, 110


In [146]:
for chunk in llm_max.stream(messages):
    print(chunk) # (chunk.choices[0].delta.content, end="", flush=True)

content='Запретный город — это крупнейший в мире дворцовый комплекс, расположенный в центре Пекина, столице Китая.' additional_kwargs={} response_metadata={} id='run-1eb58482-2f9f-41e7-b5ac-95c5ed965e88'
content=' Он был построен в начале XV века и служил главной резиденцией китайских императоров на протяжении почти 500 лет, начиная с династии Мин и заканчивая династией Цин.' additional_kwargs={} response_metadata={} id='run-1eb58482-2f9f-41e7-b5ac-95c5ed965e88'
content=' \n\nНазвание "Запретный город" происходит от того факта, что простым людям запрещалось входить внутрь комплекса без специального разрешения.' additional_kwargs={} response_metadata={} id='run-1eb58482-2f9f-41e7-b5ac-95c5ed965e88'
content=' Город окружён крепостной стеной высотой 10 метров и длиной 3500 метров, а также глубоким рвом шириной 52 метра, наполненным водой.' additional_kwargs={} response_metadata={} id='run-1eb58482-2f9f-41e7-b5ac-95c5ed965e88'
content=' Внутри Запретного города находятся более 9000 различн

In [148]:
llm_max.invoke(messages)

AIMessage(content='Запретный город — это крупнейший в мире дворцовый комплекс, расположенный в центре Пекина, Китай. Он был официальной резиденцией китайских императоров и политическим центром страны с 1420 года до конца монархии в 1912 году. За свою историю Запретный город служил домом для 24 императоров двух последних династий — Мин и Цин.\n\n### Основные характеристики\n\n- **Название**: Запретный город (кит. 紫禁城, Zǐjìnchéng)\n- **Расположение**: Центр Пекина, Китай\n- **Строительство**: Началось в 1406 году, завершено в 1420 году\n- **Династии**: Мин (1368–1644) и Цин (1644–1912)\n- **Размеры**: Площадь около 720 тысяч квадратных метров, длина стен — 3400 метров, глубина рва вокруг комплекса — 52 метра\n- **Количество зданий**: Более 980 зданий, включающих около 8700 комнат\n\n### Архитектура и планировка\n\nЗапретный город имеет прямоугольную форму и состоит из трех основных частей: Внешняя зона (Внешний двор), Внутренняя зона (Внутренний двор) и Зоны садов и храмов. Весь комплекс

In [154]:
ansver = ""
for chunk in llm_max.stream(messages):
    ansver += chunk.content
    print(chunk.content, end="", flush=True)

messages.append(AIMessage(ansver))

Запретный город — это грандиозный дворцовый комплекс, расположенный в центре Пекина, Китай. Он был построен в начале XV века и служил резиденцией для 24 императоров династий Мин и Цин на протяжении почти 500 лет. Запретный город является самым большим историческим памятником Китая и самым крупным в мире музеем под открытым небом.

### Основные характеристики

- **Название**: Запретный город, также известен как Гугун («Дворец бывших правителей»).
- **Расположение**: Центр Пекина, рядом с площадью Тяньаньмэнь.
- **Строительство**: Началось в 1406 году и завершилось в 1420 году.
- **Площадь**: Около 720 тысяч квадратных метров.
- **Количество сооружений**: Более 980 зданий и около 8700 комнат.
- **Значение**: Был политическим центром Китая и символом императорской власти.

### Архитектура и планировка

Запретный город состоит из двух основных частей: Внешнего двора и Внутреннего двора. Внешний двор использовался для официальных церемоний и приемов, тогда как Внутренний двор был жилым прос

In [156]:
len(messages)

3

In [170]:
# trimmer.invoke(messages)

In [158]:
len(messages)

3

### GigaChat-light

In [159]:
llm_light = GigaChat(
    credentials=os.environ.get("GIGACHAT_API_KEY"),
    scope="GIGACHAT_API_PERS",
    model="GigaChat",
    # Отключает проверку наличия сертификатов НУЦ Минцифры
    verify_ssl_certs=False,
    streaming=True, #False,
)

In [164]:
messages = []

In [165]:
sys_mess = SystemMessage(content="Ты профессиональный путеводетель по Китаю. Ты подробно отвечаешь на запросы пользователя используя контекст. Придерживайся фактов!")
messages.append(sys_mess)

In [166]:
results = vector_store_serv_res_from_client.similarity_search(
    user_request,
    k=2,
)

prompt = f"{user_request}\nКонтекст:\n"
if (results[0].metadata['Chapters'] == results[1].metadata['Chapters']) and (results[0].metadata['Subchapters'] == results[1].metadata['Subchapters']):
    prompt += data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n"
else:
    prompt += "* " + data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n* " + \
        data.loc[(data['Chapters'] == results[1].metadata['Chapters']) & (data['Subchapters'] == results[1].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n"

print(data.loc[(data['Chapters'] == res.metadata['Chapters']) & (data['Subchapters'] == res.metadata['Subchapters'])].index[0])

messages.append(HumanMessage(content=prompt))

149


In [163]:
# ansver = ""
# for chunk in llm_max.stream(messages):
#     ansver += chunk.content
#     print(chunk.content, end="", flush=True)

# messages.append(AIMessage(ansver))

Запретный город — это дворцовый комплекс в центре Пекина, который был резиденцией китайских императоров с 1420 года до начала XX века. Он также известен как "Гугун" или "Императорский дворец". 

Комплекс имеет прямоугольную форму и занимает площадь около 720 тысяч квадратных метров. Он окружён крепостной стеной высотой 10 метров и рвом шириной 52 метра. Внутри комплекса находятся 980 зданий, которые включают различные дворцы, храмы, сады и другие постройки. Всего в Запретном городе насчитывается 9999 комнат, что символизирует власть императора, приближенную к власти небесного императора, у которого было 10 000 комнат.

История Запретного города начинается в 1406 году, когда третий император династии Мин, Юнлэ, начал строительство нового дворца в Пекине. Строительство продолжалось 14 лет и завершилось в 1420 году. С тех пор Запретный город стал главной резиденцией императоров Китая вплоть до падения последней императорской династии Цин в 1912 году.

В 1987 году Запретный город был внесё

In [167]:
ansver = ""
for chunk in llm_light.stream(messages):
    ansver += chunk.content
    print(chunk.content, end="", flush=True)

messages.append(AIMessage(ansver))

Запретный город (Гугун) — это один из наиболее значимых исторических объектов Китая, который также считается самым большим дворцовым комплексом в мире. Строительство этого комплекса началось в 1406 году и продолжалось до 1420 года. Дворцовый комплекс занимает площадь в 72 гектара и включает в себя около 9999 отдельных помещений. Запретный город был официальной резиденцией императоров династий Мин и Цин вплоть до 1912 года, когда последний император Пу И покинул дворец после Синьхайской революции.

Комплекс окружён высокой крепостной стеной и глубоким рвом, которые служат дополнительной защитой. Главная архитектурная идея Запретного города — сочетание ландшафтного дизайна и сооружений, создающих единый ансамбль. Вся территория делится на внутренний и внешний дворы, каждый из которых имеет свои функции и особенности. Внутренний двор использовался исключительно для официальных мероприятий и повседневной жизни императора, тогда как внешний двор был доступен для придворных и знатных гостей.

In [169]:
# trimmer.invoke(messages)

## Компоновка сервера

In [204]:
import os
import getpass

In [205]:
import asyncio
import uvicorn
import logging

In [206]:
from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from fastapi.responses import StreamingResponse

In [181]:
from langchain_gigachat.chat_models import GigaChat
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage, trim_messages

In [178]:
from langchain_chroma import Chroma
import chromadb

In [172]:
# Инициализация логирования
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

In [173]:
# Запрашиваем токен
def set_env(var: str):
    if not os.environ.get(var):
        os.environ[var] = getpass.getpass(f"{var}: ")

set_env("GIGACHAT_API_KEY")

In [174]:
# Загружаем модель
model = GigaChat(
    credentials=os.environ.get("GIGACHAT_API_KEY"),
    scope="GIGACHAT_API_PERS",
    model="GigaChat",
    # Отключает проверку наличия сертификатов НУЦ Минцифры
    verify_ssl_certs=False,
    streaming=True, #False,
)

In [182]:
# Загружаем датасет
data = pd.read_csv("2024_12_14 China full 02.csv")

In [179]:
# Грузим эмбеддинги и базу Chroma
sentence_transformer_ef = embedding_functions.SentenceTransformerEmbeddingFunction(model_name="intfloat/multilingual-e5-large")
sentence_transformer_ef_cl = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")

persistent_client_serv = chromadb.PersistentClient(path="./serv_db_res_crop")
collection_serv = persistent_client_serv.get_or_create_collection("serv_collection", embedding_function=sentence_transformer_ef)

INFO:sentence_transformers.SentenceTransformer:Use pytorch device_name: cpu
INFO:sentence_transformers.SentenceTransformer:Load pretrained SentenceTransformer: intfloat/multilingual-e5-large


In [180]:
# Создаеём клиента векторной базы
vector_store_from_client = Chroma(
    client=persistent_client_serv,
    collection_name="serv_collection",
    embedding_function=sentence_transformer_ef_cl,
)

In [219]:
# Функция добавления контекста к пользовательскому запросу
def get_human_message(answer: str):
    results = vector_store_from_client.similarity_search(
        answer,
        k=2,
    )
    
    prompt = f"{answer}\nКонтекст:\n"
    if (results[0].metadata['Chapters'] == results[1].metadata['Chapters']) and (results[0].metadata['Subchapters'] == results[1].metadata['Subchapters']):
        prompt += data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n"
    else:
        prompt += "* " + data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n* " + \
            data.loc[(data['Chapters'] == results[1].metadata['Chapters']) & (data['Subchapters'] == results[1].metadata['Subchapters']), 'Clean_Text'].values[0] + "\n"
    
    ind = int(data.loc[(data['Chapters'] == results[0].metadata['Chapters']) & (data['Subchapters'] == results[0].metadata['Subchapters'])].index[0])

    return (HumanMessage(content=prompt), ind)

In [215]:
# Создаём и инициализируем очередь сообщений
messages = []

messages.append(SystemMessage(content="Ты профессиональный путеводетель по Китаю. Ты подробно отвечаешь на запросы пользователя используя контекст. Придерживайся фактов!"))

In [187]:
# Функция генерации ответов
async def generate(messages, index: int):
    logger.info(f"Зпрос пользователя. Index: {index} Запрос: {messages[-1]}")

    index_pack = {
        "index": index
    }
    yield json.dumps(index_pack)
    await asyncio.sleep(0.1)

    ansver = ""
    for chunk in model.stream(messages):
        ansver += chunk.content
        print(chunk.content, end="", flush=True)
        response_part = {
            "content": f"{chunk.content}"
        }

        yield json.dumps(response_part)    # json.dumps(delta)
        await asyncio.sleep(0.025)
    
    messages.append(AIMessage(ansver))
    logger.info(f"Ответ путеводителя. Index: {index} Запрос: {messages[-1]}")


In [188]:
# Инициализация FastAPI
app = FastAPI()

In [189]:
class ChatMessage(BaseModel):
    content: str

In [190]:
@app.post("/chat")
async def chat_endpoint(chat_message: ChatMessage):
    
    message, index = get_human_message(chat_message.content)
    messages.append(message)
    
    trim_messages(
        messages,
        max_tokens=32000,
        strategy="last",
        token_counter=model,
        include_system=True,
        allow_partial=False,
        start_on="human",
    )

    return StreamingResponse(generate(messages, index), media_type="text/plain")  # return answer