In [31]:
from langchain.prompts import load_prompt
from langchain.chat_models.gigachat import GigaChat
from langchain.chains import LLMChain
from langchain.output_parsers.json import SimpleJsonOutputParser

import os
from dotenv import load_dotenv

load_dotenv("../.env")

True

In [32]:
AUTH_DATA = os.getenv("AUTH_DATA")

In [33]:
# Авторизация в сервисе GigaChat
giga = GigaChat(credentials=AUTH_DATA, verify_ssl_certs=False)

In [34]:
def read_file(file):
    with open(file, 'r') as f:
        return f.read()
    
abstract = read_file("../resources/tests/test_abstract.txt")

# Генерация ключевых слов

In [35]:
prompt = load_prompt("../resources/prompts/ru/zero_shot/keywords.yaml")
output_parser = SimpleJsonOutputParser()
chain = prompt | giga | output_parser
result = chain.invoke(
    {
        "text": abstract
    }
)

print(result)

['электронные медицинские записи', 'оценка состояния пациентов', 'модель BERT', 'глубокое обучение', 'статистические методы', 'температура', 'артериальное давление', 'частота дыхательных движений', 'частота сердечных сокращений', 'сатурация', 'разметка документов', 'предикторы оценки состояния пациентов', 'SpaCy', 'DeepPavlov', 'нейросетевые модели', 'обучающая выборка', 'донастройка моделей', 'результативность моделей']


# Суммаризация

In [13]:
prompt = load_prompt("../resources/prompts/ru/zero_shot/summary.yaml")
chain = prompt | giga
result = chain.invoke(
    {
        "text": abstract
    }
).content

print(result)

В данной статье рассматривается возможность использования модели BERT для выявления значимых признаков из электронных медицинских записей пациентов с COVID-19. Исследование проводилось на основе разметки 340 обезличенных электронных медицинских записей пациентов, болевших COVID-19. Показано, что настройка моделей на количестве около 150 размеченных документов позволяет определять указанные предикторы в таких текстах с точностью (Precision) 85–98 % и с полнотой (Recall) 77–98 %.


# Генерация названия

In [14]:
prompt = load_prompt("../resources/prompts/ru/zero_shot/title.yaml")
chain = prompt | giga
result = chain.invoke(
    {
        "text": abstract
    }
).content

print(result)

"Автоматизация оценки состояния пациентов с COVID-19: использование модели BERT для выявления именованных сущностей в электронных медицинских записях"


# Извлечение терминологии

In [23]:
prompt = load_prompt("../resources/prompts/ru/zero_shot/terminology.yaml")
output_parser = SimpleJsonOutputParser()
chain = prompt | giga | output_parser
result = chain.invoke(
    {
        "text": abstract
    }
)

print(result)

['глубокое обучение', 'статистические методы', 'нейросетевые модели', 'аннотирование документов', 'разметка документов', 'электронные медицинские записи', 'пациенты с COVID-19', 'температура', 'артериальное давление', 'частота дыхательных движений', 'частота сердечных сокращений', 'сатурация', 'точность', 'полнота', 'метрики качества работы', 'итеративное расширение обучающей выборки', 'донастройка моделей']


# Парафраз

In [25]:
prompt = load_prompt("../resources/prompts/ru/zero_shot/paraphrase.yaml")
chain = prompt | giga
result = chain.invoke(
    {
        "text": abstract.split('.')[1]
    }
).content

print(result)

В данном тексте научной статьи рассматривается необходимость выделения значимых признаков из электронных медицинских записей для автоматизации оценки состояния больных. Это является важным аспектом в научной деятельности, так как позволяет более точно и эффективно анализировать данные и принимать решения на основе полученной информации.
