In [1]:
import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig
import pandas as pd

In [2]:
MODEL_NAME = "IlyaGusev/saiga_mistral_7b"
DEFAULT_MESSAGE_TEMPLATE = "<s>{role}\n{content}</s>"
DEFAULT_RESPONSE_TEMPLATE = "<s>bot\n"
DEFAULT_SYSTEM_PROMPT = "Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им."

class Conversation:
    def __init__(
        self,
        message_template=DEFAULT_MESSAGE_TEMPLATE,
        system_prompt=DEFAULT_SYSTEM_PROMPT,
        response_template=DEFAULT_RESPONSE_TEMPLATE
    ):
        self.message_template = message_template
        self.response_template = response_template
        self.messages = [{
            "role": "system",
            "content": system_prompt
        }]

    def add_user_message(self, message):
        self.messages.append({
            "role": "user",
            "content": message
        })

    def add_bot_message(self, message):
        self.messages.append({
            "role": "bot",
            "content": message
        })

    def get_prompt(self, tokenizer):
        final_text = ""
        for message in self.messages:
            message_text = self.message_template.format(**message)
            final_text += message_text
        final_text += DEFAULT_RESPONSE_TEMPLATE
        return final_text.strip()


def generate(model, tokenizer, prompt, generation_config):
    data = tokenizer(prompt, return_tensors="pt", add_special_tokens=False)
    data = {k: v.to(model.device) for k, v in data.items()}
    output_ids = model.generate(
        **data,
        generation_config=generation_config
    )[0]
    output_ids = output_ids[len(data["input_ids"][0]):]
    output = tokenizer.decode(output_ids, skip_special_tokens=True)
    return output.strip()

config = PeftConfig.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(
    config.base_model_name_or_path,
    load_in_8bit=True,
    torch_dtype=torch.float16,
    device_map="auto"
)
model = PeftModel.from_pretrained(
    model,
    MODEL_NAME,
    torch_dtype=torch.float16
)
model.eval()

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, use_fast=False)
generation_config = GenerationConfig.from_pretrained(MODEL_NAME)
print(generation_config)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


GenerationConfig {
  "bos_token_id": 1,
  "do_sample": true,
  "eos_token_id": 2,
  "max_new_tokens": 1536,
  "no_repeat_ngram_size": 15,
  "pad_token_id": 0,
  "repetition_penalty": 1.1,
  "temperature": 0.2,
  "top_k": 40,
  "top_p": 0.9
}



In [3]:
df = pd.read_csv("train_dataset_train_variant2.csv")
bad_themes = ["Государственная собственность", "Культура", 'МФЦ "Мои документы"', "Памятники и объекты культурного наследия"
             "Погребение и похоронное дело", "Роспотребнадзор", "Спецпроекты", "Строительство и архитектура", "Торговля",
              "Физическая культура и спорт", "Экология", "Экономика и бизнес", "Электроснабжение"]

In [4]:
prompt = "[ИНФОРМАЦИЯ]:\nПользовательское обращение: {}\nИсполнитель, решающий проблему: {}\nГруппа темы: {}\nТема: {}\n[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и верни их в python листе:"

In [5]:
from tqdm import tqdm

In [6]:
results = []

In [7]:
for theme in tqdm(bad_themes):
    for pod_theme in df[df["Группа тем"] == theme].Тема.unique().tolist():
        for i, dataframe in df[(df["Группа тем"] == theme) & (df["Тема"] ==pod_theme)].reset_index(drop=True).iterrows():
            
            if i == 2:
                break
            
            prompt_ = prompt.format(dataframe["Текст инцидента"], dataframe["Исполнитель"],
                                    theme, pod_theme)

            print(prompt_)
            conversation = Conversation()
            conversation.add_user_message(prompt_)
            prompt_ = conversation.get_prompt(tokenizer)
        
            output = generate(model, tokenizer, prompt_, generation_config)

            print(output)
            print('-------------------\n')
            result = [dataframe["Исполнитель"], theme, output, pod_theme]
            
            results.append(result)

            result_ = str([dataframe["Исполнитель"], theme, output, pod_theme])
            
            with open("result.txt", 'a') as file:
                file.write(result_+ '\n')

            torch.cuda.empty_cache()

  0%|          | 0/12 [00:00<?, ?it/s]

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  Здравствуйте. Кто собственник бывшего училища 6 на ул.Революции? Средь бела дня ломают здание, выбивают стёкла, выносят металл. Или здание демонтируется собственником?
Исполнитель, решающий проблему: Лысьвенский городской округ
Группа темы: Государственная собственность
Тема: Региональное имущество
[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и верни их в python листе:
1. Здравствуйте. Мне интересно, как можно получить доступ к государственной собственности в России?
2. Здравствуйте. Как определить, является ли объект государственной или муниципальной собственностью?
3. Здравствуйте. Какие виды государственной собственности существуют в России?
4. Здравствуйте. Как можно купить землю, которая находится в государственной собственности?
5. Здравствуйте. Как можно получить разрешение на использование объекта, который находится в государственной собственности?
------------------

  8%|▊         | 1/12 [01:31<16:44, 91.27s/it]

Здравствуйте, подскажите пожалуйста, куда можно обратиться по вопросам аренды свободного земельного участка?

Здравствуйте, как можно получить информацию о доступных для аренды земельных участках в городе?

Здравствуйте, есть ли возможность аренды земельного участка для строительства частного дома?

Здравствуйте, как можно узнать стоимость аренды земельного участка в городе?

Здравствуйте, какие документы необходимы для аренды земельного участка?
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:   задал вопрос про статус модерации кинотеатра в Александровске. Мне не ответили. Почему?
Исполнитель, решающий проблему: Александровский муниципальный округ Пермского края
Группа темы: Культура
Тема: Учреждения культуры
[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и верни их в python листе:
1. Задал вопрос о статусе модерации кинотеатра в Александровске. Меня не ответили. Почему?
2. Хотел узнать, есть ли возможн

 17%|█▋        | 2/12 [05:31<29:50, 179.01s/it]

1. Здравствуйте, будут ли в городе какие-либо праздничные мероприятия на Новый год?
2. Здравствуйте, есть ли планы на проведение каких-либо культурных мероприятий в городе в ближайшее время?
3. Здравствуйте, будет ли в городе какое-то мероприятие или концерт в честь Дня Победы?
4. Здравствуйте, есть ли возможность посетить какой-нибудь культурный центр или музей в городе?
5. Здравствуйте, будут ли в городом какие-либо досуговые мероприятия для детей в ближайшее время?
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  Я с первого февраля немогу не до кого достучаться у меня на госуслугах висит больничный продлен и на работе не могут его распечатать дурдом . Говорит врач програма выдает ошибку а мне то чё делать когда я его получу .воспитываю одна 2 детишек .куда не обращаюсь везде говорят подождите а сколько ждать что за дурдом
Исполнитель, решающий проблему: Министерство здравоохранения
Группа темы: МФЦ "Мои документы"
Тема: Государственные услуги
[ЗАДАНИЕ]: Опираясь на [

 25%|██▌       | 3/12 [11:08<37:38, 250.94s/it]

Здравствуйте. Подавала документы на оформление субсидий через МФЦ. Где и у кого можно узнать результат? В МФЦ говорят, что в Кировском районе на улице Хмельницкого не занимаются оформлением субsidy.

Здравствуйте. Я подала документы на оформление субсидии через МФЦ. Где и у кого можно увидеть результат? В МФЦ говорят, что на улице Хмельницкого в Кировском районе не занимаются оформлением субсидии.

Здравствуйте. Я подавала документы на оформление субсидии. Где и у кого можно узнать результат оформления? В МФЦ говорят, что в Кировский район на улице Хмельницкого не занимаются оформления субсидии.

Здравствуйте. Подавала документов на оформление субсидии через МФЦ. У кого и где можно узнать результат? В МФЦ говорили, что в Кировском районе на улице Хмельницкий не занимаются оформлением субсидии.
 
Здравствуйте. Я подавала документов на оформление субсидии. Где и у кто можно узнать результат? В МФЦ говорели, что в Кировском районе на улице Хмельницакого не занимаются оформлением субсидии.

 42%|████▏     | 5/12 [16:57<24:13, 207.68s/it]

1. Мы также сталкиваемся с проблемой грызунов в нашем доме. Могли бы вы дать нам некоторые советы или рекомендации, как мы могли бы сами устранить эту проблему?

2. Нам очень важно обеспечить безопасность здоровья для всех членов нашей семьи, включая домашних животных. Мы хотели бы получить информацию о том, как мы можем обеспечить безопасное использование химических средств для борьбы с грызунами.

3. Мы хотели бы знать, есть ли какие-либо альтернативные методы борьбы с грызунами, которые могут быть более эффективными и безопасными для окружающей среды.

4. Мы хотели бы знать, как часто следует проводить процедуры дератизации, чтобы предотвратить возникновение новых колоний грызунов.

5. Мы хотели бы знать, какие типы химических средств лучше использовать для борьбы с грызунами, учитывая нашу специфическую ситуацию.
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  В какое время 9 мая пойдёт Бессмертный полк?
Исполнитель, решающий проблему: Лысьвенский городской округ
Гр

 50%|█████     | 6/12 [17:56<16:30, 165.00s/it]

1. Добрый вечер. Могу ли я получить информацию о специальных проектах, которые выполняются вашей компанией?
2. Здравствуйте. Мне интересно узнать, какие специальные проекты вы планируете осуществить в ближайшее время?
3. Привет. Я хотел бы узнать, как можно стать участником одного из ваших специальных проектов?
4. Здравия вам! Мне интересно узнать, как выбираются сотрудники для участия в специальных проектах?
5. Привет. Мне интересно узнать, как вы работаете над специальными проектами?
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  В Кунгуре такая же башня стоит у ЖД вокзала, ее отремонтировали, а ёмкость которая внутри используют как пожарная.Зачем сразу ломать?Вообще это объект РЖД лет 5 назад она даже была на продаже.
Исполнитель, решающий проблему: Город Пермь
Группа темы: Строительство и архитектура
Тема: Состояние зданий учреждений и организаций
[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и ве

 58%|█████▊    | 7/12 [25:56<21:23, 256.71s/it]

1. Да, подтверждаю, я хочу узнать больше о современной архитектуре города Пермь.
2. Да, подтверждаю, мне интересно узнать о исторических зданиях и памятниках города Пермь.
3. Да, подтверждаю, я хочу узнать о строительстве новых объектов в городе Пермь.
4. Да, подтверждаю, я хочу узнать об архитектурных тенденциях и стилях в городе Пермь.
5. Да, подтверждаю, я хочу узнать, какие компании занимаются проектированием и строительством в городе Пермь.
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  Как принять участие ?.? 
Исполнитель, решающий проблему: Город Пермь
Группа темы: Торговля
Тема: ★ Нестационарная торговля (киоски, павильоны, сезонная торговля)
[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и верни их в python листе:
1. Как открыть магазин киоска в городе Пермь?
2. Как получить разрешение на торговлю на улице в городе Пермь?
3. Как найти подходящий место для установки киоска в городе Пермь?
4. Ка

 67%|██████▋   | 8/12 [27:08<13:29, 202.47s/it]

1. Пожалуйста, увеличьте количество стационарных магазинов на площади Дружбы, чтобы люди могли покупать товары без переездов.
2. Предложите альтернативные места для нестационарной торговли, чтобы они не мешали жизни горожан.
3. Организуйте ежемесячное обновление списка киосков и павильонов на площади Дружбы, чтобы люди знали о новых возможностях покупки.
4. Улучшите инфраструктуру площади Дружбы, чтобы она была более привлекательной для посетителей и покупателей.
5. Распределите киоски и павильоны по всему городу, чтобы каждый район имел доступ к нестационарной торговле.
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  Надеюсь, антикоррозионная и гидроизоляционная обработка и сварка несущего металлического каркаса выполнена надлежащим образом. Выполнялся ли рентген контроль или УЗ сканирование сварных соединений стеновых узлов и подкровельных ферм и балок?
Исполнитель, решающий проблему: Город Пермь
Группа темы: Физическая культура и спорт
Тема: Строительство спортивной 

 75%|███████▌  | 9/12 [31:51<11:18, 226.20s/it]

1. Здравствуйте! Я хотел бы узнать, когда и где проводятся соревнования по футболу в городе Лысьва?
2. Привет! Мне интересно, когда и где проходят соревнования по баскетболу в районе города Лысьва?
3. Здравствуйте! Я хочу узнать, когда и где проводятся соревнований по волейболу в городе Лысьве?
4. Привет! Мне интересно, когда и где в городе Лысьва проводятся соревнования по гимнастике?
5. Здравствуйте! Я хочу узнать информацию о соревнованиях по плаванию в городе Лысьва.
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  В городе сегодня вонь
Исполнитель, решающий проблему: Город Пермь
Группа темы: Экология
Тема: Выбросы вредных веществ в атмосферу/загрязнение воздуха
[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и верни их в python листе:
1. Возникла проблема загрязнения воздуха в городе. Как можно улучшить ситуацию?
2. Что делает город Пермь для предотвращения выбросов вредных веществ в атмосферу?
3. Ка

 83%|████████▎ | 10/12 [38:47<09:25, 282.76s/it]

Пермь г, 79918071863. Здравствуйте. Я обращаюсь с просьбой о помощи в благоустройстве Утиного болота. В этом месте обитают множество птиц, включая красавцев - кряквы. Однако, из-за неадекватной ситуации с мусором, которые оставляют туристы, место стало непривлекательным для этих животных. Также, число уток здесь только уменьшилось. Пожалуйста, постарайтесь найти решение данной проблемы.

Пермь г, 79918081848. Здравствуйте. Я обращаюсь с вопросом о благоустройстве Утиного болота. В 2021 году я уже писала о том, что хотят сделать, но не знаю, что было сделано. Однако, указатели были убраны. Но, кажется, болото не имеет хозяина или куратора, который мог бы заботиться о его благоустройстве. В результате, место стало непривлекательным для кряквы, а количество уток только уменьшилось. Пожалуйста, подумайте над решением данной проблемы.

Пермь г. 79918071848. Здаравствуйте. Я обращаюсь с просьбою о помощи в благоустройстве Утиного болова. В этом месте обитают множество птицы, включая красавце

 92%|█████████▏| 11/12 [42:02<04:16, 256.57s/it]

1. Привет! Я хочу узнать, как можно оптимизировать расходы на товары и услуги для своей компании?
2. Здравствуйте! Мне интересно, как вычислить среднюю цену на товар или услугу в определенной отрасли?
3. Привет! Я хотел бы узнать, как можно снизить затраты на материалы и сырье для производства?
4. Привет! Мне интересно, как можно снизить затраты на энергоресурсы для дома или офиса?
5. Привет! Мне интересно, как можно оптимизировать расходы на транспортные средства для своей компании?
-------------------

[ИНФОРМАЦИЯ]:
Пользовательское обращение:  Здравствуйте у нас в деревне зязелга не хватает напряжение даже воды набрать не можем
Исполнитель, решающий проблему: Бардымский муниципальный округ Пермского края
Группа темы: Электроснабжение
Тема: Качество электроснабжения
[ЗАДАНИЕ]: Опираясь на [ИНФОРМАЦИЯ] сгенирируй 5 пользовательских обращений схожих по смыслу соответствующих темам и верни их в python листе:
1. Здравствуйте! У нас в деревне есть проблема с электроснабжением - напряжение

100%|██████████| 12/12 [45:40<00:00, 228.40s/it]

1. На улице Интернациональная с.Барда прошит кабель через проезжую часть, после ремонта инженерных сетей на опоре ЛЭП.
2. На улице Интернациональная с.Барда установлен кабель через проезжую часть, после ремонта электросети на опоре ЛЭП.
3. На улице Интернациональная с.Барда подвешен кабель через проезжую часть, после ремонта системы освещения на опоре ЛЭП.
4. На улице Интернациональная с.Барда перекинут кабель через проезжую часть, после ремонта коммуникационной сети на опоре ЛЭП.
5. На улице Интернациональная с.Барда выведен кабель через проезжую часть, после ремонта водопровода на опоре ЛЭП.
-------------------






In [None]:
df = pd.read_csv("train_dataset_train_variant2.csv")
bad_themes = ["Государственная собственность", "Культура", 'МФЦ "Мои документы"', "Памятники и объекты культурного наследия"
             "Погребение и похоронное дело", "Роспотребнадзор", "Спецпроекты", "Строительство и архитектура", "Торговля",
              "Физическая культура и спорт", "Экология", "Экономика и бизнес", "Электроснабжение"]