## AI - Работа с текстом

_Код использует библиотеку Transformers, которая предоставляет доступ к предварительно обученным моделям для работы с текстом. В данном случае, код использует PyTorch для выполнения операций нейросетевого обучения и генерации текста._

## Generative Pre-trained Transformer (GPT)

Генерация текстовых ответов на основе сообщения пользователя с использованием gpt модели.

In [11]:
from transformers import pipeline, set_seed

models = ["gpt2", "gpt2-large"]
model_indx = int(input("\n".join([f'{i+1}. {v}' for i, v in enumerate(models)]) + "\n\nВведите номер модели которую хотели бы использовать: "))
print("загрузка модели...")
text_generation = pipeline("text-generation", model=models[model_indx-1])
# set_seed(50)

user_message = input("Ваше сообщение: ")
print("загрузка сообщения...")
generated_text= text_generation(user_message, max_length=100)[0]
answer = generated_text["generated_text"]
print("Ответ: ", answer)

1. gpt2
2. gpt2-large

Введите номер модели которую хотели бы использовать:  2


загрузка модели...


Ваше сообщение:  world is


Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


загрузка сообщения...
Ответ:  world is far away, but we could find it. There's more to life than science fiction, even though scientists aren't sure what those stories mean. Scientists know the laws of physics more or less. They have a better idea of what the next five years are going to be like, and they're a bunch of good scientists. So people get excited about it and it's exciting to be able to say to our customers "Well, let's go there and work with them for the next ten


## Masked Language Modeling (MLM)

В тексте __"Paris is the [MASK] of France."__ определенное слово заменено на [MASK], и код использует модель BERT для предсказания, какое слово могло бы находиться на месте [MASK]. 

In [6]:
from transformers import pipeline

unmasker = pipeline("fill-mask", model="bert-base-uncased")

text = "Paris is the [MASK] of France."
result = unmasker(text)

print(f"Для предложения \"{text}\" подходят следующие маски:\n")
print("\n".join(map(lambda item: f"токен: {item['token_str']}, вероятность: {round(item['score'], 6)}", result)))


Some weights of the model checkpoint at bert-base-uncased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'bert.pooler.dense.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Для предложения "Paris is the [MASK] of France." подходят следующие маски:
токен: capital, вероятность: 0.996937
токен: heart, вероятность: 0.000591
токен: center, вероятность: 0.000438
токен: centre, вероятность: 0.000338
токен: city, вероятность: 0.00027


## Sentiment Analysis Model

Анализ тональности текста с помощью предварительно обученной модели.

In [9]:
from transformers import pipeline

sentiment_analysis = pipeline('sentiment-analysis')
user_message = input("Ваше сообщение: ")
result = sentiment_analysis(user_message)[0]

print(f"Ваше сообщение {result['label']} с вероятностью {round(result['score'], 6)} %")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Ваше сообщение:  i love you


Ваше сообщение POSITIVE с вероятностью 0.999866 %
