Project Task: Text Improvement Engine EN

Objective:
Develop a tool that analyses a given text and suggests improvements based on the similarity to a list of "standardised" phrases. These standardised phrases represent the ideal way certain concepts should be articulated, and the tool should recommend changes to align the input text closer to these standards.

Requirements:
Data Input: Create a method for the user to input the text they wish to analyse. This could be through a simple UI or via a text file in CLI.

Standardised Phrases: Pre-load the tool with a list of standardised phrases (e.g., business jargon, scientific terminology, etc.).

Text Analysis: Use a pre-trained language model to find phrases in the input text that are semantically similar to any of the standardised phrases. Consider using techniques like cosine similarity with word embeddings. 

Suggestions: Provide a list of suggestions to replace phrases in the input text with their more "standard" versions. Each suggestion should show the original phrase, the recommended replacement, and the similarity score.


Проектная задача: Улучшение текста с использованием движка  RU


Цель:

Разработать инструмент, который анализирует данный текст и предлагает улучшения на основе сходства с набором "стандартизированных" фраз. Эти стандартизированные фразы представляют собой идеальный способ формулировки определенных концепций, и инструмент должен рекомендовать изменения, чтобы приблизить входной текст к этим стандартам.

Требования:

Ввод данных: Создать метод для ввода пользователем текста, который они хотели бы проанализировать. Это может быть через простой пользовательский интерфейс или через текстовый файл в командной строке.
Стандартизированные фразы: Предварительно загрузите инструмент набором стандартизированных фраз (например, деловой жаргон, научная терминология и т. д.).

Анализ текста: Используйте предварительно обученную языковую модель для поиска фраз во входном тексте, семантически сходных с любой из стандартизированных фраз. Рассмотрите использование техник, таких как косинусное сходство с векторами слов.
Предложения: Предоставьте список рекомендаций по замене фраз во входном тексте на более "стандартные" версии. Каждое предложение должно показывать исходную фразу, рекомендуемую замену и показатель сходства.

Документация: Предоставьте файл README с подробным описанием процесса установки, использованными технологиями и обоснованием своих решений по дизайну.
Этот проект даст вам возможность продемонстрировать разнообразные навыки, включая анализ текста, семантическое сходство и качество кода, и его выполнение должно быть возможным в течение 4 часов.



In [None]:
pip install transformers

In [None]:
from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np
import pandas as pd

In [None]:
pip install protobuf==3.20.0

In [None]:
terms = pd.read_csv('D:/DATA/datasets/standardised_terms.csv')

In [None]:
terms

In [None]:
import os
os.environ["PROTOCOL_BUFFERS_PYTHON_IMPLEMENTATION"] = "python"

In [None]:
model_name = "bert-base-uncased"
model = AutoModel.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

In [None]:
input_file_path = "D:/DATA/datasets/sample_text.txt"

with open(input_file_path, "r") as file:
    input_text = file.read()

In [None]:
input_text

In [None]:
inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True)

In [None]:
with torch.no_grad():
    outputs = model(**inputs)
embeddings = outputs.last_hidden_state.mean(dim=1).numpy()  

In [None]:
standardized_phrases = [
    "Optimal performance",
    "Utilize resources",
    "Enhance productivity",
    "Conduct an analysis",
    "Maintain a high standard",
    "Implement best practices",
    "Ensure compliance",
    "Streamline operations",
    "Foster innovation",
    "Drive growth",
    "Leverage synergies",
    "Demonstrate leadership",
    "Exercise due diligence",
    "Maximize stakeholder value",
    "Prioritize tasks",
    "Facilitate collaboration",
    "Monitor performance metrics",
    "Execute strategies",
    "Gauge effectiveness",
    "Champion change"
]

In [None]:
threshold = 0.5
suggestions = []

In [None]:
for phrase in standardized_phrases:
    phrase_inputs = tokenizer(phrase, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        phrase_outputs = model(**phrase_inputs)
    phrase_embedding = phrase_outputs.last_hidden_state.mean(dim=1).numpy()
    similarity = np.dot(embeddings, phrase_embedding.T) / (np.linalg.norm(embeddings) * np.linalg.norm(phrase_embedding))
    if similarity > threshold:
        suggestions.append((input_text, phrase, similarity))

In [None]:
for suggestion in suggestions:
    original_text, recommended_phrase, similarity_score = suggestion
    similarity_score = similarity_score.item()
    print(f"Original Text: {original_text}")
    print(f"Recommended Phrase: {recommended_phrase}")
    print(f"Similarity Score: {similarity_score:.2f}")
    print()