<a href="https://colab.research.google.com/github/SerginhoDom/MachineLearning/blob/master/Untitled0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Отчет о проекте**

## **Введение**

В этом отчете рассматривается проект, направленный на создание системы автоматической коррекции ошибок в тексте с использованием нейронных сетей и методов обработки естественного языка (Natural Language Processing, NLP). Проект включает в себя обучение модели на размеченных данных, а также визуализацию статистической информации по языку.

## **Описание функциональности**

Проект состоит из нескольких модулей:

Main: Основной модуль, содержащий основной исполняемый код и логику
работы программы.
Visualisations: Модуль, ответственный за визуализацию статистической информации.
Error Correction: Модуль, в котором реализованы функции для обнаружения и исправления ошибок в тексте.
Text Processing: Модуль для предварительной обработки текстовых данных перед обучением модели.



## **Используемые технологии**

PyTorch: Библиотека для создания и обучения нейронных сетей.

Transformers (Hugging Face): Интерфейс для работы с предобученными моделями NLP, такими как BERT.

NLTK: Библиотека для обработки текста естественного языка.

Matplotlib и Seaborn: Библиотеки для визуализации данных.

## **Реализация**

***Токенизация и маскирование текста***

In [None]:
def tokenize_and_mask(text):
    tokens = tokenizer.tokenize(text)
    masked_tokens = tokens.copy()
    for i, token in enumerate(tokens):
        masked_tokens[i] = '[MASK]'
        indexed_tokens = tokenizer.convert_tokens_to_ids(masked_tokens)
        tokens_tensor = torch.tensor([indexed_tokens])
    return tokens_tensor

Пояснение: Этот блок кода реализует функцию для токенизации текста с помощью BERT-токенизатора и маскирования одного из токенов в каждом предложении. Маскирование токена позволяет модели предсказывать его значение.

***Обучение модели***

In [None]:
def train_model(train_dataset, model, optimizer, loss_fn, num_epochs=10):
    for epoch in range(num_epochs):
        for text in train_dataset:
            correct_text = preprocess_text(text)
            corrected_text = correct_errors(correct_text, word_freq)
            correct_tokens = tokenize_and_mask(correct_text)
            incorrect_tokens = tokenize_and_mask(corrected_text)
            optimizer.zero_grad()
            outputs = model(input_ids=correct_tokens, labels=correct_tokens)
            loss = loss_fn(outputs.logits.view(-1, tokenizer.vocab_size), correct_tokens.view(-1))
            loss.backward()
            optimizer.step()
        print(f"Epoch {epoch+1}/{num_epochs}, Loss: {loss.item()}")

Пояснение: Этот блок кода отвечает за обучение модели на размеченных данных. Модель обучается на парах корректного и некорректного текста, минимизируя потери между предсказанными и истинными значениями.

***Коррекция ошибок в тексте***

In [None]:
def correct_text(input_text):
    tokens_tensor = tokenize_and_mask(input_text)
    with torch.no_grad():
        outputs = model(input_ids=tokens_tensor)
        predictions = torch.argmax(outputs.logits, dim=-1)
    corrected_text = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(predictions[0]))
    return corrected_text

Пояснение: Этот блок кода реализует функцию для коррекции ошибок в тексте. Модель BERT используется для предсказания наиболее вероятных токенов, которые затем преобразуются в текст.