<a href="https://colab.research.google.com/github/CodeHunterOfficial/CCPiOIIC/blob/main/%D0%9F%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В ОБРАБОТКЕ ТЕКСТОВ  

#### 1.1. Основные подходы к обработке текстов  
Обработка текстовой информации является одной из ключевых задач машинного обучения и искусственного интеллекта. Основные подходы к обработке текстов условно можно разделить на три категории:  

1. **Правилобазированные методы:**  
   Эти методы используют заранее заданные правила, разработанные на основе знаний экспертов. Примеры включают регулярные выражения, морфологический анализ и шаблоны для извлечения информации. Такие подходы применяются в задачах, где необходима высокая интерпретируемость, но они ограничены в масштабируемости и адаптивности.  

2. **Статистические методы:**  
   Включают использование вероятностных моделей, таких как N-граммы, байесовские классификаторы и модели скрытых марковских процессов (HMM). Эти методы анализируют текст на основе частотных характеристик слов и их комбинаций, что делает их более гибкими, чем правилобазированные подходы. Однако их эффективность снижается при работе с большими объемами данных или сложными языковыми структурами.  

3. **Методы машинного обучения:**  
   Эти подходы используют алгоритмы, которые автоматически извлекают закономерности из данных. Они включают:  
   - **Классификацию текстов** (например, на спам и не спам).  
   - **Кластеризацию** (группировка документов по сходству).  
   - **Извлечение признаков**, таких как эмбеддинги слов, предложений или документов.  

Эти методы обеспечивают высокую производительность и адаптируемость, особенно при использовании современных алгоритмов глубокого обучения.  

#### 1.2. Традиционные методы обработки текстов (N-граммы, TF-IDF)  
Традиционные методы обработки текстов основаны на численных представлениях текста. Эти подходы применяются в задачах классификации, поиска информации и анализа текстов.  

1. **N-граммы:**  
   N-граммы — это последовательности из N элементов (слов или символов), встречающихся в тексте. Основные характеристики:  
   - Могут быть униграммами (одиночные слова), биграммами (пары слов) или триграммами (три слова).  
   - Используются для моделирования языковых закономерностей, таких как предсказание следующего слова.  
   - Преимущества: простота реализации и интерпретируемость.  
   - Недостатки: не учитывают контекст за пределами N элементов и могут быть неэффективны для длинных текстов.  

Приведем реализацию N-грамм на Python. В данном примере мы создадим функцию, которая будет генерировать униграммы, биграммы и триграммы из заданного текста.


In [1]:
from collections import Counter

def generate_ngrams(text, n):
    # Разделяем текст на слова
    words = text.split()

    # Генерируем N-граммы
    ngrams = zip(*[words[i:] for i in range(n)])

    # Возвращаем подсчет N-грамм
    return Counter([' '.join(ngram) for ngram in ngrams])

# Пример использования
if __name__ == "__main__":
    sample_text = "Это пример текста для генерации N-грамм. N-граммы полезны для анализа текста."

    # Генерация униграмм
    unigrams = generate_ngrams(sample_text, 1)
    print("Униграммы:", unigrams)

    # Генерация биграмм
    bigrams = generate_ngrams(sample_text, 2)
    print("Биграммы:", bigrams)

    # Генерация триграмм
    trigrams = generate_ngrams(sample_text, 3)
    print("Триграммы:", trigrams)

Униграммы: Counter({'для': 2, 'Это': 1, 'пример': 1, 'текста': 1, 'генерации': 1, 'N-грамм.': 1, 'N-граммы': 1, 'полезны': 1, 'анализа': 1, 'текста.': 1})
Биграммы: Counter({'Это пример': 1, 'пример текста': 1, 'текста для': 1, 'для генерации': 1, 'генерации N-грамм.': 1, 'N-грамм. N-граммы': 1, 'N-граммы полезны': 1, 'полезны для': 1, 'для анализа': 1, 'анализа текста.': 1})
Триграммы: Counter({'Это пример текста': 1, 'пример текста для': 1, 'текста для генерации': 1, 'для генерации N-грамм.': 1, 'генерации N-грамм. N-граммы': 1, 'N-грамм. N-граммы полезны': 1, 'N-граммы полезны для': 1, 'полезны для анализа': 1, 'для анализа текста.': 1})



2. **TF-IDF (Term Frequency-Inverse Document Frequency):**  
   Этот метод оценивает важность слова в документе относительно корпуса документов. Формула расчета:  
$$
   \text{TF-IDF}(t, d) = \text{TF}(t, d) \cdot \text{IDF}(t),
$$
   где:  
   - $\text{TF}(t, d)$ — частота термина $t$ в документе $d$.  
   - $\text{IDF}(t)$ — обратная частота документа, в которых встречается термин $t$:  
$$
   \text{IDF}(t) = \log\left(\frac{N}{1 + \text{DF}(t)}\right),
$$
   где $N$ — общее число документов, а $\text{DF}(t)$ — число документов, содержащих термин $t$.  

   TF-IDF широко применяется в информационном поиске и классификации текстов, так как позволяет определить значимость слов, игнорируя общеупотребительные термины.  

Приведем реализацию метода TF-IDF на Python. В данном примере мы создадим класс, который будет рассчитывать TF-IDF для заданного корпуса документов.

In [2]:
import math
from collections import Counter

class TFIDF:
    def __init__(self, documents):
        self.documents = documents
        self.num_documents = len(documents)
        self.term_frequencies = []
        self.document_frequencies = Counter()
        self.tfidf_scores = []

    def calculate_tf(self, document):
        """Вычисляет частоту термина для одного документа."""
        term_count = Counter(document.split())
        total_terms = len(document.split())
        tf = {term: count / total_terms for term, count in term_count.items()}
        return tf

    def calculate_df(self):
        """Вычисляет частоту документа для каждого термина."""
        for document in self.documents:
            unique_terms = set(document.split())
            for term in unique_terms:
                self.document_frequencies[term] += 1

    def calculate_idf(self, term):
        """Вычисляет обратную частоту документа для термина."""
        df = self.document_frequencies[term]
        if df == 0:
            return 0
        return math.log(self.num_documents / (1 + df))

    def calculate_tfidf(self):
        """Вычисляет TF-IDF для всех документов."""
        self.calculate_df()
        for document in self.documents:
            tf = self.calculate_tf(document)
            tfidf = {term: tf[term] * self.calculate_idf(term) for term in tf}
            self.tfidf_scores.append(tfidf)

    def get_tfidf_scores(self):
        """Возвращает TF-IDF оценки для всех документов."""
        self.calculate_tfidf()
        return self.tfidf_scores

# Пример использования
if __name__ == "__main__":
    documents = [
        "это пример текста",
        "это другой пример текста",
        "текст для анализа"
    ]

    tfidf = TFIDF(documents)
    scores = tfidf.get_tfidf_scores()

    for i, score in enumerate(scores):
        print(f"TF-IDF для документа {i + 1}: {score}")

TF-IDF для документа 1: {'это': 0.0, 'пример': 0.0, 'текста': 0.0}
TF-IDF для документа 2: {'это': 0.0, 'другой': 0.1013662770270411, 'пример': 0.0, 'текста': 0.0}
TF-IDF для документа 3: {'текст': 0.13515503603605478, 'для': 0.13515503603605478, 'анализа': 0.13515503603605478}




#### 1.3. Современные методы обработки текстов (эмбеддинги, трансформеры)

Современные подходы к обработке текстов основываются на использовании моделей глубокого обучения, которые способны эффективно учитывать контекст и обрабатывать большие объемы данных. Это значительно повышает точность и адаптивность решений для задач обработки естественного языка.



### 1. **Эмбеддинги слов**
Эмбеддинги преобразуют слова в числовые представления (векторы) в многомерном пространстве, отражая их семантические взаимосвязи. Такие векторы позволяют алгоритмам выявлять скрытые закономерности в текстах и улучшают результаты моделей.  

#### Основные подходы:
- **Word2Vec:**  
  Использует два основных метода:
  - **Continuous Bag of Words (CBOW):** предсказывает текущее слово на основе его контекста.  
  - **Skip-gram:** предсказывает контекст на основе текущего слова.  
  Word2Vec выявляет семантическую близость слов, например, "король - мужчина + женщина = королева".  

- **GloVe (Global Vectors):**  
  Комбинирует статистическую информацию о частотах совместной встречаемости слов с их локальной семантикой.  
  Пример: слова "кот" и "мяу" будут находиться ближе друг к другу в пространстве, чем "кот" и "автомобиль".  



Пример реализации Word2Vec с использованием библиотеки Gensim


In [3]:
from gensim.models import Word2Vec

# Пример корпуса текстов
corpus = [
    "кот сидит на ковре",
    "собака играет с мячом",
    "король и королева правят королевством",
    "женщина и мужчина идут по улице"
]

# Подготовка данных
sentences = [sentence.split() for sentence in corpus]

# Обучение модели Word2Vec
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# Пример использования
similarity = model.wv.similarity('король', 'королева')
print(f"Семантическое сходство между 'король' и 'королева': {similarity}")

# Найти слова, наиболее близкие к 'женщина'
similar_words = model.wv.most_similar('женщина', topn=3)
print("Слова, близкие к 'женщина':", similar_words)

Семантическое сходство между 'король' и 'королева': -0.07424270361661911
Слова, близкие к 'женщина': [('кот', 0.2466447502374649), ('сидит', 0.1782756894826889), ('улице', 0.16073356568813324)]



#### Преимущества эмбеддингов:
- Уменьшают разреженность данных.  
- Учитывают контекстные и семантические связи.  
- Поддерживают перенос знаний между задачами (transfer learning).  



### 2. **Трансформеры**
Трансформеры представляют собой архитектуру глубокого обучения, которая заменила традиционные рекуррентные и сверточные сети в обработке текста. Основным новшеством стала **механизм внимания (Attention)**, позволяющий учитывать все слова в предложении одновременно, а не только соседние.

#### Ключевые модели:
- **BERT (Bidirectional Encoder Representations from Transformers):**  
  Учитывает контекст как слева, так и справа от слова, что позволяет глубже анализировать его значение.  
  Применяется для задач классификации текста, извлечения сущностей и т. д.  

- **GPT (Generative Pre-trained Transformer):**  
  Модель для генерации текста, способная продолжать текст на основе заданного фрагмента.  
  Используется в чат-ботах, генерации контента и творческих задачах.  

- **RoBERTa, T5, XLNet:**  
  Улучшенные версии трансформеров, оптимизированные для специфических задач, таких как перевод или суммаризация текста.  

#### Преимущества трансформеров:
- **Обработка длинных текстов:** трансформеры эффективно анализируют зависимости между словами, независимо от их расположения.  
- **Гибкость:** модели можно адаптировать под различные задачи (например, перевод, чат-боты, анализ тональности).  
- **Контекстуальность:** глубокий учет смысла слов в зависимости от их окружения.  



### Современные тенденции и перспективы
Трансформеры и эмбеддинги продолжают активно развиваться, предоставляя исследователям и разработчикам новые инструменты для работы с текстами. Эти методы находят применение в самых разных областях: от перевода и голосовых ассистентов до автоматического написания научных статей и анализа социальных медиа.








### 3. **МЕТОДЫ ДЛЯ ОБРАБОТКИ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ (NLP)**  

### 3.1. Основные параметры языковых моделей

**Языковые модели (Language Models)** — это ключевой элемент в задачах обработки естественного языка (NLP). Они обучаются на текстовых данных и используются для предсказания следующего слова, создания текста, анализа и классификации. В основе их работы лежат различные параметры, которые определяют их точность, производительность и область применения. Рассмотрим эти параметры подробнее.

#### 1. **Размер словаря**

Размер словаря (Vocabulary Size) — это количество уникальных слов, символов или токенов, которые модель может распознавать и использовать для обработки текста.

- **Влияние размера словаря:**  
  Большой словарь позволяет модели учитывать больше уникальных элементов языка, что увеличивает её гибкость и способность работать с редкими или специализированными словами. Однако увеличение размера словаря требует больше вычислительных ресурсов (памяти, времени на обучение) и увеличивает размер модели.

  Пример:  
  Для английского языка типичный словарь может содержать 30,000-100,000 токенов. В этом случае каждое слово или символ представляется вектором фиксированной длины. Если размер словаря равен 100,000, то модель будет использовать 100,000 уникальных токенов для обработки текста.

  Формула для расчета размера словаря:  
$$
  \text{Размер словаря} = \text{Количество уникальных токенов в тексте}
$$

#### 2. **Контекстное окно**

Контекстное окно (Context Window) определяет количество слов, которые модель учитывает перед и после рассматриваемого слова.

- **Влияние контекстного окна:**  
  В моделях на основе **N-грамм** контекстное окно фиксировано и ограничивается числом N, например, для биграмм (N=2) контекстным окном будет два слова — одно до и одно после. В более сложных моделях, таких как **RNN** или **LSTM**, контекстное окно может быть динамическим, и модель может учитывать весь предыдущий контекст, который накапливается с каждым новым словом.

  Формула для контекстного окна в модели N-грамм:
$$
  P(w_i | w_1, w_2, \dots, w_{i-1}) = P(w_i | w_{i-N}, w_{i-N+1}, \dots, w_{i-1})
$$
  где $w_i$ — текущее слово, а $w_{i-N}$ до $w_{i-1}$ — это слова из предыдущего контекста, в зависимости от выбранного значения N.

  Пример:  
  В модели **N-грамм** для биграмм (N=2) контекстное окно будет следующим для фразы "кот на крыше":  
  - Для первого слова "кот" нет контекста, только оно само.
  - Для второго слова "на" контекстное окно будет "кот".
  - Для третьего слова "крыше" контекстное окно будет "на".

#### 3. **Размер эмбеддингов**

Размер эмбеддингов (Embedding Size) — это количество чисел, которые используются для представления каждого слова в виде вектора. Эмбеддинги — это плотные векторные представления, которые позволяют моделям улавливать семантические и синтаксические связи между словами.

- **Влияние размера эмбеддингов:**  
  Чем больше размер эмбеддингов, тем больше информации модель может захватывать о взаимосвязях между словами. Однако увеличение размера эмбеддингов увеличивает вычислительные затраты и требует больше памяти. Оптимальный размер эмбеддингов варьируется в зависимости от задачи, но обычно составляет от 50 до 300 для моделей типа Word2Vec или GloVe.

  Пример:  
  В **Word2Vec** размер эмбеддингов часто равен 300. Это означает, что каждое слово в словаре будет представлено вектором длиной 300 чисел. Эти эмбеддинги обеспечивают компактное представление, которое может быть использовано для обучения модели.

  Формула для представления слова через эмбеддинг:
$$
  \mathbf{w}_i = [e_1, e_2, \dots, e_d]
$$
  где $\mathbf{w}_i$ — эмбеддинг слова, а $e_1, e_2, \dots, e_d$ — его числовые компоненты.

#### 4. **Глубина сети**

Глубина сети (Network Depth) определяется количеством слоев нейронной сети. Глубокие нейронные сети (например, **трансформеры**) обладают большим числом слоев, что позволяет им улавливать более сложные зависимости в тексте.

- **Влияние глубины сети:**  
  Большая глубина сети позволяет моделям обнаруживать более сложные паттерны и зависимости. Однако увеличение глубины также может привести к переобучению (overfitting), особенно если обучающих данных недостаточно. Это также увеличивает вычислительные затраты.

  Пример:  
  В модели **BERT** стандартная глубина составляет 12 слоев для базовой версии и 24 для более мощной. Каждый слой обрабатывает информацию с разных уровней абстракции, что позволяет BERT понимать контекст на различных уровнях текста.

  Формула для расчета глубины сети:
$$
  \text{Глубина сети} = \text{Количество слоев нейронной сети}
$$

#### 5. **Генеративные и дискриминативные модели**

- **Генеративные модели** обучаются на основе вероятности генерации текста. Они предсказывают следующее слово, исходя из предыдущих. Эти модели могут генерировать осмысленные последовательности слов. Пример: **GPT** (Generative Pretrained Transformer).
  
  Формула для вероятности генерации в модели:
$$
  P(w_1, w_2, \dots, w_n) = \prod_{i=1}^{n} P(w_i | w_1, w_2, \dots, w_{i-1})
$$
  где $P(w_i | w_1, w_2, \dots, w_{i-1})$ — вероятность появления $w_i$ после всех предыдущих слов.

- **Дискриминативные модели** обучаются на основе классификации или оценки вероятности правильности текста. Они оценивают вероятность того, что данная последовательность слов является правильной или соответствует определенному классу. Пример: **BERT** (Bidirectional Encoder Representations from Transformers).

  Формула для вероятности в дискриминативной модели:
$$
  P(y | x) = \frac{P(x | y) P(y)}{P(x)}
$$
  где $y$ — метка (например, класс), $x$ — входные данные (например, текст).

Эти параметры и их настройки играют решающую роль в построении эффективных языковых моделей для задач NLP. Каждый параметр требует внимательного выбора в зависимости от типа задачи и объема данных, на которых модель будет обучаться.








#### 3.2. Методы на основе глубокого обучения (LSTM, GRU)

**Долгократкосрочная память (LSTM)** и **сети с управляемым рекуррентным блоком (GRU)** — это разновидности рекуррентных нейронных сетей (RNN), которые были разработаны для обработки последовательных данных, таких как текст, звук или временные ряды. Эти методы значительно улучшили работу стандартных RNN, обеспечив лучшее запоминание информации о долгосрочных зависимостях в данных.

### Принцип работы

1. **Обработка последовательности:**  
   LSTM и GRU обрабатывают текст как последовательность слов или символов. Каждое слово или символ представляют собой элемент последовательности, и задача модели — понять контекст этих элементов, то есть зависимость между текущим и предыдущими словами.

2. **Запоминание важной информации:**  
   В отличие от обычных RNN, которые сталкиваются с проблемой исчезающих градиентов, LSTM и GRU используют механизмы, называемые "ячейками памяти", которые помогают модели запоминать важную информацию на протяжении длительных промежутков времени и эффективно использовать её для предсказаний.



### Особенности LSTM

**LSTM** (Long Short-Term Memory) был разработан для решения проблемы исчезающих и взрывающихся градиентов, которые мешают обучению стандартных RNN на длинных последовательностях. LSTM использует три ключевых компонента или "ворота", которые управляют потоком информации:

1. **Ворота входа (Input Gate):**  
   Определяет, какая информация из текущего входа будет добавлена в ячейку памяти. Это важно для того, чтобы модель могла учитывать новые данные, поступающие в процессе обработки последовательности.

2. **Ворота забывания (Forget Gate):**  
   Определяют, какую информацию из предыдущего состояния ячейки следует забыть. Это позволяет модели избавляться от ненужных данных и сохранять только важную информацию.

3. **Ворота выхода (Output Gate):**  
   Определяют, какая информация из ячейки памяти будет передана на следующий этап сети, в следующий слой или на выход модели.

Математически это можно выразить следующим образом:

$$
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)
$$
$$
i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)
$$
$$
\tilde{C_t} = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)
$$
$$
C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}
$$
$$
o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)
$$
$$
h_t = o_t \cdot \tanh(C_t)
$$

где:
- $f_t$, $i_t$, $o_t$ — это ворота забывания, входа и выхода соответственно,
- $C_t$ — это ячейка памяти в момент времени $t$,
- $h_t$ — это скрытое состояние на выходе в момент времени $t$,
- $x_t$ — это текущий входной вектор,
- $W_f$, $W_i$, $W_o$, $W_C$ — это веса для каждой из частей.

LSTM особенно полезна для задач, связанных с длительными зависимостями, таких как **перевод текста**, **обработка сложных временных рядов** или **анализ длинных документов**.

### Особенности GRU

**GRU** (Gated Recurrent Unit) — это более простая версия LSTM, которая использует только два "ворота" — ворота обновления и ворота сброса. Это упрощает модель и делает её быстрее для обучения, что может быть полезно для задач с ограниченными вычислительными ресурсами или для работы с короткими текстами.

1. **Ворота обновления (Update Gate):**  
   Определяет, какая часть предыдущего состояния будет перенесена в следующее состояние. Чем больше значение, тем больше предыдущей информации сохраняется.

2. **Ворота сброса (Reset Gate):**  
   Определяет, какую часть информации из предыдущего состояния следует игнорировать. В отличие от ворота забывания в LSTM, ворота сброса в GRU управляют тем, насколько сильно нужно забыть старую информацию.

Математическая формулировка для GRU:

$$
r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)
$$
$$
z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)
$$
$$
\tilde{h_t} = \tanh(W_h \cdot [r_t \cdot h_{t-1}, x_t] + b_h)
$$
$$
h_t = (1 - z_t) \cdot h_{t-1} + z_t \cdot \tilde{h_t}
$$

где:
- $r_t$ и $z_t$ — это ворота сброса и обновления,
- $\tilde{h_t}$ — это кандидатное скрытое состояние,
- $h_t$ — это итоговое скрытое состояние на выходе.

GRU является более легковесной альтернативой LSTM и может быть полезен, когда требуется быстрая обработка данных, но при этом не требуется сложная модель.

### Применение

1. **Анализ тональности текста:**  
   LSTM и GRU могут использоваться для анализа настроения текста, где модель классифицирует текст как позитивный, негативный или нейтральный. Например, для анализа твитов или отзывов на продукты.

2. **Перевод текста:**  
   Одна из самых популярных областей применения LSTM и GRU — это задачи машинного перевода, такие как преобразование текста с одного языка на другой. Примером такой системы является Google Translate.

3. **Обобщение текста:**  
   LSTM и GRU применяются для создания кратких аннотаций длинных документов или статей. Это включает в себя задачи, такие как выделение ключевых идей и формулировка краткого содержания.

Примеры практического применения:

- **Перевод:** Переводчик, обученный с помощью LSTM, может быть обучен на параллельных корпусах текстов и использовать свою память для создания более точных переводов на основе контекста.
- **Анализ тональности:** GRU может быть использован для обработки коротких текстов, например, для анализа тональности отзывов на продукты, где скорость обработки критична.

LSTM и GRU — это мощные инструменты для работы с последовательными данными, и их применение продолжает расширяться в области обработки естественного языка, включая создание моделей для перевода, классификации, обобщения и других сложных задач.


Приведем примеры использования LSTM для определения автора статьи. LSTM (Long Short-Term Memory) — это тип рекуррентной нейронной сети, который позволяет эффективно обрабатывать последовательные данные, такие как текст. Используя LSTM, мы можем анализировать стиль написания и уникальные характеристики текстов, что помогает в определении автора статьи


In [4]:
import numpy as np
from sklearn.preprocessing import LabelEncoder
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Bidirectional

# Корпус текстов
corpus = {
    "Author A": [
        "This is the first text by Author A.",
        "Author A writes in a specific way.",
        "The unique style of Author A is evident."
    ],
    "Author B": [
        "Here is a sample text by Author B.",
        "Writing style of Author B can be recognized.",
        "Author B has a distinct way of writing."
    ],
    "Author C": [
        "An example text by Author C is given here.",
        "Recognizing Author C's style is interesting.",
        "Author C's writing is unique in its own way."
    ]
}

# Список всех текстов и соответствующих авторов
texts = []
labels = []

for author, texts_list in corpus.items():
    for text in texts_list:
        texts.append(text)
        labels.append(author)

# Преобразование меток авторов в числовые значения
label_encoder = LabelEncoder()
encoded_labels = label_encoder.fit_transform(labels)

# Токенизация текстов
tokenizer = Tokenizer(num_words=1000, oov_token="")
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)
padded_sequences = pad_sequences(sequences, padding='post')

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(padded_sequences, encoded_labels, test_size=0.2, random_state=42)

# Преобразование меток в one-hot encoding
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

# Параметры модели
vocab_size = 1000  # Размер словаря
embedding_dim = 64  # Размерность эмбеддингов
max_length = max(len(seq) for seq in padded_sequences)  # Максимальная длина входных последовательностей
num_classes = len(corpus)  # Количество авторов

# Создание модели
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_length))
model.add(Bidirectional(LSTM(64)))
model.add(Dense(num_classes, activation='softmax'))

# Компиляция модели
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# Обучение модели
model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

# Пример текста для предсказания автора
new_text = "This text is written in a specific style that can be recognized."

# Предобработка текста
new_sequence = tokenizer.texts_to_sequences([new_text])
new_padded_sequence = pad_sequences(new_sequence, maxlen=max_length, padding='post')

# Предсказание автора
prediction = model.predict(new_padded_sequence)
predicted_author_index = np.argmax(prediction, axis=1)
predicted_author = label_encoder.inverse_transform(predicted_author_index)

print(f"The predicted author is: {predicted_author[0]}")

Epoch 1/10




[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 6s/step - accuracy: 0.4286 - loss: 1.0963 - val_accuracy: 0.0000e+00 - val_loss: 1.1151
Epoch 2/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 262ms/step - accuracy: 0.4286 - loss: 1.0872 - val_accuracy: 0.0000e+00 - val_loss: 1.1248
Epoch 3/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 296ms/step - accuracy: 0.4286 - loss: 1.0781 - val_accuracy: 0.0000e+00 - val_loss: 1.1350
Epoch 4/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 255ms/step - accuracy: 0.4286 - loss: 1.0690 - val_accuracy: 0.0000e+00 - val_loss: 1.1458
Epoch 5/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 199ms/step - accuracy: 0.4286 - loss: 1.0597 - val_accuracy: 0.0000e+00 - val_loss: 1.1574
Epoch 6/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 61ms/step - accuracy: 0.4286 - loss: 1.0500 - val_accuracy: 0.0000e+00 - val_loss: 1.1698
Epoch 7/10
[1m1/1[0m [32m━━━


#### 3.3. Использование трансформеров в NLP (BERT, GPT)  

**Трансформеры** — это современные модели, которые полностью изменили подход к обработке текстов. В основе их работы лежит механизм внимания (Attention), который позволяет эффективно учитывать все слова в тексте, независимо от их расстояния.  

**Ключевые модели трансформеров:**  
1. **BERT (Bidirectional Encoder Representations from Transformers):**  
   - **Особенность:** Обучается с учетом контекста слева и справа от слова (двунаправленный подход).  
   - **Применение:**  
     - Классификация текстов (например, спам-фильтры).  
     - Поиск по смыслу (например, улучшение результатов в поисковых системах).  

2. **GPT (Generative Pre-trained Transformer):**  
   - **Особенность:** Генеративная модель, обученная на огромных текстовых данных для предсказания следующего слова.  
   - **Применение:**  
     - Генерация текстов (написание статей, диалогов).  
     - Решение задач с дополнением текста или автоматическим созданием кода.  

**Преимущества трансформеров:**  
- **Контекстное понимание:** Учитывают глобальный контекст текста.  
- **Масштабируемость:** Могут быть обучены на огромных объемах данных.  
- **Гибкость:** Применяются к множеству задач, от перевода до генерации текста.  

**Примеры использования:**  
- **Виртуальные ассистенты:** Siri, Alexa, и Google Assistant.  
- **Рекомендательные системы:** подбор контента на основе интересов пользователя.  
- **Чат-боты и диалоговые системы:** создание осмысленных ответов в реальном времени.  

Трансформеры стали стандартом в NLP благодаря своей эффективности и универсальности. Они активно развиваются, и многие современные модели, такие как GPT-4 и BERT-XL, устанавливают новые стандарты точности и производительности в обработке текстов.


### 2. МОДЕЛИ НА ОСНОВЕ N-ГРАММ  

#### 2.1. Как работают модели на основе N-грамм  

Модели на основе N-грамм — это простой и понятный способ анализа текста. Суть метода в том, чтобы разбить текст на последовательности из $N$ элементов (слов или символов). Эти последовательности, называемые N-граммами, помогают понять, какие фрагменты текста чаще всего встречаются вместе.  

**Основные шаги работы таких моделей:**  
1. **Что такое N-граммы:**  
   - Если $N = 1$, то это отдельные слова или символы (униграммы).  
   - Если $N = 2$, то это пары слов, например, "машинное обучение" (биграммы).  
   - Если $N = 3$, то это три слова подряд, например, "обработка текстов данных" (триграммы).  

2. **Как оценивается вероятность текста:**  
   Модель пытается предсказать вероятность появления слов. Например, вероятность триграммы "машинное обучение эффективно" рассчитывается на основе частоты появления слов "обучение" и "эффективно" после "машинное".  

3. **Как учится модель:**  
   Модель просто считает, как часто встречаются те или иные N-граммы в большом наборе текстов.  

4. **Что делать с редкими случаями:**  
   Иногда встречаются N-граммы, которых в обучающем тексте не было. Для таких случаев используют специальные методы, например, добавляют фиктивные данные или перераспределяют вероятности.  

5. **Применение:**  
   После обучения модель помогает анализировать тексты: определять их тему, предсказывать слова или классифицировать документы.  



#### 2.2. Плюсы и минусы моделей на основе N-грамм  

**Что хорошего в N-граммах:**  
- **Простота:** их легко реализовать и понять.  
- **Интерпретируемость:** можно явно увидеть, какие слова или фразы чаще всего встречаются.  
- **Хорошо работают для коротких текстов:** например, для анализа коротких сообщений или отзывов.  

**Какие есть проблемы:**  
- **Не видят долгих связей:** модель учитывает только $N$ слов подряд, поэтому упускает дальние зависимости.  
- **Чувствительны к редким случаям:** если в тексте мало данных, модель может плохо обобщать.  
- **Не распознают сходные слова:** слова "обучение" и "обучений" воспринимаются как разные.  



#### 2.3. Примеры использования N-грамм  

1. **Фильтры спама:**  
   Например, для определения спама в почте модель смотрит на частые фразы, такие как "выиграй приз" или "бесплатно сейчас". Если такие N-граммы встречаются, письмо с большей вероятностью оказывается спамом.  

2. **Анализ эмоций:**  
   Для анализа тональности текста (положительная или отрицательная) модель выделяет фразы, например, "очень хорошо" или "ужасно плохо", и использует их для определения настроения текста.  

3. **Поиск плагиата:**  
   Модель разбивает текст на N-граммы и сравнивает их с базой данных. Если совпадения слишком большие, то это может быть плагиат.  

4. **Проверка орфографии:**  
   Модель помогает находить опечатки, анализируя, какие последовательности букв встречаются чаще. Например, если написано "машиное обучение", модель может предложить "машинное обучение".  

5. **Определение тематики:**  
   Для классификации текста, например, "спорт", "наука" или "искусство", модель выделяет характерные N-граммы, такие как "забить гол" для спорта или "научное открытие" для науки.  


Таким образом, модели на основе N-грамм просты, но эффективны для многих задач. Хотя у них есть ограничения, они все еще находят применение, особенно в сочетании с современными методами вроде эмбеддингов и трансформеров, которые компенсируют их слабые стороны.







#### 4. СРАВНЕНИЕ ТРАДИЦИОННЫХ И СОВРЕМЕННЫХ МЕТОДОВ

Современные методы обработки текстов на естественном языке (NLP) значительно отличаются от традиционных подходов, таких как модели на основе N-грамм или простые алгоритмы машинного обучения. В данном разделе мы подробно рассмотрим различные аспекты сравнения традиционных и современных методов, включая их точность, эффективность, применимость для различных задач и перспективы развития.

### 4.1. Анализ точности и эффективности

**Точность** и **эффективность** — это два ключевых параметра, которые часто рассматриваются при сравнении традиционных и современных методов в NLP. Они определяют, насколько хорошо модель решает конкретные задачи (например, классификация текста, анализ тональности или машинный перевод) и насколько быстро она может выполнять эти задачи.

#### Традиционные методы

Традиционные методы, такие как **N-граммы**, **байесовские классификаторы** и **методы опорных векторов (SVM)**, показывают хорошие результаты в ограниченных условиях, когда имеется достаточно небольшой объем данных и задачи имеют четко определенные правила. Однако они ограничены в контексте обработки сложных и многозначных текстов, где требуется глубокое понимание контекста.

1. **N-граммы:** Модели на основе N-грамм (например, биграммы или триграммы) часто используют для обработки последовательностей слов, где учитываются только локальные зависимости. Такие модели могут быть точными для простых задач, но они не способны эффективно обрабатывать сложные контексты, что ограничивает их точность.

2. **Методы машинного обучения:** Классические методы, такие как **Naive Bayes** и **SVM**, используют статистические подходы для классификации текста, основываясь на предположениях о независимости признаков или максимизации разделяющих гиперплоскостей. Они требуют ручной настройки признаков, что снижает их гибкость и точность на больших и разнородных наборах данных.

#### Современные методы

Современные методы, такие как **глубокие нейронные сети** (например, **LSTM**, **GRU**, **трансформеры**), значительно повысили точность обработки текстов, особенно на больших объемах данных. Они способны захватывать долгосрочные зависимости и более сложные отношения между словами, что делает их более точными для таких задач, как **машинный перевод**, **анализ настроений**, **классификация текста** и другие.

1. **Трансформеры:** Современные архитектуры, такие как **BERT** и **GPT**, представляют собой мощные модели, которые основываются на механизме внимания. Они могут учитывать как локальные, так и дальние зависимости между словами, что позволяет им гораздо точнее моделировать контекст и получать более высокие результаты по меткам точности (например, F1-score, MAE, и т.д.).

2. **Рекуррентные нейронные сети:** Модели LSTM и GRU, благодаря своей способности помнить долгосрочные зависимости, показывают высокую точность в задачах, где контекст важен, например, в задачах перевода и анализа тональности.

#### Сравнение

- **Точность:** Современные методы, как правило, превосходят традиционные по точности, особенно при обработке больших объемов данных и более сложных задач.
- **Эффективность:** Традиционные методы могут быть более эффективными на малых объемах данных и для простых задач, поскольку они требуют меньших вычислительных ресурсов.

### 4.2. Применимость методов для различных задач

Применимость методов зависит от конкретной задачи, типа данных и требуемой точности. Ниже рассмотрены различные типы задач, для которых используются традиционные и современные методы.

#### Традиционные методы

1. **Классификация текста:** Простые классификаторы, такие как **Naive Bayes** или **SVM**, хорошо работают для задач с ограниченными размерами данных, например, для классификации новостных статей по категориям или для определения темы текста.
   
2. **Модели на основе N-грамм:** Хорошо подходят для задач, где важно учитывать только локальные зависимости, например, для **анализов частоты слов** или **поисковых систем**, где точность контекста менее критична.

#### Современные методы

1. **Машинный перевод:** Архитектуры трансформеров, такие как **BERT** и **GPT**, являются основными инструментами для перевода текста с одного языка на другой, поскольку они могут эффективно работать с долгосрочными зависимостями в предложении.

2. **Анализ настроений и классификация текста:** Для более сложных задач анализа текста, таких как **определение тональности** или **классификация комментариев на социальных платформах**, современные методы (например, **BERT** и **RoBERTa**) показывают высокую точность благодаря способности учитывать контекст на уровне предложения и даже документа в целом.

3. **Ответ на вопросы и извлечение информации:** Современные модели могут использоваться для извлечения информации и ответа на вопросы в контексте, где традиционные методы не справляются с необходимостью учитывать сложные связи между предложениями.

#### Сравнение применимости

- **Традиционные методы:** Подходят для задач, где данные имеют простую структуру и не требуют глубокого контекстуального анализа.
- **Современные методы:** Применимы для задач, где необходимо учитывать контекст, долгое время зависимости и сложную структуру текста.

### 4.3. Перспективы развития и совершенствования алгоритмов

С развитием технологий обработки текста и увеличением объема данных открывается множество новых возможностей для совершенствования как традиционных, так и современных методов. Рассмотрим несколько ключевых направлений.

#### Совершенствование трансформеров

Трансформеры, такие как **BERT**, **GPT** и их модификации, будут продолжать эволюционировать. Одним из важнейших направлений является **оптимизация** этих моделей для ускорения их обучения и снижения вычислительных затрат, что откроет возможности для их использования в большем числе приложений.

1. **Обучение на меньших данных:** Появляются методы, такие как **transfer learning** и **fine-tuning**, которые позволяют обучать модели на ограниченных объемах данных, что значительно расширяет их применимость.

2. **Модели с низкой вычислительной сложностью:** Ведутся работы по разработке более компактных и менее ресурсоемких моделей, например, **DistilBERT**, что делает их более доступными для практического использования.

#### Развитие рекуррентных нейронных сетей

Несмотря на популярность трансформеров, **LSTM** и **GRU** продолжают использоваться в задачах, где важна последовательность данных, например, в задачах временных рядов и генерации текста. Одним из направлений развития является создание моделей, которые комбинируют сильные стороны RNN и трансформеров.

#### Применение гибридных моделей

**Гибридные подходы**, которые комбинируют традиционные методы с современными нейронными сетями, становятся все более популярными. Например, комбинация **RNN** для обработки текста с **графовыми нейронными сетями** для обработки структурированных данных может привести к созданию мощных многозадачных моделей.

#### Перспективы использования малоразмерных моделей

Исследования в области **обучения с малым количеством данных** продолжаются. Модели, обученные с использованием минимального набора данных, но при этом сохраняющие высокую точность, будут востребованы в таких областях, как медицинская диагностика, финансовые технологии и другие.

Таким образом, сравнение традиционных и современных методов обработки текстов на естественном языке показало, что современные методы, такие как трансформеры и глубокие нейронные сети, значительно превосходят традиционные подходы по точности и эффективности в решении сложных задач. Однако традиционные методы по-прежнему остаются полезными для более простых задач и могут быть быстрее в обучении при ограниченных ресурсах. Перспективы развития алгоритмов связаны с оптимизацией и адаптацией существующих методов к новым требованиям и задачам, что обещает дальнейшее улучшение точности и эффективности обработки текстов.


