# Lecture 6.0.1. Многослойный персептрон (Multilayered perceptron)-MLP

Персептрон (или многослойный персептрон) является одним из основных видов нейронных сетей, применяемых в задачах обработки естественного языка (NLP). В этой лекции мы подробно рассмотрим структуру персептрона, его применение в NLP, основные метрики оценки и примеры использования.

### Часть 1: Основы персептрона

#### 1.1. Определение персептрона

Персептрон - это простейшая форма искусственной нейронной сети, состоящая из одного или нескольких слоев нейронов, в каждом из которых присутствуют активационные функции. Он используется для решения задач классификации и регрессии.

#### 1.2. Структура персептрона

Многослойный персептрон состоит из трех основных типов слоев:
- **Входной слой**: принимает входные данные, представленные векторами признаков.
- **Скрытые слои**: каждый слой содержит несколько нейронов, каждый из которых соединен с каждым нейроном предыдущего и следующего слоев.
- **Выходной слой**: дает предсказания в виде вектора, который может интерпретироваться как вероятности классов или числовые значения.

#### 1.3. Активационные функции

Активационные функции определяют выход каждого нейрона в сети. Наиболее часто используемые функции в персептронах:
- **Сигмоидальная функция**: $ \sigma(z) = \frac{1}{1 + e^{-z}} $
- **Гиперболический тангенс**: $ \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} $
- **ReLU (Rectified Linear Unit)**: $ \text{ReLU}(z) = \max(0, z) $

#### 1.4. Обучение персептрона

Обучение персептрона происходит методом стохастического градиентного спуска (SGD). Цель состоит в минимизации функции потерь, такой как кросс-энтропия для задач классификации или среднеквадратичная ошибка для задач регрессии.

### Часть 2: Применение персептрона в NLP

#### 2.1. Векторное представление текста

Для использования персептрона в NLP текст преобразуется в векторное представление (например, методом мешка слов или эмбеддингами), который подается на входной слой.



#### 2.2. Задачи в NLP

- **Классификация текста**: Определение категории или класса текста (например, спам/не спам).
- **Анализ тональности**: Определение эмоциональной окраски текста (позитивная/негативная).
- **Машинный перевод**: Перевод текста с одного языка на другой.
- **Генерация текста**: Создание новых текстовых данных на основе обучающего набора.

### Часть 3: Метрики и оценки в NLP

#### 3.1. Метрики качества

- **Точность (Accuracy)**: $ \frac{\text{Количество правильных предсказаний}}{\text{Общее количество предсказаний}} $
- **Полнота (Recall)**: $ \frac{\text{TP}}{\text{TP} + \text{FN}} $
- **Точность (Precision)**: $ \frac{\text{TP}}{\text{TP} + \text{FP}} $
- **F-мера (F1-score)**: $ 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} $

#### 3.2. Оценки качества

- **Кросс-валидация**: Метод оценки производительности модели, разделение данных на подмножества для обучения и тестирования.
- **ROC-кривая и AUC-ROC**: Графическая кривая и площадь под ней для оценки классификаторов.
- **Матрица ошибок (Confusion Matrix)**: Таблица, которая показывает количество верных и неверных предсказаний.



### Тональность текста (Sentiment Analysis)

**Определение:**
Анализ тональности (или сентимент-анализ) — это процесс автоматического определения эмоциональной окраски текста. Цель состоит в том, чтобы выяснить, является ли текст позитивным, негативным или нейтральным.

**Примеры задач:**
- Определение настроения отзывов о продукции (положительный или отрицательный отзыв).
- Анализ тональности комментариев в социальных сетях.
- Изучение общественного мнения по поводу политических событий.

**Примеры категорий:**
- Позитивный
- Негативный
- Нейтральный
- (Иногда добавляются более тонкие категории, такие как очень позитивный, немного негативный и т.д.)

**Методы:**
- Использование словарей тональности (наборы слов с заранее определенной эмоциональной окраской).
- Модели машинного обучения и глубокого обучения, обученные на размеченных данных (например, MLP, RNN, LSTM, BERT).

### Классификация текста (Text Classification)

**Определение:**
Классификация текста — это процесс назначения тексту одной или нескольких меток или категорий из заранее определенного набора. Это более общий термин, включающий в себя широкий спектр задач.

**Примеры задач:**
- Категоризация новостных статей по темам (спорт, политика, экономика).
- Классификация писем электронной почты на спам и не-спам.
- Определение жанра книг или фильмов по описанию.

**Примеры категорий:**
- Темы (например, спорт, политика, экономика)
- Жанры (например, драма, комедия, триллер)
- Классификация языка (например, английский, французский, китайский)

**Методы:**
- Классические алгоритмы машинного обучения (например, Naive Bayes, SVM, k-NN).
- Модели глубокого обучения (например, CNN, RNN, трансформеры).
- Эмбеддинги слов (например, Word2Vec, GloVe, BERT) для преобразования текста в числовые векторы.

### Ключевые различия:

1. **Цель:**
   - **Тональность текста:** Определить эмоциональную окраску текста.
   - **Классификация текста:** Присвоить тексту одну или несколько категорий из заранее определенного набора.

2. **Типы категорий:**
   - **Тональность текста:** Эмоциональные метки (позитивный, негативный, нейтральный).
   - **Классификация текста:** Тематические или категориальные метки (спорт, политика, спам, не-спам).

3. **Применение:**
   - **Тональность текста:** Анализ отзывов, комментариев, мнений.
   - **Классификация текста:** Организация и сортировка большого объема текстов по категориям, фильтрация спама, автоматическая рубрикация новостей.

### Пример:

Для наглядности приведем пример кода, показывающий разницу между сентимент-анализом и классификацией текста.

#### Сентимент-анализ:

In [9]:
# Пример сентимент-анализа с использованием библиотеки TextBlob
from textblob import TextBlob

text = "Я очень доволен этим продуктом, он работает отлично!"
blob = TextBlob(text)
sentiment = blob.sentiment.polarity

if sentiment > 0:
    print("Позитивный")
elif sentiment < 0:
    print("Негативный")
else:
    print("Нейтральный")

Нейтральный


Этот код демонстрирует простой пример использования библиотеки TextBlob для выполнения сентимент-анализа на русском тексте. TextBlob предоставляет предварительно обученные модели для анализа тональности текста на нескольких языках, включая русский.

Данный пример может быть расширен для анализа более длинных текстов, а также интегрирован в более сложные приложения, требующие оценки эмоциональной окраски текстового контента.


#### Классификация текста:




In [10]:
# Пример классификации текста с использованием библиотеки scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Пример данных
texts = ["Футбольная команда победила в чемпионате", "Экономический кризис вызывает беспокойство", "Новый фильм оказался очень интересным"]
labels = ["спорт", "экономика", "развлечение"]

# Создание и обучение модели
model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(texts, labels)

# Прогноз для нового текста
new_text = "Фондовый рынок падает второй день подряд"
predicted_label = model.predict([new_text])
print(predicted_label)

['развлечение']


Этот код демонстрирует базовый пример использования scikit-learn для классификации текста с применением TF-IDF векторизации и наивного байесовского классификатора. Он может быть расширен и адаптирован для решения различных задач классификации текстовых данных.



Эти примеры иллюстрируют, как можно применить методы сентимент-анализа и классификации текста для решения различных задач.


### Часть 4: Примеры использования персептрона в NLP




Тональность текста и классификация текста — это два понятия в области обработки естественного языка (NLP), которые, хотя и имеют много общего, различаются по своим целям и методам применения.

#### 4.1. Классификация текста

Представим, что у нас есть задача классификации текста на позитивные и негативные отзывы. Мы можем использовать персептрон для обучения модели, которая будет предсказывать эмоциональную окраску текста на основе его содержания.

**Пример.** Построить модель машинного обучения, способную классифицировать текстовые отзывы на фильмы как положительные или отрицательные, и оценить качество этой модели.

In [5]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report

# Более крупный и сбалансированный пример данных
corpus = [
    "Этот фильм ужасен, я не смог досмотреть до конца",
    "Отличный сюжет и интересные персонажи, рекомендую всем!",
    "Ничего особенного, средний фильм без изюминки",
    "Великолепный фильм, он меня вдохновил и покорил",
    "Не понравилось, персонажи были плоскими и сюжет был предсказуем",
    "Прекрасный фильм, замечательная игра актеров",
    "Этот фильм был настоящим разочарованием, ожидал большего",
    "Фильм захватывает с первых минут и держит в напряжении до конца",
    "Ужасный сценарий и отвратительная игра актеров",
    "Отличная режиссура и великолепные спецэффекты",
    "Не стоит своих денег, слишком много клише и предсказуемых моментов",
    "Смотрел с удовольствием, отличный семейный фильм"
]
labels = [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]

# Инициализация векторизатора TF-IDF
vectorizer = TfidfVectorizer(max_features=1000, lowercase=True, analyzer='word', stop_words='english')

# Преобразование текстов в TF-IDF признаки
X = vectorizer.fit_transform(corpus).toarray()
y = np.array(labels)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация MLP классификатора
mlp_classifier = MLPClassifier(hidden_layer_sizes=(100,), max_iter=500, random_state=42, solver='adam', learning_rate_init=0.001)

# Обучение модели
mlp_classifier.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = mlp_classifier.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# Вывод отчета по классификации (precision, recall, f1-score и support)
print(classification_report(y_test, y_pred, target_names=['Отрицательный', 'Положительный']))

# Предсказание на новых данных
new_reviews = [
    "Отличный фильм! Очень трогательная история, рекомендую всем!",
    "Самый ужасный фильм, который я когда-либо видел. Потраченное время и деньги."
]

# Преобразование новых отзывов в TF-IDF признаки с использованием ранее инициализированного векторизатора
X_new = vectorizer.transform(new_reviews).toarray()

# Предсказание сентимента с использованием обученной модели MLP
predictions = mlp_classifier.predict(X_new)

# Вывод результатов предсказания
for review, prediction in zip(new_reviews, predictions):
    sentiment = "Положительный" if prediction == 1 else "Отрицательный"
    print(f"Текст отзыва: {review}")
    print(f"Прогноз сентимента: {sentiment}")
    print()

Accuracy: 0.67
               precision    recall  f1-score   support

Отрицательный       1.00      0.50      0.67         2
Положительный       0.50      1.00      0.67         1

     accuracy                           0.67         3
    macro avg       0.75      0.75      0.67         3
 weighted avg       0.83      0.67      0.67         3

Текст отзыва: Отличный фильм! Очень трогательная история, рекомендую всем!
Прогноз сентимента: Положительный

Текст отзыва: Самый ужасный фильм, который я когда-либо видел. Потраченное время и деньги.
Прогноз сентимента: Отрицательный



### Анализ и улучшение модели

Модель показывает точность 67%, что не является высоким показателем. Несмотря на то, что новый отзыв классифицирован верно, есть возможности для дальнейшего улучшения модели.

### Возможные улучшения

1. **Увеличение объема данных:**
   - Большее количество данных позволяет модели лучше понять закономерности в текстах.

2. **Более сложные методы векторизации:**
   - Использование методов вроде Word2Vec, GloVe или BERT может улучшить представление текста.

3. **Тонкая настройка модели:**
   - Настройка гиперпараметров модели, таких как количество слоев, количество нейронов, функция активации и алгоритм оптимизации.

4. **Учет дополнительных факторов:**
   - Включение в модель информации о частоте слов, биграммах, триграммах и т.д.




#### 4.2. Анализ тональности

Допустим, мы хотим разработать систему, которая автоматически анализирует тональность новостных статей. Мы можем использовать многослойный персептрон для создания классификатора, который будет определять, является ли текст статьи позитивным, негативным или нейтральным.

### Программа для анализа тональности новостных статей

Для создания системы анализа тональности новостных статей с использованием многослойного персептрона (MLP) можно использовать `scikit-learn` для обучения модели и предобученные эмбеддинги Word2Vec для представления текстов. В данном примере мы будем классифицировать статьи как позитивные, негативные или нейтральные.

### Шаги:
1. **Сбор и подготовка данных.**
2. **Преобразование текстов в эмбеддинги Word2Vec.**
3. **Обучение модели MLP.**
4. **Оценка модели.**
5. **Предсказание на новых данных.**

### Пример реализации:

#### 1. Подготовка данных:

Для простоты предположим, что у нас есть небольшие наборы данных для каждой категории тональности.


**Пример.** Построить модели машинного обучения, которая сможет эффективно классифицировать текстовые данные по трем категориям тональности - негативной, позитивной и нейтральной, и продемонстрировать хорошее качество классификации на тестовых данных. Кроме того, модель должна быть применима для предсказания тональности новых текстовых документов.

In [8]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

# Дополнительные данные для гарантии присутствия всех классов
corpus = [
    "Экономика страны растет, инвестиции увеличиваются",  # Позитивный
    "Произошла катастрофа, много пострадавших",  # Негативный
    "Политическая ситуация стабильна",  # Нейтральный
    "Компании сообщают о рекордной прибыли",  # Позитивный
    "Новый закон вызвал волну протестов",  # Негативный
    "Погода сегодня будет солнечной и теплой",  # Нейтральный
    "Экономический кризис вызывает беспокойство у граждан",  # Негативный
    "Ведущие эксперты прогнозируют улучшение рынка труда",  # Позитивный
    "Произошел террористический акт в центре города",  # Негативный
    "Выборы прошли спокойно, без серьезных нарушений",  # Нейтральный
    "Новая волна пандемии вызывает опасения у населения",  # Негативный
    "Рынок акций достиг исторического максимума",  # Позитивный
    "Спортивные события будут проходить без зрителей",  # Нейтральный
    "Научные достижения вызывают оптимизм",  # Позитивный
    "Негативное влияние изменений климата"  # Негативный
]
labels = [1, 0, 2, 1, 0, 2, 0, 1, 0, 2, 0, 1, 2, 1, 0]  # 0 - Негативный, 1 - Позитивный, 2 - Нейтральный

# Токенизация текстов
nltk.download('punkt')
tokenized_corpus = [word_tokenize(review.lower()) for review in corpus]

# Обучение Word2Vec на корпусе
word2vec_model = Word2Vec(tokenized_corpus, vector_size=100, window=5, min_count=1, workers=4)

def get_average_word2vec(tokens_list, vector, k=100):
    """
    Получение среднего вектора Word2Vec для списка токенов.
    """
    if len(tokens_list) < 1:
        return np.zeros(k)
    vectorized = [vector[word] if word in vector else np.zeros(k) for word in tokens_list]
    mean = np.mean(vectorized, axis=0)
    return mean

# Преобразование данных с использованием Word2Vec
X = np.array([get_average_word2vec(tokens, word2vec_model.wv) for tokens in tokenized_corpus])
y = np.array(labels)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Проверка наличия всех классов в обучающей выборке
print("Уникальные классы в обучающей выборке:", np.unique(y_train))
print("Уникальные классы в тестовой выборке:", np.unique(y_test))

# Инициализация MLP классификатора
mlp_classifier = MLPClassifier(hidden_layer_sizes=(100,), max_iter=500, random_state=42, solver='adam', learning_rate_init=0.001)

# Обучение модели
mlp_classifier.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = mlp_classifier.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# Вывод отчета по классификации (precision, recall, f1-score и support)
print(classification_report(y_test, y_pred, target_names=['Негативный', 'Позитивный', 'Нейтральный']))

# Предсказание на новых данных
new_articles = [
    "Новая волна пандемии вызывает опасения у населения",
    "Рынок акций достиг исторического максимума",
    "Спортивные события будут проходить без зрителей"
]

# Токенизация новых статей
tokenized_new_articles = [word_tokenize(article.lower()) for article in new_articles]
X_new = np.array([get_average_word2vec(tokens, word2vec_model.wv) for tokens in tokenized_new_articles])

# Предсказание тональности с использованием обученной модели MLP
predictions = mlp_classifier.predict(X_new)

# Вывод результатов предсказания
for article, prediction in zip(new_articles, predictions):
    sentiment = ["Негативный", "Позитивный", "Нейтральный"][prediction]
    print(f"Текст статьи: {article}")
    print(f"Прогноз тональности: {sentiment}")
    print()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Уникальные классы в обучающей выборке: [0 1 2]
Уникальные классы в тестовой выборке: [0 1 2]
Accuracy: 0.67
              precision    recall  f1-score   support

  Негативный       1.00      1.00      1.00         1
  Позитивный       0.50      1.00      0.67         1
 Нейтральный       0.00      0.00      0.00         1

    accuracy                           0.67         3
   macro avg       0.50      0.67      0.56         3
weighted avg       0.50      0.67      0.56         3

Текст статьи: Новая волна пандемии вызывает опасения у населения
Прогноз тональности: Негативный

Текст статьи: Рынок акций достиг исторического максимума
Прогноз тональности: Позитивный

Текст статьи: Спортивные события будут проходить без зрителей
Прогноз тональности: Нейтральный



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
