<a href="https://colab.research.google.com/github/CodeHunterOfficial/NLP_2024-2025/blob/main/Lecture%206.%20MLP_CNN/Lecture_6_0_1_%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D1%81%D0%BB%D0%BE%D0%B9%D0%BD%D1%8B%D0%B9_%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD_(Multilayered_perceptron)_MLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lecture 6.0.1. Многослойный персептрон (Multilayered perceptron)-MLP

### Часть 1: Основы   MLP
### 1. Введение

Многослойная нейронная сеть (MLP) представляет собой модель машинного обучения, состоящую из нескольких слоев нейронов, включая входной слой, скрытые слои и выходной слой. Эти сети способны обучаться сложным нелинейным зависимостям в данных и широко применяются в задачах классификации, регрессии и других областях.

### 2. Архитектура многослойной нейронной сети

Архитектура MLP состоит из нескольких основных компонентов:

- **Входной слой**: принимает входные данные, представленные вектором признаков.
- **Скрытые слои**: один или несколько слоев, каждый из которых состоит из нескольких нейронов. Каждый нейрон в слое связан с каждым нейроном предыдущего и следующего слоев.
- **Выходной слой**: генерирует предсказания или выводы модели.

### 3. Функции активации

Функции активации определяют выход нейрона в зависимости от его входа. Некоторые из популярных функций активации включают:

- **Сигмоидальная функция**: $ \sigma(z) = \frac{1}{1 + e^{-z}} $
- **Гиперболический тангенс**: $ \tanh(z) = \frac{e^z - e^{-z}}{e^z + e^{-z}} $
- **ReLU (Rectified Linear Unit)**: $ \text{ReLU}(z) = \max(0, z) $
- **Softmax**: для выходного слоя в задачах классификации, где требуется вероятностное распределение по классам.

### 4. Функция потерь

Функция потерь (loss function) оценивает, насколько хорошо модель предсказывает целевую переменную в обучающих данных. Некоторые типичные функции потерь включают:

- **Среднеквадратичная ошибка (MSE)**: $ \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 $
- **Перекрёстная энтропия (Cross-Entropy)**: $ \text{CrossEntropy} = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) $, где $ y_i $ - это истинная метка, а $ \hat{y}_i $ - предсказание модели.

### 5. Процесс обучения

#### Прямой проход (Forward Pass)

Процесс, при котором входные данные проходят через сеть для вычисления предсказаний:

1. Входные данные подаются на входной слой.
2. Для каждого скрытого слоя и выходного слоя вычисляются взвешенные суммы входов с последующим применением функции активации.

Для скрытого слоя $ l $ и нейрона $ j $:

$$ z_j^{(l)} = \sum_{k=1}^{n^{(l-1)}} w_{jk}^{(l)} a_k^{(l-1)} + b_j^{(l)} $$

$$ a_j^{(l)} = \sigma(z_j^{(l)}) $$

где $ w_{jk}^{(l)} $ - вес между нейронами $ k $-го слоя и $ j $-го слоя, $ b_j^{(l)} $ - смещение (bias) для нейрона $ j $-го слоя.

#### Обратное распространение (Backpropagation)

Процесс, при котором вычисляются градиенты функции потерь по всем параметрам сети с целью обновления их значений:

1. Вычисление ошибки на выходе сети и градиентов по последнему слою.
2. Распространение этих градиентов назад через сеть с использованием правила цепи (chain rule).

Для выходного слоя:

$$ \delta_j^{(L)} = \frac{\partial \mathcal{L}}{\partial z_j^{(L)}} $$

Для скрытых слоев:

$$ \delta_j^{(l)} = \sigma'(z_j^{(l)}) \sum_{k} w_{kj}^{(l+1)} \delta_k^{(l+1)} $$

где $ \sigma' $ - производная функции активации, $ \mathcal{L} $ - функция потерь.

#### Обновление весов и смещений

После вычисления градиентов веса и смещения обновляются с использованием градиентного спуска или его вариаций:

$$ w_{jk}^{(l)} \leftarrow w_{jk}^{(l)} - \eta \frac{\partial \mathcal{L}}{\partial w_{jk}^{(l)}} $$

$$ b_j^{(l)} \leftarrow b_j^{(l)} - \eta \frac{\partial \mathcal{L}}{\partial b_j^{(l)}} $$

где $ \eta $ - скорость обучения (learning rate).

### 6. Метрики оценки и оценки качества модели

После обучения модели её качество оценивается с использованием различных метрик, таких как:

- **Точность (Accuracy)**: доля правильных предсказаний.
- **Полнота (Recall)** и **Точность (Precision)**: для задач классификации.
- **Среднеквадратичная ошибка (MSE)** и **Средняя абсолютная ошибка (MAE)**: для задач регрессии.

##### Примеры

1. Задачи XOR

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

# Определение нейронной сети
class XORMLP(nn.Module):
    def __init__(self):
        super(XORMLP, self).__init__()
        self.hidden_layer = nn.Linear(2, 2)  # Входной размер 2 (для двух входов), выходной размер 2
        self.activation = nn.ReLU()  # Функция активации ReLU
        self.output_layer = nn.Linear(2, 1)  # Входной размер 2 (от скрытого слоя), выходной размер 1 (для одного выхода)

    def forward(self, x):
        x = self.activation(self.hidden_layer(x))
        x = torch.sigmoid(self.output_layer(x))  # Используем сигмоиду для получения вероятности (бинарная классификация)
        return x

# Обучение модели
def train(model, criterion, optimizer, inputs, labels, epochs):
    for epoch in range(epochs):
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()
        if epoch % 1000 == 0:
            print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')

# Подготовка данных для XOR
inputs = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)
labels = torch.tensor([[0], [1], [1], [0]], dtype=torch.float32)

# Создание модели, выбор функции потерь и оптимизатора
model = XORMLP()
criterion = nn.BCELoss()  # Бинарная кросс-энтропия для бинарной классификации
optimizer = optim.SGD(model.parameters(), lr=0.1)  # Стохастический градиентный спуск

# Обучение модели
train(model, criterion, optimizer, inputs, labels, epochs=10000)

# Проверка результатов на обучающих данных
print("Проверка на обучающих данных:")
with torch.no_grad():
    outputs = model(inputs)
    predicted = (outputs > 0.5).float()  # Преобразуем вероятности в бинарные предсказания
    print(f'Predicted: {predicted.squeeze()}')
    print(f'Ground truth: {labels.squeeze()}')

Epoch [1/10000], Loss: 0.6943
Epoch [1001/10000], Loss: 0.0541
Epoch [2001/10000], Loss: 0.0163
Epoch [3001/10000], Loss: 0.0091
Epoch [4001/10000], Loss: 0.0062
Epoch [5001/10000], Loss: 0.0046
Epoch [6001/10000], Loss: 0.0037
Epoch [7001/10000], Loss: 0.0030
Epoch [8001/10000], Loss: 0.0026
Epoch [9001/10000], Loss: 0.0023
Проверка на обучающих данных:
Predicted: tensor([0., 1., 1., 0.])
Ground truth: tensor([0., 1., 1., 0.])


In [None]:
# Подготовка новых тестовых данных
new_data = torch.tensor([[0, 0], [0, 1], [1, 0], [1, 1]], dtype=torch.float32)

# Проверка результатов на новых данных
print("\nПроверка на новых данных:")
with torch.no_grad():
    outputs = model(new_data)
    predicted = (outputs > 0.5).float()  # Преобразуем вероятности в бинарные предсказания
    print(f'Predicted: {predicted.squeeze()}')


Проверка на новых данных:
Predicted: tensor([0., 1., 1., 0.])


2.Таблица умножение

Для построения многослойной персептрона (MLP) для задачи таблицы умножения, нам нужно создать модель, которая может изучить зависимости между двумя входными числами (множителями) и предсказывать их произведение (результат умножения). В этом случае входом будут два числа, а выходом — одно число (результат умножения).

Вот пример реализации MLP на Python с использованием библиотеки PyTorch:

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

# Гиперпараметры
input_size = 2  # размер входа (два числа)
hidden_size = 10  # размер скрытого слоя
output_size = 1  # размер выхода (одно число, результат умножения)

learning_rate = 0.001
num_epochs = 10000

# Генерация данных для обучения
def generate_data(num_samples):
    X = []
    y = []
    for _ in range(num_samples):
        a = np.random.randint(1, 10)  # первое число от 1 до 9
        b = np.random.randint(1, 10)  # второе число от 1 до 9
        X.append([a, b])
        y.append([a * b])
    return torch.tensor(X, dtype=torch.float32), torch.tensor(y, dtype=torch.float32)

# Модель MLP
class Multiplier(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(Multiplier, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        out = self.fc1(x)
        out = self.relu(out)
        out = self.fc2(out)
        return out

# Инициализация модели, функции потерь и оптимизатора
model = Multiplier(input_size, hidden_size, output_size)
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# Обучение модели
for epoch in range(num_epochs):
    inputs, labels = generate_data(100)  # генерируем 100 случайных примеров каждую эпоху
    outputs = model(inputs)
    loss = criterion(outputs, labels)

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch+1) % 1000 == 0:
        print(f'Эпоха [{epoch+1}/{num_epochs}], Потери: {loss.item():.4f}')

# Пример использования обученной модели
model.eval()
test_input = torch.tensor([[3, 5]], dtype=torch.float32)  # пример ввода для теста
predicted_output = model(test_input)
print(f'Предсказанный результат для 3 * 5: {predicted_output.item():.2f}')

Эпоха [1000/10000], Потери: 104.4529
Эпоха [2000/10000], Потери: 56.3865
Эпоха [3000/10000], Потери: 20.4014
Эпоха [4000/10000], Потери: 13.3665
Эпоха [5000/10000], Потери: 12.6987
Эпоха [6000/10000], Потери: 8.7133
Эпоха [7000/10000], Потери: 8.1359
Эпоха [8000/10000], Потери: 5.7436
Эпоха [9000/10000], Потери: 3.6076
Эпоха [10000/10000], Потери: 1.3334
Предсказанный результат для 3 * 5: 14.88


In [None]:
# Пример использования обученной модели
model.eval()
# Подготовка новых тестовых данных
test_input = torch.tensor([[2, 5], [7, 3], [4, 8]], dtype=torch.float32)

# Проверка результатов на новых данных
print("\nПроверка на новых данных:")
with torch.no_grad():
    for input_data in test_input:
        predicted_label = model(input_data.unsqueeze(0)).item()
        print(f'Input: {input_data}, Predicted Label: {predicted_label:.2f}')


Проверка на новых данных:
Input: tensor([2., 5.]), Predicted Label: 9.40
Input: tensor([7., 3.]), Predicted Label: 20.52
Input: tensor([4., 8.]), Predicted Label: 31.82


### Часть 2: Применение персептрона в NLP

#### 2.1. Векторное представление текста

Для использования персептрона в NLP текст преобразуется в векторное представление (например, методом мешка слов или эмбеддингами), который подается на входной слой.



#### 2.2. Задачи в NLP




####  Классификация текстов

Одним из основных применений персептрона в NLP является классификация текстов. Здесь персептрон может использоваться для определения категории или класса текста на основе его содержания.

**Пример**: Классификация отзывов на фильмы на положительные и отрицательные.

####  Анализ тональности текстов

Персептрон может быть использован для определения эмоциональной окраски текста (положительная, отрицательная или нейтральная).

**Пример**: Определение тональности твитов (позитивная, негативная или нейтральная).

####  Идентификация именованных сущностей (NER)

Персептрон может быть применен для задачи распознавания именованных сущностей в текстах, таких как имена людей, мест, организаций и т.д.

**Пример**: Извлечение имен людей и названий компаний из новостных статей.

#### Разрешение синонимии и антонимии

В задачах обработки естественного языка персептрон может быть использован для определения, являются ли два слова синонимами или антонимами.

**Пример**: Определение, являются ли слова "большой" и "огромный" синонимами.



### Часть 3: Метрики и оценки в NLP

#### 3.1. Метрики качества

- **Точность (Accuracy)**: $ \frac{\text{Количество правильных предсказаний}}{\text{Общее количество предсказаний}} $
- **Полнота (Recall)**: $ \frac{\text{TP}}{\text{TP} + \text{FN}} $
- **Точность (Precision)**: $ \frac{\text{TP}}{\text{TP} + \text{FP}} $
- **F-мера (F1-score)**: $ 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} $

#### 3.2. Оценки качества

- **Кросс-валидация**: Метод оценки производительности модели, разделение данных на подмножества для обучения и тестирования.
- **ROC-кривая и AUC-ROC**: Графическая кривая и площадь под ней для оценки классификаторов.
- **Матрица ошибок (Confusion Matrix)**: Таблица, которая показывает количество верных и неверных предсказаний.



### Тональность текста (Sentiment Analysis)

**Определение:**
Анализ тональности (или сентимент-анализ) — это процесс автоматического определения эмоциональной окраски текста. Цель состоит в том, чтобы выяснить, является ли текст позитивным, негативным или нейтральным.

**Примеры задач:**
- Определение настроения отзывов о продукции (положительный или отрицательный отзыв).
- Анализ тональности комментариев в социальных сетях.
- Изучение общественного мнения по поводу политических событий.

**Примеры категорий:**
- Позитивный
- Негативный
- Нейтральный
- (Иногда добавляются более тонкие категории, такие как очень позитивный, немного негативный и т.д.)

**Методы:**
- Использование словарей тональности (наборы слов с заранее определенной эмоциональной окраской).
- Модели машинного обучения и глубокого обучения, обученные на размеченных данных (например, MLP, RNN, LSTM, BERT).

### Классификация текста (Text Classification)

**Определение:**
Классификация текста — это процесс назначения тексту одной или нескольких меток или категорий из заранее определенного набора. Это более общий термин, включающий в себя широкий спектр задач.

**Примеры задач:**
- Категоризация новостных статей по темам (спорт, политика, экономика).
- Классификация писем электронной почты на спам и не-спам.
- Определение жанра книг или фильмов по описанию.

**Примеры категорий:**
- Темы (например, спорт, политика, экономика)
- Жанры (например, драма, комедия, триллер)
- Классификация языка (например, английский, французский, китайский)

**Методы:**
- Классические алгоритмы машинного обучения (например, Naive Bayes, SVM, k-NN).
- Модели глубокого обучения (например, CNN, RNN, трансформеры).
- Эмбеддинги слов (например, Word2Vec, GloVe, BERT) для преобразования текста в числовые векторы.

### Ключевые различия:

1. **Цель:**
   - **Тональность текста:** Определить эмоциональную окраску текста.
   - **Классификация текста:** Присвоить тексту одну или несколько категорий из заранее определенного набора.

2. **Типы категорий:**
   - **Тональность текста:** Эмоциональные метки (позитивный, негативный, нейтральный).
   - **Классификация текста:** Тематические или категориальные метки (спорт, политика, спам, не-спам).

3. **Применение:**
   - **Тональность текста:** Анализ отзывов, комментариев, мнений.
   - **Классификация текста:** Организация и сортировка большого объема текстов по категориям, фильтрация спама, автоматическая рубрикация новостей.

### Пример:

Для наглядности приведем пример кода, показывающий разницу между сентимент-анализом и классификацией текста.

#### Сентимент-анализ:

In [None]:
# Пример сентимент-анализа с использованием библиотеки TextBlob
from textblob import TextBlob

text = "Я очень доволен этим продуктом, он работает отлично!"
blob = TextBlob(text)
sentiment = blob.sentiment.polarity

if sentiment > 0:
    print("Позитивный")
elif sentiment < 0:
    print("Негативный")
else:
    print("Нейтральный")

Нейтральный


Этот код демонстрирует простой пример использования библиотеки TextBlob для выполнения сентимент-анализа на русском тексте. TextBlob предоставляет предварительно обученные модели для анализа тональности текста на нескольких языках, включая русский.

Данный пример может быть расширен для анализа более длинных текстов, а также интегрирован в более сложные приложения, требующие оценки эмоциональной окраски текстового контента.


#### Классификация текста:




In [None]:
# Пример классификации текста с использованием библиотеки scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline

# Пример данных
texts = ["Футбольная команда победила в чемпионате", "Экономический кризис вызывает беспокойство", "Новый фильм оказался очень интересным"]
labels = ["спорт", "экономика", "развлечение"]

# Создание и обучение модели
model = make_pipeline(TfidfVectorizer(), MultinomialNB())
model.fit(texts, labels)

# Прогноз для нового текста
new_text = "Фондовый рынок падает второй день подряд"
predicted_label = model.predict([new_text])
print(predicted_label)

['развлечение']


Этот код демонстрирует базовый пример использования scikit-learn для классификации текста с применением TF-IDF векторизации и наивного байесовского классификатора. Он может быть расширен и адаптирован для решения различных задач классификации текстовых данных.



Эти примеры иллюстрируют, как можно применить методы сентимент-анализа и классификации текста для решения различных задач.


### Часть 4: Примеры использования персептрона в NLP




Тональность текста и классификация текста — это два понятия в области обработки естественного языка (NLP), которые, хотя и имеют много общего, различаются по своим целям и методам применения.

#### 4.1. Классификация текста

Представим, что у нас есть задача классификации текста на позитивные и негативные отзывы. Мы можем использовать персептрон для обучения модели, которая будет предсказывать эмоциональную окраску текста на основе его содержания.

**Пример.** Построить модель машинного обучения, способную классифицировать текстовые отзывы на фильмы как положительные или отрицательные, и оценить качество этой модели.

In [None]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report

# Более крупный и сбалансированный пример данных
corpus = [
    "Этот фильм ужасен, я не смог досмотреть до конца",
    "Отличный сюжет и интересные персонажи, рекомендую всем!",
    "Ничего особенного, средний фильм без изюминки",
    "Великолепный фильм, он меня вдохновил и покорил",
    "Не понравилось, персонажи были плоскими и сюжет был предсказуем",
    "Прекрасный фильм, замечательная игра актеров",
    "Этот фильм был настоящим разочарованием, ожидал большего",
    "Фильм захватывает с первых минут и держит в напряжении до конца",
    "Ужасный сценарий и отвратительная игра актеров",
    "Отличная режиссура и великолепные спецэффекты",
    "Не стоит своих денег, слишком много клише и предсказуемых моментов",
    "Смотрел с удовольствием, отличный семейный фильм"
]
labels = [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1]

# Инициализация векторизатора TF-IDF
vectorizer = TfidfVectorizer(max_features=1000, lowercase=True, analyzer='word', stop_words='english')

# Преобразование текстов в TF-IDF признаки
X = vectorizer.fit_transform(corpus).toarray()
y = np.array(labels)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация MLP классификатора
mlp_classifier = MLPClassifier(hidden_layer_sizes=(100,), max_iter=500, random_state=42, solver='adam', learning_rate_init=0.001)

# Обучение модели
mlp_classifier.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = mlp_classifier.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# Вывод отчета по классификации (precision, recall, f1-score и support)
print(classification_report(y_test, y_pred, target_names=['Отрицательный', 'Положительный']))

# Предсказание на новых данных
new_reviews = [
    "Отличный фильм! Очень трогательная история, рекомендую всем!",
    "Самый ужасный фильм, который я когда-либо видел. Потраченное время и деньги."
]

# Преобразование новых отзывов в TF-IDF признаки с использованием ранее инициализированного векторизатора
X_new = vectorizer.transform(new_reviews).toarray()

# Предсказание сентимента с использованием обученной модели MLP
predictions = mlp_classifier.predict(X_new)

# Вывод результатов предсказания
for review, prediction in zip(new_reviews, predictions):
    sentiment = "Положительный" if prediction == 1 else "Отрицательный"
    print(f"Текст отзыва: {review}")
    print(f"Прогноз сентимента: {sentiment}")
    print()

Accuracy: 0.67
               precision    recall  f1-score   support

Отрицательный       1.00      0.50      0.67         2
Положительный       0.50      1.00      0.67         1

     accuracy                           0.67         3
    macro avg       0.75      0.75      0.67         3
 weighted avg       0.83      0.67      0.67         3

Текст отзыва: Отличный фильм! Очень трогательная история, рекомендую всем!
Прогноз сентимента: Положительный

Текст отзыва: Самый ужасный фильм, который я когда-либо видел. Потраченное время и деньги.
Прогноз сентимента: Отрицательный



### Анализ и улучшение модели

Модель показывает точность 67%, что не является высоким показателем. Несмотря на то, что новый отзыв классифицирован верно, есть возможности для дальнейшего улучшения модели.

### Возможные улучшения

1. **Увеличение объема данных:**
   - Большее количество данных позволяет модели лучше понять закономерности в текстах.

2. **Более сложные методы векторизации:**
   - Использование методов вроде Word2Vec, GloVe или BERT может улучшить представление текста.

3. **Тонкая настройка модели:**
   - Настройка гиперпараметров модели, таких как количество слоев, количество нейронов, функция активации и алгоритм оптимизации.

4. **Учет дополнительных факторов:**
   - Включение в модель информации о частоте слов, биграммах, триграммах и т.д.




#### 4.2. Анализ тональности

Допустим, мы хотим разработать систему, которая автоматически анализирует тональность новостных статей. Мы можем использовать многослойный персептрон для создания классификатора, который будет определять, является ли текст статьи позитивным, негативным или нейтральным.

### Программа для анализа тональности новостных статей

Для создания системы анализа тональности новостных статей с использованием многослойного персептрона (MLP) можно использовать `scikit-learn` для обучения модели и предобученные эмбеддинги Word2Vec для представления текстов. В данном примере мы будем классифицировать статьи как позитивные, негативные или нейтральные.

### Шаги:
1. **Сбор и подготовка данных.**
2. **Преобразование текстов в эмбеддинги Word2Vec.**
3. **Обучение модели MLP.**
4. **Оценка модели.**
5. **Предсказание на новых данных.**

### Пример реализации:

#### 1. Подготовка данных:

Для простоты предположим, что у нас есть небольшие наборы данных для каждой категории тональности.


**Пример.** Построить модели машинного обучения, которая сможет эффективно классифицировать текстовые данные по трем категориям тональности - негативной, позитивной и нейтральной, и продемонстрировать хорошее качество классификации на тестовых данных. Кроме того, модель должна быть применима для предсказания тональности новых текстовых документов.

In [2]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score, classification_report
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

# Дополнительные данные для гарантии присутствия всех классов
corpus = [
    "Экономика страны растет, инвестиции увеличиваются",  # Позитивный
    "Произошла катастрофа, много пострадавших",  # Негативный
    "Политическая ситуация стабильна",  # Нейтральный
    "Компании сообщают о рекордной прибыли",  # Позитивный
    "Новый закон вызвал волну протестов",  # Негативный
    "Погода сегодня будет солнечной и теплой",  # Нейтральный
    "Экономический кризис вызывает беспокойство у граждан",  # Негативный
    "Ведущие эксперты прогнозируют улучшение рынка труда",  # Позитивный
    "Произошел террористический акт в центре города",  # Негативный
    "Выборы прошли спокойно, без серьезных нарушений",  # Нейтральный
    "Новая волна пандемии вызывает опасения у населения",  # Негативный
    "Рынок акций достиг исторического максимума",  # Позитивный
    "Спортивные события будут проходить без зрителей",  # Нейтральный
    "Научные достижения вызывают оптимизм",  # Позитивный
    "Негативное влияние изменений климата"  # Негативный
]
labels = [1, 0, 2, 1, 0, 2, 0, 1, 0, 2, 0, 1, 2, 1, 0]  # 0 - Негативный, 1 - Позитивный, 2 - Нейтральный

# Токенизация текстов
nltk.download('punkt')
tokenized_corpus = [word_tokenize(review.lower()) for review in corpus]

# Обучение Word2Vec на корпусе
word2vec_model = Word2Vec(tokenized_corpus, vector_size=100, window=5, min_count=1, workers=4)

def get_average_word2vec(tokens_list, vector, k=100):
    """
    Получение среднего вектора Word2Vec для списка токенов.
    """
    if len(tokens_list) < 1:
        return np.zeros(k)
    vectorized = [vector[word] if word in vector else np.zeros(k) for word in tokens_list]
    mean = np.mean(vectorized, axis=0)
    return mean

# Преобразование данных с использованием Word2Vec
X = np.array([get_average_word2vec(tokens, word2vec_model.wv) for tokens in tokenized_corpus])
y = np.array(labels)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Проверка наличия всех классов в обучающей выборке
print("Уникальные классы в обучающей выборке:", np.unique(y_train))
print("Уникальные классы в тестовой выборке:", np.unique(y_test))

# Инициализация MLP классификатора
mlp_classifier = MLPClassifier(hidden_layer_sizes=(100,), max_iter=500, random_state=42, solver='adam', learning_rate_init=0.001)

# Обучение модели
mlp_classifier.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = mlp_classifier.predict(X_test)

# Оценка качества модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

# Вывод отчета по классификации (precision, recall, f1-score и support)
print(classification_report(y_test, y_pred, target_names=['Негативный', 'Позитивный', 'Нейтральный']))

# Предсказание на новых данных
new_articles = [
    "Новая волна пандемии вызывает опасения у населения",
    "Рынок акций достиг исторического максимума",
    "Спортивные события будут проходить без зрителей"
]

# Токенизация новых статей
tokenized_new_articles = [word_tokenize(article.lower()) for article in new_articles]
X_new = np.array([get_average_word2vec(tokens, word2vec_model.wv) for tokens in tokenized_new_articles])

# Предсказание тональности с использованием обученной модели MLP
predictions = mlp_classifier.predict(X_new)

# Вывод результатов предсказания
for article, prediction in zip(new_articles, predictions):
    sentiment = ["Негативный", "Позитивный", "Нейтральный"][prediction]
    print(f"Текст статьи: {article}")
    print(f"Прогноз тональности: {sentiment}")
    print()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Уникальные классы в обучающей выборке: [0 1 2]
Уникальные классы в тестовой выборке: [0 1 2]
Accuracy: 0.67
              precision    recall  f1-score   support

  Негативный       1.00      1.00      1.00         1
  Позитивный       0.50      1.00      0.67         1
 Нейтральный       0.00      0.00      0.00         1

    accuracy                           0.67         3
   macro avg       0.50      0.67      0.56         3
weighted avg       0.50      0.67      0.56         3

Текст статьи: Новая волна пандемии вызывает опасения у населения
Прогноз тональности: Негативный

Текст статьи: Рынок акций достиг исторического максимума
Прогноз тональности: Позитивный

Текст статьи: Спортивные события будут проходить без зрителей
Прогноз тональности: Нейтральный



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


#### Идентификация именованных сущностей (NER)

Идентификация именованных сущностей (Named Entity Recognition, NER) — это задача выделения из текста определенных сущностей, таких как имена людей, организаций, географических объектов и др. В этой задаче часто используют различные методы машинного обучения, включая персептроны.



In [5]:
import numpy as np
import nltk
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# Обновленные примеры предложений с разметкой NER
sentences = [
    ("Иван Иванов работает в компании OpenAI", [("Иван", "B-PER"), ("Иванов", "I-PER"), ("работает", "O"), ("в", "O"), ("компании", "O"), ("OpenAI", "B-ORG")]),
    ("Мария живет в Москве", [("Мария", "B-PER"), ("живет", "O"), ("в", "O"), ("Москве", "B-LOC")]),
    ("Google является лидером в области технологий", [("Google", "B-ORG"), ("является", "O"), ("лидером", "O"), ("в", "O"), ("области", "O"), ("технологий", "O")]),
    ("VK и Amazon конкурируют на рынке", [("VK", "B-ORG"), ("и", "O"), ("Amazon", "B-ORG"), ("конкурируют", "O"), ("на", "O"), ("рынке", "O")]),
    ("Сергей Петров посетил конференцию в Санкт-Петербурге", [("Сергей", "B-PER"), ("Петров", "I-PER"), ("посетил", "O"), ("конференцию", "O"), ("в", "O"), ("Санкт-Петербурге", "B-LOC")]),
    ("Аркадий Волож и Илья Сегалович основали компанию Yandex", [("Аркадий", "B-PER"), ("Волож", "I-PER"), ("и", "O"), ("Илья", "B-PER"), ("Сегалович", "I-PER"), ("основали", "O"), ("компанию", "O"), ("Yandex", "B-ORG")]),
    ("Илон Маск является генеральным директором Tesla", [("Илон", "B-PER"), ("Маск", "I-PER"), ("является", "O"), ("генеральным", "O"), ("директором", "O"), ("Tesla", "B-ORG")]),
    ("Стив Джобс был сооснователем Apple", [("Стив", "B-PER"), ("Джобс", "I-PER"), ("был", "O"), ("сооснователем", "O"), ("Apple", "B-ORG")]),
    ("Джефф Безос владеет компанией Amazon", [("Джефф", "B-PER"), ("Безос", "I-PER"), ("владеет", "O"), ("компанией", "O"), ("Amazon", "B-ORG")]),
    ("Сундар Пичаи руководит Google", [("Сундар", "B-PER"), ("Пичаи", "I-PER"), ("руководит", "O"), ("Google", "B-ORG")]),
]

# Токенизация предложений и меток
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence, _ in sentences]
labels = [[label for _, label in sent] for _, sent in sentences]

# Обучение модели Word2Vec
nltk.download('punkt')
word2vec_model = Word2Vec(tokenized_sentences, vector_size=100, window=5, min_count=1, workers=4)

def get_word2vec(word, model, vector_size=100):
    return model[word] if word in model else np.zeros(vector_size)

# Подготовка данных для MLP
X = []
y = []
for sent, labels in zip(tokenized_sentences, labels):
    for word, label in zip(sent, labels):
        X.append(get_word2vec(word, word2vec_model.wv))
        y.append(label)

# Преобразование меток в числовой формат
unique_labels = list(set(y))
label_to_index = {label: idx for idx, label in enumerate(unique_labels)}
index_to_label = {idx: label for label, idx in label_to_index.items()}
y = np.array([label_to_index[label] for label in y])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Инициализация и обучение MLP классификатора
mlp_classifier = MLPClassifier(hidden_layer_sizes=(100,), max_iter=500, random_state=42)
mlp_classifier.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred = mlp_classifier.predict(X_test)

# Оценка качества модели
print(classification_report(y_test, y_pred, target_names=[index_to_label[idx] for idx in sorted(index_to_label.keys())], labels=sorted(index_to_label.keys())))

# Пример предсказания для нового предложения
new_sentence = "Александр работает в Google"
tokenized_new_sentence = word_tokenize(new_sentence.lower())
X_new = np.array([get_word2vec(word, word2vec_model.wv) for word in tokenized_new_sentence])
predictions = mlp_classifier.predict(X_new)

# Вывод результатов предсказания
for word, prediction in zip(tokenized_new_sentence, predictions):
    print(f"Слово: {word}, Предсказанная метка: {index_to_label[prediction]}")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


              precision    recall  f1-score   support

       B-LOC       0.00      0.00      0.00         0
       I-PER       0.00      0.00      0.00         2
           O       0.55      1.00      0.71         6
       B-PER       0.00      0.00      0.00         2
       B-ORG       0.00      0.00      0.00         2

   micro avg       0.50      0.50      0.50        12
   macro avg       0.11      0.20      0.14        12
weighted avg       0.27      0.50      0.35        12

Слово: александр, Предсказанная метка: O
Слово: работает, Предсказанная метка: O
Слово: в, Предсказанная метка: O
Слово: google, Предсказанная метка: B-ORG


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


####Разрешение синонимии и антонимии
В задачах обработки естественного языка персептрон может быть использован для определения, являются ли два слова синонимами или антонимами.

Пример: Определение, являются ли слова "большой" и "огромный" синонимами.

In [12]:
import numpy as np
import nltk
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

nltk.download('punkt')

# Example word pairs
synonym_pairs = [
    ("большой", "огромный"),
    ("маленький", "крошечный"),
    ("умный", "сообразительный"),
    ("красивый", "прекрасный")
]

antonym_pairs = [
    ("большой", "маленький"),
    ("быстрый", "медленный"),
    ("темный", "светлый"),
    ("день", "ночь")
]

word_pairs = synonym_pairs + antonym_pairs
labels = [1] * len(synonym_pairs) + [0] * len(antonym_pairs)  # 1 for synonym, 0 for antonym

# Training a simple Word2Vec model
sentences = [word_tokenize(pair[0]) + word_tokenize(pair[1]) for pair in word_pairs]
word2vec_model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

def get_word2vec(word, model, vector_size=100):
    return model[word] if word in model else np.zeros(vector_size)

# Prepare feature vectors
X = []
for word1, word2 in word_pairs:
    vec1 = get_word2vec(word1, word2vec_model.wv)
    vec2 = get_word2vec(word2, word2vec_model.wv)
    X.append(np.concatenate((vec1, vec2)))

X = np.array(X)
y = np.array(labels)

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Initialize and train the perceptron
perceptron = Perceptron(max_iter=1000, random_state=42)
perceptron.fit(X_train, y_train)

# Predict on the test set
y_pred = perceptron.predict(X_test)

# Evaluate the model
print(classification_report(y_test, y_pred, target_names=["Antonym", "Synonym"]))

# Example prediction for a new pair of words
new_pair = ("огромный", "крошечный")
vec1 = get_word2vec(new_pair[0], word2vec_model.wv)
vec2 = get_word2vec(new_pair[1], word2vec_model.wv)
X_new = np.concatenate((vec1, vec2)).reshape(1, -1)

prediction = perceptron.predict(X_new)

print(f"Слова: {new_pair[0]} и {new_pair[1]}, Предсказанная метка: {'Синонимы' if prediction[0] == 1 else 'Антонимы'}")

# Example prediction for a new pair of words
new_pair = ("день", "ночь")
vec1 = get_word2vec(new_pair[0], word2vec_model.wv)
vec2 = get_word2vec(new_pair[1], word2vec_model.wv)
X_new = np.concatenate((vec1, vec2)).reshape(1, -1)

prediction = perceptron.predict(X_new)

print(f"Слова: {new_pair[0]} и {new_pair[1]}, Предсказанная метка: {'Синонимы' if prediction[0] == 1 else 'Антонимы'}")

              precision    recall  f1-score   support

     Antonym       0.00      0.00      0.00         1
     Synonym       0.50      1.00      0.67         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2

Слова: огромный и крошечный, Предсказанная метка: Антонимы
Слова: день и ночь, Предсказанная метка: Антонимы


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
