<a href="https://colab.research.google.com/github/CodeHunterOfficial/AI_DataMining/blob/main/DL/1_1_3_%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D1%81%D0%BB%D0%BE%D0%B9%D0%BD%D1%8B%D0%B5_%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD%D1%8B_%D0%B4%D0%BB%D1%8F_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%BA%D0%BB%D0%B0%D1%81%D1%81%D0%B8%D1%84%D0%B8%D0%BA%D0%B0%D1%86%D0%B8%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Многослойные персептроны для задачи классификации

## Введение

Многослойный персептрон (MLP, от англ. Multilayer Perceptron) — одна из наиболее распространённых архитектур нейронных сетей, используемая для задач классификации, регрессии и других областей. Несмотря на развитие более сложных архитектур, таких как свёрточные сети (CNN) или рекуррентные сети (RNN), MLP остаётся эффективным инструментом благодаря своей универсальности и теоретической основе.

MLP состоит из нескольких слоёв нейронов, где каждый нейрон выполняет линейную комбинацию входов, а затем применяет нелинейную активацию. Классификационные задачи подразумевают, что сеть будет предсказывать один из нескольких классов, используя набор входных признаков.

### Основные термины:

- **Входной слой**: слой, который принимает входные данные (признаки или наблюдения).
- **Скрытые слои**: один или несколько слоёв между входным и выходным слоями, которые обрабатывают информацию.
- **Выходной слой**: последний слой сети, возвращающий предсказание — класс или вероятность.
- **Функция активации**: функция, вводящая нелинейность в модель, позволяя сети решать сложные задачи.
- **Функция потерь**: функция, измеряющая, насколько сеть ошибается в своих предсказаниях, и используемая для обновления весов.

## Архитектура многослойного персептрона

MLP состоит из входного слоя, одного или более скрытых слоёв и выходного слоя. Каждый нейрон внутри слоя связан с каждым нейроном следующего слоя, что делает MLP полностью связанной (fully connected) сетью.

Рассмотрим это на примере:

1. **Входные данные**: Вектор признаков размером $x = [x_1, x_2, \dots, x_n]$.
2. **Скрытые слои**: Каждый слой содержит несколько нейронов, и каждый нейрон вычисляет взвешенную сумму входных данных с добавлением смещения (bias):
   $$
   z_j = \sum_{i=1}^n w_{ij} x_i + b_j
   $$
   После этого к результату применяется функция активации $\sigma$, чтобы ввести нелинейность:
   $$
   a_j = \sigma(z_j)
   $$
3. **Выходной слой**: Финальный слой производит одно или несколько предсказаний. В задаче классификации это может быть либо вероятность для каждого класса, либо бинарное решение (например, через сигмоидную функцию).

## Функции активации

Функции активации добавляют нелинейность в модель, что позволяет решать более сложные задачи, чем линейные модели. Вот несколько популярных функций активации:

- **Sigmoid (Сигмоида)**:
   $$
   \sigma(x) = \frac{1}{1 + e^{-x}}
   $$
   Используется для задач бинарной классификации и возвращает значения в диапазоне [0, 1].

- **ReLU (Rectified Linear Unit)**:
   $$
   \text{ReLU}(x) = \max(0, x)
   $$
   Используется в скрытых слоях. Простой и эффективный выбор, так как помогает решать проблему исчезающего градиента.

- **Softmax**:
   $$
   \text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}
   $$
   Используется в выходном слое для многоклассовой классификации, чтобы предсказать вероятности классов.

## Задача классификации

Классификация — это задача присвоения одному или нескольким объектам метки (класса) на основе их признаков. Входными данными могут быть любые данные: изображения, текст, временные ряды и т.д. MLP может использоваться для следующих типов классификации:

- **Бинарная классификация**: два класса (например, определение, является ли письмо спамом или нет).
- **Многоклассовая классификация**: более двух классов (например, распознавание видов цветов).

## MLPClassifier в scikit-learn

В библиотеке `scikit-learn` имеется класс `MLPClassifier`, который предоставляет реализацию модели многослойного перцептрона для задач классификации. Основные параметры этого класса:

1. **hidden_layer_sizes**: Например, `(100,)` — это означает, что модель будет иметь один скрытый слой, содержащий 100 нейронов. Количество слоёв и нейронов в них может существенно влиять на способность модели захватывать сложные зависимости в данных.

2. **activation**: `'relu'` — функция активации, используемая в скрытых слоях. ReLU (Rectified Linear Unit) является наиболее распространённым выбором, так как она проста в использовании и помогает избежать проблемы исчезающего градиента.

3. **max_iter**: `200` — максимальное количество итераций для обучения модели. Если модель не сойдётся за указанное количество итераций, обучение будет остановлено.

4. **random_state**: `42` — этот параметр позволяет контролировать случайность и делает результаты воспроизводимыми. Указывая одно и то же значение, вы можете получить одинаковые результаты при каждом запуске.

5. **learning_rate_init**: `0.001` — начальная скорость обучения, которая может быть настроена для оптимизации процесса обучения модели.

## Примеры применения MLP для классификации

Теперь перейдём к примерам, начиная с простых случаев и постепенно углубляясь в более сложные задачи. Мы рассмотрим, как использовать MLPClassifier для выполнения классификации на различных наборах данных, включая примеры кода и объяснения каждого этапа.

### Пример 1: Бинарная классификация

(Здесь можно привести пример кода, показывающий, как использовать MLPClassifier для задачи бинарной классификации, например, для определения спама.)

### Пример 2: Многоклассовая классификация

(В этом разделе можно привести пример использования MLPClassifier для многоклассовой классификации, например, для распознавания цифр из набора данных MNIST.)



## Пример 1: Классификация на наборе данных Iris

Рассмотрим задачу классификации цветов на базе известного датасета Iris. Этот набор данных содержит 150 примеров, каждый из которых представляет один из трёх видов цветов.




In [None]:
### Шаг 1. Импорт библиотек и загрузка данных
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# Загрузка данных
iris = load_iris()
X = iris.data  # Признаки
y = iris.target  # Метки классов

# Разделение данных на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Стандартизация данных (приведение к одному масштабу)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


### Шаг 2. Обучение модели MLP

# Создание и обучение модели MLP
mlp = MLPClassifier(hidden_layer_sizes=(10,), max_iter=1000, random_state=42)
mlp.fit(X_train, y_train)


'''Здесь мы создали модель с одним скрытым слоем, содержащим 10 нейронов. Мы также установили максимальное количество итераций в 1000.
'''
### Шаг 3. Оценка модели


# Предсказания и оценка
y_pred = mlp.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Accuracy: 1.00


Ожидается, что точность будет довольно высокой, так как набор данных Iris является простым для решения с помощью MLP.
## Пример 2: Применение MLP в NLP (обработка естественного языка)

MLP также можно применять для задач обработки текста, например, для классификации текстов (напр., спам или не спам).

### Пример: Классификация отзывов на основе текста

В этом примере

 мы классифицируем текстовые отзывы как положительные или отрицательные.


In [None]:
### Шаг 1. Импорт и подготовка текстовых данных

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# Пример текстовых данных
texts = ["The product is great", "Very bad experience", "I love it", "Horrible service"]
labels = [1, 0, 1, 0]  # 1 - положительный отзыв, 0 - отрицательный

# Преобразование текста в числовые признаки
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texts).toarray()

# Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

### Шаг 2. Обучение модели MLP

# Создание и обучение модели
mlp = MLPClassifier(hidden_layer_sizes=(10,), max_iter=500, random_state=42)
mlp.fit(X_train, y_train)

### Шаг 3. Оценка модели

# Предсказания и оценка
y_pred = mlp.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Accuracy: 0.00





В этом примере MLP классифицирует текстовые отзывы как положительные или отрицательные на основе их характеристик, представленных через метод TF-IDF (Term Frequency-Inverse Document Frequency).




### Задача 1: Классификация спам/не спам (NLP)
Мы будем решать задачу бинарной классификации текста — определение, является ли сообщение спамом или нет. Для этого используем простой датасет, а также метод векторизации текста TF-IDF и обучим многослойный персептрон (MLP).

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

class SpamClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer()
        self.model = MLPClassifier(hidden_layer_sizes=(10,), max_iter=500, random_state=42)

    def train(self, data):
        df = pd.DataFrame(data)
        X = self.vectorizer.fit_transform(df['text']).toarray()
        y = df['label']
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        self.model.fit(X_train, y_train)
        y_pred = self.model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Accuracy: {accuracy:.2f}")

    def predict(self, new_texts):
        X_new = self.vectorizer.transform(new_texts).toarray()
        predictions = self.model.predict(X_new)
        return predictions

# Пример использования:
data = {
    'text': ["Free money now!!!",
             "Hi, let's meet tomorrow",
             "Cheap loans available",
             "Your order has been shipped",
             "You won a lottery!"],
    'label': [1, 0, 1, 0, 1]
}

spam_classifier = SpamClassifier()
spam_classifier.train(data)

# Тестирование на новых текстах
new_texts = ["You have won a prize!", "Let's schedule a meeting"]
predictions = spam_classifier.predict(new_texts)
print("Predictions for new texts:", predictions)

Accuracy: 0.00
Predictions for new texts: [1 1]




### Задача 2: Классификация текста по категориям
Теперь задача многоклассовой классификации: мы будем классифицировать новости по темам, таким как "спорт", "политика", "экономика". В качестве метода векторизации также используется TF-IDF.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

class NewsClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer()
        self.model = MLPClassifier(hidden_layer_sizes=(20,), max_iter=500, random_state=42)

    def train(self, data):
        df = pd.DataFrame(data)
        X = self.vectorizer.fit_transform(df['text']).toarray()
        y = df['label']
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        self.model.fit(X_train, y_train)
        y_pred = self.model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Accuracy: {accuracy:.2f}")

    def predict(self, new_texts):
        X_new = self.vectorizer.transform(new_texts).toarray()
        predictions = self.model.predict(X_new)
        return predictions

# Пример использования:
data = {
    'text': [
        "The football match ended in a draw.",
        "The president gave a speech on economic reform.",
        "Stock markets saw a huge rise today.",
        "The tennis player won his fifth grand slam.",
        "The government introduced new policies."
    ],
    'label': [0, 1, 2, 0, 1]  # 0 - спорт, 1 - политика, 2 - экономика
}

news_classifier = NewsClassifier()
news_classifier.train(data)

# Тестирование на новых текстах
new_texts = ["The basketball game was exciting", "New economic measures were introduced"]
predictions = news_classifier.predict(new_texts)
print("Predictions for new texts:", predictions)

Accuracy: 0.00
Predictions for new texts: [0 1]




### Задача 3: Определение тональности текста (Sentiment Analysis)
Эта задача нацелена на анализ тональности текстов — позитивный, негативный или нейтральный отзыв. Мы используем TF-IDF для векторизации текстов и MLP для классификации.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

class SentimentAnalyzer:
    def __init__(self):
        self.vectorizer = TfidfVectorizer()
        self.model = MLPClassifier(hidden_layer_sizes=(15,), max_iter=500, random_state=42)

    def train(self, data):
        df = pd.DataFrame(data)
        X = self.vectorizer.fit_transform(df['text']).toarray()
        y = df['label']
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        self.model.fit(X_train, y_train)
        y_pred = self.model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Accuracy: {accuracy:.2f}")

    def predict(self, new_texts):
        X_new = self.vectorizer.transform(new_texts).toarray()
        predictions = self.model.predict(X_new)
        return predictions

# Пример использования:
data = {
    'text': [
        "I absolutely love this product!",
        "This is the worst experience ever.",
        "I'm very happy with the service.",
        "I hate this item.",
        "Not great, but not terrible either."
    ],
    'label': [1, 0, 1, 0, 0]  # 1 - позитивный, 0 - негативный
}

sentiment_analyzer = SentimentAnalyzer()
sentiment_analyzer.train(data)

# Тестирование на новых текстах
new_texts = ["I really like this service", "This is disappointing"]
predictions = sentiment_analyzer.predict(new_texts)
print("Predictions for new texts:", predictions)

Accuracy: 0.00
Predictions for new texts: [1 0]




### Задача 4: Классификация сообщений в чатах по настроению (Multiclass Sentiment Analysis)
Эта задача немного сложнее — мы будем классифицировать сообщения по трём категориям настроений: позитивные, негативные и нейтральные.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

class ChatSentimentClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer()
        self.model = MLPClassifier(hidden_layer_sizes=(20,), max_iter=500, random_state=42)

    def train(self, data):
        df = pd.DataFrame(data)
        X = self.vectorizer.fit_transform(df['text']).toarray()
        y = df['label']
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        self.model.fit(X_train, y_train)
        y_pred = self.model.predict(X_test)
        accuracy = accuracy_score(y_test, y_pred)
        print(f"Accuracy: {accuracy:.2f}")

    def predict(self, new_texts):
        X_new = self.vectorizer.transform(new_texts).toarray()
        predictions = self.model.predict(X_new)
        return predictions

# Пример использования:
data = {
    'text': [
        "I'm so happy today!",
        "This is really bad.",
        "Not sure how I feel about this.",
        "I'm loving it!",
        "This was a horrible experience."
    ],
    'label': [1, 0, 2, 1, 0]  # 1 - позитивный, 0 - негативный, 2 - нейтральный
}

chat_sentiment_classifier = ChatSentimentClassifier()
chat_sentiment_classifier.train(data)

# Тестирование на новых текстах
new_texts = ["This is amazing!", "I'm not sure what to think.", "This is terrible."]
predictions = chat_sentiment_classifier.predict(new_texts)
print("Predictions for new texts:", predictions)

Accuracy: 1.00
Predictions for new texts: [0 2 0]


## Задачи умножения

Для решения задачи умножения с использованием многослойного персептрона (MLP), нам нужно сначала подготовить данные для обучения. Задача заключается в том, чтобы обучить модель прогнозировать результат умножения двух чисел.

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error

class MultiplicationMLP:
    def __init__(self, hidden_layer_sizes=(128, 128, 128), max_iter=2000):
        """
        Инициализация модели MLP для умножения.

        :param hidden_layer_sizes: Кортеж с размерами скрытых слоев.
        :param max_iter: Максимальное количество итераций для обучения.
        """
        self.hidden_layer_sizes = hidden_layer_sizes
        self.max_iter = max_iter
        self.model = MLPRegressor(hidden_layer_sizes=self.hidden_layer_sizes,
                                   activation='tanh',
                                   max_iter=self.max_iter,
                                   random_state=42)

    def generate_data(self, start=1, end=20):
        """
        Генерация данных для таблицы умножения.

        :param start: Начальное число для генерации (включительно).
        :param end: Конечное число для генерации (включительно).
        :return: Входные и выходные данные.
        """
        X = []
        y = []
        for i in range(start, end + 1):
            for j in range(start, end + 1):
                X.append([i, j])
                y.append(i * j)
        return np.array(X), np.array(y)

    def train(self, X, y):
        """
        Обучение модели на заданных данных.

        :param X: Входные данные.
        :param y: Выходные данные.
        """
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
        self.model.fit(X_train, y_train)
        y_pred = self.model.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        print(f'MSE на тестовой выборке: {mse}')

    def predict(self, a, b):
        """
        Прогнозирование произведения двух чисел.

        :param a: Первое число.
        :param b: Второе число.
        :return: Предсказанное произведение.
        """
        example = np.array([[a, b]])
        return self.model.predict(example)[0]

# Пример использования
if __name__ == "__main__":
    multiplication_model = MultiplicationMLP()
    X, y = multiplication_model.generate_data(start=1, end=20)
    multiplication_model.train(X, y)

    # Пример предсказания
    result = multiplication_model.predict(7, 8)
    print(f'Предсказанный результат для 7 * 8: {result}')

MSE на тестовой выборке: 170.1460629793565
Предсказанный результат для 7 * 8: 56.02676660992348





## Заключение

Многослойный персептрон — это мощный инструмент для решения задач классификации в различных областях, начиная с простых задач классификации на структурированных данных и заканчивая более сложными задачами, такими как обработка временных рядов и текстов. Он использует нелинейные функции активации и полносвязную архитектуру для построения сложных зависимостей между входными данными и предсказаниями.

Хотя для более специализированных задач существуют более сложные модели, такие как CNN для изображений или RNN для временных рядов, MLP продолжает оставаться важной частью арсенала инструментов для решения задач машинного обучения.