## Домашняя работа №3
### Задание - часть теоретическая.
Опишите общий принцип работы сверточных нейронных сетей.

Сверточные нейронные сети являются основным инструментом в области компьютерного зрения и анализа изображений. Они разработаны специально для обработки данных с пространственной структурой, таких как изображения. Основной принцип работы сверточных нейронных сетей состоит в применении операции свертки к входным данным с использованием специальных фильтров.

Сверточная нейронная сеть состоит из нескольких слоев. Первый слой является входным, на котором происходит подача исходных данных, например, изображения. Затем следуют несколько слоев свертки, которые применяют фильтры к входным данным. Фильтры выделяют различные пространственные признаки, такие как границы, текстуры и формы. Затем следуют слои объединения (pooling), которые уменьшают размерность данных, усредняя или выбирая наиболее значимые значения. После этого могут следовать полносвязные слои (fully connected layers), которые выполняют классификацию или регрессию на основе выделенных признаков.

Чем хороши сверточные нейронные сети?

Сверточные нейронные сети хороши в обработке изображений и других данных с пространственной структурой по следующим причинам:

Учитывают локальные зависимости: Сверточные слои применяют фильтры к локальным областям данных, учитывая локальные зависимости между пикселями или элементами данных. Это позволяет модели улавливать пространственные шаблоны и структуры.

Параметры совместного использования: Фильтры в сверточных слоях используются повторно для обработки различных частей входных данных. Это сокращает общее количество параметров модели и позволяет эффективно использовать вычислительные ресурсы.

Инвариантность к переводу искажений: Сверточные нейронные сети обладают инвариантностью к некоторым искажениям, таким как трансляции, повороты и масштабирование. Они способны распознавать объекты в изображениях, независимо от их положения или масштаба.

Опишите общий принцип работы рекуррентных нейронных сетей.

Рекуррентные нейронные сети предназначены для работы с последовательными данными, где важна последовательность и зависимости между элементами. Они обладают памятью, которая позволяет модели учитывать контекст предыдущих элементов при обработке текущего элемента в последовательности. Основной принцип работы рекуррентных нейронных сетей заключается в использовании рекуррентных связей и обратного распространения ошибки на протяжении временной оси.

В рекуррентных нейронных сетях каждый элемент последовательности обрабатывается с использованием одной и той же модели (нейронной сети), и результат обработки передается следующему элементу в последовательности. Таким образом, сеть может сохранять информацию о предыдущих элементах и использовать ее для принятия решений или генерации выходных значений. Это делает рекуррентные нейронные сети особенно полезными в задачах, где важна последовательность данных или контекстная информация.

Чем хороши рекуррентные нейронные сети?

Обработка последовательных данных: Рекуррентные нейронные сети эффективно работают с временными рядами, естественным языком, речью и другими типами последовательных данных. Они могут улавливать зависимости и паттерны, которые присутствуют в этих данных.

Генерация последовательностей: RNN могут использоваться для генерации новых последовательностей на основе обучающих данных. Например, они могут использоваться для генерации текста, музыки или изображений.

Машинный перевод: Рекуррентные нейронные сети широко применяются в задачах машинного перевода, где необходимо переводить предложения или тексты с одного языка на другой.

Приведите примеры задач, в которых можно было бы применить сверточные нейронные сети / рекуррентные нейронные сети

Сверточные нейронные сети:

Классификация изображений: Сверточные нейронные сети показывают отличные результаты в задачах классификации изображений, где необходимо определить, что изображено на фотографии или картинке.

Детекция объектов: CNN часто используются для обнаружения и выделения объектов на изображении. Они могут помочь автоматически распознавать и выделять лица, автоматически распознавать и выделять лица, автомобили, дома и другие объекты.

Рекуррентные нейронные сети:

- Распознавание речи: RNN могут использоваться для распознавания и транскрибирования речи. Они способны улавливать зависимости между фонемами и словами в произнесенном тексте.

- Анализ эмоциональной окраски текста: Рекуррентные нейронные сети могут применяться для анализа тональности и эмоциональной окраски текста. Они могут определить, является ли текст позитивным, негативным или нейтральным.

In [1]:
from gensim.models import Word2Vec
import joblib
import json
import nltk
from nltk.corpus import stopwords
import numpy as np
from pymorphy3 import MorphAnalyzer
import re
from sklearn import linear_model, metrics
from sklearn.model_selection import train_test_split
import sqlite3
import tensorflow as tf
from tensorflow import keras

Напишем функцию для токенизации и лемматизации слов, а также удаления стопслов из документа (поста, описания группы и любого другого текстового параметра). Функция токенизирует документ, если в нем содержалось более 2 значащих слов.

In [3]:
patterns = "[«»!#$%&'()*+,./:;<=>?@[\]^_`{|}~—\"\-]+"
stopwords_ru_en = stopwords.words("russian") + stopwords.words("english") + stopwords.words("german") 
morph = MorphAnalyzer()

def lemmatize(doc):
    doc = doc.lower()
    doc = re.sub(patterns, ' ', doc)
    tokens = []
    for token in doc.split():
        token = token.strip()
        if token and token not in stopwords_ru_en:
            token = morph.normal_forms(token)[0]
            tokens.append(token)
    if len(tokens) > 2:
        return tokens
    return None

stopwords_ru_en

['и',
 'в',
 'во',
 'не',
 'что',
 'он',
 'на',
 'я',
 'с',
 'со',
 'как',
 'а',
 'то',
 'все',
 'она',
 'так',
 'его',
 'но',
 'да',
 'ты',
 'к',
 'у',
 'же',
 'вы',
 'за',
 'бы',
 'по',
 'только',
 'ее',
 'мне',
 'было',
 'вот',
 'от',
 'меня',
 'еще',
 'нет',
 'о',
 'из',
 'ему',
 'теперь',
 'когда',
 'даже',
 'ну',
 'вдруг',
 'ли',
 'если',
 'уже',
 'или',
 'ни',
 'быть',
 'был',
 'него',
 'до',
 'вас',
 'нибудь',
 'опять',
 'уж',
 'вам',
 'ведь',
 'там',
 'потом',
 'себя',
 'ничего',
 'ей',
 'может',
 'они',
 'тут',
 'где',
 'есть',
 'надо',
 'ней',
 'для',
 'мы',
 'тебя',
 'их',
 'чем',
 'была',
 'сам',
 'чтоб',
 'без',
 'будто',
 'чего',
 'раз',
 'тоже',
 'себе',
 'под',
 'будет',
 'ж',
 'тогда',
 'кто',
 'этот',
 'того',
 'потому',
 'этого',
 'какой',
 'совсем',
 'ним',
 'здесь',
 'этом',
 'один',
 'почти',
 'мой',
 'тем',
 'чтобы',
 'нее',
 'сейчас',
 'были',
 'куда',
 'зачем',
 'всех',
 'никогда',
 'можно',
 'при',
 'наконец',
 'два',
 'об',
 'другой',
 'хоть',
 'после',
 'на

Извлечем тексты всех постов из датасета, описания групп, их названия и статусы для обучения модели word2vec, разделим данные на обучающий и тестовый датасеты.

In [5]:
db = sqlite3.connect('database.db')  
cursor_obj = db.cursor()
cursor_obj.execute("select * from groups")
rows = cursor_obj.fetchall()
db.close()

train_data, test_data = train_test_split(rows, test_size=0.25)

Соберем все тексты, которые содержатся в нашем датасете, в единый список документов

In [6]:
all_texts = []
for group in rows:
    name = lemmatize(group[1])
    if name is not None:
        all_texts.append(name)
    status = lemmatize(group[2])
    if status is not None:
        all_texts.append(status)
    description = lemmatize(group[3])
    if description is not None:
        all_texts.append(description)
    posts = json.loads(group[12])
    for post in posts:
        prep_post = lemmatize(post['text'])
        if prep_post is not None:
            all_texts.append(prep_post)
            
all_texts

[['микрокинотеатр', 'санкт', 'петербург'],
 ['авторский',
  'классика',
  'новинка',
  'фестивальный',
  'кино',
  'большой',
  'экран',
  'камерный',
  'зал',
  'ежедневный',
  'показ',
  'язык',
  'оригинал',
  'русский',
  'субтитр',
  'найти',
  'vk',
  'cc',
  '8prnty'],
 ['афиша',
  'cinema',
  '26',
  'июнь',
  '2',
  'июль',
  'премьерный',
  'показ',
  'лента',
  'лариса',
  'шепитько',
  'крыло',
  'дэн',
  'гилрой',
  'стрингер',
  'михаил',
  'калатозов',
  'красный',
  'палатка',
  'авторский',
  'код',
  'эмир',
  'кустурица',
  'чёрный',
  'кошка',
  'белый',
  'кот',
  'мартин',
  'сковбьерг',
  'копенгаген',
  'существовать',
  'жак',
  'одиар',
  'париж',
  '13',
  'й',
  'округ',
  'франсуа',
  'трюффо',
  'жюля',
  'джим',
  'зак',
  'брафф',
  'хотеть',
  'погружаться',
  'изощрённый',
  'визуал',
  'увидеть',
  'работать',
  'фильм',
  'ларс',
  'фон',
  'триер',
  'догвилль',
  'андрей',
  'тарковский',
  'ностальгия',
  'жан',
  'кокто',
  'р',
  'клеман',
  'кр

Обучим w2v модель на наших текстах.

In [79]:
w2v_model = Word2Vec(
    all_texts,
    min_count=10,
    window=2,
    vector_size=300,
    negative=10,
    alpha=0.03,
    min_alpha=0.0007,
    sample=6e-5,
    sg=1)

w2v_model.train(all_texts, total_examples=w2v_model.corpus_count, epochs=100, report_delay=1)

(292783, 3088900)

Запишем вспомогательные функции для обработки текстов. Первая вычисляет сходство текста с какой-либо тематикой. Вторая функция вычисляет сходство текста со всеми тематиками и формирует вектор для текста.

In [80]:
def get_text_similarity(tokenized_text, theme_word):
    text_similarity = 0.
    used_words = 0
    for word in tokenized_text:
        if word in w2v_model.wv.key_to_index:
            text_similarity += w2v_model.wv.similarity(word, theme_word)
            used_words += 1
    if used_words != 0:
        return text_similarity / used_words
    return 0.

def get_themes_characteristics(tokenized_text):
    return [
        get_text_similarity(tokenized_text, 'кино'),
        get_text_similarity(tokenized_text, 'немецкий'),
        get_text_similarity(tokenized_text, 'программирование'),
        get_text_similarity(tokenized_text, 'мем')
    ]

print("Vocabulary size:", len(w2v_model.wv.key_to_index))
print("Vocabulary words:", list(w2v_model.wv.key_to_index.keys()))

Vocabulary size: 584
Vocabulary words: ['https', 'vk', 'который', 'немецкий', 'com', 'это', 'свой', 'язык', 'фильм', 'год', 'наш', 'работа', 'ru', '–', 'работать', 'новый', 'время', 'habr', 'первый', '2', 'месяц', 'хороший', 'весь', 'день', '1', 'группа', 'каждый', 'самый', 'германия', 'книга', 'cc', 'обучение', 'один', '00', 'deutsch', 'режиссёр', 'команда', 'python', 'хотеть', '3', 'курс', 'узнать', 'любой', 'кино', 'проект', 'человек', 'pylounge', 'игра', 'ваш', '2023', '30', 'возможность', 'быть', 'нужно', 'также', 'разработчик', 'другой', 'мочь', 'делать', 'всё', '5', 'ждать', 'разработка', 'экзамен', 'вопрос', 'уровень', 'просто', 'статья', 'сделать', 'жизнь', 'смочь', 'стать', 'тема', '•', 'очень', 'ссылка', 'знать', 'получить', 'рассказать', 'история', 'u', 'такой', 'бесплатный', 'какой', 'слово', '4', 'документ', 'глагол', '20', 'найти', 'место', 'урок', 'онлайн', 'материал', '7', 'смотреть', 'студент', 'июнь', '10', 'профессия', 'utm', 'добавить', 'ещё', 'помочь', 'мир', 'тот

Создадим функцию для преобразования информации о группе в вектор. В векторе содержатся данные о названии группы, статусе и описании, численные значения о группе (число подписчиков и т.п.), а также данные о 15 постах группы (текст поста, число лайков, репостов, прикрепленных фото и т.п.). Также написана функция для получения только текстовых признаков группы.

In [81]:
def get_vectorized_group_info(group_info):
    group_vector = []
    if lemmatize(group_info[1]) is not None:
        group_vector.extend(get_themes_characteristics(lemmatize(group_info[1])))
    else:
        group_vector.extend([0.] * 4)
    if lemmatize(group_info[2]) is not None:
        group_vector.extend(get_themes_characteristics(lemmatize(group_info[2])))
    else:
        group_vector.extend([0.] * 4)
    if lemmatize(group_info[3]) is not None:
        group_vector.extend(get_themes_characteristics(lemmatize(group_info[3])))
    else:
        group_vector.extend([0.] * 4)
    group_vector.extend(group_info[6:11])
    posts = json.loads(group_info[12])
    for post in posts:
        if lemmatize(post['text']) is not None:
            group_vector.extend(get_themes_characteristics(lemmatize(post['text'])))
        else:
            group_vector.extend([0.] * 4)
        group_vector.extend([post['likes'], post['reposts'], post['photos_number'], post['music_number'], 
                        post['video_number'], post['links_number'], post['docs_number']])
    while len(group_vector) < 3 * 4 + 5 + 15 * 11:
        group_vector.extend([0.] * 11)
    
    return group_vector


def get_vectorized_group_info_only_texts(group_info):
    group_vector = []
    if lemmatize(group_info[1]) is not None:
        group_vector.extend(get_themes_characteristics(lemmatize(group_info[1])))
    else:
        group_vector.extend([0.] * 4)
    if lemmatize(group_info[2]) is not None:
        group_vector.extend(get_themes_characteristics(lemmatize(group_info[2])))
    else:
        group_vector.extend([0.] * 4)
    if lemmatize(group_info[3]) is not None:
        group_vector.extend(get_themes_characteristics(lemmatize(group_info[3])))
    else:
        group_vector.extend([0.] * 4)
    posts = json.loads(group_info[12])
    for post in posts:
        if lemmatize(post['text']) is not None:
            group_vector.extend(get_themes_characteristics(lemmatize(post['text'])))
        else:
            group_vector.extend([0.] * 4)
    while len(group_vector) < 3 * 4 + 15 * 4:
        group_vector.extend([0.] * 4)
    
    return group_vector

Сформируем векторы входных и выходных данных для моделей, используя написанные функции. Создадим следующие наборы: датасет со всеми возможными входными данными, датасет без информации о постах и датасет, содержащий только информацию о текстовых данных.

In [82]:
themes = {
    'Кино': 1,
    'Немецкий язык': 2,
    'Программирование': 3,
    'Мемы': 4,
    'Другое': 0
}
themes_inverse = {
    1: 'Кино',
    2: 'Немецкий язык',
    3: 'Программирование',
    4: 'Мемы',
    0: 'Другое'
}

train_input_full = []
train_input_no_posts = []
train_input_only_texts = []
train_output = []
for element in train_data:
    train_input_full.append(get_vectorized_group_info(element))
    train_input_no_posts.append(train_input_full[-1][:17])
    train_input_only_texts.append(get_vectorized_group_info_only_texts(element))
    train_output.append(themes[element[13]])
    
test_input_full = []
test_input_no_posts = []
test_input_only_texts = []
test_output = []
for element in test_data:
    test_input_full.append(get_vectorized_group_info(element))
    test_input_no_posts.append(test_input_full[-1][:17])
    test_input_only_texts.append(get_vectorized_group_info_only_texts(element))
    test_output.append(themes[element[13]])

Обучим классификатор RidgeClassifier на полных данных и посчитаем метрики для оценки модели:

In [83]:
model_ridge_full = linear_model.RidgeClassifier()
model_ridge_full.fit(train_input_full, train_output)

predicted_test_ridge = model_ridge_full.predict(test_input_full)
print(metrics.classification_report(predicted_test_ridge, test_output, zero_division=1))

              precision    recall  f1-score   support

           1       0.50      0.67      0.57         3
           2       0.50      0.29      0.36         7
           3       0.33      1.00      0.50         2
           4       0.50      0.25      0.33         4

    accuracy                           0.44        16
   macro avg       0.46      0.55      0.44        16
weighted avg       0.48      0.44      0.41        16



Precision: для класса 1 и класса 2 равна 1.00, что указывает на то, что когда модель предсказывает эти классы, она верна в 100% случаев. Но precision для классов 3 и 4 составляет 0,00, что говорит о том, что модель не предсказала правильно выборки для этих классов.

Recall: для класса 1 составляет 0,33, что означает, что только 33% фактических образцов класса 1 были правильно идентифицированы моделью. Для класса 2 равна 0,00, что указывает на то, что модели не удалось идентифицировать какие-либо выборки класса 2. С другой стороны, для классов 3 и 4 равна 1,00, что предполагает, что модель правильно предсказала все выборки для этих классов.

F1-score: низкие оценки указывают на то, что производительность модели неудовлетворительна для большинства классов.

Accuracy: общая точность модели составляет 0,17, что означает, что только 17% прогнозов были правильными. Такая низкая точность говорит о том, что модель плохо работает на тестовых данных.

RidgeClassifier, обученный на полном наборе данных, похоже, плохо обобщает тестовые данные на основе низкой точности, отзыва и F1-показателей. Стоит изучить данные и рассмотреть альтернативные модели или представления признаков, чтобы повысить эффективность классификации.


Для данных, не использующих информацию о постах:

In [84]:
model_ridge_no_posts = linear_model.RidgeClassifier()
model_ridge_no_posts.fit(train_input_no_posts, train_output)

predicted_test_no_posts = model_ridge_no_posts.predict(test_input_no_posts)
print(metrics.classification_report(predicted_test_no_posts, test_output, zero_division=1))

              precision    recall  f1-score   support

           1       0.75      0.60      0.67         5
           2       0.75      0.60      0.67         5
           3       0.33      1.00      0.50         2
           4       0.50      0.25      0.33         4

    accuracy                           0.56        16
   macro avg       0.58      0.61      0.54        16
weighted avg       0.64      0.56      0.56        16



Таким образом, RidgeClassifier, обученный на данных без информации о постах, демонстрирует ограниченную производительность. Модель хорошо работает для класса 3, достигая идеальной точности, отзыва и оценки F1. Однако он не может правильно предсказать какие-либо выборки для класса 1 и класса 4 и полностью пропускает класс 2. Общая точность предполагает, что производительность модели скромная. Для улучшения результатов классификации может потребоваться дальнейший анализ и возможные корректировки модели или представления данных.

Для данных, использующих только текстовую информацию:

In [85]:
model_ridge_only_texts = linear_model.RidgeClassifier()
model_ridge_only_texts.fit(train_input_only_texts, train_output)

predicted_test_only_texts = model_ridge_only_texts.predict(test_input_only_texts)
print(metrics.classification_report(predicted_test_only_texts, test_output, zero_division=1))

              precision    recall  f1-score   support

           1       1.00      1.00      1.00         4
           2       0.75      0.75      0.75         4
           3       0.67      0.80      0.73         5
           4       0.50      0.33      0.40         3

    accuracy                           0.75        16
   macro avg       0.73      0.72      0.72        16
weighted avg       0.74      0.75      0.74        16




Таким образом, RidgeClassifier, обученный на данных только с текстовой информацией, демонстрирует ограниченную производительность. Модель хорошо работает в прогнозировании класса 4, достигая идеального отзыва и разумной точности и оценки F1. Однако он не может правильно предсказать ни одну выборку для класса 1 и класса 2, а его производительность для класса 3 является умеренной.

Обучим модели многослойного перцептрона на наших данных, чтобы сравнить результат ее работы с RidgeClassifier:

In [86]:
np_train_input_full = np.array(train_input_full)
np_test_input_full = np.array(test_input_full)

train_output_onehot = keras.utils.to_categorical(np.array(train_output))

model_seq_full = keras.Sequential([
    keras.layers.Dense(np_train_input_full.shape[1], activation='elu'),
    keras.layers.Dense(100, activation='elu'),
    keras.layers.Dense(60, activation='elu'),
    keras.layers.Dense(train_output_onehot.shape[1], activation='softmax')
])

model_seq_full.compile(optimizer='adam',
                      loss='categorical_crossentropy',
                      metrics=['accuracy', keras.metrics.Precision(), keras.metrics.Recall()])

history_seq_full = model_seq_full.fit(np_train_input_full, train_output_onehot, epochs=100, verbose=0)

predicted_seq_test_full = model_seq_full.predict(np_test_input_full)
predicted_res_test_full = []
for elem in predicted_seq_test_full:
    max_index = 0
    for i in range(5):
        if elem[i] > elem[max_index]:
            max_index = i
    predicted_res_test_full.append(max_index)

print(metrics.classification_report(predicted_res_test_full, test_output, zero_division=1))

              precision    recall  f1-score   support

           1       1.00      0.33      0.50        12
           2       0.00      1.00      0.00         0
           3       0.17      0.50      0.25         2
           4       0.00      0.00      0.00         2

    accuracy                           0.31        16
   macro avg       0.29      0.46      0.19        16
weighted avg       0.77      0.31      0.41        16



In [87]:
np_train_input_no_posts = np.array(train_input_no_posts)
np_test_input_no_posts = np.array(test_input_no_posts)

model_seq_no_posts = keras.Sequential([
    keras.layers.Dense(np_train_input_no_posts.shape[1], activation='elu'),
    keras.layers.Dense(100, activation='elu'),
    keras.layers.Dense(60, activation='elu'),
    keras.layers.Dense(train_output_onehot.shape[1], activation='softmax')
])

model_seq_no_posts.compile(optimizer='adam',
                          loss='categorical_crossentropy',
                          metrics=['accuracy', keras.metrics.Precision(), keras.metrics.Recall()])

history_seq_no_posts = model_seq_no_posts.fit(np_train_input_no_posts, train_output_onehot, epochs=100, verbose=0)

predicted_seq_test_no_posts = model_seq_no_posts.predict(np_test_input_no_posts)
predicted_res_test_no_posts = []
for elem in predicted_seq_test_no_posts:
    max_index = 0
    for i in range(5):
        if elem[i] > elem[max_index]:
            max_index = i
    predicted_res_test_no_posts.append(max_index)

print(metrics.classification_report(predicted_res_test_no_posts, test_output, zero_division=1))


              precision    recall  f1-score   support

           1       1.00      0.67      0.80         6
           2       0.00      1.00      0.00         0
           3       0.83      0.50      0.62        10
           4       0.00      1.00      0.00         0

    accuracy                           0.56        16
   macro avg       0.46      0.79      0.36        16
weighted avg       0.90      0.56      0.69        16



In [88]:
@tf.function
def get_max_index(elem):
    max_index = 0
    for i in range(5):
        if elem[i] > elem[max_index]:
            max_index = i
    return max_index

np_train_input_only_texts = np.array(train_input_only_texts)
np_test_input_only_texts = np.array(test_input_only_texts)

model_seq_only_texts = keras.Sequential([
    keras.layers.Dense(np_train_input_only_texts.shape[1], activation='elu'),
    keras.layers.Dense(100, activation='elu'),
    keras.layers.Dense(60, activation='elu'),
    keras.layers.Dense(train_output_onehot.shape[1], activation='softmax')
])

model_seq_only_texts.compile(optimizer='adam',
                             loss='categorical_crossentropy',
                             metrics=['accuracy', keras.metrics.Precision(), keras.metrics.Recall()])

history_seq_only_texts = model_seq_only_texts.fit(np_train_input_only_texts, train_output_onehot, epochs=100, verbose=0)

predicted_seq_test_only_texts = model_seq_only_texts.predict(np_test_input_only_texts)
predicted_res_test_only_texts = []

for elem in predicted_seq_test_only_texts:
    predicted_res_test_only_texts.append(get_max_index(elem))

print(metrics.classification_report(predicted_res_test_only_texts, test_output, zero_division=1))


              precision    recall  f1-score   support

           1       1.00      1.00      1.00         4
           2       0.75      0.75      0.75         4
           3       0.67      0.80      0.73         5
           4       0.50      0.33      0.40         3

    accuracy                           0.75        16
   macro avg       0.73      0.72      0.72        16
weighted avg       0.74      0.75      0.74        16



Сохраним обученные модели для дальнейшего использования:

In [89]:
w2v_model.save("models/word2vec.model")
joblib.dump(model_ridge_full, 'models/model_ridge_full.pkl')
joblib.dump(model_ridge_no_posts, 'models/model_ridge_no_posts.pkl')
joblib.dump(model_ridge_only_texts, 'models/model_ridge_only_texts.pkl')
model_seq_full.save('models/model_seq_full.h5')
model_seq_no_posts.save('models/model_seq_no_posts.h5')
model_seq_only_texts.save('models/model_seq_only_texts.h5')