# Представление текста в цифровом виде для нейросети

Для того, чтобы использовать нейросеть для анализа текстов, необходимо представить текст в цифровом виде. Существует несколько подходов к представлению текста в цифровом виде, вот некоторые из них:

1. Мешок слов (Bag of Words):

* Создается словарь всех уникальных слов в корпусе текстов.
* Каждому слову присваивается уникальный индекс в словаре.
* Каждый текст представляется в виде вектора, где каждый элемент соответствует количеству вхождений соответствующего слова в тексте.
* Этот подход учитывает только количество вхождений слов в текст, но не учитывает порядок слов.

2. TF-IDF (Term Frequency - Inverse Document Frequency):

* Создается словарь всех уникальных слов в корпусе текстов.
* Каждому слову присваивается уникальный индекс в словаре.
* Каждый текст представляется в виде вектора, где каждый элемент соответствует значению TF-IDF для соответствующего слова в тексте.
* Значение TF-IDF для каждого слова вычисляется как произведение частоты вхождения слова в текст (Term Frequency) и обратной частоты вхождения слова в корпус текстов (Inverse Document Frequency).
* Этот подход учитывает не только количество вхождений слов в текст, но и их важность для всего корпуса текстов.

3. Word Embeddings:

* Создается модель нейросети, которая обучается на задаче предсказания следующего слова в тексте.
* В результате обучения модели каждому слову присваивается вектор фиксированной длины.
* Этот подход учитывает не только количество вхождений слов в текст и их важность для всего корпуса текстов, но и семантический контекст, в котором используется каждое слово.
* В зависимости от задачи и доступных ресурсов выбирается подход к представлению текста в цифровом виде.

Приведем конкретные примеры


1. Мешок слов (Bag of Words):

* Исходный текст: "Коты любят есть рыбу, а собаки - мясо."
* Словарь: {"коты": 0, "любят": 1, "есть": 2, "рыбу": 3, "а": 4, "собаки": 5, "мясо": 6}
* Представление текста: [1, 1, 1, 1, 1, 0, 0]

2. TF-IDF (Term Frequency - Inverse Document Frequency):

* Исходный текст: "Коты любят есть рыбу, а собаки - мясо."
* Словарь: {"коты": 0, "любят": 1, "есть": 2, "рыбу": 3, "а": 4, "собаки": 5, "мясо": 6}
* Представление текста: [0.4, 0.4, 0.4, 0.4, 0.4, 0, 0]

3. Word Embeddings:

* Исходный текст: "Коты любят есть рыбу, а собаки - мясо."
* Представление текста: Вектор размерности, например, 100, содержащий числа, которые представляют семантический контекст каждого слова в тексте. Например, [0.2, 0.3, -0.1, ...] для слова "коты".

ПРиведем примеры того, как можно реализовать представления текста в цифровом виде для каждого из методов на Python в среде Colab:

1. Мешок слов (Bag of Words):

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Создаем список текстов
texts = ["Коты любят есть рыбу, а собаки - мясо.", "Рыба - это любимая еда котов."]

# Создаем объект CountVectorizer
vectorizer = CountVectorizer()

# Преобразуем тексты в матрицу с помощью метода fit_transform
X = vectorizer.fit_transform(texts)

# Выводим словарь всех уникальных слов
print(vectorizer.get_feature_names())

# Выводим представление текстов в виде векторов
print(X.toarray())


2. TF-IDF (Term Frequency - Inverse Document Frequency):

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Создаем список текстов
texts = ["Коты любят есть рыбу, а собаки - мясо.", "Рыба - это любимая еда котов."]

# Создаем объект TfidfVectorizer
vectorizer = TfidfVectorizer()

# Преобразуем тексты в матрицу с помощью метода fit_transform
X = vectorizer.fit_transform(texts)

# Выводим словарь всех уникальных слов
print(vectorizer.get_feature_names())

# Выводим представление текстов в виде векторов
print(X.toarray())


3. Word Embeddings:

In [None]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Создаем список текстов
texts = ["Коты любят есть рыбу, а собаки - мясо.", "Рыба - это любимая еда котов."]

# Создаем объект Tokenizer и обучаем его на текстах
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

# Преобразуем тексты в последовательности индексов слов
sequences = tokenizer.texts_to_sequences(texts)

# Добавляем заполнение до фиксированной длины последовательностей
padded_sequences = pad_sequences(sequences, maxlen=10, padding="post")

In [None]:
# Создаем модель нейросети и обучаем ее на последовательностях
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=len(tokenizer.word_index) + 1, output_dim=100),
    tf.keras.layers.GlobalAveragePooling1D(),
    tf.keras.layers.Dense(units=1, activation="sigmoid")
])

> Этот код на языке Python создает модель нейронной сети, используя Keras API из библиотеки TensorFlow. Модель состоит из трех последовательно связанных слоев:

* Слой Embedding, который преобразует входные данные в векторы фиксированной длины. В данном случае, используется размерность векторов равная 100.
* Слой GlobalAveragePooling1D, который усредняет значения признаков по всей длине входных данных и сжимает их до одного значения.
* Полносвязный слой Dense с одним выходным нейроном и функцией активации sigmoid, который выполняет бинарную классификацию.

Кроме того, в первом слое Embedding используется параметр input_dim, который равен длине словаря (tokenizer.word_index) плюс один, так как словарь начинается с индекса 1, а не 0. Это позволяет создать векторы для всех слов в словаре, включая неизвестные слова.

In [None]:
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
model.fit(padded_sequences, [0, 1], epochs=10)

# Получаем векторное представление слов
word_embeddings = model.layers[0].get_weights()[0]
print(word_embeddings)

# 2. Анализ тональности отзывов на фильмы IMDB | Нейросети для анализа текстов

Для анализа тональности отзывов на фильмы IMDB можно использовать нейросети. Один из подходов - использование рекуррентных нейронных сетей (RNN) для анализа текстов. Вот пример кода на Python, который использует библиотеку Keras для создания и обучения RNN для анализа тональности отзывов на фильмы IMDB:

In [7]:
# Импортируем необходимые библиотеки
from keras.datasets import imdb
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM
import tensorflow as tf

# Загружаем набор данных IMDB
max_features = 20000
maxlen = 80
batch_size = 32

print('Loading data...')
(input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features)


Loading data...


In [10]:
# Ограничиваем длину отзывов до maxlen слов
print('Pad sequences (samples x time)')

input_train=tf.keras.preprocessing.sequence.pad_sequences(input_train, maxlen=maxlen)

input_test=tf.keras.preprocessing.sequence.pad_sequences(input_test, maxlen=maxlen)

#input_train = sequence.pad_sequences(input_train, maxlen=maxlen)
#input_test = sequence.pad_sequences(input_test, maxlen=maxlen)


Pad sequences (samples x time)


In [11]:
# Создаем модель RNN
model = Sequential()
model.add(Embedding(max_features, 128))
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

Эта нейронная сеть содержит слои Embedding, LSTM и Dense. 

* Embedding-слой используется для преобразования входных данных в векторы фиксированной длины, 

* LSTM-слой используется для обработки последовательных данных, 

* Dense-слой используется для выхода одного значения с функцией активации sigmoid.

In [None]:
# Компилируем модель
model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [None]:
# Обучаем модель на тренировочных данных
print('Training...')
model.fit(input_train, y_train,
          batch_size=batch_size,
          epochs=15,
          validation_data=(input_test, y_test))


Training...
Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15

> Этот код  использует метод fit() для обучения нейронной сети. Метод fit() принимает на вход обучающие данные (input_train) и соответствующие им метки (y_train), а также параметры обучения, такие как размер пакета (batch_size) и количество эпох (epochs). Также, в данном случае, используется валидационный набор данных, который передается в параметре validation_data. Метод fit() обучает модель на обучающих данных и вычисляет значение функции потерь на каждой эпохе, а также метрики качества модели. В конце обучения, метод fit() возвращает историю обучения, которая содержит значения функции потерь и метрик на каждой эпохе.

In [None]:
# Оцениваем точность модели на тестовых данных
print('Testing...')
score, acc = model.evaluate(input_test, y_test,
                            batch_size=batch_size)
print('Test score:', score)
print('Test accuracy:', acc)

Этот код загружает набор данных IMDB, ограничивает длину отзывов до maxlen слов, создает RNN модель с использованием слоев Embedding и LSTM, компилирует модель и обучает ее на тренировочных данных. Затем модель оценивается на тестовых данных, и выводится точность модели на тестовых данных.

# Представление текста вектором One Hot Encoding | Нейросети для анализа текстов

One Hot Encoding - это метод представления категориальных данных в виде векторов, в котором каждый элемент вектора соответствует одному из возможных значений категории. В текстовом контексте, каждый элемент может соответствовать отдельному слову в словаре. Таким образом, каждый документ представляется в виде вектора, где каждый элемент соответствует наличию или отсутствию соответствующего слова в тексте.

Нейросети для анализа текстов используются для автоматической обработки и классификации текстовых данных. Они могут быть использованы для анализа тональности отзывов, определения тематики статей и многого другого.

Конкретный пример One Hot Encoding для текста может выглядеть следующим образом:

Предположим, у нас есть словарь из 5 слов: "яблоко", "банан", "апельсин", "груша" и "ананас". Текст "Я люблю есть яблоки и бананы" можно представить в виде вектора One Hot Encoding следующим образом: [1, 1, 0, 0, 0], где первый элемент соответствует слову "яблоко", второй элемент - слову "банан", а оставшиеся элементы - другим словам из словаря.

Примеры использования нейросетей для анализа текстов:

* Классификация текстов на позитивные и негативные отзывы о продукте или услуге
* Определение тематики статьи или сообщения в социальных сетях
* Автоматический перевод текста на другой язык
* Генерация текста на основе заданных параметров

Конкретный пример One Hot Encoding для текста на языке Python (в Google Colab) может выглядеть следующим образом:

In [None]:
from sklearn.preprocessing import OneHotEncoder

# Создаем пример текста
text = ["Я люблю есть яблоки и бананы"]

# Создаем экземпляр OneHotEncoder и обучаем его на тексте
encoder = OneHotEncoder()
encoder.fit(text)

# Преобразуем текст в вектор One Hot Encoding
vector = encoder.transform(text).toarray()

print(vector)


Результатом будет вектор One Hot Encoding, соответствующий тексту "Я люблю есть яблоки и бананы".

Пример использования нейросетей для анализа текстов на языке Python (в Google Colab) может выглядеть следующим образом:

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import Adam
from keras.preprocessing.text import Tokenizer

# Создаем пример текста и меток классов
texts = ["Это очень хороший продукт", "Этот продукт ужасен"]
labels = [1, 0]

# Создаем экземпляр Tokenizer и обучаем его на тексте
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

# Преобразуем текст в числовые последовательности
sequences = tokenizer.texts_to_sequences(texts)

# Создаем модель нейросети
model = Sequential()
model.add(Dense(64, input_dim=len(tokenizer.word_index), activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

# Компилируем модель
model.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.001), metrics=['accuracy'])

# Обучаем модель на данных
model.fit(sequences, labels, epochs=10, batch_size=1)

# Прогнозируем метки классов для новых текстов
new_texts = ["Я люблю этот продукт", "Этот продукт не очень хорош"]
new_sequences = tokenizer.texts_to_sequences(new_texts)
predictions = model.predict_classes(new_sequences)

print(predictions)


Результатом будет прогноз меток классов для новых текстов. В данном случае, нейросеть будет классифицировать тексты на позитивные и негативные.

# Представление текста плотным вектором

Представление текста плотным вектором (Dense Vector Representation) - это метод представления текстовой информации в виде вектора чисел фиксированной длины. В отличие от метода One Hot Encoding, где каждое слово представляется отдельным бинарным признаком, при представлении текста плотным вектором каждое слово представляется в виде вектора небольшой размерности, обычно от 50 до 300.

Для получения плотного векторного представления текста используются различные алгоритмы, такие как Word2Vec, GloVe и FastText. Эти алгоритмы обучаются на больших корпусах текстов и позволяют получить векторные представления слов, которые учитывают контекст, в котором слово употребляется.

Пример использования нейросетей для анализа текстов с использованием плотных векторных представлений может выглядеть следующим образом:

In [None]:
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import Adam
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.layers import Embedding, Flatten

# Создаем пример текста и меток классов
texts = ["Это очень хороший продукт", "Этот продукт ужасен"]
labels = [1, 0]

# Создаем экземпляр Tokenizer и обучаем его на тексте
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

# Преобразуем текст в числовые последовательности
sequences = tokenizer.texts_to_sequences(texts)

# Добавляем паддинг до максимальной длины последовательности
maxlen = max([len(seq) for seq in sequences])
padded_sequences = pad_sequences(sequences, maxlen=maxlen, padding='post')

# Загружаем предобученные векторные представления слов
embeddings_index = {}
with open('path/to/embeddings_file.txt') as f:
    for line in f:
        values = line.split()
        word = values[0]
        coefs = np.asarray(values[1:], dtype='float32')
        embeddings_index[word] = coefs

# Создаем матрицу весов для слоя Embedding
embedding_matrix = np.zeros((len(tokenizer.word_index) + 1, embedding_dim))
for word, i in tokenizer.word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        embedding_matrix[i] = embedding_vector

# Создаем модель нейросети
model = Sequential()
model.add(Embedding(len(tokenizer.word_index) + 1,
                    embedding_dim,
                    weights=[embedding_matrix],
                    input_length=maxlen,
                    trainable=False))
model.add(Flatten())
model.add(Dense(64, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

# Компилируем модель
model.compile(loss='binary_crossentropy', optimizer=Adam(lr=0.001), metrics=['accuracy'])

# Обучаем модель на данных
model.fit(padded_sequences, labels, epochs=10, batch_size=1)

# Прогнозируем метки классов для новых текстов
new_texts = ["Я люблю этот продукт", "Этот продукт не очень хорош"]
new_sequences = tokenizer.texts_to_sequences(new_texts)
new_padded_sequences = pad_sequences(new_sequences, maxlen=maxlen, padding='post')
predictions = model.predict_classes(new_padded_sequences)

print(predictions)

В данном примере мы использовали предобученные векторные представления слов для создания матрицы весов слоя Embedding. Затем мы создали модель нейросети, которая состоит из слоя Embedding, слоя Flatten, двух полносвязных слоев и слоя активации sigmoid. Обучили модель на данных и прогнозировали метки классов для новых

# Плотное векторное представление слов для определения тональности текста отзывов на фильмы из IMDb (Internet Movie Database) 


Чтобы запускать и редактировать код, сохраните копию этого ноутбука себе (File->Save a copy in Drive...). Свою копию вы сможете изменять и запускать.

Не забудьте подключить GPU, чтобы сеть обучалась быстрее (Runtime -> Change Runtime Type -> Hardware Accelerator -> GPU).

## Набор данных IMDb movie review

[Набор данных IMDb movie review](https://ai.stanford.edu/~amaas/data/sentiment/) создан для задач определения тональности текста. Набор включает отзывы на фильмы с сайта [IMDb](https://www.imdb.com). Отзывы только явно положительные (оценка >= 7) или отрицательные (оценка <= 4), нейтральные отзывы в набор данных не включались.

Размер набора данных 50 тыс. отзывов:
- Набор данных для обучения - 25 тыс. отзывов
- Набор данных для тестирования - 25 тыс. отзывов

Количество положительных и отрицательных отзывов одинаковое.

Разметка набора данных:
- 0 - отзыв отрицательный
- 1 - отзыв положительный

С точки зрения машинного обучения это задача бинарной классификации.

Набор данных описан в статье: [Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. (2011). Learning Word Vectors for Sentiment Analysis. The 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011)](https://ai.stanford.edu/~amaas/papers/wvSent_acl2011.pdf).

<img src="https://www.dropbox.com/s/grd17bkapocb92o/imdb_movie_reviews.png?dl=1" width="600">


In [None]:
from tensorflow.keras.datasets import imdb
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding, Flatten, Dropout
from tensorflow.keras import utils
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
import matplotlib.pyplot as plt
from google.colab import files
%matplotlib inline 

In [None]:
## Загружаем данные

In [None]:
max_words=10000

In [None]:
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_words)

## Просмотр данных
**Рецензия**

In [None]:
x_train[3]

In [None]:
#Правильный ответ

In [None]:
y_train[3]

## Подготовка данных для обучения

In [None]:
maxlen = 200

In [None]:
x_train = pad_sequences(x_train, maxlen=maxlen, padding='post')
x_test = pad_sequences(x_test, maxlen=maxlen, padding='post')

In [None]:
x_train[1]

In [None]:
y_train[1]

## Создание нейронной сети

In [None]:
model = Sequential()
model.add(Embedding(max_words, 2, input_length=maxlen))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

In [None]:
model.compile(optimizer='adam', 
              loss='binary_crossentropy', 
              metrics=['accuracy'])

In [None]:
## Обучаем нейронную сеть

In [None]:
history = model.fit(x_train, 
                    y_train, 
                    epochs=15,
                    batch_size=128,
                    validation_split=0.1)

In [None]:
plt.plot(history.history['acc'], 
         label='Доля верных ответов на обучающем наборе')
plt.plot(history.history['val_acc'], 
         label='Доля верных ответов на проверочном наборе')
plt.xlabel('Эпоха обучения')
plt.ylabel('Доля верных ответов')
plt.legend()
plt.show()

## Проверяем работу сети на тестовом наборе данных

In [None]:
scores = model.evaluate(x_test, y_test, verbose=1)

## Исследуем обученное плотное векторное представление слов

**Получаем матрицу плотных векторных представлений слов**

In [None]:
embedding_matrix = model.layers[0].get_weights()[0]

In [None]:
embedding_matrix[:5]

**Загружаем словарь с номерами слов**

In [None]:
word_index_org = imdb.get_word_index()

In [None]:
#Дополняем словарь служебными символами
word_index = dict()
for word,number in word_index_org.items():
    word_index[word] = number + 3
word_index["<Заполнитель>"] = 0
word_index["<Начало последовательности>"] = 1
word_index["<Неизвестное слово>"] = 2  
word_index["<Не используется>"] = 3

**Ищем векторы для слов**

In [None]:
word = 'good'
word_number = word_index[word]
print('Номер слова', word_number)
print('Вектор для слова', embedding_matrix[word_number])

## Сохраняем обученные плотные векторные представления в файл

**Составляем реверсивный словарь токенов (слов)**

In [None]:
reverse_word_index = dict()
for key, value in word_index.items():
    reverse_word_index[value] = key

**Записываем плотные векторные представления в файл**

In [None]:
filename = 'imdb_embeddings.csv'

with open(filename, 'w') as f:
    for word_num in range(max_words):
      word = reverse_word_index[word_num]
      vec = embedding_matrix[word_num]
      f.write(word + ",")
      f.write(','.join([str(x) for x in vec]) + "\n")

In [None]:
!head -n 20 $filename

**Сохраняем файл на локальный компьютер**

In [None]:
files.download('imdb_embeddings.csv')

## Визуализация плотных векторных представлений слов

In [None]:
plt.scatter(embedding_matrix[:,0], embedding_matrix[:,1])

Выбираем коды слов, по которым можно определить тональность отзыва

In [None]:
review = ['brilliant', 'fantastic', 'amazing', 'good',
          'bad', 'awful','crap', 'terrible', 'trash']
enc_review = []
for word in review:
    enc_review.append(word_index[word])
enc_review

Получаем векторное представление интересующих нас слов

In [None]:
review_vectors = embedding_matrix[enc_review]
review_vectors

Визуализация обученного плотного векторного представления слов, по которым можно определить эмоциональную окраску текста

In [None]:
plt.scatter(review_vectors[:,0], review_vectors[:,1])
for i, txt in enumerate(review):
    plt.annotate(txt, (review_vectors[i,0], review_vectors[i,1]))

# Рекуррентные нейросети

# Литуратура

https://github.com/fchollet/deep-learning-with-python-notebooks/tree/master