In [None]:
# Завантаження необхідних бібліотек
import tensorflow as tf
from tensorflow.keras import layers, models
import tensorflow_datasets as tfds

# Завантаження датасету IMDb
# Це набір даних з рецензіями на фільми, які мають мітки позитивні чи негативні.
dataset, info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)

# Розподіл на навчальну та тестову вибірки
train_data, test_data = dataset['train'], dataset['test']

# Функція для попередньої обробки тексту (токенізація та паддінг)
def preprocess_data(dataset):
    tokenizer = tf.keras.layers.TextVectorization(max_tokens=10000, output_mode='int', output_sequence_length=200)
    tokenizer.adapt(dataset.map(lambda x, y: x))
    return tokenizer

# Токенізація тексту
tokenizer = preprocess_data(train_data)

# Функція для обробки даних
def format_data(dataset):
    return dataset.map(lambda x, y: (tokenizer(x), y))

# Підготовка даних
train_data = format_data(train_data)
test_data = format_data(test_data)

# Створення моделі LSTM
model = models.Sequential([
    layers.Embedding(input_dim=10000, output_dim=128, input_length=200),
    layers.Bidirectional(layers.LSTM(64)),
    layers.Dense(1, activation='sigmoid')
])

# Компіляція моделі
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Навчання моделі
history = model.fit(train_data.batch(32), epochs=5, validation_data=test_data.batch(32))

# Оцінка моделі на тестових даних
loss, accuracy = model.evaluate(test_data.batch(32))
print(f"Test Accuracy: {accuracy * 100:.2f}%")



Downloading and preparing dataset 80.23 MiB (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0...


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Generating splits...:   0%|          | 0/3 [00:00<?, ? splits/s]

Generating train examples...:   0%|          | 0/25000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.WDB6YF_1.0.0/imdb_reviews-train.tfrecor…

Generating test examples...:   0%|          | 0/25000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.WDB6YF_1.0.0/imdb_reviews-test.tfrecord…

Generating unsupervised examples...:   0%|          | 0/50000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.WDB6YF_1.0.0/imdb_reviews-unsupervised.…

Dataset imdb_reviews downloaded and prepared to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0. Subsequent calls will reuse this data.
Epoch 1/5




[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m29s[0m 34ms/step - accuracy: 0.6690 - loss: 0.5963 - val_accuracy: 0.7139 - val_loss: 0.5420
Epoch 2/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m39s[0m 32ms/step - accuracy: 0.7731 - loss: 0.4942 - val_accuracy: 0.7291 - val_loss: 0.5491
Epoch 3/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m43s[0m 35ms/step - accuracy: 0.7908 - loss: 0.4659 - val_accuracy: 0.8322 - val_loss: 0.3905
Epoch 4/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m39s[0m 32ms/step - accuracy: 0.8796 - loss: 0.3003 - val_accuracy: 0.8468 - val_loss: 0.3650
Epoch 5/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 32ms/step - accuracy: 0.9194 - loss: 0.2131 - val_accuracy: 0.8357 - val_loss: 0.4369
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 12ms/step - accuracy: 0.8371 - loss: 0.4326




Test Accuracy: 83.57%


In [None]:
# Функція для передбачення настрою тексту
def predict_sentiment(text):
    # Токенізація тексту
    tokenized_text = tokenizer(text)

    # Додавання вимірів для входу в модель
    tokenized_text = tf.expand_dims(tokenized_text, axis=0)

    # Передбачення настрою
    prediction = model.predict(tokenized_text)

    # Перетворення передбачення на клас
    sentiment = 'Positive' if prediction >= 0.5 else 'Negative'

    return sentiment

# Тестування моделі на нових текстах
text1 = "I loved this movie! It was fantastic."
text2 = "This movie was awful, I hated it."

print(f"Text 1 Sentiment: {predict_sentiment(text1)}")
print(f"Text 2 Sentiment: {predict_sentiment(text2)}")


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 159ms/step
Text 1 Sentiment: Positive
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step
Text 2 Sentiment: Negative


In [None]:
# Завантаження необхідних бібліотек
import tensorflow as tf
from tensorflow.keras import layers, models
import tensorflow_datasets as tfds

# Завантаження датасету IMDb
# Це набір даних з рецензіями на фільми, які мають мітки позитивні чи негативні.
dataset, info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)

# Розподіл на навчальну та тестову вибірки
train_data, test_data = dataset['train'], dataset['test']

# Функція для попередньої обробки тексту (токенізація та паддінг)
def preprocess_data(dataset):
    tokenizer = tf.keras.layers.TextVectorization(max_tokens=10000, output_mode='int', output_sequence_length=200)
    tokenizer.adapt(dataset.map(lambda x, y: x))
    return tokenizer

# Токенізація тексту
tokenizer = preprocess_data(train_data)

# Функція для обробки даних
def format_data(dataset):
    return dataset.map(lambda x, y: (tokenizer(x), y))

# Підготовка даних
train_data = format_data(train_data)
test_data = format_data(test_data)

# Створення моделі з двома рекурентними шарами (LSTM)
model = models.Sequential([
    layers.Embedding(input_dim=10000, output_dim=128, input_length=200),
    layers.Bidirectional(layers.LSTM(64, return_sequences=True)),  # Перший рекурентний шар
    layers.Bidirectional(layers.LSTM(64)),  # Другий рекурентний шар
    layers.Dense(1, activation='sigmoid')
])

# Компіляція моделі
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Навчання моделі
history = model.fit(train_data.batch(32), epochs=5, validation_data=test_data.batch(32))

# Оцінка моделі на тестових даних
loss, accuracy = model.evaluate(test_data.batch(32))
print(f"Test Accuracy: {accuracy * 100:.2f}%")

# Збереження моделі
model.save("sentiment_model_two_lstm.h5")

# Функція для передбачення настрою тексту
def predict_sentiment(text):
    # Токенізація тексту
    tokenized_text = tokenizer(text)

    # Додавання вимірів для входу в модель
    tokenized_text = tf.expand_dims(tokenized_text, axis=0)

    # Передбачення настрою
    prediction = model.predict(tokenized_text)

    # Перетворення передбачення на клас
    sentiment = 'Positive' if prediction >= 0.5 else 'Negative'

    return sentiment

# Тестування моделі на нових текстах
text1 = "I loved this movie! It was fantastic."
text2 = "This movie was awful, I hated it."

print(f"Text 1 Sentiment: {predict_sentiment(text1)}")
print(f"Text 2 Sentiment: {predict_sentiment(text2)}")


Epoch 1/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m46s[0m 54ms/step - accuracy: 0.7013 - loss: 0.5557 - val_accuracy: 0.7354 - val_loss: 0.5425
Epoch 2/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m40s[0m 51ms/step - accuracy: 0.8404 - loss: 0.3801 - val_accuracy: 0.8421 - val_loss: 0.3597
Epoch 3/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 52ms/step - accuracy: 0.8911 - loss: 0.2684 - val_accuracy: 0.8088 - val_loss: 0.4162
Epoch 4/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m40s[0m 51ms/step - accuracy: 0.9007 - loss: 0.2515 - val_accuracy: 0.8359 - val_loss: 0.4166
Epoch 5/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m41s[0m 51ms/step - accuracy: 0.9235 - loss: 0.2124 - val_accuracy: 0.8066 - val_loss: 0.5470
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 18ms/step - accuracy: 0.8076 - loss: 0.5466




Test Accuracy: 80.66%
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 436ms/step
Text 1 Sentiment: Positive
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 35ms/step
Text 2 Sentiment: Negative


In [3]:
# Завантаження необхідних бібліотек
import tensorflow as tf
from tensorflow.keras import layers, models
import tensorflow_datasets as tfds

# Завантаження датасету IMDb
dataset, info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)

# Розподіл на навчальну та тестову вибірки
train_data, test_data = dataset['train'], dataset['test']

# Функція для попередньої обробки тексту (токенізація та паддінг)
def preprocess_data(dataset, max_tokens=10000):
    """
    Попередня обробка даних: токенізація тексту з обмеженням на довжину словника.
    :param dataset: Набір даних (tf.data.Dataset).
    :param max_tokens: Максимальна кількість слів у словнику.
    :return: TextVectorization шар.
    """
    tokenizer = tf.keras.layers.TextVectorization(max_tokens=max_tokens, output_mode='int', output_sequence_length=200)
    tokenizer.adapt(dataset.map(lambda x, y: x))  # Навчання токенізатора на текстових даних
    return tokenizer

# Функція для обробки даних
def format_data(dataset, tokenizer):
    """
    Форматування даних: застосування токенізатора до тексту.
    :param dataset: Набір даних (tf.data.Dataset).
    :param tokenizer: TextVectorization шар.
    :return: Оброблений набір даних.
    """
    return dataset.map(lambda x, y: (tokenizer(x), y))

# Цикл для експериментів з різними значеннями max_tokens
for max_tokens in [5000, 10000, 15000, 20000]:
    print(f"\nExperiment with max_tokens = {max_tokens}")

    # Токенізація тексту
    tokenizer = preprocess_data(train_data, max_tokens=max_tokens)

    # Обробка навчальних та тестових даних
    train_data_processed = format_data(train_data, tokenizer)
    test_data_processed = format_data(test_data, tokenizer)

    # Створення моделі з двома рекурентними шарами (LSTM)
    model = models.Sequential([
        layers.Embedding(input_dim=max_tokens, output_dim=128, input_length=200),
        layers.Bidirectional(layers.LSTM(64, return_sequences=True)),  # Перший рекурентний шар
        layers.Bidirectional(layers.LSTM(64)),  # Другий рекурентний шар
        layers.Dense(1, activation='sigmoid')  # Вихідний шар для класифікації
    ])

    # Компіляція моделі
    model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

    # Навчання моделі
    history = model.fit(
        train_data_processed.batch(32),
        epochs=5,
        validation_data=test_data_processed.batch(32)
    )

    # Оцінка моделі на тестових даних
    loss, accuracy = model.evaluate(test_data_processed.batch(32))
    print(f"Test Accuracy: {accuracy * 100:.2f}%")
    print("-" * 50)

# Функція для передбачення настрою тексту
def predict_sentiment(text, tokenizer, model):
    """
    Передбачення настрою тексту (позитивний або негативний).
    :param text: Вхідний текст.
    :param tokenizer: TextVectorization шар для токенізації тексту.
    :param model: Навчена модель.
    :return: Результат передбачення (Positive/Negative).
    """
    # Токенізація тексту
    tokenized_text = tokenizer([text])  # Токенізуємо текст

    # Передбачення
    prediction = model.predict(tokenized_text)

    # Інтерпретація результату
    sentiment = 'Positive' if prediction >= 0.5 else 'Negative'
    return sentiment

# Примірне тестування моделі на нових текстах
text1 = "I loved this movie! It was fantastic."
text2 = "This movie was awful, I hated it."

print(f"Text 1 Sentiment: {predict_sentiment(text1, tokenizer, model)}")
print(f"Text 2 Sentiment: {predict_sentiment(text2, tokenizer, model)}")


Downloading and preparing dataset 80.23 MiB (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0...


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Generating splits...:   0%|          | 0/3 [00:00<?, ? splits/s]

Generating train examples...:   0%|          | 0/25000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.GAVUCN_1.0.0/imdb_reviews-train.tfrecor…

Generating test examples...:   0%|          | 0/25000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.GAVUCN_1.0.0/imdb_reviews-test.tfrecord…

Generating unsupervised examples...:   0%|          | 0/50000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.GAVUCN_1.0.0/imdb_reviews-unsupervised.…

Dataset imdb_reviews downloaded and prepared to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0. Subsequent calls will reuse this data.

Experiment with max_tokens = 5000
Epoch 1/5




[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m46s[0m 50ms/step - accuracy: 0.6873 - loss: 0.5627 - val_accuracy: 0.8321 - val_loss: 0.3932
Epoch 2/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m78s[0m 50ms/step - accuracy: 0.8593 - loss: 0.3497 - val_accuracy: 0.8322 - val_loss: 0.3953
Epoch 3/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m41s[0m 50ms/step - accuracy: 0.8858 - loss: 0.2940 - val_accuracy: 0.8391 - val_loss: 0.3841
Epoch 4/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m40s[0m 49ms/step - accuracy: 0.9069 - loss: 0.2410 - val_accuracy: 0.8450 - val_loss: 0.4014
Epoch 5/5
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m42s[0m 50ms/step - accuracy: 0.9179 - loss: 0.2137 - val_accuracy: 0.8428 - val_loss: 0.4560
[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m13s[0m 17ms/step - accuracy: 0.8440 - loss: 0.4601
Test Accuracy: 84.28%
--------------------------------------------------

Experiment