In [None]:
# BERT-модель для анализа тональности IMDB на Keras с использованием keras-nlp

# Если нет keras-nlp и datasets, раскомментируй и запусти строку ниже ОДИН раз:
# !pip install -U keras-nlp datasets

import tensorflow as tf
import keras
import keras_nlp
from datasets import load_dataset

print("TensorFlow:", tf.__version__)
print("Keras:", keras.__version__)
print("keras-nlp:", keras_nlp.__version__)


In [None]:
# 1. Загрузка текстового IMDB через HuggingFace datasets

raw_datasets = load_dataset("imdb")

train_ds = raw_datasets["train"]
test_ds = raw_datasets["test"]

# Выделяем валидацию из train (20%)
train_valid = train_ds.train_test_split(test_size=0.2, seed=42)
train_ds = train_valid["train"]
val_ds = train_valid["test"]

print("Train:", len(train_ds))
print("Val:", len(val_ds))
print("Test:", len(test_ds))
print("Пример текста:\n", train_ds[0]["text"][:300])


In [None]:
# 2. Инициализация готового BERT-классификатора из keras-nlp

# Используем маленький пресет, чтобы обучение в ноутбуке было посильным.
# Можно заменить на "bert_base_en_uncased" если есть GPU и терпение.

preset = "bert_tiny_en_uncased"

classifier = keras_nlp.models.BertClassifier.from_preset(
    preset,
    num_classes=2,   # позитив/негатив
)

# Замораживаем часть слоёв (по желанию) для более стабильного обучения
for layer in classifier.backbone.layers[:-2]:  # оставим несколько верхних обучаемыми
    layer.trainable = False

classifier.compile(
    optimizer=keras.optimizers.Adam(learning_rate=3e-5),
    loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=["accuracy"],
)

classifier.summary()


In [None]:
# 3. Превращение HuggingFace datasets в tf.data.Dataset для Keras

batch_size = 32

# keras-nlp BERT-классификатор умеет сам токенизировать строки,
# поэтому в tf.data мы передаём просто поле "text".

train_tf = train_ds.to_tf_dataset(
    columns="text",          # вход: строка с текстом
    label_cols="label",      # метка 0/1
    shuffle=True,
    batch_size=batch_size,
)

val_tf = val_ds.to_tf_dataset(
    columns="text",
    label_cols="label",
    shuffle=False,
    batch_size=batch_size,
)

test_tf = test_ds.to_tf_dataset(
    columns="text",
    label_cols="label",
    shuffle=False,
    batch_size=batch_size,
)

for batch in train_tf.take(1):
    x_batch, y_batch = batch
    print(type(x_batch), x_batch.shape, y_batch.shape)


In [None]:
# 4. Обучение BERT-классификатора

callbacks = [
    keras.callbacks.EarlyStopping(
        monitor="val_accuracy",
        patience=2,
        restore_best_weights=True,
        verbose=1,
    )
]

epochs = 3  # можно увеличить до 4–5 при наличии времени/ресурсов

history = classifier.fit(
    train_tf,
    validation_data=val_tf,
    epochs=epochs,
    callbacks=callbacks,
)

print("Лучшая точность на валидации:", max(history.history["val_accuracy"]))


In [None]:
# 5. Оценка на валидации и тесте

print("\nОценка на валидационной выборке:")
val_loss, val_acc = classifier.evaluate(val_tf)
print(f"Val accuracy: {val_acc:.4f} ({val_acc*100:.2f}%)")

print("\nОценка на тестовой выборке:")
test_loss, test_acc = classifier.evaluate(test_tf)
print(f"Test accuracy: {test_acc:.4f} ({test_acc*100:.2f}%)")

print("\nИтог:")
print(f"Валидация: {val_acc*100:.2f}%")
print(f"Тест: {test_acc*100:.2f}%")
