In [None]:
# BERT-модель для анализа тональности на датасете IMDB
# Вариант с использованием HuggingFace `datasets` и `transformers` + Keras (TFBertForSequenceClassification)

# Если нужны зависимости, раскомментируй строку ниже и запусти один раз
# !pip install -U datasets transformers

import tensorflow as tf
from transformers import BertTokenizer, TFBertForSequenceClassification
from datasets import load_dataset
import numpy as np
import matplotlib.pyplot as plt

print(tf.__version__)


In [None]:
# 1. Загрузка текстового датасета IMDB

# Загружаем стандартный текстовый IMDB из HuggingFace
# train: 25 000 отзывов, test: 25 000 отзывов
raw_datasets = load_dataset("imdb")

train_ds = raw_datasets["train"]
test_ds = raw_datasets["test"]

print(train_ds)
print(test_ds)

# Выделим валидационную выборку из train (например, 20%)
train_valid = train_ds.train_test_split(test_size=0.2, seed=42)
train_ds = train_valid["train"]
val_ds = train_valid["test"]

print("\nSizes:")
print("Train:", len(train_ds))
print("Val:", len(val_ds))
print("Test:", len(test_ds))


In [None]:
# 2. Инициализация токенизатора BERT и настройка параметров

model_name = "bert-base-uncased"  # можно заменить на bert-tiny/bert-small для ускорения
max_length = 256                   # максимальная длина последовательности для BERT

# Загружаем токенизатор
tokenizer = BertTokenizer.from_pretrained(model_name)

print("Пример токенизации:")
example_text = train_ds[0]["text"][:200]
print(example_text)
print(tokenizer(example_text))


In [None]:
# 3. Токенизация датасета для BERT

# Функция для токенизации батчей из HuggingFace Datasets
def tokenize_batch(batch):
    return tokenizer(
        batch["text"],
        padding="max_length",
        truncation=True,
        max_length=max_length,
    )

# Применяем токенизацию к train/val/test
tokenized_train = train_ds.map(tokenize_batch, batched=True)
tokenized_val = val_ds.map(tokenize_batch, batched=True)
tokenized_test = test_ds.map(tokenize_batch, batched=True)

# Оставляем только нужные поля
tokenized_train = tokenized_train.remove_columns([col for col in tokenized_train.column_names if col not in ["input_ids", "attention_mask", "label"]])
tokenized_val = tokenized_val.remove_columns([col for col in tokenized_val.column_names if col not in ["input_ids", "attention_mask", "label"]])
tokenized_test = tokenized_test.remove_columns([col for col in tokenized_test.column_names if col not in ["input_ids", "attention_mask", "label"]])

print(tokenized_train[0])


In [None]:
# 4. Преобразование в tf.data.Dataset для обучения в Keras

# Настройки батча
batch_size = 16

# Переводим HuggingFace Datasets в tf.data.Dataset
def hf_to_tf_dataset(tokenized_ds):
    tokenized_ds.set_format(type="tensorflow")
    features = {
        "input_ids": tokenized_ds["input_ids"],
        "attention_mask": tokenized_ds["attention_mask"],
    }
    labels = tokenized_ds["label"]
    tf_ds = tf.data.Dataset.from_tensor_slices((features, labels))
    return tf_ds

train_tf = hf_to_tf_dataset(tokenized_train).shuffle(10000).batch(batch_size).prefetch(tf.data.AUTOTUNE)
val_tf = hf_to_tf_dataset(tokenized_val).batch(batch_size).prefetch(tf.data.AUTOTUNE)
test_tf = hf_to_tf_dataset(tokenized_test).batch(batch_size).prefetch(tf.data.AUTOTUNE)

for batch in train_tf.take(1):
    x_batch, y_batch = batch
    print(x_batch["input_ids"].shape, x_batch["attention_mask"].shape, y_batch.shape)


In [None]:
# 5. Создание и компиляция BERT-модели в Keras

# Загружаем предобученный BERT как Keras-модель (TFBertForSequenceClassification)
model = TFBertForSequenceClassification.from_pretrained(
    model_name,
    num_labels=2
)

# Оптимизатор и функция потерь для задачи бинарной классификации
optimizer = tf.keras.optimizers.Adam(learning_rate=2e-5)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metrics = ["accuracy"]

model.compile(optimizer=optimizer, loss=loss, metrics=metrics)
model.summary()


In [None]:
# 6. Обучение модели BERT на IMDB

# Callback'и: ранняя остановка и сохранение лучшей модели
checkpoint_path = "bert_imdb_best"

callbacks = [
    tf.keras.callbacks.EarlyStopping(
        monitor="val_accuracy",
        patience=2,
        restore_best_weights=True,
        verbose=1,
    ),
]

epochs = 3

history = model.fit(
    train_tf,
    validation_data=val_tf,
    epochs=epochs,
    callbacks=callbacks,
)

print("Лучшая точность на валидации:", max(history.history["val_accuracy"]))


In [None]:
# 7. Графики обучения (loss и accuracy)

import matplotlib.pyplot as plt

epochs_range = range(1, len(history.history["loss"]) + 1)

plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.plot(epochs_range, history.history["loss"], "bo-", label="Train loss")
plt.plot(epochs_range, history.history["val_loss"], "ro-", label="Val loss")
plt.title("Training and validation loss")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(epochs_range, history.history["accuracy"], "bo-", label="Train acc")
plt.plot(epochs_range, history.history["val_accuracy"], "ro-", label="Val acc")
plt.title("Training and validation accuracy")
plt.xlabel("Epoch")
plt.ylabel("Accuracy")
plt.legend()

plt.tight_layout()
plt.show()


In [None]:
# 8. Оценка модели на валидации и тесте

print("\nОценка на валидационной выборке:")
val_loss, val_acc = model.evaluate(val_tf)
print(f"Val accuracy: {val_acc:.4f} ({val_acc*100:.2f}%)")

print("\nОценка на тестовой выборке:")
test_loss, test_acc = model.evaluate(test_tf)
print(f"Test accuracy: {test_acc:.4f} ({test_acc*100:.2f}%)")

print("\nИтог:")
print(f"Валидация: {val_acc*100:.2f}%")
print(f"Тест: {test_acc*100:.2f}%")
