In [1]:
import torch
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score
from torch import nn, optim
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from transformers import BertTokenizerFast
import torch.nn.functional as F
from sklearn.feature_extraction.text import TfidfVectorizer
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from torch.utils.data import DataLoader, Dataset
from tensorflow.keras.utils import to_categorical
from torch.utils.data import DataLoader, TensorDataset
import pandas as pd
from tqdm import tqdm

  from .autonotebook import tqdm as notebook_tqdm





In [2]:
df = pd.read_csv('C:/Users/q/Desktop/jupyter/preprocessed_text_and_tag.csv', sep=';')

In [3]:
df

Unnamed: 0,processed_text,most_popular_tag
0,глава аджария аслан абашидзе принять решение у...,Мир
1,июль российский железный дорога начать продава...,Общество
2,использование биткойнов оплата товар услуга да...,Финансы
3,число официально подтвердить случай заражение ...,Общество
4,президент россия владимир путин телефон обсуди...,Политика
...,...,...
1271186,облачная прояснениями погода ожидаться петербу...,Культура
1271187,медиапросторам разойтись видео задержание нача...,Россия
1271188,польский сторона граница украина застрять выех...,Украина
1271189,президент россия владимир путин следующий неде...,Митинг


In [4]:
# Сохраняем оригинальный столбец most_popular_tag для последующего сравнения
original_most_popular_tag = df['most_popular_tag']

# Преобразуем категориальные метки в числовой формат
label_encoder = LabelEncoder()
df['most_popular_tag'] = label_encoder.fit_transform(df['most_popular_tag'])

In [5]:
# Разбиваем данные на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(df['processed_text'], df['most_popular_tag'], test_size=0.2, random_state=42)


In [6]:
# Создаем TF-IDF векторизатор и преобразуем текст в TF-IDF представление
tfidf_vectorizer = TfidfVectorizer(max_features=500)
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Преобразуем данные в numpy arrays и затем в тензоры PyTorch
X_train_tfidf = torch.tensor(X_train_tfidf.toarray(), dtype=torch.float32)
X_test_tfidf = torch.tensor(X_test_tfidf.toarray(), dtype=torch.float32)
y_train = torch.tensor(y_train.values, dtype=torch.long)
y_test = torch.tensor(y_test.values, dtype=torch.long)

# Создаем DataLoader для более удобной обработки данных
train_dataset = TensorDataset(X_train_tfidf, y_train)
test_dataset = TensorDataset(X_test_tfidf, y_test)
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)


In [7]:
class ComplexNeuralNetwork(nn.Module):
    def __init__(self, input_dim, num_classes):
        super(ComplexNeuralNetwork, self).__init__()
        self.fc1 = nn.Linear(input_dim, 4096)
        self.dropout1 = nn.Dropout(0.3)
        self.fc2 = nn.Linear(4096, 2048)
        self.dropout2 = nn.Dropout(0.3)
        self.fc3 = nn.Linear(2048, 2048)
        self.dropout3 = nn.Dropout(0.3)
        self.fc4 = nn.Linear(2048, 1024)
        self.dropout4 = nn.Dropout(0.3)
        self.fc5 = nn.Linear(1024, 1024)
        self.dropout5 = nn.Dropout(0.3)
        self.fc6 = nn.Linear(1024, 512)
        self.dropout6 = nn.Dropout(0.3)
        self.fc7 = nn.Linear(512, 512)
        self.dropout7 = nn.Dropout(0.3)
        self.fc8 = nn.Linear(512, 256)
        self.dropout8 = nn.Dropout(0.3)
        self.fc9 = nn.Linear(256, 256)
        self.dropout9 = nn.Dropout(0.3)
        self.fc10 = nn.Linear(256, 128)
        self.dropout10 = nn.Dropout(0.3)
        self.fc11 = nn.Linear(128, 128)
        self.dropout11 = nn.Dropout(0.3)
        self.fc12 = nn.Linear(128, 64)
        self.dropout12 = nn.Dropout(0.3)
        self.fc13 = nn.Linear(64, 64)
        self.dropout13 = nn.Dropout(0.3)
        self.fc14 = nn.Linear(64, 32)
        self.dropout14 = nn.Dropout(0.3)
        self.fc15 = nn.Linear(32, 32)
        self.dropout15 = nn.Dropout(0.3)
        self.fc16 = nn.Linear(32, num_classes)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.dropout1(x)
        x = torch.relu(self.fc2(x))
        x = self.dropout2(x)
        x = torch.relu(self.fc3(x))
        x = self.dropout3(x)
        x = torch.relu(self.fc4(x))
        x = self.dropout4(x)
        x = torch.relu(self.fc5(x))
        x = self.dropout5(x)
        x = torch.relu(self.fc6(x))
        x = self.dropout6(x)
        x = torch.relu(self.fc7(x))
        x = self.dropout7(x)
        x = torch.relu(self.fc8(x))
        x = self.dropout8(x)
        x = torch.relu(self.fc9(x))
        x = self.dropout9(x)
        x = torch.relu(self.fc10(x))
        x = self.dropout10(x)
        x = torch.relu(self.fc11(x))
        x = self.dropout11(x)
        x = torch.relu(self.fc12(x))
        x = self.dropout12(x)
        x = torch.relu(self.fc13(x))
        x = self.dropout13(x)
        x = torch.relu(self.fc14(x))
        x = self.dropout14(x)
        x = torch.relu(self.fc15(x))
        x = self.dropout15(x)
        x = self.fc16(x)
        return x

In [8]:
# Устанавливаем устройство (GPU если доступен, иначе CPU)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# device = 'cpu'

In [9]:
# Инициализируем модель
model = ComplexNeuralNetwork(input_dim=X_train_tfidf.shape[1], num_classes=len(label_encoder.classes_)).to(device)



In [11]:
criterion = nn.CrossEntropyLoss()
optimizer = optim.AdamW(model.parameters(), lr=0.00001)

In [12]:
# Функция для вычисления точности
def calculate_accuracy(model, data_loader, device):
    model.eval()
    all_preds = []
    all_labels = []
    with torch.no_grad():
        for X_batch, y_batch in data_loader:
            X_batch, y_batch = X_batch.to(device), y_batch.to(device)
            outputs = model(X_batch)
            _, predicted = torch.max(outputs, 1)
            all_preds.extend(predicted.cpu().numpy())
            all_labels.extend(y_batch.cpu().numpy())
    return accuracy_score(all_labels, all_preds)

In [13]:
num_epochs = 50
log_interval = 10

for epoch in range(num_epochs):
    model.train()
    for batch_idx, (X_batch, y_batch) in enumerate(tqdm(train_loader, desc=f'Epoch {epoch+1}/{num_epochs}')):
        X_batch, y_batch = X_batch.to(device), y_batch.to(device)
        
        optimizer.zero_grad()
        outputs = model(X_batch)
        loss = criterion(outputs, y_batch)
        loss.backward()
        optimizer.step()
        
    if ((epoch + 1) % log_interval == 0) or (epoch > 45) or (epoch == 0):
        train_accuracy = calculate_accuracy(model, train_loader, device)
        test_accuracy = calculate_accuracy(model, test_loader, device)
        print(f'Step {batch_idx+1}, Train Accuracy: {train_accuracy:.4f}, Test Accuracy: {test_accuracy:.4f}')


Epoch 1/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:28<00:00, 96.82it/s]


Step 31780, Train Accuracy: 0.2003, Test Accuracy: 0.1995


Epoch 2/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.19it/s]
Epoch 3/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.62it/s]
Epoch 4/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:24<00:00, 97.82it/s]
Epoch 5/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:28<00:00, 96.82it/s]
Epoch 6/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.54it/s]
Epoch 7/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.65it/s]
Epoch 8/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.30it/s]
Epoch 9/50: 100%|████████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.43it/s]
Epoch 10/50: 100%|██████████████████████

Step 31780, Train Accuracy: 0.2003, Test Accuracy: 0.1995


Epoch 11/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.68it/s]
Epoch 12/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.46it/s]
Epoch 13/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.45it/s]
Epoch 14/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.63it/s]
Epoch 15/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.62it/s]
Epoch 16/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.45it/s]
Epoch 17/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:26<00:00, 97.38it/s]
Epoch 18/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:25<00:00, 97.65it/s]
Epoch 19/50: 100%|██████████████████████

Step 31780, Train Accuracy: 0.2150, Test Accuracy: 0.2123


Epoch 21/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:58<00:00, 106.32it/s]
Epoch 22/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:58<00:00, 106.52it/s]
Epoch 23/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:58<00:00, 106.51it/s]
Epoch 24/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:58<00:00, 106.41it/s]
Epoch 25/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:58<00:00, 106.63it/s]
Epoch 26/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:11<00:00, 102.16it/s]
Epoch 27/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:18<00:00, 99.66it/s]
Epoch 28/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:17<00:00, 100.14it/s]
Epoch 29/50: 100%|██████████████████████

Step 31780, Train Accuracy: 0.2287, Test Accuracy: 0.2181


Epoch 31/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:17<00:00, 99.98it/s]
Epoch 32/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:17<00:00, 100.07it/s]
Epoch 33/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:17<00:00, 100.18it/s]
Epoch 34/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:17<00:00, 100.17it/s]
Epoch 35/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:16<00:00, 100.37it/s]
Epoch 36/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:16<00:00, 100.28it/s]
Epoch 37/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:16<00:00, 100.39it/s]
Epoch 38/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:17<00:00, 100.18it/s]
Epoch 39/50: 100%|██████████████████████

Step 31780, Train Accuracy: 0.2357, Test Accuracy: 0.2180


Epoch 41/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [05:16<00:00, 100.28it/s]
Epoch 42/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:20<00:00, 99.05it/s]
Epoch 43/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [05:19<00:00, 99.34it/s]
Epoch 44/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [06:27<00:00, 81.94it/s]
Epoch 45/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [09:10<00:00, 57.70it/s]
Epoch 46/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [10:02<00:00, 52.71it/s]
Epoch 47/50: 100%|███████████████████████████████████████████████████████████████| 31780/31780 [08:52<00:00, 59.64it/s]


Step 31780, Train Accuracy: 0.2401, Test Accuracy: 0.2187


Epoch 48/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:57<00:00, 106.72it/s]


Step 31780, Train Accuracy: 0.2413, Test Accuracy: 0.2193


Epoch 49/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:57<00:00, 106.67it/s]


Step 31780, Train Accuracy: 0.2412, Test Accuracy: 0.2188


Epoch 50/50: 100%|██████████████████████████████████████████████████████████████| 31780/31780 [04:57<00:00, 106.69it/s]


Step 31780, Train Accuracy: 0.2427, Test Accuracy: 0.2187


In [20]:
def move_to_device(data, target, device):
    return data.to(device), target.to(device)
    
model.eval()
final_train_loss = 0
final_train_preds = []
final_train_labels = []
final_val_loss = 0
final_val_preds = []
final_val_labels = []

with torch.no_grad():
    for X_batch, y_batch in train_loader:
        X_batch, y_batch = move_to_device(X_batch, y_batch, device)
        outputs = model(X_batch)
        loss = criterion(outputs, y_batch)
        
        final_train_loss += loss.item()
        _, preds = torch.max(outputs, 1)
        final_train_preds.extend(preds.cpu().numpy())
        final_train_labels.extend(y_batch.cpu().numpy())

final_train_loss /= len(train_loader)
final_train_accuracy = accuracy_score(final_train_labels, final_train_preds)
final_train_f1 = f1_score(final_train_labels, final_train_preds, average='weighted')

with torch.no_grad():
    for X_batch, y_batch in test_loader:
        X_batch, y_batch = move_to_device(X_batch, y_batch, device)
        outputs = model(X_batch)
        loss = criterion(outputs, y_batch)
        
        final_val_loss += loss.item()
        _, preds = torch.max(outputs, 1)
        final_val_preds.extend(preds.cpu().numpy())
        final_val_labels.extend(y_batch.cpu().numpy())

final_val_loss /= len(test_loader)
final_val_accuracy = accuracy_score(final_val_labels, final_val_preds)
final_val_f1 = f1_score(final_val_labels, final_val_preds, average='weighted')


print("\nTraining Complete!")
print("\nFinal Epoch Metrics:")
print(f"Final Train Loss: {final_train_loss}")
print(f"Final Train Accuracy: {final_train_accuracy}")
print(f"Final Train F1 Score: {final_train_f1}")
print(f"Final Validation Loss: {final_val_loss}")
print(f"Final Validation Accuracy: {final_val_accuracy}")
print(f"Final Validation F1 Score: {final_val_f1}")


Training Complete!

Final Epoch Metrics:
Final Train Loss: 2.453290281388053
Final Train Accuracy: 0.24270073710460277
Final Train F1 Score: 0.1218994844349302
Final Validation Loss: 3.0378237617173385
Final Validation Accuracy: 0.21866432766019375
Final Validation F1 Score: 0.10074505246931734
