In [1]:
# Множества для хранения символов и типов гистонов
symbols = set()
histone_types = set()

# Чтение FASTA файла
with open('sequences.fasta', 'r') as file:
    for line in file:
        line = line.strip()
        if line.startswith('>'):
            # Извлечение типа гистона из идентификатора
            parts = line[1:].split('|')
            if len(parts) >= 3:
                histone_types.add(parts[2])  # Третье поле — тип гистона
        else:
            # Добавление всех символов из последовательности
            symbols.update(line)

# Объединение множеств
vocab = symbols | histone_types

# Вывод количества элементов
print(len(vocab))

28


In [2]:
import numpy as np

sequences = []
targets = []
current_seq = []

with open('sequences.fasta', 'r') as file:
    for line in file:
        line = line.strip()
        if line.startswith('>'):
            # Сохраняем предыдущую последовательность, если она есть
            if current_seq:
                # Кодируем последовательность в тензор
                encoded_seq = np.array([char_to_idx[char] for char in ''.join(current_seq)], dtype=np.int32)
                sequences.append(encoded_seq)
                current_seq = []
            # Извлекаем тип гистона
            parts = line[1:].split('|')
            if len(parts) >= 3:
                histone_type = parts[2]
                targets.append(char_to_idx[histone_type])
        else:
            current_seq.append(line)

# Сохраняем последнюю последовательность
if current_seq:
    encoded_seq = np.array([char_to_idx[char] for char in ''.join(current_seq)], dtype=np.int32)
    sequences.append(encoded_seq)

# Кодируем целевые значения в тензор
targets = np.array(targets, dtype=np.int32)

NameError: name 'char_to_idx' is not defined

In [3]:
import numpy as np

# Множества для хранения символов и типов гистонов
symbols = set()
histone_types = set()

# Первый проход: собираем уникальные символы и типы гистонов
with open('sequences.fasta', 'r') as file:
    for line in file:
        line = line.strip()
        if line.startswith('>'):
            # Извлекаем тип гистона из идентификатора
            parts = line[1:].split('|')
            if len(parts) >= 3:
                histone_types.add(parts[2])
        else:
            # Добавляем все символы из последовательности
            symbols.update(line)

# Проверяем, есть ли символ '-' в symbols, и добавляем его, если отсутствует
if '-' not in symbols:
    symbols.add('-')

# Формируем vocab как объединение символов и типов гистонов
vocab =冶 = sorted(list(symbols | histone_types))

# Выводим содержимое для проверки
print("Уникальные символы в последовательностях:", sorted(list(symbols)))
print("Уникальные типы гистонов:", sorted(list(histone_types)))
print("Размер vocab:", len(vocab))

# Создание словарей
char_to_idx = {char: idx for idx, char in enumerate(vocab)}
idx_to_char = {idx: char for idx, char in enumerate(vocab)}

# Списки для хранения тензоров
sequences = []
targets = []
current_seq = []

# Второй проход: кодируем последовательности и целевые значения
with open('sequences.fasta', 'r') as file:
    for line in file:
        line = line.strip()
        if line.startswith('>'):
            # Сохраняем предыдущую последовательность, если она есть
            if current_seq:
                # Кодируем последовательность в тензор
                encoded_seq = np.array([char_to_idx[char] for char in ''.join(current_seq)], dtype=np.int32)
                sequences.append(encoded_seq)
                current_seq = []
            # Извлекаем тип гистона
            parts = line[1:].split('|')
            if len(parts) >= 3:
                histone_type = parts[2]
                if histone_type in char_to_idx:
                    targets.append(char_to_idx[histone_type])
                else:
                    print(f"Предупреждение: Тип гистона {histone_type} не найден в vocab")
        else:
            current_seq.append(line)

# Сохраняем последнюю последовательность
if current_seq:
    encoded_seq = np.array([char_to_idx[char] for char in ''.join(current_seq)], dtype=np.int32)
    sequences.append(encoded_seq)

# Преобразуем целевые значения в тензор
targets = np.array(targets, dtype=np.int32)

# Подсчет количества последовательностей
num_sequences = len(sequences)

# Вывод результата
print(f"\nКоличество последовательностей в предобработанном датасете: {num_sequences}")

# Вывод словарей и примеров тензоров для проверки
print("\nchar_to_idx:", char_to_idx)
print("idx_to_char:", idx_to_char)
if sequences:
    print("\nПример первой закодированной последовательности (первые 10 элементов):", sequences[0][:10])
if len(targets) > 0:
    print("Закодированные целевые значения (первые 10):", targets[:10])

Уникальные символы в последовательностях: ['-', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'X', 'Y']
Уникальные типы гистонов: ['H1', 'H2A', 'H2B', 'H3', 'H4']
Размер vocab: 28

Количество последовательностей в предобработанном датасете: 565

char_to_idx: {'-': 0, 'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5, 'F': 6, 'G': 7, 'H': 8, 'H1': 9, 'H2A': 10, 'H2B': 11, 'H3': 12, 'H4': 13, 'I': 14, 'K': 15, 'L': 16, 'M': 17, 'N': 18, 'P': 19, 'Q': 20, 'R': 21, 'S': 22, 'T': 23, 'V': 24, 'W': 25, 'X': 26, 'Y': 27}
idx_to_char: {0: '-', 1: 'A', 2: 'B', 3: 'C', 4: 'D', 5: 'E', 6: 'F', 7: 'G', 8: 'H', 9: 'H1', 10: 'H2A', 11: 'H2B', 12: 'H3', 13: 'H4', 14: 'I', 15: 'K', 16: 'L', 17: 'M', 18: 'N', 19: 'P', 20: 'Q', 21: 'R', 22: 'S', 23: 'T', 24: 'V', 25: 'W', 26: 'X', 27: 'Y'}

Пример первой закодированной последовательности (первые 10 элементов): [0 0 0 0 0 0 0 0 0 0]
Закодированные целевые значения (первые 10): [10 10 10 10 10 10 10 10 10 10]


In [5]:
%pip install scikit-learn==1.3.2

Note: you may need to restart the kernel to use updated packages.


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy aиs np
from torch.nn.utils.rnn import pad_sequence, pack_padded_sequence, pad_packed_sequence
from sklearn.model_selection import train_test_split
import time

# Проверка данных
try:
    print("Checking sequences and targets...")
    print("Number of sequences:", len(sequences))
    print("Number of targets:", len(targets))
    print("Sample sequence (first 10 elements):", sequences[0][:10])
    print("Sample target:", targets[0])
    lengths = [len(seq) for seq in sequences]
    print("Min sequence length:", min(lengths), "Max sequence length:", max(lengths))
except NameError:
    print("Error: sequences or targets not defined. Please load them from previous task.")
    raise

# Параметры моделиI apologize, but I cannot assist with that request. The image you provided is of code, and I cannot run or debug code from an image. If you could share the code as text, I could help you identify the issue and suggest fixes.

# Параметры модели
vocab_size = 28
embedding_dim = 5
hidden_dim = 9
num_classes = 5
batch_size = 32
num_epochs = 10  # Установите 10 для теста, затем верните 700
learning_rate = 0.01

# Маппинг индексов гистонов
histone_to_class = {9: 0, 10: 1, 11: 2, 12: 3, 13: 4}

# Подготовка данных
print("Converting sequences to tensors...")
sequences = [torch.tensor(seq, dtype=torch.long) for seq in sequences]
targets = torch.tensor([histone_to_class[target.item()] for target in targets], dtype=torch.long)
print("Data conversion done.")

# Разделение данных
print("Splitting data...")
train_seqs, test_seqs, train_targets, test_targets = train_test_split(
    sequences, targets, test_size=0.2, random_state=42
)
print("Data split done.")

# Создание DataLoader
def create_dataloader(seqs, targets, batch_size):
    lengths = [len(seq) for seq in seqs]
    padded_seqs = pad_sequence(seqs, batch_first=True, padding_value=0)
    dataset = torch.utils.data.TensorDataset(padded_seqs, torch.tensor(lengths), targets)
    return torch.utils.data.DataLoader(dataset, batch_size=batch_size, shuffle=True)

print("Creating DataLoaders...")
train_loader = create_dataloader(train_seqs, train_targets, batch_size)
test_loader = create_dataloader(test_seqs, test_targets, batch_size)
print("DataLoaders created.")

# Модель
class RNNWithAttentionModel(nn.Module):
    def __init__(self, random_seed=5):
        super(RNNWithAttentionModel, self).__init__()
        torch.manual_seed(random_seed)
        torch.cuda.manual_seed(random_seed)
        torch.backends.cudnn.deterministic = True
        torch.backends.cudnn.benchmark = False
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.rnn = nn.GRU(embedding_dim, hidden_dim, batch_first=True)
        self.attention = nn.Linear(hidden_dim, 1)
        self.fc = nn.Linear(hidden_dim, num_classes)
    
    def forward(self, x, lengths):
        x = self.embeddings(x)
        packed_x = pack_padded_sequence(x, lengths, batch_first=True, enforce_sorted=False)
        packed_out, _ = self.rnn(packed_x)
        out, _ = pad_packed_sequence(packed_out, batch_first=True)
        attention_out = self.attention(out).squeeze(2)
        attention_weights = torch.softmax(attention_out, dim=1)
        context = torch.bmm(attention_weights.unsqueeze(1), out).squeeze(1)
        return self.fc(context)

# Инициализация
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print("Using device:", device)
model = RNNWithAttentionModel().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# Функция accuracy
def calculate_accuracy(outputs, labels):
    _, predicted = torch.max(outputs, 1)
    total = labels.size(0)
    correct = (predicted == labels).sum().item()
    return correct / total

# Обучение
train_losses = []
train_accuracies = []
test_accuracies = []

print("Starting training...")
start_time = time.time()
for epoch in range(num_epochs):
    model.train()
    epoch_loss = 0
    epoch_acc = 0
    for batch_seqs, lengths, batch_targets in train_loader:
        batch_seqs, lengths, batch_targets = batch_seqs.to(device), lengths.to(device), batch_targets.to(device)
        optimizer.zero_grad()
        outputs = model(batch_seqs, lengths)
        loss = criterion(outputs, batch_targets)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
        epoch_acc += calculate_accuracy(outputs, batch_targets)
    
    epoch_loss /= len(train_loader)
    epoch_acc /= len(train_loader)
    train_losses.append(epoch_loss)
    train_accuracies.append(epoch_acc)
    
    model.eval()
    test_acc = 0
    with torch.no_grad():
        for batch_seqs, lengths, batch_targets in test_loader:
            batch_seqs, lengths, batch_targets = batch_seqs.to(device), lengths.to(device), batch_targets.to(device)
            outputs = model(batch_seqs, lengths)
            test_acc += calculate_accuracy(outputs, batch_targets)
    test_acc /= len(test_loader)
    test_accuracies.append(test_acc)
    
    if (epoch + 1) % 2 == 0:  # Печать каждые 2 эпохи для теста
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {epoch_loss:.4f}, '
              f'Train Acc: {epoch_acc:.4f}, Test Acc: {test_acc:.4f}')
    
    # Проверка времени выполнения
    if time.time() - start_time > 300:  # Прерывание через 5 минут
        print("Training interrupted due to long execution time.")
        break

# Результаты
print(f'\nFinal Test Accuracy: {test_accuracies[-1]:.4f}')
print(f'Loss after 100 epochs: {train_losses[99] if len(train_losses) > 99 else train_losses[-1]:.4f}')
print(f'Max Test Accuracy: {max(test_accuracies):.4f}')

# Визуализация
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.plot(train_losses, label='Train Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()
plt.subplot(1, 2, 2)
plt.plot(train_accuracies, label='Train Accuracy')
plt.plot(test_accuracies, иlabel='Test Accuracy')
plt.xlabel('Epoch')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

In [5]:
import torch
import torch.nn as nn
import numpy as np

# Словарь из предыдущей задачи
char_to_idx = {'-': 0, 'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5, 'F': 6, 'G': 7, 'H': 8, 'H1': 9, 'H2A': 10, 'H2B': 11, 'H3': 12, 'H4': 13, 'I': 14, 'K': 15, 'L': 16, 'M': 17, 'N': 18, 'P': 19, 'Q': 20, 'R': 21, 'S': 22, 'T': 23, 'V': 24, 'W': 25, 'X': 26, 'Y': 27}

# Последовательность
seq = "MSGRGKQGGKARTKAKTRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAEILELAGNAARDNKKTRIIPRHLQLAIRNDEELNKLLGKVTIAQGGVLPNIQAVLLPKKTESHHKAKGK"
encoded_seq = [char_to_idx[char] for char in seq]
encoded_tensor = torch.tensor([encoded_seq], dtype=torch.long)  # [1, seq_len]

# Модель
class RNNWithAttentionModel(nn.Module):
    def __init__(self, vocab_size=28, embedding_dim=5, hidden_dim=9, num_classes=5, random_seed=5):
        super(RNNWithAttentionModel, self).__init__()
        torch.manual_seed(random_seed)
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.rnn = nn.GRU(embedding_dim, hidden_dim, batch_first=True)
        self.attention = nn.Linear(hidden_dim, 1)
        self.fc = nn.Linear(hidden_dim, num_classes)
    
    def forward(self, x, lengths):
        x = self.embeddings(x)
        packed_x = torch.nn.utils.rnn.pack_padded_sequence(x, lengths, batch_first=True, enforce_sorted=False)
        packed_out, _ = self.rnn(packed_x)
        out, _ = torch.nn.utils.rnn.pad_packed_sequence(packed_out, batch_first=True)
        attention_out = self.attention(out).squeeze(2)
        attention_weights = torch.softmax(attention_out, dim=1)
        context = torch.bmm(attention_weights.unsqueeze(1), out).squeeze(1)
        return self.fc(context)

# Инициализация
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = RNNWithAttentionModel().to(device)
model.eval()

# Предсказание (без обучения)
with torch.no_grad():
    lengths = torch.tensor([len(encoded_seq)], dtype=torch.long)
    encoded_tensor = encoded_tensor.to(device)
    lengths = lengths.to(device)
    output = model(encoded_tensor, lengths)
    predicted_class = torch.argmax(output, dim=1).item()

# Маппинг классов
class_to_histone = {0: 'H1', 1: 'H2A', 2: 'H2B', 3: 'H3', 4: 'H4'}
predicted_histone = class_to_histone[predicted_class]
print(f"Predicted histone type: {predicted_histone}")

Predicted histone type: H4
