In [2]:
# Task 1
from Bio import Entrez, SeqIO

# Подсчет G и С. Вычисление % от всей длины
def calculate_gc_content(gene_id):
    # `Entrez.efetch` используется для извлечения генетической информации из базы данных NCBI.
    # Параметр `db` указывает на то, что мы хотим получить данные из базы данных "nucleotide" (ядерные последовательности).
    # Параметр `id` содержит идентификатор гена, который мы хотим извлечь. Параметры `rettype` и `retmode` указывают
    # на формат и режим возвращаемых данных соответственно.
    handle = Entrez.efetch(db="nucleotide", id=gene_id, rettype="gb", retmode="text")

    # Читаем данные из `handle` и интерпретируем их как формат "genbank" (формат хранения генетических последовательностей).
    record = SeqIO.read(handle, "genbank")

    # Метод `count` используется для подсчета количества символов "G" (гуанин) и "C" (цитозин) в последовательности.
    sequence = record.seq
    gc_content = (sequence.count("G") + sequence.count("C")) / len(sequence) * 100
    return gc_content

gene_id = "X53950.1"
gc_content = calculate_gc_content(gene_id)
print(f"The GC-content for gene {gene_id} is {gc_content:.2f}%")

            Email address is not specified.

            To make use of NCBI's E-utilities, NCBI requires you to specify your
            email address with each request.  As an example, if your email address
            is A.N.Other@example.com, you can specify it as follows:
               from Bio import Entrez
               Entrez.email = 'A.N.Other@example.com'
            In case of excessive usage of the E-utilities, NCBI will attempt to contact
            a user at the email address provided before blocking access to the
            E-utilities.


The GC-content for gene X53950.1 is 35.73%


In [3]:
# Task 2
from Bio import PDB

# Получить последовательность из pdb и записать в fasta
def pdb_to_fasta(pdb_filename, fasta_filename):
    parser = PDB.PDBParser(QUIET=True)
    structure = parser.get_structure('structure', pdb_filename)

    with open(fasta_filename, 'w') as fasta_file:
        for model in structure:
            # `model` - это объект модели, а `chain` - объект цепи.
            for chain in model:
                # Метод `build_peptides` возвращает список объектов `Polypeptide`, представляющих фрагменты белка в цепи.
                # Выбираем первый фрагмент (индекс 0) и получаем его последовательность с помощью метода `get_sequence`.
                sequence = PDB.PPBuilder().build_peptides(chain)[0].get_sequence()

                # `model.id` содержит идентификатор модели, а `chain.id` - идентификатор цепи.
                header = f">{model.id}_{chain.id}"

                # Записываем в файл
                fasta_file.write(f"{header}\n{sequence}\n")

pdb_to_fasta("frompdb.pdb", "output.fasta")

In [4]:
# Task 3 DNK в RNK, а потом в белок
with open("dna.txt", "r") as f:
    dna_sequence = f.read().strip()

# Заменяем "T" на "U"
rna_sequence = dna_sequence.replace("T", "U")

# Ключи представляют кодоны РНК, а значения - соответствующие аминокислоты.
codon_table = {
      "GCA":"A", "GCC":"A", "GCG":"A", "GCU":"A",
      "UGC":"C", "UGU":"C", "GAC":"D", "GAU":"D",
      "GAA":"E", "GAG":"E", "UUC":"F", "UUU":"F",
      "GGA":"G", "GGC":"G", "GGG":"G", "GGU":"G",
      "CAC":"H", "CAU":"H", "AUA":"I", "AUC":"I",
      "AUU":"I", "AAA":"K", "AAG":"K", "UUA":"L",
      "UUG":"L", "CUA":"L", "CUC":"L", "CUG":"L",
      "CUU":"L", "AUG":"M", "AAC":"N", "AAU":"N",
      "CCA":"P", "CCC":"P", "CCG":"P", "CCU":"P",
      "CAA":"Q", "CAG":"Q", "AGA":"R", "AGG":"R",
      "CGA":"R", "CGC":"R", "CGU":"R", "CGG":"R",
      "AGC":"S", "AGU":"S", "UCA":"S", "UCC":"S",
      "UCG":"S", "UCU":"S", "ACA":"T", "ACC":"T",
      "ACG":"T", "ACU":"T", "GUA":"V", "GUC":"V",
      "GUG":"V", "GUU":"V", "UGG":"W", "UAC":"Y",
      "UAU":"Y", "UAG":"!", "UAA":"!", "UGA":"!"
}

# Последовательность белка
protein_sequence = ""
for i in range(0, len(rna_sequence) - 2, 3):
    # С помощью среза `rna_sequence[i:i+3]` извлекаем текущий кодон из последовательности РНК.
    codon = rna_sequence[i:i+3]

    # Берем из каждого кардона соответсвующую аминокислоту и полученная аминокислота добавляется к строке белка
    protein_sequence += codon_table.get(codon, "X")

# Выводим последовательность белка
print(protein_sequence)

GMAITPRFYF!RRKVLT!ALPAQGPKKSPISYFRMTCVSLRVNHRPQFIEAWGNR!V!LA!ESKSWDHSVVTINLRWGFFGGFLQLPTRRFEVNQLRI!PRYPVISKLKHTVP!RLELLTGLFHACAIPPHSPAYPSERRQCDPPLRYSYV!RSYVFCRAGERVEHFTDGRDSGKGRIIGD!HRRRLRWRQLNRSSSALNNVLISTHSRQSTERLDYQRLSSSSNLLPAS!!PPRD!!!LSAQN!DGADG!RTFGQPQFPTGQVLRCASL!MYKQPKWAEPGLSWFLRELETRDDSSLNIERGRRTVEKVIVPRVPTYSGYCLKLYYFRGGALKVSSSHD!TREGREVGSFNG!KTKAYCAQRNAHLAAGVLNARSPLSFRINPFPSFTSLRSLHWYMNAT!KRALKIGSG!CSKLHLVYSCITAIG!QRFNIE!QGTSGLNERPGKVRARYGRIKGPIERLLSHSLGGKCKTMVTASIHKTCPSVAQSVKCLSPLGPFPAYKRQVVSAFDATVDESASSAPHECCNVLHE!G!LRAVRCVAVLIVVDRPSRLENGTSIFGGSLTSMDCGVFTVLRLPIA!NPAGVKPSPLRDAACSETYTLHGFTAVRSESTKDTIELRSVPSTNLYPTPGACQLLGYHGACGSSRPISNFVMIKSPPREYQRR!LLSCA


In [5]:
# Task 4
from Bio import Entrez, SeqIO

# Ищем есть ли id = 7157 в базе nucliotide и выводим его
def get_uniprot_id(gene_id):
    # В данном случае база данных `nucleotide` указывает, что мы хотим получить запись гена.
    # Аргумент `id` принимает идентификатор гена, который мы хотим получить.
    # `rettype="gb"` указывает на то, что мы хотим получить запись в формате GenBank
    # `retmode="text"` указывает на то, что мы хотим получить текстовую версию записи.
    handle = Entrez.efetch(db="nucleotide", id=gene_id, rettype="gb", retmode="text")

    # Читаем данные из `handle` и интерпретируем их как формат "genbank" (формат хранения генетических последовательностей).
    record = SeqIO.read(handle, "genbank")

    # Объект `record.features` представляет собой список особенностей в записи гена.
    for feature in record.features:
        if feature.type == "CDS":
            # Получаем идентификатор белка из квалификаторов особенности.
            # Если идентификатор белка присутствует, он прерывает функцию и передается.
            protein_id = feature.qualifiers.get('protein_id', [""])[0]
            return protein_id
    return "Protein ID not found"

gene_id = "7157"
uniprot_id = get_uniprot_id(gene_id)
print(f"The UniProt identifier for the protein encoded by gene {gene_id} is {uniprot_id}")

            Email address is not specified.

            To make use of NCBI's E-utilities, NCBI requires you to specify your
            email address with each request.  As an example, if your email address
            is A.N.Other@example.com, you can specify it as follows:
               from Bio import Entrez
               Entrez.email = 'A.N.Other@example.com'
            In case of excessive usage of the E-utilities, NCBI will attempt to contact
            a user at the email address provided before blocking access to the
            E-utilities.


The UniProt identifier for the protein encoded by gene 7157 is CAA34102.1


In [8]:
# Task 5
import re

with open("dna.txt", "r") as f:
    dna_sequence = f.read().strip()

# Subtask a.
print("Subtask a.")
# Находим все вхождения мотива 'GC\wGC', индексы сохраняем в переменную
motif_a_indices = [m.start() for m in re.finditer(r'GC\wGC', dna_sequence)]
print("Indices of motifs GCNGC:", motif_a_indices)

print("Subtask b.")
# Subtask b.
# Находим все вхождения кодона 'ATG', индексы сохраняем в переменную
start_codon_indices = [m.start() for m in re.finditer(r'ATG', dna_sequence)]
for start_index in start_codon_indices:
    potential_mrna = dna_sequence[start_index:]
    match = re.search(r'ATG[A|T|G|C]{30,1000}A{5,10}', potential_mrna)
    if match:
        print("Eukaryotic mRNA found starting at index", start_index)

Subtask a.
Indices of motifs GCNGC: [296, 580, 1101, 1562, 1721, 1779]
Subtask b.
Eukaryotic mRNA found starting at index 3
Eukaryotic mRNA found starting at index 50
Eukaryotic mRNA found starting at index 102
Eukaryotic mRNA found starting at index 107
Eukaryotic mRNA found starting at index 338
Eukaryotic mRNA found starting at index 370
Eukaryotic mRNA found starting at index 463
Eukaryotic mRNA found starting at index 505
Eukaryotic mRNA found starting at index 563
Eukaryotic mRNA found starting at index 710
Eukaryotic mRNA found starting at index 745
Eukaryotic mRNA found starting at index 813
Eukaryotic mRNA found starting at index 880
Eukaryotic mRNA found starting at index 1015
