In [1]:
from Bio.Seq import Seq

from fasta_processing import read_fasta, read_single_fasta, dict_align_to_fasta
from data_processing import find_codon, obtain_data

MEME Suite, 1995

Набор инструментов для обнаружения и анализа последовательностных мотивов в невыравненных нуклеотидных или белковых последовательностях.

Может найти неизвестные последовательности, часто встречающиеся в интронах, включая A-rich элементы.

https://meme-suite.org/meme/tools/meme

In [4]:
def slice_cds_cassette_to_prot(phylum: str, org_names: list) -> dict:
    prefix = "../datasets"
    postfix = "ncbi_dataset/data"

    proteins = {}

    for org_name in org_names:
        cds = read_single_fasta(f"{prefix}/{phylum}/{org_name}/{postfix}/cds_cassette.fa")
        stop_codon_pos = find_codon(cds, which="stop")

        sliced_cds = cds[:stop_codon_pos + 3]
        protein = str(Seq(sliced_cds).translate())
        formatted_org_name = org_name.rsplit("_", 1)[0].capitalize()

        proteins[formatted_org_name] = protein

    return proteins

In [5]:
phylum = "Spiralia"
org_names = \
    [
        'schistosoma_haematobium_1',
        'mya_arenaria_2',
        'crassostrea_virginica_7',
        'magallana_gigas_8',
        'gigantopelta_aegis_6',
        'aplysia_californica_9',
    ]

proteins_spiralia = slice_cds_cassette_to_prot(phylum, org_names)
dict_align_to_fasta(proteins_spiralia, "../alignment/Spiralia/Spiralia_proteins.fa")

In [6]:
# dict_align_to_fasta(proteins_spiralia, "../alignment/Spiralia/Spiralia_proteins.aln")

In [7]:
phylum = "Spiralia"
org_names = \
    [
        'mya_arenaria_2',
        'crassostrea_virginica_7',
        'magallana_gigas_8',
    ]

proteins_spiralia = slice_cds_cassette_to_prot(phylum, org_names)
dict_align_to_fasta(proteins_spiralia, "../alignment/Spiralia/Spiralia_bivalvia_proteins.fa")

In [8]:
# dict_align_to_fasta(proteins_spiralia, "../alignment/Spiralia/Spiralia_bivalvia_proteins.aln")

In [9]:
phylum = "Spiralia"
org_names = \
    [
        'gigantopelta_aegis_6',
        'aplysia_californica_9',
    ]

proteins_spiralia = slice_cds_cassette_to_prot(phylum, org_names)
dict_align_to_fasta(proteins_spiralia, "../alignment/Spiralia/Spiralia_gastropoda_proteins.fa")

In [10]:
# dict_align_to_fasta(proteins_spiralia, "../alignment/Spiralia/Spiralia_gastropoda_proteins.aln")

белковая третичная стр-ра белка у нематод, как он будет выглядеть

что там сохраняется или добавляется из транслируемого интрона

если у с элеганс будет сохраняться общая простр организация как и у тех, у кого интрона нет, то значилась такая стрра в эволюции закреплялась

- база данных для мотивов беспозвоночных
- посмотреть какую-то группу позвоночных, сделать тот же анализ - поиск мотивов в интроне для сравнения с беспами
- альфафолд 3 структура белка для нематод и других видов
- расширить выборку psi-blast
- ii стр-ра рнк cds+intron

---

In [11]:
c_elegans_data = obtain_data("Ecdysozoa", "caenorhabditis_elegans_0")

In [17]:
c_elegans_data["protein"] == str(Seq(c_elegans_data["cds"]).translate())[:-1]

True

In [16]:
c_elegans_data["protein"]

'MNRKGFGGHRDAKQLSRTKNRFARLDPDTQSRYEDDDEPAVPVRASLTSASSRGRGGSSRGFGQSAASIANTGVRNADIVYKCRATGAAKKVDAKWLIKQLNQIIENFKPLLWTDNARGDFEWYVRDEDTASTIRANNRRVVHKESGTRVEFYTSKVPAPWMKLKREEIEIIHRVVDKRHNAENRVLDLSNFHEDEEFKAKDMMMNLTKGNVMLTVLDHIDDKYGNIVALSLSNNRIRHLDYASALVSIAKFVMELDLSHNHISTEKELEKFAGLPVERFFFEGNPVVESFTQRAAYISYIHQSFPRCNMLDGVEVQPLVVGPDLDIHDAMPFRAGYYPNPQIRVLVEQFVTSYFDFYDGPDGQRTRRNLHNAYDADASTFSLTIEHLRGSSHARHHNDECFAQYAGVSHNVLKQERFARHRASRSARGAMDIAVALSKLPTSSHMRDTFIVDVFLQSNDLLGFTVQGLFCDGDLTQTPSPSFFSRSFLVSPRENDSVAVISDQLFITVASLDRLEKFKKLYDQSIANGAAVEQVSAVQIAQIGVNGMGFDGAPALPIREEMIKAMCQFSGMIPPFSEKCLADCAWNFDFACQKFNEIKSSVPAEAFAH'

In [15]:
str(Seq(c_elegans_data["cds"]).translate())

'MNRKGFGGHRDAKQLSRTKNRFARLDPDTQSRYEDDDEPAVPVRASLTSASSRGRGGSSRGFGQSAASIANTGVRNADIVYKCRATGAAKKVDAKWLIKQLNQIIENFKPLLWTDNARGDFEWYVRDEDTASTIRANNRRVVHKESGTRVEFYTSKVPAPWMKLKREEIEIIHRVVDKRHNAENRVLDLSNFHEDEEFKAKDMMMNLTKGNVMLTVLDHIDDKYGNIVALSLSNNRIRHLDYASALVSIAKFVMELDLSHNHISTEKELEKFAGLPVERFFFEGNPVVESFTQRAAYISYIHQSFPRCNMLDGVEVQPLVVGPDLDIHDAMPFRAGYYPNPQIRVLVEQFVTSYFDFYDGPDGQRTRRNLHNAYDADASTFSLTIEHLRGSSHARHHNDECFAQYAGVSHNVLKQERFARHRASRSARGAMDIAVALSKLPTSSHMRDTFIVDVFLQSNDLLGFTVQGLFCDGDLTQTPSPSFFSRSFLVSPRENDSVAVISDQLFITVASLDRLEKFKKLYDQSIANGAAVEQVSAVQIAQIGVNGMGFDGAPALPIREEMIKAMCQFSGMIPPFSEKCLADCAWNFDFACQKFNEIKSSVPAEAFAH*'

In [13]:
c_elegans_data["protein_sliced"]

'MNRKGFGGHRDAKQLSRTKNRFARLDPDTQSRYEDDDEPAVPVRASLTSASSRGRGGSSRGFGQSAASIANTGVRNADIVYKCRATGAAKKVDAKWLIKQLNQIIENFKPLLWTDNARGDFEWYVRDEDTASTIRANNRRVVHKESGTRVEFYTSKVPAPWMKLKREEIEIIHRVVDKRHNAENRVLDLSNFHEDEEFKAKDMMMNLTKGNVMLTVLDHIDDKYGNIVALSLSNNRIRHLDYASALVSIAKFVMELDLSHNHISTEKELEKFAGLPVERFFFEGNPVVESFTQRAAYIRLHYLNDFQIFYLNFIVFSSLFPILLCSLTPNLPLQLYSSIIPAMQHAGRSRSAAAGCWTGSRYS*'