# Постановка задачи

SARS-Cov2 - РНК-вирус. Его геном состоит из одиночной РНК, в которой закодировано несколько генов, кодирующих белки, без некодирующих элементов. Последовательность, которую выскачаете - это ДНК последовательность для этой РНК (то есть РНК транскрибировали обратно чтобы получить ДНК). Последовательность находится тут.

Задача - проанализировать последовательность с помощью библиотеки biopython. Что, например, можно узнать про последовательность (это только примеры, вы можете придумать другие параметры, которые можно посмотреть для геномной последовательности):
- частоты встречаемости нуклеотидов A, G, C, T
- GC состав
- превратить нуклеотидную последовательность в РНК и в белки (сделать in silico транскрипцию и трансляцию)
- посчитать частоты кодонов
- чтобы узнать не только последовательности белков, но еще и их функции и что-либо про них - использовать blast
- поискать специальные библиотеки для визуализации геномных данных и красиво визуализировтаь ваши результаты (например, показать открытые рамки считывания)

В результате - рассказать какие функции и как вы использовали, какие результаты получили - визуализации и представление необходимых данных на ваш выбор


# Визуализация всей последовательности через `FluentDNA`


FluentDNA - https://github.com/josiahseaman/FluentDNA



Легенда:
![Легенда](assets/fluent_dna_legend.png)


ДНК:
![ДНК](assets/fluent_dna_visualization.png)



## Чтение последовательности последовательности

In [3]:
import plotly.express as px
import pandas as pd


from Bio import SeqIO

seq = next(SeqIO.parse('covid_sequence.fasta', "fasta")).seq

## Частоты встречаемости нуклеотидов A, G, C, T

Использовали `seq.count` - функция позволяет подсчитать количество нуклеотида в цепочке.

In [17]:
from Bio.Seq import Seq

def get_nucleotides_frequency(seq: Seq) -> pd.DataFrame:
    total_count = len(seq)
    nucliotides = ('A', 'G', 'C', 'T')
    frequencies = []
    
    for nucliotide in nucliotides:
        frequencies.append(
            (nucliotide, seq.count(nucliotide) / total_count)
        )
    
    return pd.DataFrame(frequencies, columns=['nucliotide', 'frequency'])


frequency = get_nucleotides_frequency(seq)

fig = px.pie(frequency, values='frequency', names='nucliotide', title='Nucliotide frequencies')
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.show()

# GC состав

In [19]:
from Bio.SeqUtils import gc_fraction


value = gc_fraction(seq)
print(value)

0.3797277865097147


# Превратить нуклеотидную последовательность в РНК и в белки

In [16]:
def get_rna_seq(dna_seq: Seq) -> Seq:
    return dna_seq.transcribe()


def get_protein_seq(rna_seq: Seq) -> Seq:
    return rna_seq.translate()


rna_seq = get_rna_seq(seq)
print("RNA seq: ", rna_seq)
print("Protein seq: ", get_protein_seq(rna_seq))


RNA seq:  AUUAAAGGUUUAUACCUUCCCAGGUAACAAACCAACCAACUUUCGAUCUCUUGUAGAUCUGUUCUCUAAACGAACUUUAAAAUCUGUGUGGCUGUCACUCGGCUGCAUGCUUAGUGCACUCACGCAGUAUAAUUAAUAACUAAUUACUGUCGUUGACAGGACACGAGUAACUCGUCUAUCUUCUGCAGGCUGCUUACGGUUUCGUCCGUGUUGCAGCCGAUCAUCAGCACAUCUAGGUUUCGUCCGGGUGUGACCGAAAGGUAAGAUGGAGAGCCUUGUCCCUGGUUUCAACGAGAAAACACACGUCCAACUCAGUUUGCCUGUUUUACAGGUUCGCGACGUGCUCGUACGUGGCUUUGGAGACUCCGUGGAGGAGGUCUUAUCAGAGGCACGUCAACAUCUUAAAGAUGGCACUUGUGGCUUAGUAGAAGUUGAAAAAGGCGUUUUGCCUCAACUUGAACAGCCCUAUGUGUUCAUCAAACGUUCGGAUGCUCGAACUGCACCUCAUGGUCAUGUUAUGGUUGAGCUGGUAGCAGAACUCGAAGGCAUUCAGUACGGUCGUAGUGGUGAGACACUUGGUGUCCUUGUCCCUCAUGUGGGCGAAAUACCAGUGGCUUACCGCAAGGUUCUUCUUCGUAAGAACGGUAAUAAAGGAGCUGGUGGCCAUAGUUACGGCGCCGAUCUAAAGUCAUUUGACUUAGGCGACGAGCUUGGCACUGAUCCUUAUGAAGAUUUUCAAGAAAACUGGAACACUAAACAUAGCAGUGGUGUUACCCGUGAACUCAUGCGUGAGCUUAACGGAGGGGCAUACACUCGCUAUGUCGAUAACAACUUCUGUGGCCCUGAUGGCUACCCUCUUGAGUGCAUUAAAGACCUUCUAGCACGUGCUGGUAAAGCUUCAUGCACUUUGUCCGAACAACUGGACUUUAUUGACACUAAGAGGGGUGUAUACUGCUGCCGUGAACAUGAGCAUGAAAUUGCUUGGUACAC


Partial codon, len(sequence) not a multiple of three. Explicitly trim the sequence or add trailing N before translation. This may become an error in future.

