In [1]:
from pycodon import read_file

## Читаем последовательность из файла 

In [2]:
sequences = read_file('data/Sequence1.txt').make_sequences()
seq = sequences[0]
seq

ATGCGAACTTCATATCTACTGCTATTCACCCTGTGCCTGCTCCTATCGGAGATGGCGAGCGGCGGTAATTTCTTAACGGGACTAGGGCATAGGAGTGACCACTACAATTGTGTTTCTAGTGGCGGGCAATGTCTCTACAGCGCCTGTCCGATATTTACGAAAATTCAAGGAACGTGCTACAGAGGGAAGGCTAAATGTTGCAAG

## 1. Транскрипция. 
Переводим код ДНК в код РНК

In [3]:
seq.transcription()

'AUGCGAACUUCAUAUCUACUGCUAUUCACCCUGUGCCUGCUCCUAUCGGAGAUGGCGAGCGGCGGUAAUUUCUUAACGGGACUAGGGCAUAGGAGUGACCACUACAAUUGUGUUUCUAGUGGCGGGCAAUGUCUCUACAGCGCCUGUCCGAUAUUUACGAAAAUUCAAGGAACGUGCUACAGAGGGAAGGCUAAAUGUUGCAAG'

## 2. Трансляция. 
Переводим в код белка

In [5]:
protein = seq.protein
protein

'MRTSYLLLFTLCLLLSEMASGGNFLTGLGHRSDHYNCVSSGGQCLYSACPIFTKIQGTCYRGKAKCCK'

## 3. Посчитаем встречаемость
### а) каждого нуклеотида

In [6]:
seq.nucleotide_counter

Counter({'A': 52, 'T': 53, 'G': 54, 'C': 45})

Общее количество нуклеотидов

In [7]:
total = len(seq)
total

204

### б) GС 
(почему GС - они дают три водородные связи и дают
термоустойчивость ДНК, это важно для отжига праймеров для ПЦР)

In [8]:
gc = seq.nucleotide_counter['G'] + seq.nucleotide_counter['C']
gc

99

Посчитаем долю встречаемости аминокислот G и С в  исходной последовательности

In [10]:
(gc/total)*100

48.529411764705884

## 4. Сравним в двух белках по Sequence2 и Sequence3
### а) GС состав

In [13]:
seq2 = read_file('data/Sequence2.txt').make_sequences()[0]
seq3 = read_file('data/Sequence3.txt').make_sequences()[0]
print(f'Общее кол-во АК в Sequence2: {len(seq2)}, Sequence3: {len(seq3)}')
gc2 = seq2.nucleotide_counter['G'] + seq2.nucleotide_counter['C']
gc3 = seq3.nucleotide_counter['G'] + seq3.nucleotide_counter['C']
print(f'Доля GC в Sequence2: {(gc2/len(seq2)):.2f}, Sequence3: {(gc3/len(seq3)):.2f}')

Общее кол-во АК в Sequence2: 141, Sequence3: 327
Доля GC в Sequence2: 0.46, Sequence3: 0.50


### б) встречаемость кодонов для глицина (G) и аланина (А)

In [14]:
for aa in 'GA':
    count_ = seq2.nucleotide_counter.get(aa, 0)
    print(f'{aa} in Sequence2 {count_} times')


G in Sequence2 31 times
A in Sequence2 40 times


## 5*. 
В ДНК последовательностях Sequence1_1, Sequence1_2, Sequence1_3, Sequence1_4 обнаружить
неоднозначные нуклеотиды и определить варианты изменения белкового кода и
вывести результирющие белковые последовательности.

In [39]:
seq1_1 = read_file('data/Sequence1_1.txt')
seq1_2 = read_file('data/Sequence1_2.txt')
seq1_3 = read_file('data/Sequence1_3.txt')
seq1_4 = read_file('data/Sequence1_4.txt')

In [40]:
print(seq1_1.ambiguous_nucleotides)
print(seq1_2.ambiguous_nucleotides)
print(seq1_3.ambiguous_nucleotides)
print(seq1_4.ambiguous_nucleotides)

{'N': [113]}
{'H': [197]}
{'H': [130]}
{'N': [71, 129], 'H': [130]}


In [41]:
seqs = seq1_3.make_sequences()
set(seq.protein for seq in seqs)

{'MRTSYLLLFTLCLLLSEMASGGNFLTGLGHRSDHYNCVSSGGQYANFISTAIHPVPAPIGDGERR_FLNGTRA_E_PLQLCF_WRAI'}

## 6*.
В последовательности Sequence4 найти старт и стоп кодоны, определить рамку
считывания, количество аминокислот в белке и вывести последовательность белка

In [2]:
s4 = read_file('data/Sequence4.txt')
seqs = s4.make_sequences()
start = ['ATG']
stop = ['TAA', 'TGA', 'TAG']

In [3]:
for seq in seqs:
    frames = seq.make_frames(start_codons=start, stop_codons=stop)
    for frame in frames:
        print(frame.aminoacids())
        print(frame.protein)

Counter({'L': 10, 'G': 8, 'S': 7, 'C': 7, 'T': 5, 'Y': 4, 'K': 4, 'R': 3, 'F': 3, 'A': 3, 'M': 2, 'N': 2, 'H': 2, 'Q': 2, 'I': 2, 'E': 1, 'D': 1, 'V': 1, 'P': 1})
MRTSYLLLFTLCLLLSEMASGGNFLTGLGHRSDHYNCVSSGGQCLYSACPIFTKIQGTCYRGKAKCCK
Counter({'G': 8, 'C': 6, 'S': 5, 'K': 4, 'A': 3, 'L': 3, 'T': 3, 'Y': 3, 'N': 2, 'F': 2, 'H': 2, 'R': 2, 'Q': 2, 'I': 2, 'M': 1, 'D': 1, 'V': 1, 'P': 1})
MASGGNFLTGLGHRSDHYNCVSSGGQCLYSACPIFTKIQGTCYRGKAKCCK
Counter({'L': 6, 'Q': 4, 'S': 3, 'R': 2, 'E': 2, 'V': 2, 'M': 1, 'F': 1, 'C': 1, 'P': 1, 'D': 1, 'Y': 1, 'N': 1, 'H': 1, 'G': 1, 'W': 1})
MSLFCLPDLYQNSRHLLQREGQVLQVSWE
Counter({'L': 3, 'I': 3, 'K': 2, 'N': 2, 'E': 2, 'F': 2, 'M': 1, 'T': 1, 'Q': 1, '_': 1, 'S': 1, 'C': 1})
MTQK_NELFISILLIKENCF


## 7.   
В модифицированном геноме вируса гриппа человека (sequence 6) по «смысловой» цепочке ДНК

        1. найти неоднозначности прочтений нуклеотидов и определить их положение

In [2]:
s6 = read_file('data/sequence_6.fa')
s6.ambiguous_nucleotides

{'M': [0], 'R': [6705], 'K': [11312]}

        2. определить сколько белков закодировано в последовательности

In [5]:
seqs = s6.make_sequences()
start = ['ATG']
stop = ['TAA', 'TGA', 'TAG']
frames_indices = []

prots = set()
with open('proteins.txt', 'w') as f:
    for seq in seqs:
        frames = seq.make_frames(start_codons=start, stop_codons=stop)
        f.write(f'{seq}\n\n')
        for frame in frames:
            # if frame.protein not in prots:
            prots.add(frame.protein)
            start_pos = seq.index(frame)
            stop_pos = start_pos + len(frame)
            f.write(f'{start_pos, stop_pos} - {frame.protein};\n')
        f.write('$$$$\n')

In [6]:
# def make_sequences(seq: str, start_codons: Iterable[str], stop_codons: Iterable[str], len_seq:int):
#     frame_poses = prot_frame_pos(seq, start_codons, stop_codons, len_seq)
#     return [seq[start:stop] for start, stop in frame_poses]


def prot_frame_pos(seq: str, start_codons: Iterable[str], stop_codons: Iterable[str], len_seq:int):
    start = set(start_codons)
    stop = set(stop_codons)
    start_pos, stop_pos = [], []
    for i in range(len(seq)):
        if seq[i:(i + 3)] in start:
            start_pos.append(i)
        if seq[i:(i + 3)] in stop:
            stop_pos.append(i)
    # Checking if there is start or stop codons for correct protein generation
    if start_pos and stop_pos:
        frames_poses = [frame: seq[frame[0]:frame[0]] for frame in product(start_pos, stop_pos) if valid_frame(*frame, stop_pos, len_seq)]           
    else:
        frames_poses = []
    return frames_poses


def valid_frame(start: int, stop: int, stop_poses: List[int], len_seq:int):
    for i in stop_poses:
        if start < i < stop and (i - start) % 3 == 0:
            return False
    return stop - start > len_seq and (stop - start) % 3 == 0



SyntaxError: invalid syntax (1634181086.py, line 17)

        3. вывести варианты последовательностей закодированных белков с указанием положения в геноме (начало старт кодона и конец рамки считывания, т.е. исключая стопкодон).