In [None]:
kod = ''
with open('streptomyces.txt', 'r', encoding='UTF-8') as kodf:
    # создадим строку, содержащую последовательность ДНК
    for line in kodf:
        if '>' not in line:
            kod += line.strip()

# выделим первые три тысячи нуклеотидов
strep = kod[:3000]


def gc_content(a):
    '''принимает последовательность ДНК, возвращает ГЦ-состав'''
    counter = 0
    lennn = 0
    for i in a:
        counter += i.count('G')
        counter += i.count('C')
        lennn += len(i)
    return (counter/lennn)


# найдем ГЦ-состав для всей последовательности ДНК
gc = gc_content(kod)

import re


def koding(a):
    '''принимает последовательность ДНК, возвращает кодирующие участки'''
    result = re.finditer(r"(ATG|GTG|TTG)([ATGC]{3})*?(TAA|TGA|TAG)", a)
    genes = []
    for i in result:
        # проверяем, имеет ли ген минимально возможную длину
        if len(i.group()) >= 60:
            genes.append(i.group())
    return (genes)


# найдём кодирующие участки
gen = koding(strep)

# найдем количество кодирующих участков
numgen = len(gen)


def transcription(a):
    '''принимает последовательность ДНК, возвращает последовательность РНК'''
    tt = ''
    for i in range(0, len(a)):
        # добавляем в последовательность РНК комплементарный нуклеотид
        if a[i] == 'A':
            tt += 'U'
        elif a[i] == 'G':
            tt += 'C'
        elif a[i] == 'T':
            tt += 'A'
        elif a[i] == 'C':
            tt += 'G'
    return (tt)


amin = {
    'Ala': ('GCT', 'GCC', 'GCA', 'GCG'),
    'Cys': ('TGT', 'TGC'),
    'Asp': ('GAT', 'GAC'),
    'Glu': ('GAA', 'GAG'),
    'Phe': ('TTT', 'TTC'),
    'Gly': ('GGT', 'GGC', 'GGA', 'GGG'),
    'Ile': ('ATT', 'ATC', 'ATA'),
    'His': ('CAT', 'CAC'),
    'Lys': ('AAA', 'AAG'),
    'Leu': ('TTA', 'TTG', 'CTT', 'CTC', 'CTA', 'CTG'),
    'Met': ('ATG'),
    'Asn': ('AAT', 'AAC'),
    'Pro': ('CCT', 'CCC', 'CCA', 'CCG'),
    'Gln': ('CAA', 'CAG'),
    'Arg': ('CGT', 'CGC', 'CGA', 'CGG', 'AGA', 'AGG'),
    'Ser': ('TCT', 'TCC', 'TCA', 'TCG', 'AGT', 'AGC'),
    'Thr': ('ACT', 'ACC', 'ACA', 'ACG'),
    'Val': ('GTT', 'GTC', 'GTA', 'GTG'),
    'Trp': ('TGG'),
    'Tyr': ('TAT', 'TAC'),
    'STOP': ('TAA', 'TAG', 'TGA'), }


def translation(a):
    '''принимает последовательность ДНК,
    возвращает первичную структуру белка'''
    triplets = [a[i:i + 3] for i in range(0, len(a), 3)]
    # разбиваем последовательность на триплеты
    protein = ''
    for i in triplets:
        for n in amin.keys():
            # ищем в словаре аминокислот ту, что соответствует данному триплету
            if i in amin[n]:
                protein += ' '
                protein += n
    return (protein)


proteins = []
for i in gen:
    # найдем первичную структуру белка для каждого из генов
    proteins.append(translation(i))


def non_coding(dna, genes):
    '''принимает последовательность ДНК и список последовательностей генов,
    возвращает длину некодирующих элементов'''
    gen = 0
    for i in genes:
        # считаем общую длину всех некодирующих участков
        # и их процентное содержание
        gen += len(i)
    return (len(dna) - gen, (len(dna) - gen)/len(dna))


# найдём длину некодирующих участков
# и их процентное содержание
noncod = non_coding(strep, gen)


def gene_length(gen):
    # функция для счёта длины гена
    '''принимает последовательность гена, возвращает его длину'''
    return (len(gen))


cod = []
for i in gen:
    # найдем длину каждого кодирующего участка
    cod.append(gene_length(i))

# найдем длину всех кодирующих участков
allcod = sum(cod)

hy = {
    'phobe': ['Ala', 'Gly', 'Phe', 'Val', 'Ile', 'Leu', 'Pro', 'Met', 'Trp'],
    'philic': ['Asn', 'Ser', 'Gln', 'Cys', 'Thr', 'Tyr']}


def phobephilic(a):
    '''принимает последовательность белка,
    возвращает его гидрофильность/гидрофобность'''
    phob = 0
    phil = 0
    for i in a.split():
        # проверяем, гидрофильна или гидрофобна аминокислота
        if i in hy['phobe']:
            phob += 1
        elif i in hy['philic']:
            phil += 1
    # определяем, гидрофильный или гидрофобный белок
    if phob > phil:
        return ('Белок гидрофобный')
    else:
        return ('Белок гидрофильный')


shape = {
    'Turn': ['Pro', 'Asn', 'Gly', 'Ser'],
    'Sheet': ['Glu', 'Met', 'Ala', 'Leu'],
    'Helix': ['Val', 'Ile', 'Tyr', 'Phe', 'Trp', 'Leu']}


def form(a):
    '''принимает последовательность белка,
    возвращает его вторичную структуру'''
    turn = 0
    sheet = 0
    helix = 0
    for i in a.split():
        # определяем, какой вторичной структуре соответствует аминокислота
        if i in shape['Turn']:
            turn += 1
        elif i in shape['Sheet']:
            sheet += 1
        else:
            helix += 1
    # определяем, какую вторичную структуру имеет весь белок
    if turn >= sheet and turn >= helix:
        return ('Бета-поворот')
    elif sheet >= turn and sheet >= helix:
        return ('Бета-слой')
    else:
        return ('Альфа-спираль')


# отделяем три случайных белка
pro = proteins[4:7]

ff = []
for i in pro:
    # определим, гидрофобный или гидрофильный каждый из трёх белков
    ff.append(phobephilic(i))

forms = []
# определим вторичные структуры выбранных белков
for i in pro:
    forms.append(form(i))

print(f'Исследуемый геном: Streptomyces avermitilis\n')
print(f'ГЦ-состав молекулы ДНК бактерии Streptomyces avermitilis\
 равен {round(gc * 100)}%')
print(f'Последовательности кодирающих участков:', *gen)
print(f'Количество кодирующих участков: {len(gen)}')
print(f'Длина некодирующих участков: {noncod[0]},\
 их процентное содержание: {round(noncod[1]*100)}%')
print(f'Длина кодирующих участков: {allcod}')
print(f'Количество кодирующих участков: {numgen}')
print(f'Последовательности белков, закодированных\
 в найденных генах:', *proteins)
print(f'Последовательности выбранных трёх белков: {pro}')
print(f'Вторичные структуры выбранных белков:', *forms)
print(f'Гидрофобность/гидрофильность выбранных белков:', *ff)
