# Задачи поиска
Представлены основные алгоритмы поиска.


## Поиск ДНК
При компьютерной обработке гены обычно представляются последовательностью символов A, C, G, T, обозначающих **нуклеотиды**: *аденин, цитозин, гуанин, тимин*. Комбинация трех нуклеотидов образует **кодон**. Кодон кодирует конкретную аминокислоту. Комбинация аминокислот образует белок.  

Классическая задача в биоинформатике - найти определенный кодон в гене.

In [21]:
# хранение ДНК
# IntEnum дает возможность использовать операторы сравнения
from enum import IntEnum

Nucleotide = IntEnum('Nucleotide', ('A', 'C', 'G', 'T'))

# Кодон - кортеж из трех элементов
# Codon = tuple(Nucleotide, Nucleotide, Nucleotide)
# Ген - список кодонов
# Gene = list(Codon)

def string_to_gene(string):
    gene = []
    n = len(string)
    
    for i in range(0, n, 3):
        if (i+2) >= n:
            # остался один или два нуклеотида (кодон не образуется)
            return gene
        
        codon = (Nucleotide[string[i]], Nucleotide[string[i+1]], Nucleotide[string[i+2]])
        gene.append(codon) # добавить кодон в ген
    return gene

Позже нужно будет сравнивать кодоны между собой. Но в Python реализована поддержка сравнения кортежей, состоящих из типов, которые можно сравнивать. IntEnum можно сравнивать.

In [24]:
str_gene_example = 'ACTGCCGTACATAGC' # ACT GCC GTA CAT AGC
gene_example = string_to_gene(str_gene_example)
print(f'Преобразованная в ген строка: {gene_example}')

Преобразованная в ген строка: [(<Nucleotide.A: 1>, <Nucleotide.C: 2>, <Nucleotide.T: 4>), (<Nucleotide.G: 3>, <Nucleotide.C: 2>, <Nucleotide.C: 2>), (<Nucleotide.G: 3>, <Nucleotide.T: 4>, <Nucleotide.A: 1>), (<Nucleotide.C: 2>, <Nucleotide.A: 1>, <Nucleotide.T: 4>), (<Nucleotide.A: 1>, <Nucleotide.G: 3>, <Nucleotide.C: 2>)]


In [26]:
# линейный поиск
def linear_search(current_gene, searching_codon):
    for i  in range(len(current_gene)):
        if current_gene[i] == searching_codon:
            return i, current_gene[i]
    return None


example_searching_codon = (Nucleotide['C'], Nucleotide['A'], Nucleotide['T'])
linear_search(gene_example, example_searching_codon)

(3, (<Nucleotide.C: 2>, <Nucleotide.A: 1>, <Nucleotide.T: 4>))

Суть линейного поиска - перебор исходной структуры данных до тех пор, пока не будет найден искомый элемент или не достигнут конец структуры (в последнем случае будет доказано, что искомый элемент отсутствует).