# DNA Suche
- Abfolge von A, C, G, T (Nukleotid)
- 3 Nukleotide werden Codon genannt
- Ein Codon ist eine bestimmte Aminosäure
- Aminosäuren beschreiben in Kombination ein Protein
- Klassische Aufgabe der Bioinformatik: Bestimmtes Codon innerhalb eines Genes zu finden
---

## DNA Speichern
- IntEnum stellt Vergleichsoperationen bereit

In [1]:
from enum import IntEnum
from typing import Tuple, List
Nucleotide: IntEnum = IntEnum('Nucleotide', ('A', 'C', 'G', 'T'))
Codon = Tuple[Nucleotide, Nucleotide, Nucleotide] # Typ-Alias für Codons
Gene = List[Codon] # Typ-Alias für Gene
gene_str: str="ACGGATTAGTACTGGATAT"
def string_to_gene(s: str) -> Gene:
    gene: Gene = []
    for i in range(0, len(s), 3):
        if (i + 2) >= len(s): 
            return gene
        codon: Codon = (Nucleotide[s[i]], Nucleotide[s[i+1]], Nucleotide[s[i+2]])
        gene.append(codon)
    return gene
my_gene: Gene = string_to_gene(gene_str)

---
## Lineare Suche
- Wir wollen in einem Gen ein bestimmtes Codon suchen
- ZieL: Existiert Codon?
- Lineare Suche durchwandert eine Datenstruktur bis das Element gefunden wurde oder das Ende erreicht wurde
- Komplexität: O(n) für n Elemente in der Datenstruktur

In [2]:
def linear_contains(gene: Gene, key_codon: Codon) -> bool:
    for codon in gene:
        if codon == key_codon:
            return True
    return False

acg: Codon = (Nucleotide.A, Nucleotide.C, Nucleotide.G)
gat: Codon = (Nucleotide.G, Nucleotide.A, Nucleotide.T)
print(linear_contains(my_gene, acg))
print(linear_contains(my_gene, gat))

True
True


---
## Binärsuche
- Wir müssen wissen dass die Datenstruktur sortiert ist
- Komplexität: O(lg n)
    - ABER: Da eine sortierte Liste benötigt wird, muss die Zeit zum Sortieren der Komplexität hinzugefügt werden
    - Komplexität mit Sortierung: O(n lg n)
### Beispiel
- Liste mit alphabetisch sortierten Wörtern:
    - ["Hund", "Känguru", "Katze", "Lama", "Marder", "Ratte", "Zebra"]
- Abfolge:
    1. Mittleres Element finden ["Lama"] in unserem Beispiel
    2. Ratte kommt Alphabetisch nach Lama, sodass nur noch die 2. Hälfe der Liste betrachtet werden muss
    3. Die Schritte 1. und 2. wiederholen solange bis Ratte gefunden wird oder die Datenstruktur keine Elemente mehr enthält

In [3]:
def binary_contains(gene: Gene, key_codon: Codon) -> bool:
    low: int = 0
    high: int = len(gene) - 1
    while low <= high: #solange es noch einen Suchraum gibt
        mid: int = (low + high) // 2
        if gene[mid] < key_codon:
            low = mid + 1
        elif gene[mid] > key_codon:
            high = mid - 1
        else:
            return True
    return False

my_sorted_gene: Gene = sorted(my_gene)
print(binary_contains(my_sorted_gene, acg))
print(binary_contains(my_sorted_gene, gat))

True
True


---
## Generische Suche
- Dient der Verallgemeinerung der Suche für jegliche Python-Folgen  

In [4]:
from __future__ import annotations
from typing import TypeVar, Iterable, Sequence, Generic, List, Callable, Set, Deque, Dict, Any, Optional, Protocol
from heapq import heappush, heappop 

T = TypeVar('T')

def linear_contains(iterable: Iterable[T], key: T) -> bool:
    for item in iterable:
        if item == key:
            return True
    return False

C = TypeVar('C', bound='Comparable')
class Comparable(Protocol):
    def __eq__(self, other: Any) -> bool:
        ...
    def __lt__(self, other: Any) -> bool:
        ...
    def __gt__(self, other: Any) -> bool:
        return (not self < other) and self != other
    def __le__(self, other: Any) -> bool:
        return self < other or self == other
    def __ge__(self, other: Any) -> bool:
        return not self < other

def binary_contains(sequence: Sequence[C], key: C) -> bool:
    low: int = 0
    high: int = len(sequence) - 1
    while low <= high: #solange es noch einen Suchraum gibt
        mid: int = (low + high) // 2
        if sequence[mid] < key:
            low = mid + 1
        elif sequence[mid] > key:
            high = mid - 1
        else:
            return True
    return False

if __name__ == "__main__":
    print(linear_contains([1, 5, 10, 15, 15, 15, 15, 20], 5)) # True
    print(binary_contains(["a", "d", "e", "f", "z"], "f")) # True
    print(binary_contains(["john", "mark", "ronald", "sarah"], "sheila")) # False

True
True
False
