# Fallstudie 2 - Anagramm Detektion
Ein gutes Beispielproblem f√ºr die Darstellung von Algorithmen mit unterschiedlichen Gr√∂√üenordnungen ist das klassische Anagramm f√ºr Zeichenketten. Eine Zeichenfolge ist ein **Anagramm** einer anderen, wenn die zweite einfach eine Umordnung oder Permutation der ersten ist. Zum Beispiel sind *'Geburt'*, *Erbgut* und *'Betrug'* Anagramme. Die Zeichenfolgen *'Python'* und *'Typhon'* sind ebenfalls Anagramme. Der Einfachheit halber gehen wir davon aus, dass die beiden fraglichen Zeichenfolgen gleich lang sind und dass sie aus Symbolen aus der Menge der 26 Kleinbuchstaben des Alphabets bestehen. Unser Ziel ist es, eine boolesche Funktion zu schreiben, die zwei Zeichenketten nimmt und zur√ºckgibt, ob sie Anagramme sind.

## Funktionale Spezifikation
**Eingabe:** $W=(w_1,...,w_n), V=(v_1,...,v_n)$ sind Folgen von Buchstaben.

**Ausgabe:** *ist_anagram* $\in \{true,false\}$ mit

**Funktionaler Zusammenhang** *ist_anagram* $\iff \Pi(W) = V$, d.h. $V$ ist eine Umordnung $\Pi$ (Permutation) der Buchstaben von $W$, d.h. $\forall w_i \in W, \exists $ *genau ein* $ v_j \in V$  mit $w_i=v_j$

## L√∂sung 1: Abhaken von Buchstaben
Unsere erste L√∂sung des Anagramm-Problems pr√ºft die L√§ngen der Zeichenketten und dann, ob jedes Zeichen in der ersten Zeichenkette tats√§chlich in der zweiten vorkommt. Wenn es m√∂glich ist, jedes Zeichen "abzuhaken", dann m√ºssen die beiden Zeichenketten Anagramme sein. Das Auschecken eines Zeichens wird durch Ersetzen durch den speziellen Python-Wert None erreicht. Da jedoch Zeichenketten in Python unver√§nderlich sind, besteht der erste Schritt in diesem Prozess darin, die zweite Zeichenkette in eine Liste zu konvertieren. Jedes Zeichen aus der ersten Zeichenfolge kann gegen die Zeichen in der Liste gepr√ºft und, falls gefunden, durch Ersetzen abgehakt werden.

In [1]:
def anagramSolution1(s1,s2):
    stillOK = True
    if len(s1) != len(s2):
        stillOK = False

    alist = list(s2)
    #print(alist)
    pos1 = 0

    while pos1 < len(s1) and stillOK:
        pos2 = 0
        found = False
        while pos2 < len(alist) and not found:
            if s1[pos1] == alist[pos2]:
                found = True
            else:
                pos2 = pos2 + 1

        if found:
            alist[pos2] = None
        else:
            stillOK = False

        pos1 = pos1 + 1

        #print(alist)
    return stillOK

# TEST IT
s1 = "apple"
s2 = "pleap"
s3 = "fleap"
print("Test von",s1,"und",s2,"auf Permutation ist",anagramSolution1(s1,s2))
print("Test von",s1,"und",s3,"auf Permutation ist",anagramSolution1(s1,s3))


Test von apple und pleap auf Permutation ist True
Test von apple und fleap auf Permutation ist False


### Analyse: Der Algorithmus ben√∂tigt $ùëÇ(ùëõ^2)$
Um diesen Algorithmus zu analysieren, m√ºssen wir beachten, dass jedes der $n$ Zeichen in s1 eine Iteration durch bis zu $n$ Zeichen in der Liste von s2 verursacht. Jede der $n$ Positionen in der Liste wird einmal besucht, um ein Zeichen aus s1 zu finden. Die Anzahl der Besuche wird dann zur Summe der ganzen Zahlen von $1$ bis $n$. Wir haben bereits erw√§hnt, dass dies geschrieben werden kann als $\sum\limits_{i=0}^{n}i=\frac{n(n+1)}{2}$. Wenn $n$ gro√ü wird, wird der Term $n^2$ den Term $n$ dominieren und der Faktor $\frac{1}{2}$ kann ignoriert werden. Daher lautet die L√∂sung $ùëÇ(ùëõ^2)$.


## L√∂sung 2: Sortieren und Vergleichen
Eine andere L√∂sung des Anagrammproblems wird sich die Tatsache zunutze machen, dass s1 und s2 zwar unterschiedlich sind, aber nur dann Anagramme sind, wenn sie aus **exakt denselben Zeichen** bestehen. Wenn wir also damit beginnen, jede Zeichenfolge alphabetisch von a bis z zu sortieren, werden wir am Ende die gleiche Zeichenfolge erhalten, wenn die beiden urspr√ºnglichen Zeichenfolgen Anagramme sind. Das folgende Listing zeigt diese L√∂sung. Auch hier k√∂nnen wir in Python die eingebaute Sortiermethode f√ºr Listen verwenden, indem wir einfach jede Zeichenfolge am Anfang in eine Liste umwandeln.

In [2]:
def anagramSolution2(s1,s2):
    alist1 = list(s1)
    alist2 = list(s2)

    alist1.sort()
    alist2.sort()
    
    #print(alist1)
    #print(alist2)
    
    pos = 0
    matches = True

    while pos < len(s1) and matches:
        if alist1[pos]==alist2[pos]:
            pos = pos + 1
        else:
            matches = False

    return matches

# TEST IT
s1 = "regen"
s2 = "reagan"
s3 = "genre"
print("Test von",s1,"und",s2,"auf Permutation ist",anagramSolution2(s1,s2))
print("Test von",s1,"und",s3,"auf Permutation ist",anagramSolution2(s1,s3))

Test von regen und reagan auf Permutation ist False
Test von regen und genre auf Permutation ist True


### Analyse: Der Algorithmus ben√∂tigt $O(n^2)$ bzw. $O(n \log{n})$ 
Auf den ersten Blick mag man versucht sein, diesen Algorithmus f√ºr $O(n)$ zu halten, da es eine einfache Iteration gibt, um die n Zeichen nach dem Sortiervorgang zu vergleichen. Die beiden Aufrufe der Python-Sortiermethode sind jedoch nicht ohne eigene Kosten. Wie wir in einem sp√§teren Kapitel sehen werden, ist die Sortierung typischerweise entweder $O(n^2)$ oder $O(n \log{n})$, so dass die Sortieroperationen die Iteration dominieren. Letztendlich hat dieser Algorithmus die gleiche Gr√∂√üenordnung wie die des Sortiervorgangs.

## L√∂sung 3: Brute Force
Eine Brute-Force-Technik zur L√∂sung eines Problems versucht typischerweise, alle M√∂glichkeiten zu berechnen und aus diesen die korrekte L√∂sung zu ermitteln. F√ºr schwierige Probleme ist dies oft der einzige L√∂sungsansatz. F√ºr unser Anagram-Problem k√∂nnen wir eine Liste aller m√∂glichen Zeichenketten unter Verwendung der Zeichen aus s1 erzeugen und dann pr√ºfen, ob s2 auftritt. 

In [3]:
# swap ith and jth character of string
def swap(s, i, j):
    q = list(s)
    q[i], q[j] = q[j], q[i]
    return ''.join(q)


# recursive function 
def _permute(p, s, permutes):
    if p >= len(s) - 1:
        permutes.append(s)
        return

    for i in range(p, len(s)):
        _permute(p + 1, swap(s, p, i), permutes)


# helper function
def permute(s):
    permutes = []
    _permute(0, s, permutes)
    return permutes


def anagramSolution3(s1,s2):
    all_permute = permute(s1)
    for s in all_permute:
        #print(s,'=?=',s2)
        if s == s2:
            return True
    return False

# TEST IT
s1 = "regen"
s2 = "reagan"
s3 = "genre"
print("Test von",s1,"und",s2,"auf Permutation ist",anagramSolution3(s1,s2))
print("Test von",s1,"und",s3,"auf Permutation ist",anagramSolution3(s1,s3))

Test von regen und reagan auf Permutation ist False
Test von regen und genre auf Permutation ist True


### Analyse: Der Algorithmus ben√∂tigt $O(n!)$
Allerdings gibt es bei diesem Ansatz eine Schwierigkeit. Bei der Generierung aller m√∂glichen Zeichenketten aus s1 gibt es $n$ m√∂gliche erste Zeichen, $n-1$ m√∂gliche Zeichen f√ºr die zweite Position, $n-2$ m√∂gliche Zeichen f√ºr die dritte Position, und so weiter. Die Gesamtzahl der m√∂glichen Zeichenketten ist $n \cdot (n-1)\cdot (n-2) \cdot ... \cdot 3 \cdot 2 \cdot 1 = n!$. Obwohl einige der Zeichenketten Duplikate sein k√∂nnen, kann das Programm dies nicht im Voraus wissen, und so wird es immer $n!$ verschiedene Zeichenketten erzeugen.
Es stellt sich heraus, dass ùëõ! sogar noch schneller w√§chst als 2ùëõ, wenn n gro√ü wird. In der Tat, wenn s1 20 Zeichen lang w√§re, g√§be es $20!=2.432.902.008.176.640.000$ m√∂gliche Permutationen. Wenn wir jede Sekunde eine M√∂glichkeit bearbeiten w√ºrden, br√§uchten wir immer noch $77.146.816.596$ Jahre, um die gesamte Liste durchzugehen. Dies wird wahrscheinlich keine gute L√∂sung sein.

## L√∂sung 4: Z√§hle und Vergleiche
Unsere endg√ºltige L√∂sung des Anagrammproblems macht sich die Tatsache zunutze, dass zwei beliebige Anagramme die gleiche Anzahl von a's, die gleiche Anzahl von b's, die gleiche Anzahl von c's usw. haben. Um zu entscheiden, ob zwei Zeichenketten Anagramme sind, z√§hlen wir zun√§chst, wie oft jedes Zeichen vorkommt. Da es 26 m√∂gliche Zeichen gibt, k√∂nnen wir eine Liste von 26 Z√§hlern verwenden, einen f√ºr jedes m√∂gliche Zeichen. Jedes Mal, wenn wir ein bestimmtes Zeichen sehen, werden wir den Z√§hler an dieser Position inkrementieren. Wenn die beiden Listen von Z√§hlern identisch sind, m√ºssen die Zeichenketten letztlich Anagramme sein.

In [4]:
def anagramSolution4(s1,s2):
    c1 = [0]*26
    c2 = [0]*26

    for i in range(len(s1)):
        pos = ord(s1[i])-ord('a')
        c1[pos] = c1[pos] + 1

    for i in range(len(s2)):
        pos = ord(s2[i])-ord('a')
        c2[pos] = c2[pos] + 1

    j = 0
    stillOK = True
    #print(c1)
    #print(c2)
    while j<26 and stillOK:
        if c1[j]==c2[j]:
            j = j + 1
        else:
            stillOK = False

    return stillOK

# TEST IT
s1 = "apple"
s2 = "pleap"
s3 = "fleap"
print("Test von",s1,"und",s2,"auf Permutation ist",anagramSolution4(s1,s2))
print("Test von",s1,"und",s3,"auf Permutation ist",anagramSolution4(s1,s3))

Test von apple und pleap auf Permutation ist True
Test von apple und fleap auf Permutation ist False


### Analyse: Der Algorithmus ben√∂tigt $O(n)$
Auch hier hat die L√∂sung eine Reihe von Schleifen. Im Gegensatz zur ersten L√∂sung sind jedoch keine von diesen verschachtelt. Die ersten beiden Schleifen, die zum Z√§hlen der Zeichen verwendet werden, laufen beide bis $n$. Die dritte Schleife, bei der die beiden Z√§hllisten verglichen werden, erfolgt immer in 26 Schritten, da es 26 m√∂gliche Zeichen in den Zeichenketten gibt. Wenn wir alles zusammenz√§hlen, erhalten wir $T(n)=2n+26$ Schritte. Das ist $O(n)$. Wir haben einen Algorithmus mit *linearer Gr√∂√üenordnung* gefunden, um dieses Problem effizient zu l√∂sen.

Bevor wir dieses Beispiel verlassen, m√ºssen wir noch etwas √ºber den Platzbedarf sagen. Obwohl die letzte L√∂sung in linearer Zeit ablaufen konnte, war dies nur m√∂glich, wenn *zus√§tzlicher* Speicherplatz f√ºr die beiden Listen mit den Zeichenzahlen verwendet wurde. Mit anderen Worten, dieser Algorithmus opferte Platz, um Zeit zu gewinnen. Dies ist bei vielen effizienten L√∂sungen ein erkaufter Kompromiss. Bei vielen Gelegenheiten werden Sie Entscheidungen zwischen zeitlichen und r√§umlichen Kompromissen treffen m√ºssen. In diesem Fall ist die Menge an zus√§tzlichem Speicherplatz nicht signifikant. H√§tte das zugrundeliegende Alphabet jedoch Millionen von Zeichen, g√§be es mehr Bedenken. Wenn Ihnen als Informatiker die Wahl der Algorithmen √ºberlassen wird, liegt es an Ihnen, die beste Nutzung der Computerressourcen f√ºr ein bestimmtes Problem zu bestimmen.