# Der Bibelcode

### Einführung


1997 hat ein Buch des Journalisten Michael Drosnin grosse Aufmerksamkeit erregt. Das Buch mit dem Namen *Bible code* postuliert, dass in der Bibel (genauer gesagt in der Tora) versteckte Botschaften codiert sind. Diese Botschaften sind durch equidistante Folgen von Zeichen codiert, wie im folgenden Bild gezeigt ist (Quelle: Wikipedia)
<figure style="align:center">
    <img src="images/bible-code.png" width=200px/>
</figure>

In dieser Fallstudie werden wir überprüfen, ob wir auch in anderen Werken solche Botschaften finden. Wir nutzen dazu das Buch Krieg und Frieden von Leo Tolstoy, welches frei auf [Projekt Gutenberg](https://www.gutenberg.org) verfügbar ist. 

### Aufgabe

Unser Ziel ist es in einem Text alle als *Bible code* versteckten Wörter zu finden welche in einem Wörterbuch vorkommen. Dabei ist der Text in einer einfachen `.txt`-Datei gegeben und das Wörterbuch als eine `.json`-Datei.

### Problem Analyse und Zerlegung

Wir wollen als erstes das ganze Problem in Teilprobleme zerlegen. Dabei sollen die Teilprobleme einfach zu implementieren sein und sich auch gut zur gesamten Lösung zusammensetzten lassen.

Überlegen Sie sich Teilprobleme und ergänzen Sie die Liste damit. Die Teilprobleme sollten einfach als Funktion zu implementieren sein.

- Einlesen des Textes aus einer .txt-Datei.
- Einlesen eines Wörterbuches aus einer .json-Datei.
- ...
- ...

### Vorbereiten der Daten

Als Erstes wollen wir die Vorverarbeitung der Daten erstellen. Wir wollen unsere Chancen auf einen Treffer erhöhen indem wir von einem Text möglichst nur die Buchstaben behalten. Dazu schreiben wir uns eine erste Hilfsfunktion. Diese soll: 
- auf Basis eines übergebenen Textes einen neuen Text erstellen.
- möglichst nur Buchstaben behalten.
- die Buchstaben in Kleinbuchstaben umwandeln.

In [1]:
def clean_text(text):
    pass

Da wir all unseren Code den wir schreiben immer auch testen sollen, rufen wir die Funktion mit einem einfachen Text auf. Wir schauen dann ob die Funktion das tut was wir erwarten.

In [2]:
clean_text("Eine Frage? ein Ausrufezeichen! und ein Punkt.")

### Text laden
Als nächstes wollen wir das laden des Textes aus einem File implementieren. Auch dazu schreiben wir uns eine Funktion welche den Inhalt des Files `war-and-peace.txt` laden soll. Der Text soll dann gleich noch von Sonderzeichen befreit werden.

In [5]:
def load_preprocessed_text():
    pass

Test wir doch auch diese Funktion gleich indem wir die ersten 100 Zeichen ausgeben.

In [6]:
load_preprocessed_text()[0:100]

TypeError: 'NoneType' object is not subscriptable

### Äquidistante Buchstaben
Ein weiteres Teilproblem ist, dass wir an einer Stelle eines Textes ein Wort extrahieren können mit einer gegebener Distanz der Buchstaben. Dafür schreiben wir uns eine Funktion, welche:
- ab einer gegebenen Position `start_position` Buchstaben aus dem Text `text` extrahiert.
- wenn möglich `number_of_letters` Buchstaben mit Distanz `distance` extrahiert.
- die extrahierten Buchstaben als neues Wort zurückgibt.

In [5]:
def equidistant_letter_seq(text, start_position, number_of_letters, distance):
    pass # calculate end_position
    
    # Der dritte Parameter in range-Aufruf ist, um wieviel erhöht wird
    # für das nächste Element. Ohne diesen würde jeweils um 1 erhöht.
    character_positions = range(start_position, end_position, distance)
    
    pass # extract the word

Testen! Ja, auch diese Funktion testen wir.

In [6]:
equidistant_letter_seq("Der Mond ist aufgegangen", 2, 5, 3)

'ro tu'

### Mögliche Startpositionen

Nun können wir durch einen Text gehen, und schauen wo der Anfangsbuchstaben eines zu suchenden Wortes vorkommt. So wissen wir wo im Text wir überhaupt suchen müssen.

In [7]:
def locate_char_in_text(text, character):
    pass

Auch diese Funktion können wir ganz einfach kurz testen.

In [8]:
locate_char_in_text("Abba bringt brandneue Tonbändchen auf den Markt.", 'b')

[1, 2, 5, 12, 25]

### Ist das Wort gefunden?

Als nächstes wollen wir in einem Text nachschauen ob an einer bestimmten Position mit einer bestimmten Distanz zwischen den Buchstaben ein Wort vorkommt. Die Funktion soll also nur die Wahrheitswerte `True` oder `False` zurück geben.

In [9]:
def word_is_found(text, word_to_search, start_pos, distance):
    pass

Genau - wir wollen die Funktion testen.

In [10]:
word_is_found("foo p y t h o n bar", "python", 4, 2)

True

### Der Fundort
Wenn wir ein Wort gefunden haben, dann wollen wir uns ein paar Dinge merken. Dafür verwenden wir eine ganz simple Klasse. Die Klasse soll das gefundene Wort, die Anfangsposition sowie die Distanz zwischen den Buchstaben speichern. Zudem soll die Klasse sich noch einfach über eine `print` Methode auf die Konsole ausgeben lassen.

In [11]:
class WordOccurrence:
    pass

Testen? - Na gut ....

In [12]:
match = WordOccurrence("love", 7, 42)
match.print()

found word "love" at position 7 with distance 42


### Suchen
Jetzt können wir viele unserer Teile zusammenfügen und in einem Text alle vorkommen eines Wortes mit einer bestimmten Distanz zwischen den Buchstaben suchen.

In [13]:
def find_word_with_distance(text, word_to_search, distance):
    pass

Ok - sag nichts! Ich teste ja schon...

In [14]:
matches = find_word_with_distance("ein Text mit kleinen Geheimnissen", "emknG", 4)
matches[0].print()

found word "emknG" at position 5 with distance 4


### Ausgabe

Wir wollen noch die Ausgabe von einer Liste von gefundenen Wörtern vereinfachen. Dazu schreiben wir - genau - auch wider eine Funktion.

In [15]:
def print_occurences(found_occurences):
    print("{} occurences found".format(len(found_occurences)))
    for word_info in found_occurences:
        word_info.print()


Testen obligatorisch!

In [16]:
pass # rufen Sie zum Testen hier die Methode auf, sie können dafür die Variable matches verwenden

1 occurences found
found word "emknG" at position 5 with distance 4


### Die erste Anwendung
Endlich können wir nun auch eine Anwendung schreiben und nachschauen ob `corona` im Text vorkommt.

In [17]:
text = load_preprocessed_text()
word_to_find = "corona"
distance = 2
found_words = find_word_with_distance(text, word_to_find, distance)
print_occurences(found_words)


0 occurences found


Wir können natürlich nicht nur nach Distanz 2, sondern nach mehreren Distanzen suchen. Oder wir können nach anderen Wörtern suchen. Passen Sie das Programm so an, dass das Wort jeweils für Distanzen von 15 bis (ohne) 25 gesucht wird.

In [18]:
text = load_preprocessed_text()
word_to_find = "corona"
#word_to_find = "soccer"
#word_to_find = "dinner"
distance = 2 # wir wollen mehrere Distanzen testen 15-25
found_words = find_word_with_distance(text, word_to_find, distance)
print_occurences(found_words)


0 occurences found
0 occurences found
0 occurences found
0 occurences found
1 occurences found
found word "corona" at position 2493083 with distance 19
0 occurences found
0 occurences found
1 occurences found
found word "corona" at position 1207766 with distance 22
0 occurences found
0 occurences found


## Die letzten Schritte zum Ziel

Zuletzt wollen wir noch unsere Aufgabe vom Anfang angehen. Wir wollen herausfinden welche Wörter aus einem Dictionary es gibt, die als solche Equidistant Letter Sequences vorkommen. Dazu müssen wir zuerst noch ein Dictionary laden können. Benutzen Sie die gegebene Funktion und geben Sie aus, wieviele Worte im Dictionary sind.

In [1]:
def load_dictionary():
    import json
    f = open("dictionary.json", "r")
    dictionary = json.load(f)
    f.close()
    return dictionary

# Testen Sie die Funktion hier und geben Sie aus wieviele Worte im Dictionary sind.
pass

102217 words loaded into the dictionary


Wir schreiben uns nun noch eine etwas andere Suchfunktion um diese Aufgabe effizienter zu lösen.

In [20]:
def find_all_words(text, dictionary, word_length, distance):
    pass

# Wir wissen was raus kommen sollte...
dictionary = load_dictionary()
print_occurences(find_all_words("foo p y t h o n bar", dictionary, 6, 2))

1 occurences found
found word "python" at position 4 with distance 2


Und nun die Anwendung die uns alle gefundenen Wörter mit bestimmten Längen und Distanzen rausschreibt, welche auch in einem Dictionary stehen.

In [21]:
text = load_preprocessed_text()
dictionary = load_dictionary()
for word_length in range(8, 11):
    for distance in range(3, 6):
        print("checking words of length {} with distance {} ...".format(word_length, distance))
        found_words = find_all_words(text, dictionary, word_length, distance)
        print_occurences(found_words)


checking words of length 8 with distance 3 ...
3 occurences found
found word "hematoma" at position 224367 with distance 3
found word "tethydan" at position 824229 with distance 3
found word "oscinine" at position 920755 with distance 3
checking words of length 8 with distance 4 ...
4 occurences found
found word "oratorio" at position 423407 with distance 4
found word "aerolite" at position 866327 with distance 4
found word "crannied" at position 1737674 with distance 4
found word "hesitate" at position 2061381 with distance 4
checking words of length 8 with distance 5 ...
5 occurences found
found word "entender" at position 174061 with distance 5
found word "biometry" at position 181727 with distance 5
found word "direness" at position 1204932 with distance 5
found word "sepiment" at position 1219818 with distance 5
found word "intonate" at position 1271553 with distance 5
checking words of length 9 with distance 3 ...
0 occurences found
checking words of length 9 with distance 4 ...


Die Fallstudie ist nun zu Ende. Wenn Sie Spass daran haben, dann können Sie die Fallstudie gerne noch erweitern. Einige Idee sind:
- Sammeln Sie alle Wörter um Doppelte auszusortieren und eine "saubere" Liste auszugeben.
- Geben Sie die Liste alphabetisch sortiert aus.
- Verbessern Sie die Aufbereitung des Textes und eliminieren Sie alle Zeichen ausser Buchstaben.
- Was kommt Ihnen noch für eine Erweiterung in den Sinn?

Viel Erfolg!