# Die Bibliothek von Babel – Algorithmen der Textgenerierung

**Georg Trogemann <br>
Kunsthochschule für Medien Köln**

www.GeorgTrogemann.de <br>
https://ground-zero.khm.de/


Tagung: Digitale Hermeneutik: Maschinen, Verfahren, Sinn <br>
Fernuniversität in Hagen, 30.06.2022



#### Übersicht

1. [ ] Die Bibliothek von Babel
2. [ ] Brion Gysin - Permutationen   
3. [ ] Markov-Ketten
4. [ ] Transformer-Netze
5. [ ] OpenAI Codex
6. [ ] Die Codierung von Bedeutung - WordVecs und Positional Endcoder
7. [ ] Verstehen & Algorithmus
8. [ ] Bias



<br>
<br>
<br>
<br>

# Die Bibliothek von Babel


Die Kurzgeschichte **"Die Bibliothek von Babel"** des argentinischen Schriftstellers **Jorge Luis Borges** erschien erstmals 1941 in dem Band **"Der Garten der Pfade, die sich verzweigen"**, der später als erster Teil der Fiktionen veröffentlicht wurde. Die Geschichte beginnt mit der Beschreibung einer Welt, die seit Anbeginn der Zeit existiert und in der alle Menschen als Bibliothekare in einer wabenförmigen Welt leben.


    "Das Universum (das andere die Bibliothek nennen) setzt sich aus einer unbegrenzten und vielleicht unendlichen Zahl sechseckiger Galerien zusammen, mit weiten Entlüftungsschächten in der Mitte, die mit sehr niedrigen Geländern eingefaßt sind. Von jedem Sechseck aus kann man die unteren und oberen Stockwerke sehen: ohne ein Ende. Die Anordnung der Galerien ist unwandelbar dieselbe. Zwanzig Bücherregale, fünf breite Regale auf jeder Seite, verdecken alle Seiten außer zweien: ihre Höhe, die sich mit der Höhe des Stockwerks deckt, übertrifft nur wenig die Größe eines normalen Bibliothekars. Eine der freien Wände öffnet sich auf einen schmalen Gang, der in eine andere Galerie, genau wie die erste, genau wie alle, einmündet. [...] "

    "Auf jede Wand jeden Sechsecks kommen fünf Regale jedes Regal faßt zweiunddreißig Bücher gleichen Formats, jedes Buch besteht aus vierhundertzehn Seiten, jede Seite aus vierzig Zeilen, jede Zeile aus etwa achtzig Buchstaben von schwarzer Farbe."

<br>

<img src="./data/bibliotheca-perennis-guido-stemme-1080x608.jpg"> Quelle: Guido Stemme, https://guidostemme.de/bibliotheca-universalis/ 

<br>
<br>
<br>

| Wie groß ist die Bibliothek von Babel? | Jorge Luis Borges |
| : ------------------------------------ | :---------------- |
| **Die Bibliothek:** <ul><li>Jedes Buch besteht aus 410 Seiten.</li><li>Jede Seite hat 40 Zeilen und 80 Zeichen pro Zeile.</li><li>Die Schrift besteht aus 22 orthographischen Zeichen + Punkt + Komma + Leerzeichen = 25 Zeichen.</li><li>In der Bibliothek gibt es nicht zwei identische Bücher.</li><li> Die Bibliothek soll alle **kombinatorisch möglichen Bücher** enthalten. </ul> **Wie groß ist die Bibliothek?** <ul><li>Jedes Buch besteht aus 40 x 80 x 410 = 1.312.000 Zeichen.</li> <li> Da es 25 verschiedene Zeichen gibt, kann jedes Buch als eine Zahl im Stellenwertsystem zur Basis 25 verstanden werden. </li></ul> <br> **Das heißt, es gibt 25<sup>1.312.000</sup> Bücher.** <br><br>25<sup>1.320.000</sup> = 10<sup>x</sup>   (log<sub>10</sub> 25 <sup>1.320.000</sup> = x, x = 1.845.281)<br> Zum Vergleich: Das Universum besteht aus  ungefähr 10<sup>84</sup> bis 10<sup>89</sup> Atomen. | <img src="./data/Jorge_Luis_Borges.jpg"> |

<br>

#### Semantische Variationen von Büchern mit einen Umfang ≤ Länge_Babelbuch

- Enthält alle Varianten eines Buches mit einem Tippfehler – jeder beliebige Tippfehler an jeder beliebigen Stelle (25*1.312.000 = 32.800.000 Bücher)

- Enthält auch alle Bücher mit zwei Tippfehlern (das sind schon wesentlich mehr) usw., auch alle Varianten in alter und neuer Rechschreibung, sowie beliebig gemischt

- Enthält alle möglichen Übersetzungen in Sprachen, die das gleiche Alphabet benutzen

- Enthält auch alle Übersetzungen mit einem, zwei, drei, .... Fehlern

- Enthält alle denkbaren Besprechungen, Kritiken, Würdigungen etc. eines Buches (Sekundär Literatur)

- Sofern auch Sonderzeichen ([],{},(), etc.) Teil des Alphabetes sind, enthält die Bibliothek auch alle Programme (< 410 Seiten) in allen denkbaren Programmiersprachen

In [12]:
# LIBRARY OF BABEL
# Original length of a book in the library of babel is 1.312.000.
# Length of each generated book here:
lengthOfBook = 1000

indexCounter = [] #Interger
BookOfBooks = [] #Char
sign = ['a','b','c','d',
        'e','f','g','h','i','j','k','l',
        'm','n','o','p','t',',q','r','s',
        't','u','v','w','x','y','z', '_','.',',']
numberOfCharacters = 29
pointOfChangeFound = False
allBooksPrinted = False

numberOfBooks = pow(numberOfCharacters, lengthOfBook)
print("The total number of books of length "+str(lengthOfBook)+" is "+str(numberOfBooks))

# initualize an empty book 
for i in range(0,lengthOfBook):
    BookOfBooks.append(sign[0])
    indexCounter.append(0)

k = 1
while not k > 10: # if you want all books, substitue 'k > 10' by 'allBooksPrinted'
    print("Book number " + str(k))
    k+=1
    for j in range(lengthOfBook):
        print(BookOfBooks[j],end='')
    print("\n")
    
    i = 0
    pointOfChangeFound = False
    while not pointOfChangeFound and not allBooksPrinted:
        if indexCounter[i] < numberOfCharacters-1:
            indexCounter[i]+=1
            pointOfChangeFound = True
            BookOfBooks[i] = sign[indexCounter[i]]
        else:
            indexCounter[i]=0
            BookOfBooks[i] = sign[0]
            i+=1
            if i >= lengthOfBook:
                allBooksPrinted = True
                print('All books printed!')
            print()
            


The total number of books of length 1000 is 25003332654739065239417657551938522381376518983220423775214198705009918905571619941044760812450040900146454268793302017364087418631049774104640869115974626655131779552855451454790046869730921743915661420130885143884356855459212932158794286915611411781419964757350209705813882631772981738238674406196480917781396805657236814535094969435322729186232499449396345001614594463532943888653233113142887380242683973226267709082270510405686601737842684373791552111226492876602678144049760834842061497580508933499960621394072669504332537738000255266994577913498466911345074010774153340807425488805539891347264668611649391114497716505135580981279213917879462654377642660856009613241655472606707104590157184122268201456712029425504202237198408511181541951489249528151179837609405270315927575441378287786021577385571791494580122271563173642283720608870023124022968394196419148567743907471583480183289773851483098731633951858065335542364537824949168697194680832758078526

### Die Bibliothek von Babel als Web-Anwendung
Die Bibliothek von Babel kann auch als **virtuelle Bibliothek** realisiert werden. 
**Jonathan Basile** hat eine Webanwendung geschrieben, 
- **mit der man in der Bibliothek stöbern,**
- **aber auch eine Volltextsuche machen**
- **oder sich Bücher nach dem Zufallsprinzip anzeigen lassen kann.**

Zum Stöbern wird jedem Raum der Bibliothek eine eindeutige Adresse zugewiesen. Um alle Räume zu adressieren, können die Nummern bis zu 3260 Zeichen (26 Buchstaben + 10 Ziffern) haben. Hat man den Raum ausgewählt, wählt man zunächst die Wand, dann das Regal und schließlich das Buch aus und kann dann Seite für Seite lesen. Es gibt auch spezielle Funktionen wie Lesezeichen oder die Anzeige von Anglizismen. 

Bibliothek von Babel von Jonathan Basile: https://libraryofbabel.info/
Das dazugehörrige Buch: https://library.oapen.org/viewer/web/viewer.html?file=/bitstream/handle/20.500.12657/25433/1004662.pdf?sequence=1&isAllowed=y

<!-- Markdeep: --><style class="fallback">body{visibility:hidden;
white-space:pre;font-family:monospace}</style>
<script src="markdeep.min.js" charset="utf-8">
</script><script src="https://casual-effects.com/markdeep/latest/markdeep.min.js" charset="utf-8"></script><script>
window.alreadyProcessedMarkdeep||(document.body.style.visibility="visible")</script>

### Algoritmische Teilmengen der Bibliothek von Babel?

Jeder Textgenerierungs-Algorithmus definiert eine Teilmenge der Bibliothek von Babel.

- Übersetzung: Können die syntaktisch korrekten Texte in einer Sprache automatisch (algorithmisch) abgebildet werden auf die zugehörigen Texte einer anderen Sprache?

- Ist ein bestimmter Schreibstil eine sinnvolle Teilmenge innerhalb einer Sprache? Kann der Stil algorithmisch gefasst werden?

- Können zu einer Frage automatisch alle Texte generiert werden, die als Antwort akzeptiert werden können (als richtig gelten)? (z.B. Können Arztbriefe oder Gebrauchsanweisungen automatisch aus medizinischen oder technischen Daten generiert werden?)

- Bildet die Menge der Romane eine Teilmenge innerhalb der syntaktisch korrekten Texte?
