LZW - Kompression und Expansion von Texten
=====================

Version 1.0, 02.06.2017, W. Conen

In diesem Notebook stellen wir die Arbeitsweise des Lempel-Ziv-Welch-Algorithmus vor, kurz LZW. Dieser Algorithmus war lange Zeit das oft verwendete "Arbeitspferd" bei der Kompression von Daten. Wir orientieren uns in Teilen der Darstellung an Thomas H. Cormens Buch "Algorithms Unlocked" (MIT Press 2013), dessen Lektüre wir sehr empfehlen können.

Anders, als das "normale" Verfahren zur Kompression mit Huffman-Codes, erfordert LZW nur einen Durchgang über die zu komprimierenden Daten (**one-pass Verfahren**).

Die Grundidee ist recht simpel: der Kompressor gibt eine Folge von Indices aus, die in ein Array von Strings zeigen (eine Art Wörterbuch bzw. Dictionary), die (fast) alle im Text auch vorkommen. Kommen auch relative lange Strings in diesem Array vor, dann können wir auch eine vernünftige Kompression erwarten (weil es günstiger ist, eine vergleichsweise kurze Nummer auszugeben, als den recht langen String, den sie repräsentiert). 

Ein Problem, das entstehen könnte, ist allerdings das Dictionary selbst. Wenn ich dieses Mitübertragen muss zum Expandierer, dann könnte es sein, dass ich gar nichts spare, sondern im Ergebnis sogar mehr Platz brauche! 

Das coole am Algorithmus ist, dass er zwar ein Dictionary benötigt, dieses aber nicht abspeichend muss, sondern bei der Expansion neu und identisch zum Kompressor-Dictionary erzeugen kann.

Schauen wir uns zunächst den Kompressionsalgorithmus an.

Zunächst initialisieren wir unser Dictionary mit Einträgen für jedes Zeichen aus dem zugrunde liegenden Zeichensatz (das kann schon ganz schön gross werden, wenn man Unicode nimmt. Für die hier vorgestellte Variante des Algos nehmen wir das einfach mal so hin).

Für unser Beispiel unten reduzieren wir unseren Zeichensatz auf 4 Zeichen, A,C,G,T, die Bausteine der DNS.

Wir wollen nun die Sequenz TATAGATCTTAATATA komprimieren.

Die Idee ist wie folgt: wir lesen nach und nach Zeichen ein. Wir wollen Strings erkennen, die bereits im Dictionary vermerkt sind. Diese sollen möglichst lang sein. Wir versuchen also, erst dann den Index von etwas Bekanntem auszugeben, wenn sich das nicht mehr verlängern lässt, ohne Unbekannt zu werden. Das merken wir, in dem wir das bisher Bekannte, nennen wir es s, um das aktuelle Zeichen, nennen wir es c, ergänzen und schauen, ob das Resultat s+c, also c direkt an s gehängt, bereits im Dictionary vorhanden ist. Wenn ja, machen wir so weiter. Wenn nein, dann geben wir die Indexnummer von s aus, setzen s auf c und merken uns im Dictionary s+c als neuen Eintrag. Das ist alles. Entsprechend arbeitet der Algorithmus unten. Ganz am Ende geben wir noch den Index des verbleibenden s aus (das ist ja sicher im Dictionary! Überlegen Sie, warum!)

Diesen Ablauf wollen wir nun für unseren Beispiel-String als Tabelle nachvollziehen.

<pre>
Schritt |  c | s+c    | s       | Ausgabe | Dictionary:
  Init  |    |        |         |         |  0:  A
        |    |        |         |         |  1:  C
        |    |        |         |         |  2:  G
        |    |        | ""      |         |  3:  T
    0   | T  | "T"    | "T"     |         |   
    1   | A  | "TA"   | "A"     |  3      |  4:  TA
    2   | T  | "AT"   | "T"     |  0      |  5:  AT
    4   | A  | "TA"   | "TA"    |         |    
    5   | G  | "TAG"  | "G"     |  4      |  6:  TAG    
    6   | A  | "GA"   | "A"     |  2      |  7:  GA
    7   | T  | "AT"   | "AT"    |         |  
    8   | C  | "ATC"  | "C"     |  5      |  8:  ATC
    9   | T  | "CT"   | "T"     |  1      |  9:  CT    
    10  | T  | "TT"   | "T"     |  3      |  10: TT    
    11  | A  | "TA"   | "TA"    |         |
    12  | A  | "TAA"  | "A"     |  4      |  11: TAA
    13  | T  | "AT"   | "AT"    |         |
    14  | A  | "ATA"  | "A"     |  5      |  12: ATA
    15  | T  | "AT "  | "AT"    |         |  
    16  | A  | "ATA"  | "ATA"   |  12     |  
 </pre>   
 
 Der Algo unten ist in Python geschrieben und erzeugt die gerade per Hand gefundene Sequenz von Indices:

In [6]:
def LZW(text):  # Text must be non-empty ;)
    # Init the dictionary
    dic = [ 'A', 'C', 'G', 'T']
    com = []
    
    s = ''
    for c in text:
        if s+c in dic:  # ist s+c schon im Dictionary? 
            s += c      # Ja, dann warten wir, wie es weitergeht
        else:           # Nein? Dann geben wir den Index von s aus, erweitern dic um s+c und setzen s auf c
            com.append(dic.index(s)) # s must always be in dic! dic.index() gives the position of s in dic
            dic.append(s+c)
            s = c
    com.append(dic.index(s))
    return com

LZW("TATAGATCTTAATATA")

[3, 0, 4, 2, 5, 1, 3, 4, 5, 12]

Wir speichern das Dictionary NICHT ab! Das einzige Wissen, das der Kompressor und der Expandierer gemeinsam haben, ist das Wissen um den Zeichensatz.

Versuchen wir mal, aus dem Ergebnis eben den String zu rekonstruieren, also das Komprimat zu expandieren:

Wir initialisieren zunächst das Dictionary.

0: A, 1: C, 2: G, 3: T

Nun laufen wir über die Sequenz [3, 0, 4, 2, 5, 1, 3, 4, 5, 12] und versuchen, uns quasi "gespiegelt" so zu verhalten, wie der Komprimierer.

Zuerst lesen wir eine 3. Die ist im Dictionary, klar. Wir geben also ein T aus. Wir wissen: der Komprimierer hat bei der Ausgabe der 3 ein Zeichen c in der Hand gehabt, das das T so verlängert, dass T+c nicht im Dictionary war. Diesen String T+c hat er dann ins Dictionary aufgenommmen. Leider wissen wir noch nicht, was c ist, aber das finden wir gleich heraus:

Wir lesen nun eine 0. Das erste Zeichen der Ausgabe, die wir nun erzeugen können, in dem wir im Dictionary an Position 0 nachsehen, muss unser gesuchtes c sein. 0 steht hier für "A", wir können nun also T+A = TA als weiteren Eintrag ins Dictionary aufnehmen.

4: TA

Das, was wir eben getan haben, können wir leicht verallgemeinern, wenn wir "T" durch s ersetzen. Hierbei steht s wieder für  einen String, den wir im Dictionary finden können und den wir verlängern wollen.

Es gibt eine denkbare Schwierigkeit: Gerade haben wir nach der 3 die 0 gefunden, also einen Eintrag, den wir schon kennen. Was wäre nun, wenn in der Sequenz oben an zweiter Stelle eine 4 gestanden hätte, also wir das, was wir im Komprimierer gerade als neu hinzugefügt hatten, sofort auch tatsächlich finden?

Auf den ersten Blick scheint das ein Problem zu sein: woher soll der Expandierer nun wissen, welches Zeichen c der Komprimierer  eingelesen hatte, um es ans T zu hängen?

Überlegen wir mal: wissen wir wirklich nichts über c? Unsere Annahme ist, dass die Indexsequenz zu Beginn 3,4 enthält. Wie könnte das praktisch aussehen? Mit welchen Buchstabenkombinationen könnte der Text begonnen haben?

Mögliche 3er-Startsequenzen für unseren String, die mit T beginnen:

<pre>
TAA TAC TAG TAT 
TCA TCC TCG TCT
TGA TGC TGG TGT
TTA TTC TTG TTT
</pre>

Was würde der Komprimierer für diese Sequenzen als Ausgabe erzeugen:

<pre>
300 301 302 303
310 311 312 313
320 321 322 323
330 331 332 34
</pre>

Es kann hier nur die Sequenz TTT zu diesem Effekt führen! Und in diesem Fall wissen wir, dass das Zeichen c identisch sein muss mit dem ersten Zeichen von s (in unserem Fall: T). Das gilt allgemein! Erklären wir das:

Angenommen, unsere zuletzt ins Dictionary aufgenommene Sequence war $s_1 + c_1$, die Zeichenkette $s_1+c_1$ war uns also nicht bekannt. Ausgegeben haben wir zuletzt die Index-Nummer von $s_1$, $s_1$ ist uns also bekannt. 

Nun nehmen wir weiter an, das wir als nächstes den Index von $s_1 + c_1$ ausgeben wollen (so, wie wir oben die Situation beschrieben haben). Wie muss dann unsere Textsequenz aussehen?

... $s_1$ [$c_1$] ...     : $s_1$ wird von $c_1$ gefolgt, das ist unbekannt für uns, $s_1+c_1$ wird aufgenommen

... $s_1$ $s_1$ $c_1$ ...   : jetzt geben wir den "neuen" Index von $s_1+c_1$ aus 

Das kann nur passieren, wenn das ERSTE ZEICHEN von s_1+c_1 gleich c_1 ist. Um nun also s_1 + c_1 in das Dictionary aufnehmen zu können, müssen wir an unser (uns ja bekanntes) s_1 einfach das erste Zeichen von s_1 anhängen!

Wenn wir also im Komprimierer auf die eben beschriebene Situation treffen, dann können wir an unser letztes s das erste Zeichen dieses s anhängen und erhalten so den Eintrag ins Dictionary, den wir brauchen, um weiter expandieren zu können.

Das berücksichtigen wir jetzt im folgenden Algorithmus (anders, als bei Cormen, speichern wir ins previous und current Strings und nicht Indexpositionen im Dictionary ab, nur relevant, wenn Sie die Lösungen miteinander vergleichen. Unsere Lösung ist einen Hauch kompakter).


In [30]:
def LZW_expand(seq):  # Text must be non-empty ;)
    # Init the dictionary
    dic = [ 'A', 'C', 'G', 'T']
    
    current = dic[seq[0]] # der erste String aus dem Dictionary, immer ein einzelner Buchstabe
    
    text = current # unser output momentan, nur der erste Buchstabe
    
    for i in seq[1:]:
        previous = current # was haben wir in der letzten Runde ausgegeben?
        if i == len(dic): # Unser Sonderfall...gerade aufgenommen und schon benutzt!
            word = previous+previous[0] 
        else:  # Das alte Wort plus der erste Buchstabe des nächsten Worts muss in dictionary
            word = previous+dic[i][0]
        dic.append(word) # Hier schreiben wir das Wort ins Dictionary
        current = dic[i] # Jetzt holen wir unsere monentane Ausgabe aus dem Dictionary       
        text += current  # Und hängen Sie an den Ausgabetext             
    return text

LZW_expand([3, 0, 4, 2, 5, 1, 3, 4, 5, 12])

'TATAGATCTTAATATA'

In [31]:
# Weitere Tests
print(LZW_expand(LZW("AGTGGGAATTAATTAGAGAGAGAGAGCCCCACACACT")))
print(LZW_expand(LZW("TTTTTTTTTTTTTTTTT")))

AGTGGGAATTAATTAGAGAGAGAGAGCCCCACACACT
TTTTTTTTTTTTTTTTT


In [41]:
# Und richtige Tests....
to_test = ["TTT","AGAGAGTTACCGCGCCCGCGCA","TTTTTTTTTTTTT","TATAGCCCGCGCGCGCGAA"]
for s in to_test:
    compression = LZW(s)
    expansion = LZW_expand(compression)
    print("Testing the compression and expansion of: \n\t",s,"\n\t",compression,"\n\t",expansion)
    if s == expansion:
        print("  Correct!")
    else:
        print("  ERROR!!!")

# Note, the functions above are not robust in any sense, don't try to compress strings with characters outside of
# the character set used in the functions! (But it is really easy to include the character set in the parameters!)

Testing the compression and expansion of: 
	 TTT 
	 [3, 4] 
	 TTT
  Correct!
Testing the compression and expansion of: 
	 AGAGAGTTACCGCGCCCGCGCA 
	 [0, 2, 4, 4, 3, 3, 0, 1, 1, 2, 12, 11, 14, 13, 0] 
	 AGAGAGTTACCGCGCCCGCGCA
  Correct!
Testing the compression and expansion of: 
	 TTTTTTTTTTTTT 
	 [3, 4, 5, 6, 5] 
	 TTTTTTTTTTTTT
  Correct!
Testing the compression and expansion of: 
	 TATAGCCCGCGCGCGCGAA 
	 [3, 0, 4, 2, 1, 8, 7, 10, 1, 10, 0, 0] 
	 TATAGCCCGCGCGCGCGAA
  Correct!
