# Morse-Code

## Grundlagen der Codierung nach Morse

Der Morse-Code ist ein ternärer Code bestehend aus den drei Zeichen 'Punkt', 'Strich' und 'Pause', mit dem Samuel Finley Breese Morse Text codiert hat. Dabei werden Buchstaben nur mit den beiden Zeichen 'Punkt' und 'Strich' codiert, die 'Pause' dient zur Trennung der Buchstaben. Ziel war es, Text in eine möglichst kurze Zeichenfolge zu übersetzen, um sie effizient per Telegramm übertragen zu können. Dazu nutzte Morse die Auftrittswahrscheinlichkeit einzelner Buchstaben aus. Die deutsche und die englische Sprache bestehen im Wesentlichen aus 26 Buchstaben 'A' bis 'Z', deren Auftrittswahrscheinlichkeiten die folgende Tabelle wiedergibt.

| Buchstabe  | Deutsch | Englisch | Morse-Code | Codewortlänge |
|    ---     |   ---   |    ---   |     ---    |      ---      |
| a	| 6,51 % |  8,167 % | .-   | 2 |
| b	| 1,89 % |  1,492 % | -... | 4 |
| c	| 3,06 % |  2,782 % | -.-. | 4 |
| d	| 5,08 % |  4,325 % | -..  | 3 |
| e	| 17,4 % | 12,702 % | .    | 1 |
| f	| 1,66 % |  2,228 % | ..-. | 4 |
| g	| 3,01 % |  2,015 % | --.  | 3 |
| h	| 4,76 % |  6,094 % | .... | 4 |
| i	| 7,55 % |  6,996 % | ..   | 2 |
| j	| 0,27 % |  0,153 % | .--- | 4 |
| k	| 1,21 % |  0,772 % | -.-  | 3 |
| l	| 3,44 % |  4,025 % | .-.. | 4 |
| m	| 2,53 % |  2,406 % | --   | 2 |
| n	| 9,78 % |  6,749 % | -.   | 2 |
| o	| 2,51 % |  7,507 % | ---  | 3 |
| p	| 0,79 % |  1,929 % | .--. | 4 |
| q	| 0,02 % |  0,095 % | --.- | 4 |
| r	| 7,00 % |  5,987 % | .-.  | 3 |
| s	| 7,27 % |  6,327 % | ...  | 3 |
| t	| 6,15 % |  9,056 % | -    | 1 |
| u	| 4,35 % |  2,758 % | ..-  | 3 |
| v	| 0,67 % |  0,978 % | ...- | 4 |
| w	| 1,89 % |  2,360 % | .--  | 3 |
| x	| 0,03 % |  0,150 % | -..- | 4 |
| y	| 0,04 % |  1,974 % | -.-- | 4 |
| z	| 1,13 % |  0,074 % | --.. | 4 |

Als binärer Code mit den Zeichen 'Punkt' und 'Strich' wäre der Morse-Code nicht präfixfrei, da der Buchstabe 'e' mit einem einfachen 'Punkt' codiert wird, der wiederum das Anfangszeichen anderer Buchstaben ist. Daher wird die 'Pause' als drittes Zeichen zur Trennung benötigt.

Der Morse-Code weist selten vorkommenden Buchstaben lange Codeworte zu, häufig vorkommenden Buchstaben entsprechend kurze Codeworte. Hierdurch wird die Anzahl der Zeichen für einen durchschnittlichen Text minimiert.

## Berechnung von Entropie, mittlerer Wortlänge und Redundanz

### Vorsicht bei Entropie in Bit !

Wären alle Buchstaben gleichwahrscheinlich, betrüge die Entropie $H({\cal X}) = \log_2(26)$ bit. Für eine binäre Codierung wären damit $m = \lceil H({\cal X}) \rceil$ Bit pro Buchstabe erforderlich.

In [1]:
import numpy as np

# Gleichverteilung der Buchstaben
entropy_uniform = np.log2(26)
bit_letter = np.ceil(entropy_uniform)

print("Bei gleichwahrscheinlichen Buchstaben würde die Entropie den Wert H(X) = %1.1f bit annehmen." %(entropy_uniform))
print("Es würden dann m=%g bit je Symbol benötigt.\n" %(bit_letter))

# Auftrittswahrscheinlichkeiten der Buchstaben für deutsche und englische Sprache
prob_german = np.array([0.0651, 0.0189, 0.0306, 0.0508, 0.174, 0.0166, 0.0301, 0.0476, 0.0755, 0.0027, 0.0121, 0.0344, 0.0253, 0.0978, 0.0251, 0.0079, 0.0002, 0.07, 0.0727, 0.0615, 0.0435, 0.0067, 0.0189, 0.0003, 0.0004, 0.0113])
prob_english = np.array([0.08168, 0.01492, 0.02782, 0.04253, 0.12702, 0.02228, 0.02015, 0.06094, 0.06966, 0.00153, 0.00772, 0.04025, 0.02406, 0.06749, 0.07507, 0.01929, 0.00095, 0.05987, 0.06327, 0.09056, 0.02758, 0.00978, 0.0236, 0.0015, 0.01974, 0.00074])

# Wortlängen des Morse-Codes
m_Morse = np.array([2,4,4,3,1,4,3,4,2,4,3,4,2,2,3,4,4,3,3,1,3,4,3,4,4,4])

entropy_german =- prob_german @ np.transpose(np.log2(prob_german))
m_mean_german = m_Morse @ np.transpose(prob_german)
print("Die Entropie des deutschen Alphabets beträgt %1.2f bit." %(entropy_german))
print("Die mittlere Wortlänge des Morse-Codes ist für deutsche Sprache m=%1.2f bit.\n" %(m_mean_german))

entropy_english =- prob_english @ np.transpose(np.log2(prob_english))
m_mean_english = m_Morse @ np.transpose(prob_english)
print("Die Entropie des englischen Alphabets beträgt %1.2f bit." %(entropy_english))
print("Die mittlere Wortlänge des Morse-Codes ist für deutsche Sprache m=%1.2f bit." %(m_mean_english))

Bei gleichwahrscheinlichen Buchstaben würde die Entropie den Wert H(X) = 4.7 bit annehmen.
Es würden dann m=5 bit je Symbol benötigt.

Die Entropie des deutschen Alphabets beträgt 4.06 bit.
Die mittlere Wortlänge des Morse-Codes ist für deutsche Sprache m=2.44 bit.

Die Entropie des englischen Alphabets beträgt 4.18 bit.
Die mittlere Wortlänge des Morse-Codes ist für deutsche Sprache m=2.54 bit.


Zunächst ist zu erkennen, dass die ungleichen Auftrittswahrscheinlichkeiten der Buchstaben die Entropie gegenüber gleichwahrscheinlichen Buchstaben signifikant von 4.7 bit auf etwa 4.1 bit erduzieren. Allerdings steht diese Entropie im Widerspruch zu den berechneten Wortlängen, da ein verlustfreier Code keine mittlere Wortlänge unter der Entropie haben kann. Der Grund dafür liegt darin, dass der Morse-Code ein ternärer Code ist, das 'Pause'-Zeichen bei der mittleren Wortlänge aber bisher nicht berücksichtigt wurde.

### Der Morse-Code ist ein ternärer Code !

Da der Morse-Code bei ausschließlicher Verwendung von 'Punkt' und 'Strich' kein präfix-freier Code ist, werden wie bereits erwähnt die Pausen zur Trennung der Buchstaben benötigt. Damit würden sich die Codewortlängen der Buchstaben der obigen Tabelle jeweils um das Zeichen 'Pause' erhöhen, die mittleren Wortlängen erhöhen sich damit auch um ein Zeichen. Um diese mittlere Wortlänge (in ternären Zeichen) nun mit der Entropie vergleichen zu können, ist diese nicht mehr in bit, sondern ebenfalls in ternären Zeichen anzugeben. Hierzu ist zum einen die 'Pause' als drittes Zeichen mit einer Auftrittswahrscheinlichkeit von 50% einzufügen, die Auftrittswahrscheinlichkeiten der normalen Buchstaben halbieren sich entsprechend. Zum anderen ist der Logarithmus zur Basis drei zu verwenden.

In [2]:
# Berücksichtigung der Pause im Morse-Alphabet 
m_Morse_ternary = m_Morse + 1
# mittlere Wortlängen für deutsche und englische Sprache
m_mean_german_ternary = m_Morse_ternary @ np.transpose(prob_german)
m_mean_english_ternary = m_Morse_ternary @ np.transpose(prob_english)

entropy_german_ternary = entropy_german / np.log2(3.0)
entropy_english_ternary = entropy_english / np.log2(3.0)

# relative Redundanz des Morse-Codes
redundancy_german_ternary = (m_mean_german_ternary-entropy_german_ternary) / m_mean_german_ternary
redundancy_english_ternary = (m_mean_english_ternary-entropy_english_ternary) / m_mean_english_ternary

print("Die Entropie des deutschen Alphabets beträgt %1.2f ternäre Zeichen." %(entropy_german_ternary))
print("Die mittlere Wortlänge des Morse-Codes mit Pause für jedes Zeichen beträgt %1.2f ternäre Zeichen." %(m_mean_german_ternary))
print("Der Morse-Code besitzt damit eine Redundanz von %1.2f%%.\n" %(redundancy_german_ternary*100))

print("Die Entropie des englischen Alphabets beträgt %1.2f ternäre Zeichen." %(entropy_english_ternary))
print("Die mittlere Wortlänge des Morse-Codes mit Pause für jedes Zeichen beträgt %1.2f ternäre Zeichen." %(m_mean_english_ternary))
print("Der Morse-Code besitzt damit eine Redundanz von %1.2f%%.\n" %(redundancy_english_ternary*100))


Die Entropie des deutschen Alphabets beträgt 2.56 ternäre Zeichen.
Die mittlere Wortlänge des Morse-Codes mit Pause für jedes Zeichen beträgt 3.44 ternäre Zeichen.
Der Morse-Code besitzt damit eine Redundanz von 25.55%.

Die Entropie des englischen Alphabets beträgt 2.63 ternäre Zeichen.
Die mittlere Wortlänge des Morse-Codes mit Pause für jedes Zeichen beträgt 3.54 ternäre Zeichen.
Der Morse-Code besitzt damit eine Redundanz von 25.61%.

