### Welche Sprache: Deutsch oder Englisch?
- Wir bestimmen mit Hilfe eines Dictionaries die relativen H&auml;ufigkeiten der Buchstaben eines Texts.
- Dann testen wir, ob diese H&auml;ufigkeiten n&auml;her bei denen der englischen oder deutschen Sprache sind. Als Distanzmass verwenden wir die Wurzel der Summe der quadratischen Abweichungen der Häufigkeiten:
$$
\text{distance}(d, e) := \sqrt{(\mathtt{d['A']-e['A']})^2+\ldots+\mathtt{d['Z']-e['Z']})^2}.
$$
- Die relativen H&auml;ufigkeiten der Buchstaben eines deutschen bez. englischen Texts sind in den Dictionaries `letter_frequencies['de']` bez. `letter_frequencies['en']`
im Module `examples` gespeichert.

<!--
- **Mass f&uuml;r die Distanz zweier Dicts mit Buchstabenh&auml;ufigkeiten**  
Die Distanz zwischen 2 Punkten `pt1 = (4,7)` und `pt2 = (1,3)` in der Ebene ist nach Pythagoras $$\sqrt{(\texttt{pt1}[0]-\texttt{pt2}[0])^2 + (\texttt{pt1}[1]-\texttt{pt2}[1])^2}=5,$$
also
$$\sqrt{(4-1)^2 + (7-3)^2}=5.$$
  Die Distanz zwischen 2  H&auml;ufigkeitsdictionaries $d_1$ und $d_2$ mit 
Keys `[A,...,Z]` ist entsprechend 
$$\sqrt{\Sigma_{k \in [A,\ldots,Z]}(d_1[k]-d_2[k])^2}.$$
-->

In [None]:
from examples import letter_frequency as lfd


list(lfd.keys())

In [None]:
lf_de = lfd['de']
''.join(lf_de.keys())

In [None]:
sum(lf_de.values())

In [28]:
text = '''\
Wir ermitteln die relativen Häufigkeiten der Buchstaben eines Texts
und schliessen dann daraus auf die Sprache.
'''

In [29]:
# Wir wollen folgende Substitutionen vornehmen (Umaute ersetzten)
subs = {'ä': 'ae', 'ö': 'oe', 'ü': 'ue'}

In [30]:
text = text.lower()
for old, new in subs.items():
    text = text.replace(old, new)
print(text)

wir ermitteln die relativen haeufigkeiten der buchstaben eines texts
und schliessen dann daraus auf die sprache.



In [45]:
text = text_en

In [46]:
count_dict = {}

for buchstabe in text:
    # nur zeichen zw. 'a' und 'z' beruecksichtigen
    if buchstabe < 'a' or 'z' < buchstabe:
        continue

    if buchstabe in count_dict:
        count_dict[buchstabe] += 1
    else:
        count_dict[buchstabe] = 1

count_dict

{'e': 16,
 'f': 5,
 'i': 4,
 'r': 5,
 's': 3,
 't': 10,
 'd': 2,
 'm': 1,
 'n': 6,
 'h': 4,
 'q': 1,
 'u': 2,
 'c': 1,
 'o': 2,
 'l': 2,
 'a': 4,
 'x': 1,
 'g': 2}

In [47]:
count_dict = dict(sorted(count_dict.items(), key=lambda x: x[::-1], reverse=True))
count_dict

{'e': 16,
 't': 10,
 'n': 6,
 'r': 5,
 'f': 5,
 'i': 4,
 'h': 4,
 'a': 4,
 's': 3,
 'u': 2,
 'o': 2,
 'l': 2,
 'g': 2,
 'd': 2,
 'x': 1,
 'q': 1,
 'm': 1,
 'c': 1}

In [48]:
total = sum(count_dict.values())
freq_dict = {k.upper(): v/total for k, v in count_dict.items()}
freq_dict

{'E': 0.22535211267605634,
 'T': 0.14084507042253522,
 'N': 0.08450704225352113,
 'R': 0.07042253521126761,
 'F': 0.07042253521126761,
 'I': 0.056338028169014086,
 'H': 0.056338028169014086,
 'A': 0.056338028169014086,
 'S': 0.04225352112676056,
 'U': 0.028169014084507043,
 'O': 0.028169014084507043,
 'L': 0.028169014084507043,
 'G': 0.028169014084507043,
 'D': 0.028169014084507043,
 'X': 0.014084507042253521,
 'Q': 0.014084507042253521,
 'M': 0.014084507042253521,
 'C': 0.014084507042253521}

In [49]:
def lf_distance(fd_ref, fd):
    diffs = [(fd_ref[c] - fd.get(c, 0)) ** 2 for c in fd_ref]
    dist = (sum(diffs) / len(diffs)) ** 1/2
    return dist

In [50]:
from dict_tools import make_count_dict

In [52]:
lf_distance(lfd['de'], freq_dict) < lf_distance(lfd['en'], freq_dict)

(0.0003195887861039915, 0.0003974535138483027)

In [37]:
from examples import letter_frequency as lfd
from dict_tools import make_count_dict


def english_or_german(text, threshold=1.2):
    subs = {'ä': 'ae', 'ö': 'oe', 'ü': 'ue'}

    text = text.lower()
    for old, new in subs.items():
        text = text.replace(old, new)

    text = [c for c in text if 'a' < c < 'z']
    cd = make_count_dict(text)

    tot = sum(cd.values())
    fd = {k.upper(): v/tot for k, v in cd.items()}
    q = lf_distance(lfd['de'], fd) / lf_distance(lfd['en'], fd)
    
    return q

In [38]:
english_or_german(text)

0.353748400173788

In [43]:
text_en = '''
We first determine the frequencies of the letters of a text
and then infer the language.
'''

In [44]:
english_or_german(text_en)

0.7758200457369324