### Welche Sprache: Deutsch oder Englisch?
- Wir bestimmen mit Hilfe eines Dictionaries die relativen H&auml;ufigkeiten der Buchstaben eines Texts.
- Dann testen wir, ob diese H&auml;ufigkeiten n&auml;her bei denen der englischen oder deutschen Sprache sind.  
(Als Distanzmass verwenden wir die Wurzel der mittleren quadratischen Abweichung,
welche die Funktion `distance` im Modul `data.letterfrequencies` berechnet.
)
- Die relativen H&auml;ufigkeiten der Buchstaben eines deutschen bez. englischen Texts sind in den Dictionaries `letter_frequencies['de']` bez. `letter_frequencies['en']`
im Module `data.letterfrequencies` gespeichert.

<!--
- **Mass f&uuml;r die Distanz zweier Dicts mit Buchstabenh&auml;ufigkeiten**  
Die Distanz zwischen 2 Punkten `pt1 = (4,7)` und `pt2 = (1,3)` in der Ebene ist nach Pythagoras $$\sqrt{(\texttt{pt1}[0]-\texttt{pt2}[0])^2 + (\texttt{pt1}[1]-\texttt{pt2}[1])^2}=5,$$
also
$$\sqrt{(4-1)^2 + (7-3)^2}=5.$$
  Die Distanz zwischen 2  H&auml;ufigkeitsdictionaries $d_1$ und $d_2$ mit 
Keys `[A,...,Z]` ist entsprechend 
$$\sqrt{\Sigma_{k \in [A,\ldots,Z]}(d_1[k]-d_2[k])^2}.$$
-->


In [1]:
# importiere Dictionaries mit den Haeufigkeiten der Buchstaben
import data.letterfrequencies as lf

In [28]:
# oeffne das Modul lf in dieser Zelle
# %load $lf.__file__

In [3]:
# help(lf)

In [3]:
# lf.letter_frequencies['de']
# lf.letter_frequencies['en']

In [9]:
def replace_umlaute(text, substitutions):
    '''Nimm im text nacheinander die in substitutions beschriebenen Ersetzungen vor
       und gib den neuen String zurueck
    
       substitutions: dict der Form {alt: neu,...}
    '''
    for k,v in substitutions.items():
        text = text.replace(k, v)
    return text

def count_letters(text):
    '''Wie oft kommt ein Buchstabe (gross oder klein)
       in text vor
      
       gibt dict der Form {'A': 2,...,'Z': 0} zurueck 
    '''
    letters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
    d = {}
    for ch in text.upper():
        # zaehle nur Buchstaben
        if ch in letters:
            d[ch] = d.get(ch, 0) + 1
            
    return d    

def normalize(d):
    ''' gib einen neuen dict zurueck mit den relativen Haeufigkeiten der Keys'''
    new_dict = {}
    total = sum(d.values())
    for k in d:
        new_dict[k] = d[k]/total
    return new_dict

def which_lang(text):
    '''returns a pair (<language>, <conficence>)
       <language> is 'Deutsch' or 'English'
    '''
    substitutions = {'Ä': 'AE', 'Ö': 'OE', 'Ü': 'UE'}
    text_gross_ohne_umlaute = replace_umlaute(text.upper(), substitutions)
    letter_count = count_letters(text_gross_ohne_umlaute)
    letter_freq = normalize(letter_count)
    
    dist_en = lf.distance(letter_freq, 'en')
    dist_de = lf.distance(letter_freq, 'de')
  
    if dist_de <= dist_en:
        return 'Deutsch', dist_en/dist_de
    else:
        return 'Englisch', dist_de/dist_en

***
Textbeispiel (Peter und der Wolf, von Sergei Prokofiev)
***

In [25]:
# copy paste some text
text1 = '''\
Peter und der Wolf

Eines Morgens öffnete Peter die Gartentür und 
trat hinaus auf die große, grüne Wiese. 
Auf einem Ast eines großen Baumes saß Peters Freund, 
ein kleiner Vogel. "Wie still es ist!" zwitscherte
der Vogel voller Fröhlichkeit. 
Da kam die Ente daher gewatschelt. 
Sie freute sich, dass Peter die Gartentür offen
gelassen hatte und beschloss  in dem tiefen 
Teich auf der Wiese schwimmen zu gehen. 
Als der kleine Vogel die Ente sah, flog er hinunter, 
setzte sich neben sie ins Gras und plusterte 
sich auf. 
"Was bist du für ein Vogel, wenn du nicht fliegen kannst?" 
sagte er. Und die Ente erwiderte: 
"Was bist du für ein Vogel, wenn du nicht schwimmen kannst?" 
und stieg ins Wasser. 
So stritten sie miteinander; die Ente schwamm auf dem Teich 
und der kleine Vogel hüpfte an dem Ufer auf und ab.
'''

text2 = '''\
The Story of Peter and the Wolf

Early one morning, Peter opened the gate and
walked out into the big green meadow.
On a branch of a big tree sat a little
bird, Peter's friend. "All is quiet"
chirped the bird happily.
Just then a
duck came waddling
round. She was glad that
Peter had not closed the
gate and decided to take a
nice swim in the deep
pond in the meadow.
Seeing the duck, the little bird flew down upon
on the grass, settled next to her and shrugged
his shoulders. "What kind of bird are you if
you can't fly?" said he. To this the duck replied
"What kind of bird are you if you can't swim?"
and dived into the pond.
They argued and argued, the duck swimming
in the pond and the little bird hopping along
the shore.
'''

In [26]:
def detect_lang(text):
    lang, confidence = which_lang(text)
    print('{}, confidence: {:.2f}'\
          .format(lang, confidence)
         ) 

In [27]:
for text in [text1, text2]:
    print(text[:text.find('\n')])
    detect_lang(text)
    print()

Peter und der Wolf
Deutsch, confidence: 6.04

The Story of Peter and the Wolf
Englisch, confidence: 2.99

