## Einführung in das Programmieren mit Python
# Module

## Wiederholung: Funktionen

In [7]:
# +------------------------------------------------ def = Schlüsselwort Funktionsdefinition
# |    +------------------------------------------- Funktionsname
# |    |            ,---------------------,-------- Klammern für Argumentliste (auch ohne Argumente!)
# |    |           |  ,---------------------------- Argument/Parameter, verpflichtend
# |    |           |  |          ,----------------- Argument/Parameter, mit Standardwert 'None'
def avg_word_length(text, strip_chars=".,?!;"):
    """                                             (Docstring, beschreibt Funktion, help(avg_word_length))
    Returns the average length of the words in text. Whitespace will be stripped,
    if strip is not None, leading and trailing characters from strip_chars will be
    removed from each word, as well.
    """
    words = text.split()
    chars_in_words = 0
    for word in words:        
        word = word.strip(strip_chars)
        chars_in_words += len(word)
    return chars_in_words / len(words)               # return <ausdruck> gibt den Wert von <ausdruck> zurück, sonst None

satz = input("Satz: ")
print("Die Wörter in", satz, "sind durchschnittlich", 
      #    ,------------------------------------------- Funktionsname
      #    |          .----------------------------.--- Klammern = Funktionsaufruf
      #    |         |  .------------------------- | -- positionales Argument (Position -> text)
      #    |         |  |       .----------------- | -- keybord-Argument 
      avg_word_length(satz, strip_chars='!?.,;:()"'), 
      "Zeichen lang.")

Satz: Hui bu
Die Wörter in Hui bu sind durchschnittlich 2.5 Zeichen lang.


## Hausaufgabe

1) Lesen Sie den Inhalt der Datei vollständig ein.

In [6]:
def read_text(filename):
    """Returns the contents of the given utf-8 encoded text file"""
    with open(filename, 'rt', encoding='utf-8-sig') as file:
        return file.read()

2) Zerlegen Sie den Text in eine Liste einzelner Wörter (Tokens, getrennt durch Whitespace/Leerraum) und entfernen Sie Satzzeichen, die potentiell noch an den Wörtern dranhängen  (siehe Hinweis unten): Also "Aus!" → Aus, aber Lisa-Marie sollte bleiben wie es ist. Wenn nach Entfernen der Satzzeichen nichts mehr übrig bleibt, ignorieren Sie das Token. Lassen Sie die Groß-/Kleinschreibung so, wie sie ist – für stilometrische Verfahren kann das sinnvoller sein

In [7]:
def tokenize(text, punctuation='!"#$%&\'()*+,-./:;<=>?@[\\]^_{|}~»«›‹'):
    """Splits text into a list of tokens, removing leading and trailing punctuation characters from each token"""
    result = []
    for token in text.split():
        clean_token = token.strip(punctuation)
        result.append(clean_token)
    return result        

3) Ermitteln Sie, wie oft jedes der unterschiedlichen Wörter (Types) in dem Text vorkommt. Wählen Sie eine geeignete Datenstruktur, um das Ergebnis (eine Worthäufigkeitstabelle) zu repräsentieren.

In [8]:
def count_items(items):
    """
    Counts how often each destinct item appears.
    Args:
       items: Sequence of items (i.e., tokens)
    Returns:
        Dictionary that maps each distinct item to its number of appearences in `items`
    """
    frequencies = {}
    for item in items:
        if item in frequencies:
            frequencies[item] += 1
        else:
            frequencies[item] = 1
    return frequencies

4) Geben Sie mithilfe der Datenstruktur aus Teilaufgabe 3 die Häufigkeit der Wörter 'und' und 'rund' aus.

5) Geben Sie mithilfe der angelegten Datenstrukturen aus, wieviele Tokens in dem Text vorkommen und wieviele unterschiedliche Wörter („Types“) in dem Text vorkommen, und berechnen Sie aus Anzahl Types / Anzahl Tokens den Type Token Ratio, ein (textlängenabhängiges) Maß für die Komplexität eines Texts.

In [10]:
def main():
    text = read_text('Marlitt-Eugenie_Goldelse.txt')
    tokens = tokenize(text)
    wordcounts = count_items(tokens)
    print('und', wordcounts['und'])
    print('rund', wordcounts['rund'])
    
    print(len(wordcounts), 'Types /', len(tokens), 'Tokens =',  len(wordcounts)/len(tokens))

main()

und 2973
rund 1
14901 Types / 101153 Tokens = 0.14731149842318073


#### Bewertungskriterien

| Punkte | Teilaufgabe |
|--------|-------------|
| 2 | Öffnen, Lesen, Schließen | 
| 2 | Tokenisieren |
| 2 | Worthäufigkeit |
| 2 | Auswertung + TTF |
| 2 | Zerlegung in Funktionen |

## Module

* Weitere Möglichkeit, Programmcode einzukapseln
* Typischer Use-Case: zusammengehörige Funktionen (, Klassen, …)
* Mitgelieferte Funktionalität (jenseits des Sprachkerns) und Herunterladbares kommt in Modulen

* Modul = Python-Datei
* Modulname = Python-Dateiname ohne Pfad und Endung

<p>Module bieten eine weitere Möglichkeit, Programmcode in abgeschlossene Einheiten zu kapseln. Typischerweise werden zusammengehörige Funktionen in einem Modul versammelt. Module sind die wichtigste Organisationseinheit in Python, da alle Python-eigenen Funktionalitäten, aber auch alle zusätzlich herunterladbare Erweiterungen immer in Form von Modulen kommen.</p>
<p>Module sind Python-Dateien, die Funktionen und Variablen-Definitionen enthalten.<br/>
Name des Moduls = Name der Datei (ohne die Endung .py)<br/>
Beispiel: <br/>


In [1]:
def get_chars(instring):
    chars = []
    for i in instring:
        chars.append(i)
    return chars

Speichern Sie diese Funktion in der Datei `chars.py`.
Nun können Sie in jedem neuen Programm diese Funktion zugänglich machen, indem Sie einfach `import Dateiname` (ohne Endung!) eingeben:

In [2]:
import chars
chars.get_chars("hallo")

['h', 'a', 'l', 'l', 'o']

### Modulsuchpfad

Wo werden Module gesucht? Der _Modulsuchpfad_ wird beim Starten von Python befüllt und ist systemspezifisch. Sie können ihn mit `sys.path` anzeigen:

In [3]:
import sys
print(sys.path)

['', '/home/tv/.virtualenvs/Topics/lib/python35.zip', '/home/tv/.virtualenvs/Topics/lib/python3.5', '/home/tv/.virtualenvs/Topics/lib/python3.5/plat-x86_64-linux-gnu', '/home/tv/.virtualenvs/Topics/lib/python3.5/lib-dynload', '/usr/lib/python3.5', '/usr/lib/python3.5/plat-x86_64-linux-gnu', '/home/tv/.virtualenvs/Topics/lib/python3.5/site-packages', '/home/tv/.virtualenvs/Topics/src/cophi-toolbox', '/home/tv/.virtualenvs/Topics/lib/python3.5/site-packages/IPython/extensions', '/home/tv/.ipython']


* `''` steht für das aktuelle Verzeichnis (`os.getcwd()`)
* Umgebungsvariable `PYTHONPATH`
* Probieren Sie's aus!

### Formen der import-Anweisung

In [None]:
# Standardform. Hier muss der Modulname beim jeden Aufruf einer Funktion genannt werden.
import chars
chars.get_chars("hallo")

In [None]:
# Man kann auch ein kurzes Alias für einen längeren Modulnamen setzen:
import chars as c
c.get_chars("hi")

In [None]:
# import eine Funktion in den lokalen Namensraum, d.h. man kann sie nun ohne Modulnamen verwenden
# man könnte auch mehrere importieren: from chars import get_chars, other_function
from chars import get_chars
get_chars("hi")

In [None]:
# "Alles" importieren -- aber Vorsicht, kann unübersichtlich werden ...
from chars import *

### Aufgaben
1. Kopieren Sie die o.g. Funktionen aus der Hausaufgabe bzw. aus der Musterlösung in ein neues Modul `bagofwords` (ohne `main`)
2. Verwenden Sie Ihre Funktionen in einem neuen Skript (mit dem Hauptprogramm Ihrer Hausaufgabe)
3. Verwenden Sie die Funktionen mit dem Alias `bow`.

<h3>Musterlösung</h3>

In [12]:
from bagofwords import read_text, tokenize, count_items

def main():
    text = read_text('Marlitt-Eugenie_Goldelse.txt')
    tokens = tokenize(text)
    wordcounts = count_items(tokens)
    print('und', wordcounts['und'])
    print('rund', wordcounts['rund'])
    
    print(len(wordcounts), 'Types /', len(tokens), 'Tokens =',  len(wordcounts)/len(tokens))

main()


und 2973
rund 1
14901 Types / 101153 Tokens = 0.14731149842318073


In [13]:
import bagofwords as bow

def main():
    text = bow.read_text('Marlitt-Eugenie_Goldelse.txt')
    tokens = bow.tokenize(text)
    wordcounts = bow.count_items(tokens)
    print('und', wordcounts['und'])
    print('rund', wordcounts['rund'])
    
    print(len(wordcounts), 'Types /', len(tokens), 'Tokens =',  len(wordcounts)/len(tokens))

main()


und 2973
rund 1
14901 Types / 101153 Tokens = 0.14731149842318073


In [6]:
import stringtools as st
satz = "Herr Mustermann kommt ins Haus und trifft dort Frau Musterfrau"
print("Wörter: ", st.extract_words(satz))
print("Durchschnittliche Wortlänge: ", st.avg_word_length(satz))


Wörter:  ['Herr', 'Mustermann', 'kommt', 'ins', 'Haus', 'und', 'trifft', 'dort', 'Frau', 'Musterfrau']
Durchschnittliche Wortlänge:  5.3


### Programm == Modul

* _Jedes_ Python-Skript ist ein Modul, auch Ihr "Hauptprogramm"
* der Name jedes Moduls steht in der modulspezifischen Variable `__name__`
* der spezielle Name `"__main__"` steht für das Hauptprogramm
* damit können Sie ein Skript als Modul und als Programm nutzbar machen:

In [None]:
"""Some useful string utilities"""
def get_words(text):
    """Returns a list of words in the given `text`"""
    return text.split()

def _main():
    import sys
    words = get_words(sys.argv[1])
    print(len(words), "Words: ", words)
    
if __name__ == "__main__":
    _main()

## Kommandozeile

* es gibt immer ein aktuelles Verzeichnis. 
    * Linux/MacOS: Anzeigen mit `pwd`, wechseln mit `cd neuer/pfad`
    * Windows: Anzeigen mit `cd`, wechseln mit `cd neuer\pfad`
* __Kommandos__ bestehen aus einem oder mehreren Wörtern, durch Leerzeichen getrennt, ggf. mit " " umschlossen.
* Erstes Wort: Befehl, z.B. Programm. Folgende Wörter: Argumente, werden vom Programm interpretiert.

### Umgebungsvariablen
* _Umgebungsvariablen_ enthalten Werte, die allen Programmen zur Verfügung stehen, z.B. `$PATH` (bzw. `%PATH%` auf Windows). Tippen Sie `set`
* Umgebungvariablen vererben sich an gestartete Prozesse
* Wichtige Umgebungsvariablen:
   * `PATH` (`%PATH%` (Windows) bzw. `$PATH` (sonst)) enthält die Verzeichnisse, in denen das OS nach Programmen sucht.
   * `PYTHONHOME` ggf. Grundverzeichnis von Python
   * `PYTHONPATH` Modul-Suchverzeichnisse von Python

### Übung

Kommandozeilenargumente finden Sie in Ihrem Programm in der Liste `sys.argv`. `sys.argv[0]` ist immer der Name des Programms.

In [None]:
import sys
sys.argv

Schreiben Sie ein Programm, das die Kommandozeilenargumente, mit denen es aufgerufen wird, auf den Bildschirm ausgibt. Speichern Sie es als `cmdtest.py` und rufen Sie es an der Kommandozeile mit verschiedenen Argumenten auf.

### Pythons Standard-Module
Python kommt mit einer [umfangreichen Bibliothek von Modulen](https://docs.python.org/3/library), die für viele Probleme schon ausreichend sind (batteries included).


<img src="files/images/reference.png" height="50%" width="50%"/>

<h3>Pythons Standard-Module </h3>
<p>sind nichts anderes als normale Module in einem Verzeichnis im Modulsuchpfad

<img src="files/images/modules.png" height="40%" width="40%" />


<h3 style="color:green">Übungsaufgabe</h3>
<p>Schlagen Sie in der Dokumentation nach, wie die Funktion `glob` aus dem Modul `glob` verwendet werden kann, um Dateien aufzulisten. Testen Sie den Befehl.

## Externe Module installieren

* Zentrales Archiv externer Python-Module: __PyPI__ – Python Package Index – https://pypi.python.org/pypi
* Tool zur Installation externer Python-Module: `pip` – Bestandteil der Python-Installation
* Kommandozeilentool

In [None]:
%%bash

pip --help

<table>
<tr><td><code>pip install</code> <em>⟨Paketname⟩</em></td><td>Installiert das angegebene Paket, falls nicht bereits da</td></tr>
<tr><td><code>pip install --update</code> <em>⟨Paketname⟩</em></td><td>Installiert oder aktualisiert das angegebene Paket</td></tr>
<tr><td><code>pip install --user</code> <em>⟨Paketname⟩</em></td><td>Installiert das angegebene Paket nur für den aktuellen Benutzer</td></tr>

### Übungsaufgaben externe Module

Das Paket [requests](http://python-requests.org/) ein Paket, das HTTP-Zugriffe sehr einfach macht. 

1. Installieren Sie es mit `pip`. 
2. Finden Sie heraus, wohin das Paket installiert wurde.
3. Schreiben Sie mit Requests ein Programm, das herausfindet, ob die Unihomepage erfolgreich aufgerufen werden kann.
4. (Schreiben Sie unter Zuhilfenahme von requests ein kleines Script, bei dem der Benutzer einen Ländercode (z.B. `de` oder `co`) eingibt und Namen und Hauptstadt des betreffenden Landes angezeigt bekommt. Benutzen Sie dazu den Service http://restcountries.eu/, der Ihnen allerlei Länderinfos zu einem Land im von Requests direkt unterstützten JSON-Format liefert.)