# Module

## Was sind Module?

Python organisiert Source Code in *Modulen*. 
Ein Modul ist nichts anderes als eine Datei mit der Extension `.py`.

Module dienen dazu,

* Große Projekte in mehrere kleinere und damit überschaubare Sourcecode-Dateien zu organisieren.
  Dabei werden (logisch) zusammen gehörige Code-Teile (z.B. Funktionen und Variablen) zusammen in
  einer Datei (einem *Modul*) gespeichert.
* Code besser wiederverwendbar zu machen, da Module selektiv in neuen Code
  importiert werden können.

Kleine Skripte kann man ohne weiteres in eine einzige Datei packen.
Sobald ein Programm aber mehr als ein paar hundert Zeilen hat, empfiehlt es
sich, den Code auf mehrere Module aufzuteilen, auch weil der Code dadurch
einfacher zu pflegen und zu testen ist.


## Module sind überall

Nicht nur der eigene Programmcode lässt sich in Modulen organisieren, auch
fremder Code wird in Modulen verteilt:

* Die Standard-Library von Python ist in Modulen (und Paketen, die mehrere Module bündeln) organisiert
* Third-Party-Libraries sind ebenfalls als Module verfügbar


## Module müssen importiert werden
Damit ein Modul im eigenen Programm verwendet werden kann, muss das Modul zuerst importiert werden:

~~~
import <Modulname>
~~~
    
Danach steht das Modul mit der dort definierten Funktionalität zur Verfügung. Das in der mit Python mitinstallierten Standard Library vorhandene Modul `random` stellt eine Reihe von Zufalls-Funktionen bereit. Damit wir diese verwenden können, müssen wir das Modul zuerst importieren:

In [None]:
import random

Danach können wir uns beispielsweise eine Zufallszahl generieren lassen:

In [None]:
random.randint(0, 1000000)

## Module und Namensräume
Im letzten Beispiel haben wir nicht irgendeine Funktion mit dem Namen `randint` verwendet, sondern genau die, die vom Modul `random` bereit gestellt wird.

Module strukturieren daher nicht nur den Sourcecode, sondern bilden auch Namensräume,
wodurch verhindert wird, dass sich beispielsweise zwei in unterschiedlichen
Modulen definierte, gleichnamige Funktionen gegenseitig überlagern. Um das zu verdeutlichen habe ich im Verzeichnis, in dem dieses Notebook liegt, zwei minimale Module angelegt:

* a.py
* b.py

In beiden Modulen gibt es eine Funktion `echo()`, die wir unter Nutzung der Namensräume beide in unserem Programm nutzen können:

In [None]:
import a
import b

a.echo()
b.echo()

Den Namensraum bildet dabei einfach der Name des Moduls (d.h. der Datei, die das Modul definiert).

Im obigen Beispiel gibt es also ein Modul `a` (d.h. eine Datei `a.py`) und ein
zweites Modul `b` (`b.py`).


## Module importieren
Wir haben bereits gehört, dass wir Module importieren müssen, ehe wir sie verwenden können. Dazu gibt es verschiedene Möglichkeiten. Die einfachste haben wir bereits kennengelernt: Wir importieren das gesamte Modul unter Beibehaltung des Modulnamens. Als Beispiel verwenden wir wieder ein Modul aus der Standard-Library: `sys` stellt Informationen zur aktuellen Systemumgebung bereit:

In [None]:
import sys
sys.version

In [None]:
sys.platform

### Nur einen Teil eines Moduls importieren
Manchmal sind wir nur an einem kleinen Teil eines Moduls interessiert, zum Beispiel wenn wir nur die aktuell verwendetet Plattform herausfinden wollen:

In [None]:
from sys import platform
platform

**Achtung**: Hier haben wir etwas aus einem Modul in den globalen (bzw. unseren eigenen) Namensraum importiert. Wir ersparen uns dadurch zwar Tipparbeit, handeln uns aber auch einige Probleme ein, weil wir den eigenen Namensraum verschmutzt habe. Es gibt gute Gründe, dies nicht zu tun:

* Wir haben die Nachvollziehbarkeit unseres Codes erschwert, weil beim Lesen des Codes erst herausgefunden werden muss, was es mit diesem `platform` auf sich hat - `sys.platform` ist hier viel klarer.
* Wir können uns Seiteneffekte einhandeln, wenn wir uns u.U. unbeabsichtigt eigene Variablen überlagern.

Hier ein Beispiel:

In [None]:
version = '0.9 beta'  # this is the version of our program

# Imports sollten immer ganz oben passieren, man kann sie aber überall verwenden
from sys import version 
print(f'Sie verwenden MeinProgramm in Version {version}')
print(f'Sie verwenden Python Version {version}')

Wir haben hier (unabsichtlich) beim Import eine zuvor existierende Variable `version` mit `sys.version` überlagert. 

Noch schlimmer ist diese Variante:

In [None]:
version = '0.9 beta'

# Imports sollten immer ganz oben passieren, man kann sie aber überall verwenden
from sys import *
print(f'Sie verwenden MeinProgramm in Version {version}')
print(f'Sie verwenden Python Version {version}')

Hier haben wir **alles** aus dem Modul `sys` in unseren eigenen Namespace importiert. Wir waren uns möglicherweise gar nicht bewusst, dass es in `sys` eine Variable `version` gibt, die unsere eigene Variable überlagert. Schwer zu findende Fehler sind so vorprogrammiert! Hätten wir den Namensraum beibehalten, wäre das nicht passiert:

In [None]:
version = '0.9 beta'

# Imports sollten immer ganz oben passieren, man kann sie aber überall verwenden
import sys
print(f'Sie verwenden MeinProgramm in Version {version}')
print(f'Sie verwenden Python Version {sys.version}')

Kleiner Exkurs: wenn Sie feststellen wollen, was in einem Modul vorhanden (und was wir beim letzten Beispiel allen in unseren Namensraum importiert haben) ist, können Sie die `dir()` Funktion verwenden:

In [None]:
import sys
dir(sys)

### Namensräume umdefinieren
Manche Namensraumnamen sind sehr lange und es ist daher mühsam, diese immer einzutippen. Deshalb besteht die Möglichkeit, einem Modul einen eigenen Namen zuzuweisen. `pyplot` ist ein Modul des mächtigen `matplotlib` Pakets. 

Achtung: Dieses Paket ist nicht in der Standard-Library und muss möglicherweise erst nachinstalliert werden. Dies können Sie direkt aus dem Notebook heraus machen (ersetzen Sie `pip` durch `conda`,
wenn Sie in einer Anaconda-Umgebung arbeiten):

In [None]:
!pip install matplotlib

Hier zuerst die umständliche Namensraum Variante:

In [None]:
import matplotlib.pyplot
matplotlib.pyplot.plot([1, 2, 3, 4, 4, 3, 5, 6, 6, 3, 3, 4])
matplotlib.pyplot.show()

Normalerweise schreibt man das allerdings so, um sich Tipparbeit zu sparen:

In [None]:
import matplotlib.pyplot as plt
plt.plot([1, 2, 3, 4, 4, 3, 5, 6, 6, 3, 3, 4])
plt.show()

Durch das `as` haben wir in unserem Programm dem Namensraum `matplotlib.pyplot` ein Alias `plt` zugewiesen.

### Module und Docstrings
Genau so wie eine Funktion durch einen Docstring beschrieben werden kann, funktioniert das auch für Module. Dazu muss man einfach direkt am Anfang der Modul-Datei den entsprechenden Docstring einfügen. Im Verzeichnis dieses Notebooks finden Sie eine Datei (d.h. ein Modul) [mystring.py](mystring.py). Da dieses Modul über einen DocString verfügt, können diesen auslesen:

In [None]:
import mystring
help(mystring)

In [None]:
mystring.reverse('abc')

In [None]:
help(mystring.reverse)

In [None]:
mystring.distinct_len('Mississippi')

In [None]:
help(mystring.distinct_len)

## Wie werden Module gefunden?
Module können an unterschiedlichen Stellen im Filesystem liegen. Hier wird kurz beschrieben, wo und wie Python nach Modulen sucht. Dabei kommt eine bestimmte Reihenfolge zum Einsatz. Sobald das zu importierende (oder -- Achtung Falle! -- ein gleichnamiges) Modul gefunden wird, wird dieses verwendet. Diese Reihenfolge ist:

1. Das aktuelle Verzeichnis.
1. Alle Verzeichnisse, die in der Umgebungsvariable `PYTHONPATH` definiert sind.
1. Abhängig von der aufgerufenen Python-Version in bestimmten Verzeichnissen, in denen beispielweise die Standard Library liegt.

Das `sys`-Modul weiß, wo gesucht wird:

In [None]:
import sys
sys.path

`sys.path` ist übrigens eine normale Liste, die z.B. erweitert werden kann (was aber, wenn Sie Ihr Programm weitergeben wollen, keine besonders gute Idee ist).

## Module und Bytecode
Beim ersten Laden eines Moduls übersetzt Python den Code in Bytecode und speichert diesen in eine eigene Datei. Das hat den Vorteil, dass das Modul bei der nächsten Verwendung schneller geladen werden kann. Diese Bytecode-Dateien haben die Dateinamenerweiterung `.pyc` und liegen unter Python3 im Verzeichnis `__pycache__`. Sowohl dieses Verzeichnis als auch einzelne `pyc`-Datei können gefahrlos gelöscht werden, weil Sie bei Bedarf automatisch  neu erzeugt werden. Sie werden auch automatisch neu erzeugt, wenn sich der Inhalt der entsprechend `.py` Datei verändert.

# Pakete
Wenn man größere Projekte tiefer organisieren will, kann man mehrere Module
(und sogar Subpakete) zu einem Paket zusammenfassen.

Ein Paket ist nichts anderes, als ein Verzeichnis, das Module enthält. Zu einem
Paket wird ein solches Verzeichnis allerdings erst, wenn im Verzeichnis
eine Datei `__init__.py` existiert. Diese Datei kann leer sein.

Hier ein (fiktives) Beispiel:

~~~
mypackage
|-- __init__.py
|-- module1.py
|-- module2.py
|-- mysubpackage
    |-- __init__.py
    |-- module_a.py
    |-- module_b.py
~~~

Ein Modul in einem Paket wird durch den Punkt-Operator getrennt angesprochen:

~~~
>>> import os
>>> if os.path.exists('daten.csv'):
...
~~~



## Vertiefende Literatur

Ich empfehle ausdrücklich, mindestens eine der folgenden Ressourcen zur Vertiefung zu lesen!

* Python Tutorial: Kapitel 6 (https://docs.python.org/3/tutorial/modules.html)
* Klein, Kurs: Modularisierung (http://python-kurs.eu/python3_modularisierung.php)
* Downey: Kapitel 14.9 (http://www.greenteapress.com/thinkpython/html/thinkpython015.html#toc162)



* Klein, Buch: Kapitel 12
* Kofler: Kapitel 12
* Weigend: Kapitel 11
* Briggs: Kapitel 8.3

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>