# Inhalt

Im siebten Kapitel gehen wir wichtige Module von Python durch und decken die folgenden Konzepte ab:
- Systemfunktionen und Zugriff auf das Dateisystem
- Datums und Zeitformate
- Reguläre Ausdrücke
- Pretty Printing von built-in Datentypen
- Kopieren von Objekten
- Zeitmessungen
- Logging
- Mathematische Funktionen und Zufallsgeneratoren
- Pickle und CSV Dateien


# Die Python Standardbibliothek

Python wird nach dem Motto *batteries included* entwickelt, das heißt es sollte möglichst viel von der Standardbibliothek unterstützt werden, ohne das man zusätzliche Packages benötigt. Die Standardbibliothek wird direkt zusammen mit Python installiert und ist in der Regel immer verfügbar. Im folgenden gucken wir uns einen Teil der Standardbibliothek an, wobei wir ganze Bereiche (zum Beispiel Netzwerke, HTTP, JSON, etc.) ignorieren.

# Betriebssystem Funktionen

Das [Modul ```os```](https://docs.python.org/3/library/os.html#module-os) haben wir schon kurz in Kapitel 6 kennengelernt. Durch dieses Modul kann man Betriebssystem spezifische Operationen ausführen, zum Beipiel auf dem Dateisystem. 

In [13]:
import os

working_folder = os.getcwd()  # prints the current working folder
print(working_dir)
try:
    os.mkdir("new_folder")    # creates a new folder, use os.makedirs in case nested folders must be created
except FileExistsError:
    pass                      # do nothing if folder already exists
for file in os.listdir():     # fetches a list of the contents of the current folder (ls)
    print(file)
os.chdir("new_folder")        # switches working folder to our new folder
os.chdir(working_folder)      # switches back to old working folder
os.rmdir("new_folder")        # deletes the created folder
print("---------")
for file in os.listdir():
    print(file)

/home/sherbol/Python-Programmierkurs/script
.ipynb_checkpoints
Kapitel 1 - Erste Schritte.ipynb
Kapitel 2 - Grundlegende Datentypen.ipynb
Kapitel 3 - Kontrollfluss.ipynb
Kapitel 4 - Funktionen und Klassen.ipynb
Kapitel 5 - Module.ipynb
Kapitel 6 - Ausnahmen und Regeln.ipynb
Kapitel 7 - Wichtige Bibliotheken.ipynb
Kapitel 8 - Teamwork mit Git.ipynb
new_folder
---------
.ipynb_checkpoints
Kapitel 1 - Erste Schritte.ipynb
Kapitel 2 - Grundlegende Datentypen.ipynb
Kapitel 3 - Kontrollfluss.ipynb
Kapitel 4 - Funktionen und Klassen.ipynb
Kapitel 5 - Module.ipynb
Kapitel 6 - Ausnahmen und Regeln.ipynb
Kapitel 7 - Wichtige Bibliotheken.ipynb
Kapitel 8 - Teamwork mit Git.ipynb


Mit ```os.system()``` kann man Befehle auf dem Betriebssystem ausführen, zum Beispiel um Programme auszuführen. Diese Funktion sollte jedoch nicht mehr verwendet werde. Stattdessen sollte man die Funktion ```run``` aus dem [```subprocess``` Modul](https://docs.python.org/3/library/subprocess.html#replacing-older-functions-with-the-subprocess-module) verwenden. 

In [32]:
from subprocess import PIPE, run

result = run("ls", stdout=PIPE)  # executes the command ls and pipes the standard output into the result variable
result

CompletedProcess(args='ls', returncode=0, stdout=b'Kapitel 1 - Erste Schritte.ipynb\nKapitel 2 - Grundlegende Datentypen.ipynb\nKapitel 3 - Kontrollfluss.ipynb\nKapitel 4 - Funktionen und Klassen.ipynb\nKapitel 5 - Module.ipynb\nKapitel 6 - Ausnahmen und Regeln.ipynb\nKapitel 7 - Wichtige Bibliotheken.ipynb\nKapitel 8 - Teamwork mit Git.ipynb\n')

Außerdem gibt es noch das [Modul ```shutil```](https://docs.python.org/3/library/shutil.html#module-shutil) für weitere Dateioperationen, zum Beispiel für das Kopieren oder Löschen von ganzen Verzeichnissen, inklusive der Unterverzeichnisse, und dem POSIX Rechtemanagement (chmod, chown).

In [98]:
import shutil

shutil.copytree("../examples", "examples") # copies the folder
for file in os.listdir("examples"):        # lists the the subfolder examples
    print(file)
shutil.rmtree("examples")                  # deletes the folder again
print("----")
print("examples" in os.listdir())          # checks if folder still exists

.ipynb_checkpoints
__pycache__
sample_package
sqrt.py
sqrt2.py
----
False


# Das ```sys``` Modul

Das [Modul ```sys```](https://docs.python.org/3/library/sys.html#module-sys) stellt Funktionen zur Kommunikation mit dem Interpreter bereit. Hierdurch kann man zum Beispiel Kommandozeilenparameter auslesen, die Ausführung des Interpreters beenden, Informationen über die Pythonversion auslesen, oder auch Pfade anpassen, wie wir es in Kapitel 6 getan haben. 

In [135]:
import sys

print("Command line arguments for current interpreter:")
print(sys.argv)
print() # prints an empty line
print("Python version:")
print(sys.version)
print()
print("Platform:")
print(sys.platform)
# sys.exit() usually quits the interpreter, but this does not really work in Jupyter notebooks. 

Command line arguments for current interpreter:
['/usr/local/lib/python3.6/dist-packages/ipykernel_launcher.py', '-f', '/home/sherbol/.local/share/jupyter/runtime/kernel-e7afb192-bcd5-4e1a-babb-6856cf2911eb.json']

Python version:
3.6.7 (default, Oct 22 2018, 11:32:17) 
[GCC 8.2.0]

Platform:
linux


# Datumsformate

Viele Daten beinhalten Zeitstempel. Um damit vernünftig umgehen zu können, benötigt man Datumsformate. Hierfür gibt es das [Modul ```datetime```](https://docs.python.org/3/library/datetime.html#module-datetime).

In [74]:
import datetime

today = datetime.datetime.now()
print(f"current date and time: {today}")
print(f"can also access year, month, etc.: {today.year}")
fall_of_wall = datetime.date.today()-datetime.date(1989,11,9) # timedelta with difference between datetimes
print(f"{fall_of_wall.days} days since the fall of the Berlin wall")

current date and time: 2019-03-22 13:42:55.161128
can also access year, month, etc.: 2019
10725 days since the fall of the Berlin wall


# Reguläre Ausdrücke

Reguläre Ausdrücke sind ein mächtiges Mittel um Zeichenketten zu analysieren. Anleitungen zu regulären Ausdrücken gibt es Online, zum Beispiel [hier](https://www.rexegg.com/). Eine eigenes Tutorial zum Thema reguläre Ausdrücke ginge an dieser Stelle zu weit, hier gibt es nur Beispiele für die Verwendung von Regulären Ausdrücken in Python mit dem [Modul ```re```](https://docs.python.org/3/library/re.html#module-re). Reguläre Ausdrücke werden nicht in normalen Zeichenketten definiert. Stattdessen gibt es, analog zu formatierten Stringliteralen auch eigene Stringliterale für reguläre Ausdrücke die mit ```r"..."``` definiert werden. 

In [79]:
import re

print(re.findall(r"\b[0-9]+", "Extracts 10 all 90 integers 0 From 191929123 this string"))
print(re.sub(r"\b[0-9]+", "", "Replaces 10 all 90 integers 0 in 191929123 this string with the empty string"))

['10', '90', '0', '191929123']
Replaces  all  integers  in  this string with the empty string


# Kopieren von Objekten

In Kapitel 2 haben wir bereits im Rahmen von Listen kurz über das Kopieren von Objekten gesprochen. Bei unveränderlichen Objekten ist dies in der Regel kein wichtiges Thema. Hier gilt sogar, dass es meistens besser ist, das Objekt nicht zu kopieren sondern nur mehrere Referenzen auf das gleiche Objekt im Speicher zu haben. Bei veränderbaren Objekten, ist es aber häufig wichtig Kopien zu erstellen, um sicher zu gehen, dass das Original nicht verändert wird. Man unterscheidet hier zwischen *shallow copy* und *deep copy*. Bei einer shallow copy von einem Objekt A, wird Objekt A zwar komplett dupliziert, aber alles, auf das von Objekt A verwiesen wird nicht. Bei Listen bedeutet das zum Beispiel, dass die Liste selbst kopiert wird, die Elemente, die sich in der Liste befinden jedoch nicht. Verändert man also das Element in einer Liste, ist es in beiden Listen verändert. Bei einer deep copy werden auch die referenzierten Objekte mit kopiert. Hierfür gibt es in Python das [Modul ```copy```](https://docs.python.org/3/library/copy.html). 

In [85]:
import copy

my_list = [[1,2,3,4], ["a","b","c","d"]] # a list of lists
my_shallowcopy = copy.copy(my_list)
my_deepcopy = copy.deepcopy(my_list)

my_list[1].pop()  # removes "d" second list in my_list
my_list.pop(0) # removes first element from my_mylist

print(f"my_list: {my_list}")
print(f"my_shallowcopy: {my_shallowcopy}")
print(f"my_deepcopy: {my_deepcopy}")

my_list: [['a', 'b', 'c']]
my_shallowcopy: [[1, 2, 3, 4], ['a', 'b', 'c']]
my_deepcopy: [[1, 2, 3, 4], ['a', 'b', 'c', 'd']]


# Messen der Ausführungszeit

Wenn die Ausführung besonders lange dauert oder zeitkritisch ist, ist es manchmal wichtig zu wissen, wie lange die Ausführung einer Anweisung dauert. Hierzu gibt es in Python das [Modul ```timeit```](https://docs.python.org/3/library/timeit.html#module-timeit). 

In [88]:
from timeit import Timer

# swaping two values with the traditional "triangle" approach 
print(Timer('t=a; a=b; b=t', 'a=1; b=2').timeit())
# swaping two values using packing/unpacking of tuples
print(Timer('a,b = b,a', 'a=1; b=2').timeit())

0.03794500000003609
0.03328400000100373


Für Zeitmessungen von längeren Programmen gibt es die [Module ```profile``` und ```pstat```](https://docs.python.org/3/library/profile.html#module-profile), auf die hier nicht genauer eingegangen wird.

# Ausgaben von Dictionaries und Listen

Die Ausgabe von Dictionaries und Listen ist zwar lesbar, doch gerade bei Objekten mit vielen Einträgen wird dies schwer. Hier hilft das [Modul ```pprint```](https://docs.python.org/3/library/pprint.html#module-pprint).

In [136]:
from pprint import pprint

my_dict = {1:["a","b"], 2:["c","d","e"], 3:["f","g","h"], 4:{5: ["i","j","k"]}}

pprint(my_dict, width=20)
print()
print("with depth=2:")
pprint(my_dict, depth=2, width=20)




{1: ['a', 'b'],
 2: ['c', 'd', 'e'],
 3: ['f', 'g', 'h'],
 4: {5: ['i',
         'j',
         'k']}}

with depth=2:
{1: ['a', 'b'],
 2: ['c', 'd', 'e'],
 3: ['f', 'g', 'h'],
 4: {5: [...]}}


# Logging

In vielen Programmen will man zur Laufzeit Informationen über die Ausführung protokollieren. Hierbei wird üblicherweise zwischen Fehlern, Warnungen, Informationen, und Debugginginformationen für Entwickler unterschieden. Man kann dann beim Start des Programms entscheiden, wie detailiert die Logdaten sein sollen. Um dies zu Unterstützen gibt es in Python das [Modul ```logging```](https://docs.python.org/3/library/logging.html#module-logging).

In [3]:
import logging

logging.debug('Debugging information')
logging.info('Informational message')
logging.warning('Warning about something -- probably nothing broken, but you should check')
logging.error('Error occurred -- can mean shutdown or just that some result is not produced')
logging.critical('Critical error -- often means program immediatly shuts down')

2019-03-22 15:57:29,494 - root - INFO - Informational message
2019-03-22 15:57:29,502 - root - ERROR - Error occurred -- can mean shutdown or just that some result is not produced
2019-03-22 15:57:29,508 - root - CRITICAL - Critical error -- often means program immediatly shuts down


Wie man oben sieht, werden per Default nur Informationen, Warnungen, Fehler, und kritische Fehler ausgegeben. Außerdem sind die Logausgaben formatiert. Erst steht das Datum, dann der Name des loggers (Default: root), , dann der Typ der Lognachricht, dann erst die Nachricht. Sowohl welche Lognachrichten erscheinen, als auch das Format der Nachrichten, ist konfigurierbar. 

In [1]:
# Note: the Kernel of the notebook must be restarted for this to work properly. 
# basicConfig only works if the logging module was not yet used

import logging

logging.basicConfig(format='%(asctime)s - %(name)s - %(levelname)s - %(message)s') # sets the logging format
logger = logging.getLogger("my_logger")                                            # gets a logger with a name
logger.setLevel("DEBUG")                                                           # defines the log level

logger.debug('Debugging information')
logger.info('Informational message')
logger.warning('Warning about something -- probably nothing broken, but you should check')
logger.error('Error occurred -- can mean shutdown or just that some result is not produced')
logger.critical('Critical error -- often means program immediatly shuts down')

2019-04-03 11:29:24,436 - my_logger - DEBUG - Debugging information
2019-04-03 11:29:24,440 - my_logger - INFO - Informational message
2019-04-03 11:29:24,446 - my_logger - ERROR - Error occurred -- can mean shutdown or just that some result is not produced
2019-04-03 11:29:24,449 - my_logger - CRITICAL - Critical error -- often means program immediatly shuts down


Man kann den Logger auch so konfigurieren, dass die Ausgabe in eine Datei geleitet wird. Dies wird jedoch hier nicht weiter behandelt. 

# Mathematische Funktionen

Auch wenn das laufende Beispiel bisher die Quadratwurzel war, ist es nicht nötig derartige Funktionen selbst zu Implementieren. Stattdessen kann man einfach das [Modul ```math```](https://docs.python.org/3/library/math.html#module-math) benutzen.

In [9]:
import math

value = 4.2
print(f"Square root of {value}: {math.sqrt(value)}")
print(f"Square of {value}: {math.pow(value, 2)}")
print(f"Natural logarithm of {value}: {math.log(value)}")
print(f"Ceiling of {value}: {math.ceil(value)}")
print(f"pi: {math.pi}")

Square root of 4.2: 2.04939015319192
Square of 4.2: 17.64
Natural logarithm of 4.2: 1.4350845252893227
Ceiling of 4.2: 5
pi: 3.141592653589793


Außerdem kann man mit dem [Modul ```statistics```](https://docs.python.org/3/library/statistics.html#module-statistics) einfache statistische Berechnungen von Daten machen. 

In [26]:
import statistics

my_list = [4, 8, 15, 16, 23, 42]
print(f"mean: {statistics.mean(my_list)}")
print(f"median: {statistics.median(my_list)}")
print(f"stdev: {statistics.stdev(my_list)}")

mean: 18
median: 15.5
stdev: 13.490737563232042


# Zufallsgeneratoren

Es gibt viele Algorithmen die randomisiert Arbeiten, vor allem im Bereich der Datenanalyse. Hierfür benötigt man Zufallsgeneratoren, die vom [Modul ```random```](https://docs.python.org/3/library/random.html#module-random) zur Verfügung gestellt werden. 

In [24]:
import random

print(f"random floating point number in [0,1]: {random.random()}")
print(f"random integer between 0 and 10 [0,1]: {random.randrange(11)}")
grades = [1.0, 1.3, 1.7, 2.0, 2.3, 2.7, 3.0, 3.3, 3.7, 4.0, 5.0]
print(f"random element from a list: {random.choice(grades)}")
print(f"randomly selected subample of 3 elements from a list: {random.sample(grades, 3)}")

random floating point number in [0,1]: 0.719112336603165
random integer between 0 and 10 [0,1]: 2
random element from a list: 3.3
randomly selected subample of 3 elements from a list: [2.3, 3.0, 2.7]


# Serialisieren von Objekten

Serialisierung ist ein verbreitetes Konzept um in einer Programmierumgebung verfügbare Daten zu Speichern oder diese an andere Anwendungen zu versenden. Eine Objektserialisierung schreibt vor, wie ein Objekt zur Speicherung oder zum Laden beschrieben wird. In Python gibt es das [Modul ```pickle```](https://docs.python.org/3/library/pickle.html) zur Serialisierung von beliebigen Objekten in Python. Beim *pickeln* wird ein Objekt in einer Binärdarstellung gespeichert, beim *unpickeln* wird das Objekt aus dem Speicher in den Interpreter geladen. 

In [6]:
import pickle

# An arbitrary collection of objects supported by pickle
my_dict = {1:["a","b"], 2:["c","d","e"], 3:["f","g","h"], 4:{5: ["i","j","k"]}}


with open('../examples/data.pickle', 'wb') as file:
    pickle.dump(my_dict, file) # dumps my_dict to the opened file

del my_dict
try:
    my_dict
except NameError:
    print("my_dict does not exist")

with open('../examples/data.pickle', 'rb') as file:
    # The protocol version used is detected automatically, so we do not
    # have to specify it.
    my_dict = pickle.load(file)
    
print(my_dict)

my_dict does not exist
{1: ['a', 'b'], 2: ['c', 'd', 'e'], 3: ['f', 'g', 'h'], 4: {5: ['i', 'j', 'k']}}


In [7]:
%rm ../examples/data.pickle # magic to clean up the serialization example

# Lesen von CSV Dateien

Comma Separated Value (CSV) sind ein sehr weit verbreitetes Format zum Austausch von Daten, die eine tabellenartige Struktur haben. Jede Zeile entspricht einer Datenzeile in der Tabelle. Die Einträge in einer Zeile werden durch Kommas getrennt um die Spalten zu definieren, daher auch der Name CSV. Hier ist ein Beispiel für eine CSV-Datei ([Quelle](https://sample-videos.com/download-sample-csv.php)):

In [9]:
%cat ../examples/csv-example.csv

1,"Eldon Base for stackable storage shelf, platinum",Muhammed MacIntyre,3,-213.25,38.94,35,Nunavut,Storage & Organization,0.8
2,"1.7 Cubic Foot Compact ""Cube"" Office Refrigerators",Barry French,293,457.81,208.16,68.02,Nunavut,Appliances,0.58
3,"Cardinal Slant-D® Ring Binder, Heavy Gauge Vinyl",Barry French,293,46.71,8.69,2.99,Nunavut,Binders and Binder Accessories,0.39
4,R380,Clay Rozendal,483,1198.97,195.99,3.99,Nunavut,Telephones and Communication,0.58
5,Holmes HEPA Air Purifier,Carlos Soltero,515,30.94,21.78,5.94,Nunavut,Appliances,0.5
6,G.E. Longer-Life Indoor Recessed Floodlight Bulbs,Carlos Soltero,515,4.43,6.64,4.95,Nunavut,Office Furnishings,0.37
7,"Angle-D Binders with Locking Rings, Label Holders",Carl Jackson,613,-54.04,7.3,7.72,Nunavut,Binders and Binder Accessories,0.38
8,"SAFCO Mobile Desk Side File, Wire Frame",Carl Jackson,613,127.70,42.76,6.22,Nunavut,Storage & Organization,
9,"SAFCO Commercial Wire Shelving, Black",Monica Federle,643,-695.26,138.14,35,Nunavu

Auch wenn Kommas ein übliches Trennzeichen sind, werden auch häufig Semikolons und Tabulatoren zum Trennen der Spalten verwendet. Auch der Umgang mit Anführungszeichen, zum Beispiel um Spalten mit Zeichenketten die ein Komma enthalten zu ermöglichen, ist nicht einheitlich definiert. Wie das Format ist, muss man vorher (ggf. durch angucken der Datei) bestimmen. Mit dem [Modul ```csv```](https://docs.python.org/3/library/csv.html) kann man CSV Dateien bequem in Python laden. Dateien werden dabei Zeilenweise als Liste von Strings gelesen, bzw. geschrieben. Die CSV-Dialekte, die unterstützt werden, kann man der [Dokumentation entnehmen](https://docs.python.org/3/library/csv.html#csv-fmt-params)

In [11]:
import csv

with open('../examples/csv-example.csv') as file:
    reader = csv.reader(file, delimiter=',')
    for row in reader:
        print(row)

['1', 'Eldon Base for stackable storage shelf, platinum', 'Muhammed MacIntyre', '3', '-213.25', '38.94', '35', 'Nunavut', 'Storage & Organization', '0.8']
['2', '1.7 Cubic Foot Compact "Cube" Office Refrigerators', 'Barry French', '293', '457.81', '208.16', '68.02', 'Nunavut', 'Appliances', '0.58']
['3', 'Cardinal Slant-D® Ring Binder, Heavy Gauge Vinyl', 'Barry French', '293', '46.71', '8.69', '2.99', 'Nunavut', 'Binders and Binder Accessories', '0.39']
['4', 'R380', 'Clay Rozendal', '483', '1198.97', '195.99', '3.99', 'Nunavut', 'Telephones and Communication', '0.58']
['5', 'Holmes HEPA Air Purifier', 'Carlos Soltero', '515', '30.94', '21.78', '5.94', 'Nunavut', 'Appliances', '0.5']
['6', 'G.E. Longer-Life Indoor Recessed Floodlight Bulbs', 'Carlos Soltero', '515', '4.43', '6.64', '4.95', 'Nunavut', 'Office Furnishings', '0.37']
['7', 'Angle-D Binders with Locking Rings, Label Holders', 'Carl Jackson', '613', '-54.04', '7.3', '7.72', 'Nunavut', 'Binders and Binder Accessories', '0.38