# Python-Bibliotheken für *DataScience* und sonstige Aufgaben

<div class="alert alert-block alert-info">

In diesem Notebook findest du einige Anmerkungen:

- Was sind Bibliotheken?
- Wie benutzt man Bibliotheken?
- Beispiele wichtiger Bibliotheken für die weiteren Notebooks und kurze Beschreibungen
    - Hier sind nur kurze Anmerkungen zu den Bibliotheks-Funktionen zu finden; doch zu allen hier benutzten Bibliotheken finden sich im Internet ausführlich Dokumentationen.

## Einführung

<div class="alert alert-block alert-info">

Eine Programmierumgebung wie *Python* stellt neben den Basis-Datentypen und den Rechenoperationen (wie Addition, ganzzahlige Division etc.) eine Menge von Basis-Funktionen zur Verfügung. Man denke dabei z.B. an die `print`-Funktion, die jederzeit aufrufbar ist. Also:

- **Die Python-Standardbibliothek liefert viele Funktionen für gängige Programmieraufgaben.**
    
Doch daneben gibt es viele weitere Bibliotheken, in denen Funktionen bereitgestellt werden, die in einem Python-Programm nutzbar sind, so dass man als Programmierer nicht immer wieder *das Rad neu erfinden* muss.
    
Viele solcher Bibliotheken (in Python auch ***Module*** genannt) sind frei zugänglich, zum großen Teil bereits bei der Installation von Python eingerichtet oder können nachgeladen werden. Daneben gibt es Module von Drittanbietern. 
    
Ebenfalls besteht die Möglichkeit, eigene Module zu entwickeln, die Funktionalitäten beinhalten, die wir selber entwickelt haben und dann in verschiedenen Python-Programmen nutzen können.
    
    
    


## Eigene Bibliothek

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Stell dir vor, du benötigst immer wieder gewisse mathematisch-interessante Funktionen, und möchtest dir eine Sammlung solcher Funktionen anlegen, die du bei Bedarf nutzen kannst, ohne den Code immer wieder neu 
schreiben zu müssen (oder per *copy-paste* zu nutzen).
    
Dann solltest du eine Python-Datei, z.B. unter dem Namen `meineBib.py` erzeugen, in der die Funktionen definiert sind.
    
Ein Beipiel:

![Datei](Bilder/meineBib.png "eigene Bibliothek")

<div style="background-color: Cornsilk; padding: 5px 20px 20px">

Speichere diese Datei in deinem Arbeitsverzeichnis ab.
    
Jetzt kannst du auf die beiden dort definierten Funktionen zugreifen. Dazu kannst du wählen:
- Alle Funktionen, die in diesem Modul definiert sind, werden zugänglich gemacht.
    - Dann werden die Funktionen mit dem sog. *qualifizierten Namen* aufgerufen:
       
    ```
        import meineBib
        print (meineBib.fak (10))
    ```
    - Man kann dann den Bibliotheksnamen ggf. abkürzen:
    
    ```
        import meineBib as mb
        print (mb.fak (10))
    ```
    
       
- Nur einzelne Funktionen sind nutzbar.
    - Dann importiert man nur die benötigte(n) Funktion(en) und kann sie *unqualifiziert* nutzen
    
    ```
        from meineBib import fak
        print (fak (10))
    ```
    - Jedoch kann man dann eine Funktion mit gleichem Namen aus einer anderen Bibliothek nicht gleichzeitig nutzen!    

## Abkürzungen für Module: Schlüsselwort `as`

<div class="alert alert-block alert-info">

Mit dem Schlüsselwort`as` kann der Name einer zu importierenden Bibliothek umbenannt werden. Grund dafür könnte sein:
- Der Name der Biobliothek wurde bereits für andere Zwecke benutzt (sehr unschöner Stil!!)
- Eine andere Bibliothek hat denselben Namen (ebenfalls nicht sehr schön!)
- Der Name der Bibliothek ist zu lang

In [None]:
import meineBib as mb
print (mb.fak(10))

In [None]:
from meineBib import fak
print (fak (10))

<div class="alert alert-block alert-info">

Möchte man alle Funktionen einer Bibliothek unqualifiziert importieren:
    
```
from meineBib import *
print (kehrwert (10))
```


In [None]:
from meineBib import *
print (kehrwert (10))

<div class="alert alert-block alert-info">

***Hinweis: Wo sucht das Python-System die importierten Module?***
    
Es gibt eine Reihenfolge vorgegeben, nach der verfahren wird, wenn ein Modul importiert werden soll:

1. Zunächst wird der lokale Programmordner durchsucht. Wenn ein solches lokales Modul existiert, wird dieses eingebunden und keine weitere Suche durchgeführt.
    - Also kann man ein eigenes Modul erstellen, das einen Namen hat, wie ein ggf. intern vorhandenes gleichnamiges Modul.
2. Wenn kein lokales Modul mit dem angegebenen Namen gefunden wurde, wird ein global-vorhandenes Modul gesucht.
3. Wenn auch das nicht gefunden wurde, wird ein ModuleNotFoundError erzeugt: 

## Untermodule

<div class="alert alert-block alert-info">

Man kann auch mehrere Python-Bibliotheken aus inhaltlichen Gründen in einem Unterverzeichnis zusammenfassen. Schau dir dazu die folgenden Zeilen sowie die Bibliotheken dazu an:

In [None]:
import myFunctions.meineBib1 as mb1

mb.fak (10)

In [None]:
import myFunctions as mf
mf.meineBib1.kehrwert (3)

In [None]:
import myFunctions.meineBib2 as greeting


In [None]:
greeting.gruss("Paul")

## Fremde Bibliotheken

<div class="alert alert-block alert-info">

Sehr oft benutzt man Module, die aus anderen Quellen stammen. 

Wenn man die Anaconda-Installation benutzt, kann man auf eine Vielzahl solcher Module zurückgreifen. 
Eine Übersicht über
    
- bereits installierte
- mögliche weitere installierbare

Module kann man über die Anaconda-Oberfläche bekommen. 
    
Dort kann man dann
    
- neue Module installieren
- neue Versionen von bereits installierten Modulen laden
- Module entfernen

![Anaconda-Environment](Bilder/anaconda.png "Anaconda-Environment")

<div class="alert alert-block alert-info">

Die Syntax für den Import eines solchen Moduls ist identisch zu dem Import eigener Bibliotheken.

<div class="alert alert-block alert-info">

***Hinweis:***
    
Man sollte regelmäßig die Versionen der benutzten Module überprüfen.
    
Alle externen, über Anaconda importierten Module haben eine Versionsnummer, die man in der Anaconda-Oberfläche erkennen kann. Es gibt auch die Möglichkeit, per Python-Anweisung diese Versionsnummer zu erfragen.

**Am Beispiel der Bibliothek `numpy` (ein wichtige Bibliothek, die wir im folgenden Abschnitt genauer kennen lernen) sehen wir, wie man Fremdbibliotheken nutzt:**

## Die Bibliothek *numpy*

In [None]:
import numpy as np

<div class="alert alert-block alert-info">

Die Versionsnummer anzeigen lassen:

In [None]:
np.__version__

<div class="alert alert-block alert-info">

Dieses Modul stellt Funktionen für die numerische Analyse von Daten zur Verfügung. 
    
Insbesondere ermöglicht es den einfachen Umgang mit Arrays (Listen) und Matrizen. Es beinhaltet viele effizient implementierte Funktionen für numerische Berechnungen.
    
Der zentrale Datentyp in numpy ist `ndarray` (Abk. für *n-dimensionales Array*)
    
An einem einfachen Beispiel soll die Benutzung demonstriert werden.

<div class="alert alert-block alert-info">

Dokumentation kann gezeigt werden:

In [None]:
np?

<div class="alert alert-block alert-info">

Der Wechselkurs Euro --> Dollar ist zur Zeit 1:1.21. Wir wollen eine Tabelle anlegen, aus der man für einige Euro-Beträge den zugehörigen Wert in Dollar ablesen kann.

In [None]:
factor = 1.21

# es werden 10 Werte erzeugt im Intervall [100 ... 1000]; die Schritteweite wird automatisch berechnet
#euros = np.linspace (start=100, stop = 1000, num = 10) 

# alternativ:
# es werden Werte erzeugt im Intervall [100 ... 1000] mit Schrittweite 100

euros = np.arange(100, 1000, 100)

euros

<div class="alert alert-block alert-info">

Die Rechenoperationen `+`, `-`, `*` sowie viele mathematische Funktionen wie die Betragsfunktion `abs()`, die Wurzelfunktion `sqrt()` oder trigonometrische Funktionen wie `sin()`, `cos()` und `tan()`, können auf Numpy-Arrays angewendet werden. Dabei wird die Funktion auf jedes einzelne Element des Arrays angewendet. Als Ergebnis wird dann ein Array mit den entsprechenden Funktionswerten zurückgegeben.

In [None]:
dollars = factor * euros # für unser Beispiel sinnvoll:

# erzeugt eine zwei-dimensionale Tabelle
table = np.array ([euros, dollars]) 

# Zeilen und Spalten transponiert, um besser lesen zu können
print (np.transpose (table))

<div class="alert alert-block alert-info">

Man kann mit Hilfe von numpy auch (Pseudo-)Zufallszahlen erzeugen. Das geschieht mit der Funktion `random()` aus dem Untermodul `random`. Diese Funktion erzeugt die im Parameter angegebene Anzahl von zufälligen float-Werten im halboffenen Intervall [0, 1)

In [None]:
zufListe = np.random.random(10)
print (zufListe)

## Die Bibliothek *matplotlib* mit der Teilbibliothek *pyplot*

<div class="alert alert-block alert-info">

Diese Bibliothek gestattet es, Digramme zu erzeugen. Das kann z.B. auf der Grundlage von Python-Listen erfolgen:

In [None]:
import matplotlib

In [None]:
matplotlib.__version__

In [None]:
import matplotlib.pyplot as plt

In [None]:
plt?

In [None]:
Y = [4, 7, 1, 9, 5, 2, 8]
X = [1, 2, 3, 4, 5, 6, 7]
plt.plot(X, Y,color='blue')
#plt.scatter(X, Y, color='red')
plt.plot (X, Y, 'ro')   # Alternativ
# Abkürzungen der Symbole sind z.B. 
# ".", o", "+", "x" für die Punktsymbole sowie
# "r", "b", "m", "g" für Farben
plt.xlabel("X-Werte")
plt.ylabel("Y-Werte")

x1 = X[0]
x2 = X[-1]
y1 = Y[0]
y2 = Y[-1]
plt.plot((x1, x2), (y1, y2), 'r-.')
# bei der Linienart kann man z.B. '-', '-.' oder '--' nutzen

plt.show()

In [None]:
from numpy import sin, exp, linspace, arange, pi 
x=linspace(0.0, 2*pi, 1000)
for a in arange(0.5,2, 0.5):    
    y = a * sin(5*x)*exp(-x)    
    plt.plot(x, y, label = "Amplitude = " + str(a)+ "V" )
plt.grid(True)
plt.xlim(-1.0, 6.0)
plt.ylim(-1.5, 1.5)
plt.xlabel("t/ms")
plt.ylabel("u/V")
plt.title ("Gedämpfte Sin-Schwingung")
plt.legend() 
plt.show

## Ein weiteres Beispiel

In [None]:
# Wertebereich für x-Achse festlegen:
x = np.arange (-6,6,0.1)

x2 = np.sin(x)
x3 = np.cos(x)

# Einzelne Diagramm-Linien plotten:
#plt.plot(x, x, 'r--')
plt.plot(x, x2,'b--')
plt.plot(x, x3,'g-')

# Diagramm-Gitter einblenden:
plt.grid(True)

# Diagramm ausgeben:
plt.show()

In [None]:
# Werte-Listen für eine Sinus- und Cosinus-Funktion erstellen:
x = np.linspace(-np.pi, np.pi, 500, endpoint=True)
cos_x = np.cos(x)
sin_x = np.sin(x)

# Diagramm-Linien plotten:
plt.plot(x, cos_x)
plt.plot(x, sin_x)

# Diagramm anzeigen:
plt.show()

In [None]:
# Werte-Listen für eine Sinus- und Cosinus-Funktion erstellen:
x = np.linspace(-np.pi, np.pi, 500, endpoint=True)
cos_x = np.cos(x)
sin_x = np.sin(x)

# Eine neues Matplot-Figure-Objekt mit 8x6 Zoll und
# einer Auflösung von 100 dpi erstellen:
plt.figure(figsize=(8, 6), dpi=80)

# In diese Abbildung ein 1x1 großes Diagramm-Gitter erstellen;
# Als aktuelles Diagramm wird das erste dieses Gitters ausgewählt:
plt.subplot(111)

# Cosinus-Funktion mit blauer Farbe, durchgehender Linie und 1 Pixel
# Linienbreite plotten:
plt.plot(x, cos_x, color="blue", linewidth=1.0, linestyle="-")

# Sinus-Funktion mit grüner Farbe, durchgehender Linie und 1 Pixel
# Linienbreite plotten:
plt.plot(x, sin_x, color="green", linewidth=1.0, linestyle="-")

# Grenzen für die x-Achse festlegen:
plt.xlim(-4.0, 4.0)

# Grenzen für die y-Achse festlegen:
plt.ylim(-1.0, 1.0)

# "Ticks" (Bezugspunkte) für x-Achse festlegen:
plt.xticks(np.linspace(-4, 4, 9,endpoint=True))

# "Ticks" (Bezugspunkte) für y-Achse festlegen:
plt.yticks(np.linspace(-1, 1, 5,endpoint=True))

# Diagramm anzeigen:
plt.show()

In [None]:
# Größe des Plots anpassen:
plt.figure(figsize=(10,6), dpi=80)
# Farbe und Dicke der Diagrammlinien anpassen:
# Plots mit einem Label versehen:
plt.plot(x, cos_x, color="blue", linewidth=2.5, linestyle="-", label=r'$\cos(x)$')
plt.plot(x, sin_x, color="red",  linewidth=2.5, linestyle="-", label=r'$\sin(x)$')
# Wertebereiche der Achsen anpassen:
plt.xlim(x.min()*1.1, x.max()*1.1)
plt.ylim(cos_x.min()*1.1, cos_x.max()*1.1)
# Auf der x-Achse fünf Bezugspunkte (als Vielfache von pi) festlegen
# und mittels LaTeX-Symbolen beschriften:
plt.xticks( [-np.pi, -np.pi/2, 0, np.pi/2, np.pi],
            [ r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$']
    )

# Auch Ticks für die y-Achse anpassen:
plt.yticks( [-1.0, -0.5, 0, 0.5, 1],
            [ r'$-1$', r'$-1/2$', r'', r'$+1/2$', r'$+1$']
    )

# Das Achsen-Objekt des Diagramms in einer Variablen ablegen:
ax = plt.gca()

# Die obere und rechte Achse unsichtbar machen:
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')

# Die linke Diagrammachse auf den Bezugspunkt '0' der x-Achse legen:
ax.spines['left'].set_position(('data',0))

# Die untere Diagrammachse auf den Bezugspunkt '0' der y-Achse legen:
ax.spines['bottom'].set_position(('data',0))

# Ausrichtung der Achsen-Beschriftung festlegen:
ax.xaxis.set_ticks_position('bottom')
ax.yaxis.set_ticks_position('left')

# Achse-Beschriftungen durch weiß-transparenten Hintergrund hervorheben:
for label in ax.get_xticklabels() + ax.get_yticklabels():
    label.set_fontsize(16)
    label.set_bbox(dict(facecolor='white', edgecolor='None', alpha=0.65 ))
    
# Titel hinzufügen:
plt.title('Sinus und Cosinus', fontsize=20, color='gray')

# Legende einblenden:
plt.legend(loc='upper left', frameon=True)


plt.show ()

## Weitere graphisch Darstellungen

In [None]:
# matplotlib style
plt.style.use('seaborn-bright')

# data to plot
labels = 'Grüne', 'CDU', 'AfD', 'SPD', 'FDP', 'Die Linke', 'Sonstige'
sizes = [30.3, 27, 15.1, 12.7, 8.3, 2.9, 3.7]
colors = ['green', 'gray', 'lightblue', 'red', 'yellow', 'purple', 'lightgray']

# plot
plt.pie(sizes,              # data
        labels=labels,      # slice labels
        colors=colors,      # array of clors
        autopct='%1.1f%%',  # print the values inside the wedges
        shadow=True,        # enable shadow
        startangle=0)     # startin angle

plt.axis('equal')

plt.show()

In [None]:
gruene = [5.3, 8.0, 7.9, 9.5, 12.1, 7.7, 11.7, 24.2, 30.3]
cdu = [53.4, 51.9, 49.0, 39.6, 41.3, 44.8, 44.2, 39.0, 27.0]

fig, ax = plt.subplots()
years = [1980, 1984, 1988, 1992, 1996, 2001, 2006, 2011, 2016]

plt.title("Landtagswahlen Baden-Württemberg 1980-2016", size="x-large")
plt.ylabel("Stimmen in %", size="x-large")
plt.xlabel("Jahr", size="x-large")

plt.plot(gruene, "*-", markersize=6, linewidth=1, color='green', label="Grüne")
plt.plot(cdu, "*-", markersize=6, linewidth=1, color='black', label="CDU")

plt.legend(loc=(0.1, 0.3))

ax.set_xticks(range(len(years)))
ax.set_xticklabels(years, rotation='vertical')

plt.show()

## Die Bibliothek *pandas*

<div class="alert alert-block alert-info">

In einer Datenerhebung werden viele Datenpaare gesammelt, die in der Regel in einer ***csv***-Datei (z.B. unter dem Namen `abc.csv` in einem Unterordner `daten` des Arbeitsverzeichnisses) abgelegt sind.

<div class="alert alert-block alert-info">

`pandas` ist eine Programmbibliothek für die Programmiersprache Python, die Hilfsmittel für die Verwaltung von Daten und deren Analyse anbietet. Insbesondere enthält sie Datenstrukturen und Operatoren für den Zugriff auf numerische Tabellen und Zeitreihen. 
    
</div>

*(Wikipedia)*

In [None]:
import pandas as pd

In [None]:
pd.__version__

In [None]:
df = pd.read_csv("daten/Auto.csv",sep=";",decimal=",", index_col=["Hersteller","Modell"])
df

In [None]:
df.sort_index()

In [None]:
df = pd.read_csv("daten/Auto.csv",sep=";",decimal=",")
df[["Hersteller","Verbrauch"]]

In [None]:
df[["Hersteller","Verbrauch"]].plot(x="Hersteller")

plt.show ()