# 4 NumPy und Pandas

<div class="alert alert-info"> Oft enthalten eingelesene Daten fehlende oder fehlerhaft Werte oder es wird nur ein Teildatensatz für die Analyse verwendet. Ist dies der Fall, müssen wir wissen, wie wir unsere Daten aufbereiten und manipulieren können. Hierfür setzen wir uns im vierten Kapitel mit den beiden Bibliotheken <strong>NumPy</strong> und <strong>Pandas</strong> auseinander. Das Kapitel 4 ist dabei aufgebaut wie folgt: 
    <ol>
        <li> NumPy </li> 
            <ol start="1.1">
                <li> Erzeugung von Arrays </li>
                <li> Indizierung </li>
                <li> Arithmetische Operationen </li>
            </ol>
        <li> Pandas </li>
            <ol>
                <li> Series </li>
                <li> DataFrames </li>
                <li> Indizierung </li>
                <li> DataFrames und Series manipulieren </li>
            </ol>
    </ol>
Nach dieser Lerneinheit können Sie NumPy Arrays instanziieren und indizieren. Zudem können Sie arithmetische Operationen mithilfe der NumPy Pakets durchführen. Außerdem können Sie sich einen Überblick über einen Datensatz verschaffen und diesen indizieren. Sie können unterschiedliche Strategien der Indizierung benennen und diese gegenüberstellen.</div>

## 4.1 NumPy

Numerical Python (`NumPy`) ist eine Standardbibliothek für mathematische und numerische Funktionen in Python. Mittels `NumPy` lassen sich u. a. effiziente multidimensionale Arrays erstellen, schnelle Rechenoperationen (ohne das Nutzen von Schleifen) durchführen und Zufallszahlen generieren.

In [None]:
import numpy as np # Konvention

### 4.1.1 Erzeugung von Arrays

`NumPy` erweitert Python um weitere Datenstrukturen wie das `NumPy` Array. Dieses wirkt auf den ersten Blick wie eine Liste, jedoch lassen sich in ein `NumPy` Array nur Daten desselben Datentyps speichern. 

In [None]:
x = np.array([1, 2, 3, 4, 5, 6])
print(x, type(x))
print(x.dtype) # Integers

`dtype` gibt uns den Datentyp (z. B. integer, float) aus und die Größe der Daten (z. B. Anzahl an bytes).

In [None]:
list1 = [1, 2, 3, 4, 5, 6]
print(list1, type(list1))

In [None]:
y = np.array([1, 2, 3, "a", "b"])
print(y, type(y))
print(y.dtype) # U = unicode string

In [None]:
# Wichtige Eigenschaften eines Arrays
print(x.ndim) # Dimensionen; hier: 1-dimensional
print(x.shape) # Gestalt; hier: 6x1
print(x.size) # Anzahl der Elemente

**arange()-Funktion**<br>
Analog zur bereits bekannten range-Funktion, die jedoch direkt ein NumPy Array erzeugt.

In [None]:
np.arange(1, 14)

In [None]:
np.arange(1, 14, 2)

### 4.1.2 Indizierung

In [None]:
x

In [None]:
print(x[0]) # Indizierung wie bei Liste
print(x[0:4]) #n:m:k Syntax --> Startindex n ist enthalten, Endindex m nicht und k ist mögliche Schrittweite. 

In [None]:
list2 = [2, 3]
print(x[list2]) # Indizierung eines Arrays oder einer Liste aus dem np.array möglich

In [None]:
list3 = [True, False, False, False, False, True]
print(x[list3]) # auch Booleans können indiziert werden

Indizierung von Array B:

In [None]:
b

|         | j = 0   | j = 1   | j = 2   |
|---------|---------|---------|---------|
|**i = 0**| B[0, 0] | B[0, 1] | B[0, 2] |
|**i = 1**| B[1, 0] | B[1, 1] | B[1, 2] |
|**i = 2**| B[2, 0] | B[2, 1] | B[2, 2] |

<div class="alert alert-danger"><strong>Achtung:</strong> Objekt[Zeile, Spalte]</div>

In [None]:
print(b[1, 2]) # zweite Zeile, dritte Spalte
print(b[1][2]) # Alternativ

### 4.1.3 Arithmetische Operationen 

Im Folgenden sehen wir uns arithmetische Operationen.

In [None]:
a

In [None]:
print(a + 3) # Rechnung möglich

In [None]:
# Außerdem
print(x)
print("----------------------------------------")
print(x > 4)
print((x > 4).sum()) # True = 1, False = 0
print((x > 4).sum()/len(x)) # relativ
print(x[x > 4]) # alle Werte größer 4 werden indiziert

In [None]:
print(a)
b

In [None]:
a + b # Elementweise

In [None]:
round # Shift + Tab

<div class="alert alert-warning"><h4> Aufgabe 1: NumPy

a) Legen Sie die folgenden NumPy Arrays an:
* -15, -14, -13, ..., -2, -1, 0, 1, 2, ..., 13, 14
* 6, 7, 8, neun, zehn
* True, False, True, False, True, False

Speichern Sie den ersten Vektor in Objekt **a** und den zweiten Vektor in Objekt **b** und den Dritten in Objekt **c** ab.

b) Erklären Sie was die folgenden Ausdrücke ergeben und prüfen Sie Ihr Ergebnis: 
  * a + b
  * b + c
  * len(b + c)

c) Weisen Sie dem vierten Element von **a** die Zahl 1000 zu.

#### Zusatzaufgabe
d) Geben Sie aus dem Vektor **a** jeweils diejenigen Elemente $a_i$ aus, welche folgende Bedingungen erfüllen: 
* $a_i$ ist kleiner 10
* $a_i$ ist eine negative Zahl
* $a_i$ ist kleiner als Zehn und größer als -10
* $a_i$ ist ein Vielfaches von 3

## 4.2 Pandas

Pandas (Akronym für Python and data analysis) stellt weitere Funktionen und Datenstrukturen für die Datenanalyse zur Verfügung. Die beiden wichtigsten Datenstrukturen heißen `DataFrame` und `Series`. Das erste bezeichnet eine Datentabelle, das zweite eine Spalte einer Datentabelle (d. h. ein `DataFrame` besteht auf `Series`). 

In [None]:
import pandas as pd

### 4.2.1 Series

`Series`-Objekte enthalten neben den Werten einen zusätzlichen Index. In der Default-Einstellung ist dieser numerisch und beginnt bei 0. Er kann jedoch auch angepasst werden.

In [None]:
a = pd.Series([15, 16, 17, 18])
print(a)

In [None]:
print(a.index) # Index
print(a.values) # Werte

In [None]:
b = pd.Series([15, 16, 17, 18], index=["a", "b", "c", "d"])
b

In [None]:
print(b["c"]) # Indizierung mit String-Index möglich
print(b.c) # Alternativ dot-Notation

In [None]:
# Vergleich Dictionary
c = {"a": 15, "b": 16, "c": 17, "d":18}
c["c"]

In [None]:
# Index doppelt
d = pd.Series(range(5), index=["a", "b", "c", "d", "d"])
print(d)

In [None]:
print(d.d)

### 4.2.2 DataFrames

Ein DataFrame enthält mehrere Series-Objekte und stellt das "Standardobjekt" bei der Analyse von multidimensionalen Daten dar. Für gewöhnlich enthalten die Spalten unterschiedliche Datentypen (unsere *Variablen*) und die Zeilen die dazugehörigen Werte (unsere *Beobachtungen*).

In [None]:
a = [21, 22, 23, 24]
b = [1000, 2000, 1500, 1700]
Tabelle1 = pd.DataFrame({"a":a, "b":b}) # key wird zum Spaltenname
Tabelle1

In [None]:
# Index kann angepasst werden
Tabelle2 = pd.DataFrame({
    "Alter":a, 
    "Einkommen":b, 
    "Fakultät": "Wirtschaftswissenschaften", 
    "Studium": pd.Categorical(["A", "A", "B", "B"])}, 
    index=("Person1", "Person2", "Person3", "Person4"))
Tabelle2

**Überblick verschaffen**

In [None]:
Tabelle2.head(2)

In [None]:
Tabelle2.tail(2)

In [None]:
Tabelle2.index

In [None]:
Tabelle2.columns

In [None]:
Tabelle2.describe() # nur numerische Spalten

In [None]:
Tabelle2.describe(include = "all")

In [None]:
Tabelle2.dtypes

### 4.2.3 Indizierung

Pandas untersützt unterschiedliche Arten der Indizierung: 

a) **`[]`**: Indizierung über numpy-Standardnotation mithilfe des Index-Operators `[]`

b) **`.`**: Attribute-Access-Operator

c) **`.loc`**: In erster Linie Label-basiert, kann aber auch mit einem booleschen Array verwendet werden.

d) **`.iloc`**: basiert hauptsächlich auf Integer-Positionen, kann aber auch mit einem booleschen Array verwendet werden. 

e) **`.at`**: Indizierung einzelner Werte

* Wichtig: Zuweisungen sollten mithilfe der numpy-Indizierung vermieden werden. Besser: `.loc` oder `.iloc`
* Indizierung von Spalten über Label
* Indizierung von Zeilen über Slicing
* Indizierung einer Spalte returniert Series
* Indizierung einer Liste returniert DataFrame

**a) Numpy-Indizierung**

In [None]:
Tabelle2

In [None]:
Tabelle2[0:1] # Indizierung einer Zeile --> Intervall rechtsoffen

In [None]:
Tabelle2[0] # Fehlermeldung

In [None]:
Tabelle2[2:4] 

In [None]:
Tabelle2["Alter"] # Indizierung einer Spalte. Rückgabe: Series

In [None]:
Tabelle2[["Alter", "Einkommen"]] # Rückgabe: DataFrame

Indizierung mittels Boolean:

In [None]:
Tabelle2[[True, False, True, False]]

In [None]:
Tabelle2["Studium"] == "A"

In [None]:
Tabelle2[Tabelle2["Studium"] == "A"]

**b) `.`**

Spalten können mit `df.ColumnName` abgerufen werden:

In [None]:
Tabelle2.Alter # Rückgabewert: Series

**c) `.loc`**

Indizierung mittels `loc` über Namen der Zeilen oder Spalten: 
 * Einzelnen Label, z. B. `a`.
 * Einzelne Listen oder Arrays mit Bezeichnungen, z. B. `["a", "b", "c"]`.
 * *Slice*-Objekte mit Bezeichnungen, z. B. `"a":"f"`. Achtung: Es handelt sich hier um ein abgeschlossenes Intervall.
 * Arrays mit Booleans 

In [None]:
Tabelle2.loc["Person1":"Person3"] # alle Zeilen inkl. Person 3 --> abgeschlossenes Intervall

In [None]:
Tabelle2.loc[:, "Alter"] # Indizierung über Spalten

In [None]:
Tabelle2.loc["Person1":"Person3", ["Alter", "Fakultät"]]

**d) `.iloc`**

Indizierung mittels `iloc` über Integer-Indizes der Zeilen und Spalten. Erlaubte Eingaben sind:
* Ganze Zahlen, z. B. `5`
* Listen oder Arrays mit ganzen Zahlen, z. B. `[4, 3, 0]`
* *Slice*-Objekte mit ganzen Zahlen, z. B. `1:7` 
* Arrays mit Booleans

In [None]:
Tabelle2.iloc[3] # Zeilenindizierung. Rückgabeobjekt: Series

In [None]:
Tabelle2.iloc[[3]] # Rückgabeobjekt: DataFrame

In [None]:
Tabelle2.iloc[0:2] # Intervall rechtsoffen

In [None]:
Tabelle2.iloc[3,1]

**e) `.at`**

Einzelne Werte können auch mithilfe von `.at` abgerufen werden (labelbasiert):

In [None]:
Tabelle2.at["Person2", "Einkommen"]

<div class="alert alert-warning"><h4> Aufgabe 2: Pandas

a) Erstellen Sie das Series-Objekt **d** mit dem Werten (0, 1, 2, 3) und dem Index (w, x, y, z).

b) Indizieren Sie daraus den Wert 2 mit der dot-Notation, mit einem String-Index, mittels `.loc` und `.iloc`.

c) Erstellen Sie den Dataframe **e**:

**Titel** | **Jahr** | **Platz**
-----------|---------|-----------
Pulp Fiction | 1994 | 1
Die Verurteilten | 1994 |5
Der Pate | 1972 | 3
Fight Club | 1999 | 2
The Dark Knight | 2008 | 4

d) Machen Sie sich einen Überblick über **e** indem Sie sich
* alle Indizes,
* alle Zeilennamen und
* die ersten beiden Zeilen

ausgeben lassen.

#### Zusatzaufgaben
e) Sortieren Sie **e**  nach ihrem Platz. \
f) Greifen Sie auf folgende Elemente von **e** zu: 
* Spalte Jahr
* Informationen zum Film "Pulp Fiction"
* alle Zeilen mit geradem Index
* Titel und Jahr der drei best Platzierten

### 4.2.4 DataFrames und Series manipulieren

**Apply**: Iteration über Series-Objekt möglich.

In [None]:
Tabelle2.loc[:,"Einkommen"].apply(lambda i: i*2)

In [None]:
Tabelle2.loc["Person1",:].apply(lambda i: i*2)

**Daten sortieren**

In [None]:
Tabelle2.sort_values(by="Einkommen")

In [None]:
Tabelle2.sort_values(by="Einkommen", ascending=False)

**Zeilen/Spalten hinzufügen/löschen**

In [None]:
Tabelle2.at[:, "NeueSpalte"] = np.array([3]*len(Tabelle2)) # Spalte hinzufügen
Tabelle2

In [None]:
Tabelle2.drop("NeueSpalte", axis=1) # Spalte löschen
# axis=0 Zeile löschen

<div class="alert alert-warning"><h4> Aufgabe 3: Manipulation

a) Importieren Sie den Datensatz `titanic` aus `seaborn` und machen Sie sich einen Überblick über die Daten indem Sie
* i) sich die ersten 4 Zeilen ausgeben lassen. 
* ii) sich die letzten 4 Zeilen ausgeben lassen.
* iii) sich die Indizes ausgeben lassen.
* iv) sich die Spaltennamen ausgeben lassen.
* v) sich eine Tabelle mit wichtigen Lage- und Streuungsmaßen der metrischen Variablen ausgeben lassen.
* vi) sich mit den Datentypen vertraut machen.

#### Zusatzaufgaben
b) Sortieren Sie den Datensatz absteigend nach Alter. \
c) Geben Sie einen Teildatensatz aus, der lediglich Passagiere beinhaltet, die überlebt haben. 