# Vektoren und Matrizen in NumPy

Das Paket `numpy` (_Numeric Python_) wird üblicherweise unter der Abkürzung `np` importiert, das verbreitete `matplotlib` für Visualisierungen unter `plt`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sklearn
import sklearn.datasets

## Vektoren und Matrizen

In `numpy` sind Vektoren und Matrizen Spezialfälle der allgemeinen Datenstruktur **Array**, die auch mehr als zwei Achsen haben kann. Arrays unterscheiden sich von Python-Listen v.a. darin, dass sie nur Elemente des gleichen Typs (meistens Gleitkommazahlen) enthalten.

In [None]:
x = np.array([1, 2, 3]) # Vektor
x

In [None]:
M = np.array([[11, 12, 13], [21, 22, 23], [31, 32, 33]]) # Matrix
M

Das Format (_shape_) des Arrays zeigt uns, dass $\mathbf{x}\in \mathbb{R}^3$ und $\mathbf{M}\in \mathbb{R}^{3\times 3}$ ist.

In [None]:
print(x.shape)
print(M.shape)

Einige andere Möglichkeiten, Vektoren und Arrays zu erzeugen:

In [None]:
print( np.zeros((3, 5))    )
print( np.ones((3, 5))     )
print( np.full((3, 5), 42) )
print( np.eye(3)           ) # Identitätsmatrix (=> später)

Vektoren aus Zahlenfolgen (praktisch für Beispiele):

In [None]:
print(np.arange(10, 21, 2))
print(np.linspace(1, 2, 6))

Matrix kann daraus durch Umformen (_reshape_) erstellt werden (wird zeilenweise befüllt).

In [None]:
np.arange(1, 16).reshape((3, 5))

Mehr Abwechslung durch Zufallsvektoren und -matrizen:

In [None]:
print(np.random.random(size=(3, 5)))
print(np.random.normal(0, 1, size=(10,)))

Zugriff auf einzelne Elemente und Teilbereiche (_slices_) durch Indexierung:

In [None]:
print(x[2])
print(M[1, 0])

In [None]:
print(x[0:2])
print(M[:2, 1:])
print(M[1, :])   # Was ist der 
print(M[1:2, :]) # Unterschied?

Elemente können durch Zuweisung auch verändert werden:

In [None]:
x[2] = 42
x

In [None]:
M[1, :] = np.arange(41, 44)
M

**Achtung:** Teilbereiche sind keine Kopien, sondern Referenzen in das ursprüngliche Array. Sie können mit `.copy()` in eine unabhängige Kopie verwandelt werden.

In [None]:
M1 = M[1:, 1:]
M1 *= 0
M

Auch die Zuweisung ganzer Arrays erzeugt keine Kopien:

In [None]:
y = x
y[2] = 54
x

## Vektor-Operationen

Als Beispiel definieren wir zwei Vektoren $\mathbf{x}, \mathbf{y}\in \mathbb{R}^5$.

In [None]:
x = np.arange(1, 6)
y = np.linspace(.8, 0, 5)

Mit `np.concatenate`, `np.hstack` und `np.vstack` können Vektoren zu Matrizen verkettet werden. Hier nutzen wir diese Möglichkeit nur zur übersichtlichen Anzeige:

In [None]:
np.vstack([x, y])

Elementare Vektoroperationen sind die **Addition** $\mathbf{x} + \mathbf{y}$ und **Skalarmultiplikation** $\lambda \mathbf{x}$.

In [None]:
print(x + y)
print(10 * x)

Vektoren können natürlich nur addiert werden, wenn sie aus dem gleichen Vektorraum kommen (d.h. das gleiche _shape_ haben).

In [None]:
x + np.arange(1, 4)

Auch andere arithmetische Operationen und mathematische Funktionen werden **elementweise** ausgeführt, z.B. das **Hadamard-Produkt** $\mathbf{x}\odot \mathbf{y}$.  Für mathematischen Funktionen müssen die Implementierungen aus `np` verwendet werden, nicht aus `math`.

In [None]:
print(x * y)
print(x ** 2)
print(x ** x)
print(-y)
print(np.cos(y))

Wir können auch Summe und Produkt aller Elemente bilden, oder Minimum und Maximum finden.

In [None]:
print(np.sum(y))
print(np.prod(x)) # 5! (Fakultät)
print(np.min(y))
print(np.max(y))
print(np.argmin(y)) # Was macht das?

> **Aufgabe:**
> - Berechnen Sie den Mittelwert der Elemente von $\mathbf{x}$ und $\mathbf{y}$ (jeweils separat).
> - Vergleichen Sie Ihr Ergebnis mit der Ausgabe von `np.mean()`.
> - Wie können Sie am einfachsten den Mittelwert über beide Vektoren hinweg bestimmen?

## Matrix-Operationen

Auch hier definieren wir zwei einfache Beispielmatrizen $\mathbf{A}, \mathbf{B}\in \mathbb{R}^{3\times 5}$

In [None]:
A = np.arange(1, 16).reshape((3, 5))
B = np.array([ np.full(5, x) for x in (100, 200, 300) ])
print(A)
print(B)

Matrizen des gleichen Formats bilden ebenfalls einen Vektorraum mit Addition $\mathbf{A} + \mathbf{B}$ und Skalarprodukt $\lambda \mathbf{A}$.

In [None]:
print(A + B)
print(10 * A)

Wie bei Vektoren werden auch alle anderen arithmetischen Operationen und mathematischen Funktionen elementweise ausgeführt, u.a. $\mathbf{A}\odot \mathbf{B}$ und $\sqrt{\mathbf{B}}$.

In [None]:
print(A * B)
print(np.sqrt(B))

Weitere spezielle Matrix-Operationen, u.a. die **Matrixmultiplikation** $\mathbf{A} \mathbf{B}$, lernen wir in den nächsten Wochen noch kennen.

Wir können wiederum das Maximum und Minimum einer Matrix bestimmen, sowie Summe und Produkt aller Elemente.

In [None]:
print(np.max(A))
print(np.sum(B))

Viel interessanter ist es aber oft, diese Operationen **spaltenweise** bzw. **zeilenweise** auszuführen, was mit dem optionalen Argument `axis=` erreicht werden kann.

In [None]:
print(np.max(A, axis=1)) # Achse 1 = Spaltenindex => Maximum über die Elemente einer Zeile
print(np.sum(B, axis=0)) # Achse 0 = Zeilenindex => Summe über die Elemente einer Spalte

> **Aufgabe:** Berechnen Sie die Mittelwerte der Zeilen und Spalten von $\mathbf{A}$.

## Kombination von Vektoren und Matrizen

Ein Vektor $\mathbf{x}\in \mathbf{R}^n$ kann auch als Matrix mit einer Spalte bzw. einer Zeile aufgefasst werden. Wir sprechen dann von einem **Spaltenvektor** $\mathbf{x}\in \mathbf{R}^{n\times 1}$ bzw. einem **Zeilenvektor** $\mathbf{x}^T\in \mathbf{R}^{1\times n}$. Die Notation $\mathbf{A}^T$ bezeichnet dabei die **Transposition** der Matrix $\mathbf{A}$.

Formal handelt es sich bei Spalten- und Zeilenvektor um Matrizen, nicht um Vektoren. Sie müssen deshalb in NumPy durch eine entsprechende Formatänderung erstellt werden.  Zunächst der Spaltenvektor, der auf zwei verschiedene Arten erstellt werden kann:

In [None]:
xC = x.reshape((5, 1))  # Überzeugen Sie sich, dass beide das gleich Ergebnis liefern.
xC = x[:, np.newaxis]   # Was ist der Vorteil dieser Variante?
xC = x.reshape((-1, 1)) # eine weitere geschickte Lösung
xC

Der Zeilenvektor kann analog direkt erstellt werden, oder geht durch Transposition aus dem Spaltenvektor hervor:

In [None]:
xR = x.reshape((1, 5))
xR = x[np.newaxis, :]
xR = x.reshape((1, -1))
xR = xC.T
xR # Sehen Sie den Unterschied zur Darstellung von x?

**Achtung:** `xR` und `xC` sind wieder keine echten Kopien, sondern Referenzen. Wenn Sie z.B. `xR *= 2` ausführen, werden auch `x` und `xC` verändert!

Wenn wir eine Operation auf eine Matrix und einen Zeilenvektor anwenden, dann werden die Elemente des Vektors automatisch für jede Zeile der Matrix wiederholt. Man nennt dieses Verhalten von NumPy **Broadcasting**.

In [None]:
B + xR

**Achtung:** Entgegen der üblichen mathematischen Notation wird ein „normaler“ Vektor beim Broadcasting als Zeilenvektor $\mathbf{x}^T$ interpretiert, nicht als Spaltenvektor, d.h. es wird automatisch die fehlende zusätzliche Achse an _erster_ Stelle eingefügt.  Es ist empfehlenswert, immer zunächst explizit einen Zeilen- oder Spaltenvektor zu erstellen.

In [None]:
B + x

> **Aufgabe:** Angenommen, die Elemente von $\mathbf{A}$ würden Worthäufigkeiten in Texten darstellen (also eine _bag-of-words_-Matrix). Berechnen Sie relative Häufigkeiten, indem Sie alle Werte einer Zeile jeweils durch die Zeilensumme teilen.

Was passiert beim Broadcasting, wenn wir einen Zeilenvektor und einen Spaltenvektor multiplizieren?

In [None]:
xR * xC

## Das klassische Beispiel: Schwertlilien

Der berühmte **Iris**-Datensatz ist u.a. in Scikit-Learn enthalten:

In [None]:
iris = sklearn.datasets.load_iris()

Nicht vergessen: immer die zugehörige Dokumentation lesen!

In [None]:
print(iris.DESCR)

Im maschinellen Lernen ist es üblich, die **Merkmalsmatrix** mit $\mathbf{X}$ zu bezeichnen und den (Spalten-)Vektor der vorherzusagenden Kategorien oder numerischen **Werte** mit $\mathbf{y}$.

In [None]:
X = iris.data
y = iris.target

In [None]:
print(X.shape)
print(y.shape)

Zum Ausprobieren erstellen wir eine Stichprobe von 10 Blütenexemplaren, der Einfachheit gleichmäßig über den Datensatz verteilt. Die Werte $\mathbf{y}$ werden wir in der heutigen Sitzung nicht weiter verfolgen.

In [None]:
X1 = X[5:150:15, :].copy()
X1

NumPy-Arrays haben keine Zeilen- oder Spaltenlabel und können nur über numerisch indexiert werden. Auch die Bedeutung der Spalten erschließt sich nur durch die separat bereitgestellten Bezeichnungen:

In [None]:
print(", ".join(iris.feature_names))

Merkmalsvektor einer einzelnen Blüte: $\mathbf{x}_{42} \in \mathbb{R}^4$

In [None]:
X[41, :]

Vor allem bei solchen niedrigdimensionalen Datensätzen bietet sich als Einstieg eine Visualisierung in zwei oder drei Dimensionen an. Das Standardpaket dafür ist `matplotlib`. In den nächsten Sitzungen werden wir auch noch modernere Pakete kennenlernen. Optional können Sie aber schon die etwas hübscheren Defaulteinstellungen von `seaborn` nutzen.

In [None]:
import seaborn as sns
sns.set()

Standardvisualisierung für Merkmalsvektoren ist ein sogenannter **Scatterplot**. Dazu müssen wir jeweils zwei Dimensionen auswählen, z.B. Länge und Breite der Blütenblätter (in der dritten und vierten Spalte von $\mathbf{X}$).  Wir verwenden hier bereits einige Optionen, um die Darstellung zu verschönern.

In [None]:
scatter = plt.scatter(X[:,2], X[:,3], c=y, cmap='viridis')
plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.legend(scatter.legend_elements()[0], iris.target_names)

> **Aufgabe:** Definieren Sie eine Hilfsfunktion, um solche Plots für jeweils zwei beliebige Merkmalsdimensionen zu erstellen.

Wir können mit `matplotlib` auch 3D-Visualisierungen erstellen:

In [None]:
ax = plt.axes(projection='3d')
ax.scatter3D(X[:,2], X[:,3], X[:,0], c=y, cmap='viridis')
ax.set_xlabel(iris.feature_names[2])
ax.set_ylabel(iris.feature_names[3])
ax.set_zlabel(iris.feature_names[0])

> **Aufgabe:** Als Maß für die Größe der Blütenblätter (_petals_) und Kelchblätter (_sepals_) ziehen wir das Produkt aus Länge und Breite heran.
> - Verwenden Sie geeignete Vektor- und Matrixoperationen um das Blütenexemplar mit den größten Blütenblättern und das Exemplar mit den größten Kelchblättern zu finden.
> - Erstellen Sie einen Scatterplot, der die Größe von Blüten- und Kelchblättern zeigt.

## Datentransformation mit NumPy

Als Vorbereitung für maschinelle Lernverfahren wollen wir die vier Merkmale **standardisieren**, d.h. durch **z-scores**
$$ z_i = \frac{x_i - \mu_i}{\sigma_i} $$
ersetzen. Als erstes benötigen wir den Vektor der Mittelwerte der Spalten von $\mathbf{X}$ (wir verwenden hier zur übersichtlicheren Darstellung die kleinere Matrix `X1`).

In [None]:
mu = X1.mean(axis=0)
mu

Wir können die Merkmalsverteilungen nun **zentrieren** zu $u_i = x_i - \mu_i$.

In [None]:
U1 = X1 - mu[np.newaxis, :]
U1

In [None]:
U1.mean(axis=0) # zur Kontrolle

Nun müssen wir die Varianzen berechnen:
$$ \sigma_i^2 = \frac{1}{n} \sum_{k=1}^n (x_{ki} - \mu_i)^2 = \frac{1}{n} \sum_{k=1}^n u_{ki}^2 $$
(Statistiker würden durch $n-1$ teilen statt durch $n$).

In [None]:
sigma2 = (U1 ** 2).sum(axis=0) / U1.shape[0]
sigma2

In [None]:
X1.var(axis=0) # zur Kontrolle

Damit können wir die **z-scores** $z_i = u_i / \sigma_i$ berechnen:

In [None]:
Z1 = U1 / np.sqrt(sigma2)[np.newaxis, :]
Z1

In [None]:
Z1.std(axis=0) # Standardabweichung σ zur Kontrolle berechnen

> **Aufgabe:** Standardisieren Sie nun auch die volle Matrix `X`. Schaffen Sie es mit einer einzigen Zeile Python-Code?

Zur Dimensionsreduktion hochdimensionaler Merkmalsräume wird oft eine Hauptkomponentenanalyse (**PCA** = _principal component analysis_) eingesetzt. Eine Implementierung dieses Algorithmus findet sich in Scikit-Learn.

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)
P1 = pca.fit_transform(Z1)
P1

Die PCA-Dimensionen („Hauptachsen“) sind bereits zentriert. Wir können sie also leicht erneut standardisieren, um eine sog. **Whitening** zu erreichen (oder einfach das PCA-Objekt mit der Option `whiten=True` anlegen).

In [None]:
print(P1.mean(axis=0))
print(P1 / P1.std(axis=0))

> **Aufgabe:** Erstellen Sie einen Scatterplot der ersten beiden PCA-Dimensionen für den vollständigen Datensatz.

# Pandas


pandas importieren


In [None]:
import pandas as pd

verschiede Formaten wie CSV, Excel oder JSON lesen

In [None]:
# Read a CSV file
df = pd.read_csv('data.csv')

# Read an Excel file
df = pd.read_excel('data.xlsx')

# Read a JSON file
df = pd.read_json('data.json')

In [None]:
df = pd.read_csv('data.csv')
print(df.head())  # Display the first 5 rows

Mit Spalten und Zeilen arbeiten

In [None]:
# Display the first 5 rows
print(df.head())

# Access a specific column
print(df['column_name'])

# Access specific rows using loc (by label) and iloc (by position)
print(df.loc[0])   # First row by label
print(df.iloc[0])  # First row by index
print(df['Name'])    # Select the 'Name' column
print(df.iloc[1:5])  # Select rows 1 to 4

Ein DataFrame kann aus einem Dictionary, einer Liste oder einem anderen DataFrame erstellt werden:

In [None]:
data = {'Name': ['John', 'Anna', 'Peter'],
        'Age': [28, 24, 35],
        'City': ['New York', 'London', 'Berlin']}

df = pd.DataFrame(data)
print(df)

In [None]:
data = {'Name': ['Alice', 'Bob'], 'Age': [30, 25], 'Occupation': ['Engineer', 'Doctor']}
df = pd.DataFrame(data)
print(df)

columns und rows bearbeiten

In [None]:
# Adding a new column
df['Country'] = ['USA', 'UK', 'Germany']

# Modifying an existing column
df['Age'] = df['Age'] + 1

# Dropping a column
df = df.drop(columns=['Country'])

# Dropping rows
df = df.drop(index=[0])  # Drop the first row

In [None]:
df['Country'] = ['USA', 'UK', 'Germany']
print(df)

df = df.drop(columns=['Country'])
print(df)

bestimmte Daten aus dem DataFrame extrahieren:

In [None]:
# Filter rows where Age > 30
filtered_df = df[df['Age'] > 30]

# Sort the DataFrame by 'Age'
sorted_df = df.sort_values(by='Age', ascending=False)

In [None]:
filtered_df = df[df['Age'] > 30]
print(filtered_df)

sorted_df = df.sort_values(by='Age')
print(sorted_df)

Daten zurück in verschiedene Formate schreiben:

In [None]:
# Export to CSV
df.to_csv('output.csv', index=False)

# Export to Excel
df.to_excel('output.xlsx', index=False)

# Export to JSON
df.to_json('output.json')