Wahlpflichtfach Künstliche Intelligenz II: Praktikum | 

---

# 01 - Tensorflow Einführung

[**TensorFlow**](https://www.tensorflow.org) ist ein Deep Learning Framework, das vom Google Brain Team entwickelt wurde. Im November 2015 wurde das erste Release veröffentlicht.

Nachdem immer mehr und mehr Wissenschaftler zu [**PyTorch**](https://pytorch.org), das im Oktober 2016 von Facebook AI Research veröffentlicht wurde, gewechselt sind, da sich dort neue Konzepte besser bzw. einfacher ausprobieren lassen, hat Google im September 2019 TensorFlow 2.0 veröffentlicht, das verspricht die Vorteile von PyTorch zu integrieren. 

Da Tensorflow normalerweise in der Industrie verwendet wird und eine größere Community hat, werden wir im Folgenden TensorFlow in der Version 2.X verwenden. 

In [None]:
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
print(tf.__version__)

## Was ist ein Tensor?
Lasst uns zunächst das Konzept eines Tensors verstehen. Für unseren Zweck können wir einen Tensor als ein hochdimensionales Array betrachten. 
- Tensor 0. Ordnung = Skalar
- Tensor 1. Ordnung = Vektor
- Tensor 2. Ordnung = Matrix
- Tensor 3. Ordnung = Tensor

### Wie werden Matrizen in Numpy abgebildet?

In [None]:
# A NumPy array is an arbitray dimensional matrix to store numbers in
arr = np.reshape(np.arange(9),(3,3))
print(arr)
print(arr.shape)
print("------------------")

# Access dimensions of the shape.
print(arr.shape[0])
print(arr.shape[-1])
print("------------------")

# Reshaping an array.
arr1 = np.reshape(arr, newshape=(9,1))
print(arr1)
arr2 = np.reshape(arr, newshape=(-1,1)) # The -1 makes numpy infer itself the missing dimension.
print(arr2)
print("------------------")

# Indexing allows you to access specific entries of an array.
print(arr[2,1]) # row 2 (third), column 1 (second).
print(arr[1,2]) # row 1 (second), column 2 (third).
print("------------------")

# Slicing allows you to retrieve parts of an array.
print(arr[:,1]) # All rows, collumn 1.
print(arr[0:2,:]) # Rows from 0 (include) to 2 (exclude), all columns. 

### Können wir auch eine weiter Dimension zu unserem numpy-Array hinzufügen?

In [None]:
# But the exact same things work in higher dimensions!
arr = np.reshape(np.arange(27), (3,3,3))
print(arr)
print(arr.shape)
print("------------------")

# Indexing.
print(arr[0,1,2])
print("------------------")

# Slicing.
print(arr[:,2,:])

### Unterschied zwischen dem TensorFlow Tensor und dem numpy Array
Grundsätzlich sind TensorFlow Tensoren und numpy Arrays das Gleiche. Und auch wieder nicht. Den Tensoren sind eigentlich Operationen.

In [None]:
tensor = tf.convert_to_tensor(arr)
print(tensor)

Es besteht die Möglichkeit ein Numpy Array in einen Tensorflow Tensor zu konvertieren. Dies ist aber auch implizit mittels einer Operation möglich bei der das Ergebnis dann als Tensor gespeichert wird.

In [None]:
tensor = tf.multiply(42, arr)
print(arr)
print(tensor)

Wenn die Variable bereits ein Tensor ist können alle normalen mathematischen Operationen (+, -, *, ,/ usw.) verwendet werden.

In [None]:
print(tensor/42)
print(tf.divide(tensor,42)) # That's the same thing.
print(tensor/42+tensor/42)

Es ist auch einfach möglich einen Tensor in ein numpy Array zurückzuwandeln.

In [None]:
print(tensor.numpy())

## Erstellen eines kleinen Regressions-Datensatz
Für unser erstes TensorFlow-Modell erstellen wir uns einen eigenen Dummy-Datensatz. 

In [None]:
def f(x):
    return 0.002*(x**3-x**2+2*x)+0.3

xs = np.linspace(-5,5, 20, dtype=np.float32)
ys = f(xs)

ids = np.arange(len(xs))
training_data_ids = np.random.choice(ids,15, replace=False)
test_data_ids = ~np.isin(ids, training_data_ids)
training_data_xs = xs[training_data_ids]
training_data_ys = ys[training_data_ids]
test_data_xs = xs[test_data_ids]
test_data_ys = ys[test_data_ids]

plt.scatter(training_data_xs, training_data_ys, c='red')
plt.scatter(test_data_xs, test_data_ys, c='blue')
plt.legend(("Training Data","Test Data"), loc='upper left')
plt.xlim(-5,5)
plt.ylim(-0.05,0.6)
plt.show()

In [None]:
# First understand the shape that your data has.
print(training_data_xs.shape)
print(training_data_ys.shape)
print(test_data_xs.shape)
print(test_data_ys.shape)

### TensorFlow Dataset
Um diese Daten in TensorFlow zu verwenden, müssen wir den Datensatz in ein `tf.data.Dataset` umwandeln ([Dokumentation](https://www.tensorflow.org/api_docs/python/tf/data/Dataset)). In unserem Fall verwenden wir dafür die Methode `tf.data.Dataset.from_tensor_slices()`.

In [None]:
train_dataset = tf.data.Dataset.from_tensor_slices((training_data_xs, training_data_ys))
test_dataset = tf.data.Dataset.from_tensor_slices((test_data_xs, test_data_ys))

Über den Datensatz kann mittels einer for-Schleife iteriert werden.. Der Testdatensatz besteht aus 5 Datenpunkten, wobei jeder Datenpunkt durch ein Tupel dargestellt wird, das die Eingabe und den Zielwert enthält 

In [None]:
for elem in test_dataset:
    print(elem)

Um den Datensatz als ganzes in das Netzwerk zu schleusen, müssen wir es batchen. Dadurch können wir die Verlustfunktion für den ganzen Datensatz minimieren. Durch das Batchen sind die Datenpunkte jetzt in zwei Arrays gespeichert -  ein Array für den Input und ein Array für den Zielwert.

In [None]:
train_dataset = train_dataset.batch(15)
test_dataset = test_dataset.batch(5)

for elem in test_dataset:
    print(elem)   

## Wiederholung und Recherche

Schauen sie sich noch einmal aus dem letzten Semester die Kapitel zur Visualisierung (Kapitel 5) und Aufbereitung (Kapitel 6, 7 und 8) von daten an. Zusätzlich sollten sie sich noch einmal ansehen was es bedeutet wenn Daten nicht ausbalanciert sind.

Hierzu können sie sich folgende [Ressource](https://developers.google.com/machine-learning/data-prep/construct/sampling-splitting/imbalanced-data?hl=de) durchlesen.


---

Wahlpflichtach Künstliche Intelligenz II: Praktikum 