# Neural Networks II - Exercises

## IMDb DataSet - Binary Classification

In dieser Übung betrachten wir das IMDb (Internet Movie Database) Dataset. Dieses enthält
50.000 Movie Reviews, die hälftig postiv (y=1) bzw. negativ (y=0) ausfallen (siehe auch https://keras.io/datasets/ $\rightarrow$ IMDB Movie reviews sentiment classification).

- Lesen Sie die Daten ein, wobei Sie nur 1000 meist verwendeten Worte für jeden Review verwenden (option num_words). Die Daten sind in diesem Fall Python-Listen.

In [1]:
from keras.datasets import imdb
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=1000)

Using TensorFlow backend.


- Lesen Sie die Dictionary word_index ein, welches  
$$
\mathrm{word}\quad \rightarrow \quad \mathrm{integer\,index}
$$
zuordnet.

In [2]:
word_index = imdb.get_word_index()

- Erstellen Sie daraus ein Dictionary reverse_word_index, welches 
$$
\mathrm{integer\,index}\quad \rightarrow \quad \mathrm{word}
$$
zuordnet.

In [3]:
reverse_word_index = dict([(val,key) for (key,val) in word_index.items() ])

- Lesen Sie damit zur Illustration einen beliebigen Review aus.

In [4]:
reverse_word_index.get(2,'')

'and'

In [5]:
# Read a movie review
' '.join([reverse_word_index.get(i,'') for i in train_data[0]])

"the as you with out themselves powerful and and their becomes and had and of lot from anyone to have after out atmosphere never more room and it so heart shows to years of every never going and help moments or of every and and movie except her was several of enough more with is now and film as you of and and unfortunately of you than him that with out themselves her get for was and of you movie sometimes movie that with scary but and to story wonderful that in seeing in character to of and and with heart had and they of here that with her serious to have does when from why what have and they is you that isn't one will very to as itself with other and in of seen over and for anyone of and br and to whether from than out themselves history he name half some br of and and was two most of mean for 1 any an and she he should is thought and but of script you not while history he heart to real at and but when from one bit then have two of script their with her and most that with wasn't to wi

- Führen Sie ein One-Hot-Encoding der Training- und Testdaten durch. Erstellen Sie dazu
jeweils eine $m\times n$-Matrix, welche in jeder Zeile (=für jeden Review) jeweils eine 1 an der Index-Stelle enthält, an der ein Wort in dem entsprechenden Review vorkommt.

In [6]:
import numpy as np
def one_hot_encode(data,n=1000):
    results = np.zeros((len(data),1000))
    for i,rev in enumerate(data): 
        results[i,rev] = 1
    return results

In [7]:
X_train = one_hot_encode(train_data)
X_test  = one_hot_encode(test_data)
y_train = np.asarray(train_labels)
y_test = np.asarray(test_labels)

- Splitten Sie vom Testset die ersten 10.000 Daten ab für die Validierung während des Trainings.

In [8]:
X_val = X_test[:10000,:]
y_val = y_test[:10000]
X_test = X_test[10000:,:]
y_test = y_test[10000:]

- Erstellen Sie ein neuronales Netz mit zwei Zwischenschichten der Größe $h_1=h_2=16$ und verwenden Sie beim Ausgang die Aktivierung sigmoid.

In [None]:
from keras.models import Sequential
from keras.layers import Dense

################
# Your code here
################

- Compilieren Sie das Model mit den Optionen 
    -  loss='binary_crossentropy'
    -  metrics=['accuracy']
    
und trainieren Sie anschliessend Ihr Model mit den oben festgelegten Traings- und Validierungsdaten.

In [None]:
################
# Your code here
################

- Plotten Sie die Accuracy von Training und Test Set über die Epochen und berechnen Sie die accuracy bezüglich des Test-Sets.

In [None]:
################
# Your code here
################

## MNIST-Fashion Data Set (Multiclass Classification)

Das MNIST-Fashion DataSet enthält 70.000 Bilder (60.000 Training, 10.000 Test) mit den 10 Kategorien:

| Index | Item  |
|---|-------------|
|0	| T-shirt/top |
|1	| Trouser     |
|2	| Pullover    |
|3	|Dress        |
|4  |Coat         |
|5	|Sandal       |
|6	|Shirt        |
|7	|Sneaker      |
|8	|Bag          |
|9	|Ankle boot   |

- Lesen Sie Trainings- und Testdatein ein.

In [None]:
from keras.datasets import fashion_mnist

(X_train, y_train), (X_test, y_test) = fashion_mnist.load_data()

- Zeigen Sie ein beliebiges Bild an (mittels imshow https://matplotlib.org/api/_as_gen/matplotlib.pyplot.imshow.html#).

In [None]:
import matplotlib.pyplot as plt

################
# Your code here
################

- Führen Sie analog zur Vorlesung ein Preprocessing der Daten durch, in dem Sie
    - Für Trainings- und Testdaten die letzten beiden Dimensionen (der Größe $28\times 28$) das Datentensors auf
    eine Dimension (der Größe $28^2$) kontrahieren
    - Die Pixelwerte von $[0,255]$ auf das Intervall $[0,1]$ abbilden
    - Von den Trainingsdaten die ersten 5.000 für die Validierung absplitten

In [None]:
import numpy as np

################
# Your code here
################

Führen Sie dann folgende Schritte aus

- Erstellen Sie ein geeignetes Neuronales Netz für diese Multiclass Classification
- Compilieren und trainieren Sie ihr Netz
- Plotten Sie die Accuracy des Training- und Validierungssets über die Epochen
- Berechnen Sie die Accuracy bezüglich des Testsets
- Lassen Sie die Confusion-Matrix für das Testset ausgeben (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)

In [None]:
import keras
from keras.models import Sequential
from keras.layers import Dense, Activation

################
# Your code here
################

In [None]:
from sklearn.metrics import confusion_matrix

################
# Your code here
################

## Boston Housing Data Set (Regression)
Das Boston Housing Data Set gibt die Preise von Häusern in Boston als Funktion der 13 Features, die in der
folgenden Tabelle gezeigt sind an.

|feature | label | content|
|--|--|--|
|0  |CRI     |     per capita crime rate by town     |
|1  |ZN      |    proportion of residential land zoned for lots over 25,000 sq.ft.|
|2  |INDUS   |    proportion of non-retail business acres per town|
|3  |CHAS    |    Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)|
|4  |NOX     |    nitric oxides concentration (parts per 10 million)|
|5  |RM      |    average number of rooms per dwelling|
|6  |AGE     |    proportion of owner-occupied units built prior to 1940|
|7  |DIS     |    weighted distances to five Boston employment centres|
|8  |RAD     |    index of accessibility to radial highways|
|9  |TAX     |    full-value property-tax rate per \$10,000|
|10 |PTRATIO |  pupil-teacher ratio by town|
|11 |B       | $1000(B_k - 0.63)^2$ where $B_k$ is the proportion of blacks by town|
|12 |MEDV    | Median value of owner-occupied homes in \$1000's|

- Lesen Sie die Daten ein.

In [None]:
from keras.datasets import boston_housing

(X_train, y_train), (X_test, y_test) = boston_housing.load_data()

- Bereinigen Sie Ihre Daten vom Mittelwert und skalieren Sie auf eine Varianz von 1. Berechnen dazu den den Mittelwert $\vec{\mu}$ und die Standardabweichung $\vec{\sigma}$ des Training Sets (für alle features über alles Trainingsbeispiele). Ziehen dann $\mu$ von Training und Test Set ab und teilen Sie anschliessend durch $\vec{\sigma}$.

In [None]:
mean = X_train.mean(axis=0)
std = X_train.std(axis=0)

X_train -= mean
X_train /=std

X_test -= mean
X_test /=std

- Generieren Sie ein neuronales Netz mit zwei Hiddenlayern der Größe $h_1=h_2=64$. Der Ausgabelayer erhält hier
keine Aktivierung, das es sich um eine Regression handelt.

In [None]:
import keras
from keras.models import Sequential
from keras.layers import Dense, Activation

################
# Your code here
################

- Kompilieren Sie das Model mit loss='mse' ("Mean-Squared-Error") und  metrics=['mae'] ("Mean-Absolute-Error") und führen Sie anschliessend das Training
mit allen Trainingsdaten über 80 Epochen mit einem batch_size von 16 durch.

In [None]:
################
# Your code here
################

- Evaluieren Sie den mae ("Mean-Absolute-Error") für das Test Set.

In [None]:
################
# Your code here
################