# Ziel
Wir wollen mittels der Q-Matrix, die wir mit Q-Learning erzeugen ein neuronales Netz trainieren um eine KI zu erschaffen, die besser Tic Tac Toe spielen kann als die bisherige.

# erste Aufgaben
Wir wollen ein Neuronales Netz trainieren. Dafür müssen wir es zuerst erzeugen, wofür wir die Keras Bibliothek nutzen werden.

Zum Trainieren müssen wir außerdem die Trainingsdaten in ein geeignetes Format bringen.

Also verfolgen wir die folgenden Schritte:

  1. Bereite die Trainingsdaten vor.
  2. Erstelle das Neuronales Netz.
  3. Trainiere das Netzwerk mit diesen Trainingsdaten.
  4. Teste das Netzwerk.
  5. Speichere das Netzwerk um es nicht jedes Mal neu trainieren zu müssen.   

# 1. Traingsdaten vorbereiten

Wir werden das neuronale Netz später mit der `.fit()` Methode von Keras trainieren. Dazu müssen die Daten folgendes Format haben:

- ein array mit Inputwerten im Bereich $[0,1]$ pro Input Node
- ein array mit Zielwerten (Outputwerten), ebenfalls im Bereich $[0,1]$

## unsere bisherigen Daten
Bisher sind unsere Trainingsdaten in einem Dictionary in folgender Form gespeichert

**Keys:**
- Paare (state, action), wobei

    - state ein Tupel aus 9 Integern 0/1/2 ist.
    - action ein einzelner Integer von 0 bis 8 ist.

**Values:**
- Floats, deren Bereich von den Trainingsdaten abhängt.

    - minimaler Wert ist `reward_dict["loss"]`
    - maximaler Wert ist `reward_dict["win"]`

    ...zumindest wenn dies die Extremwerte der Rewards sind, was aber logischerweise der Fall sein sollte

## was wir für Daten wollen
Das Neuronale Netzwerk soll die Q-Funktion approximieren.
Nun haben wir zwei Möglichkeiten, welche Funktion das Netzwerk approximieren soll:

### #1 Eingabewerte nur Zustand
$NN: \mathcal{S} \to \mathbb{R}^{|\mathcal{A}|}$ das heißt das Netzwerk bekommt ein Zustand als Eingabewert und gibt für alle Aktionen, die in dem Zustand möglich sind, eine Wertung aus.

Die Anzahl der möglichen Aktionen ist aber abhängig vom Zustand. Das heißt wir bräuchten immer 9 Ausgabewerte (für jede Aktion einen), aber das Netzwerk müsste zusätzlich lernen, welche Aktionen erlaubt sind.

Alternativ könnte man hier auch einen einzelnen Ausgabewert als die möglichen Aktionen interpretieren. Also durch eine Zustandsabhängige Funktion $f_S:[0,1] \to A\subset \{0,...,8\}$.

### #2 Eingabewerte Zustands-Aktions Paare
$NN: \mathcal{S} \to \mathbb{R}$ Hier würde das Netzwerk zusätzlich zum Zustand des Feldes noch eine Aktion als Input bekommen.

Der Ausgabewert ist dann eine einzige Zahl, die den Wert dieser Aktion repräsentiert.

## Pro und Cons
Variante 2 erfordert es für jede mögliche Aktion den Wert zu berechnen bevor ein Zug gewählt werden kann. Variante 1 verkürzt diesen Prozess indem einfach nur der Maximale Output-Wert genommen wird.

Dieser Unterschied kann durch Wahl der Größe und Komplexität des Netzwerks ausgeglichen werden. Da das Netzwerk in Variante 2 nicht lernen muss, welche Züge überhaupt erlaubt sind, sollte das Training damit aber schneller gehen.

Sicherlich gibt es noch viele andere Möglichkeiten der Implementierung, aber ich werde hier Variante 2 verwenden.

Die Wahl von Variante 2 erlaubt außerdem einfaches Vorbereiten der Daten.

Wir generieren die input Daten also durch

In [39]:
import numpy as np
def prepare_data(Q_table):
    """
    prepare the data given in a Q-table for training the neural network
    """
    training_inputs = []
    training_outputs = []
    for state_action, value in Q_table.items():
        # input_data   =      state_info       +    action_info
        training_inputs.append( list(state_action[0]) + [state_action[1]] )
        training_outputs.append ( (value+1)/3 ) #make sure the target value is in range [0,1]
    return np.array(training_inputs), np.array(training_outputs)

# 2. Erstelle das Netzwerk (`model`)

In [59]:
from tensorflow.keras import layers
import tensorflow.keras as keras

def create_ttt_network():
    model = keras.Sequential()
    model.add( keras.Input(shape=(10,)) ) # input layer - 10 Nodes
    model.add( layers.Dense(5) )   # hidden layer 1 - 10 Nodes
    model.add( layers.Dense(5) )   # hidden layer 2 - 10 Nodes
    model.add( layers.Dense(1) )   # output layer - 1 Node

    model.compile(optimizer='adam', loss='mean_squared_error')
    return model

# 3. Trainiere das Netzwerk mit `.fit()`

In [86]:
def train_network(model, samples, labels, epochs=50, batch_size=32):
    return model.fit(samples, labels, epochs=epochs, batch_size=batch_size, use_multiprocessing=True)

Nun nutzen wir die oben definierten Methoden

In [42]:
def import_Q_table(filename="Q_table.txt"):
    """
    import Q_table as dictionary:
    keys are state-action pairs as a tuple of a tuple (9 integers: 0/1/2) and an integer (0-8)
    values are the corresponding Q-values

    Example:
        Q_table[((0,0,0,0,1,0,0,0,0),2)] -> 0.3
    """
    Q_table = dict()
    with open(filename, "r") as file:
        for line in file.readlines():
            if line == "Q_table = {\n" or line == "}":
                continue
            state_action, value = line[:-2].split(":")
            state = tuple([int(x.strip(" ")) for x in state_action[2:-5].split(",")])
            action = int(state_action[-2])
            Q_table[(state, action)] = float(value)
    return Q_table

In [74]:
# generate data
Q_table = import_Q_table(filename="Q_table.txt")
# prepare data
inputs, outputs = prepare_data(Q_table)
print(inputs.shape)
# create model
model = create_ttt_network()
# train network with given data
history = train_network(model, inputs, outputs, epochs=10, batch_size=10)

(16164, 10)
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [95]:
model.summary()

Model: "sequential_23"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_52 (Dense)             (None, 5)                 55        
_________________________________________________________________
dense_53 (Dense)             (None, 5)                 30        
_________________________________________________________________
dense_54 (Dense)             (None, 1)                 6         
Total params: 91
Trainable params: 91
Non-trainable params: 0
_________________________________________________________________


# Spiele mit der KI

zuerst nutzen wir wieder zwei Methoden 

In [111]:
import random
def choose_NN_action(state, actions, model, exploration_rate=0):
    """
    choose an action based on the possible actions, the given neural network (model) and the current exploration rate
    """
    r = random.random()
    if r > exploration_rate:
        # exploit knowledge
        action_values = []
        for action in actions:
            action_values.append( model.predict( [list(state)+[action]])[0][0] )
        print(list(zip(actions, action_values)))
        max_value = max(action_values)
        best_actions = []
        for action, value in zip(actions, action_values):
            if value == max_value:
                best_actions.append(action)
        # return random action with maximum expected reward
        return random.choice(best_actions)
    # explore environment through random move
    return random.choice(actions)

In [112]:
state = [1,2,0,0,2,1,0,0,0]
actions = get_actions(state)
action = choose_NN_action(state, actions, model)
print(f"chosen action: {action}")

[(2, 0.35656887), (3, 0.35582227), (6, 0.35358268), (7, 0.3528362), (8, 0.35208964)]
chosen action: 2
