Übung - 06: Reinforcement Learning

Ziel der Übung

n-armed Bandit Problem
Tic Tac Toe Ansatz
Setup OpenAi Gym Environments und testen eines einfachen Beispiels

Aufgabe 1

Verwenden sie das Jupyter Notebook zum n-armed Bandit und vergleichen sie 5 verschiedene epsilon-greedy-Werte. Importieren Sie hierz das Notebook in ihre Umgebung.

Aufgabe 2

OpenAI ist eine Non-Profit-Organisation, die sich mit der Erforschung von künstlicher Intelligenz (KI, englisch Artificial Intelligence, AI) beschäftigt.

Ab 2016 hat OpenAI ihre Plattform „OpenAI Gym“ entwickelt, die sich mit bestärkendem Lernen (en: reinforcement learning) befasst. Der Quellcode ist in seiner aktuellen Version auf GitHub abrufbar (https://github.com/openai/gym). Dabei wird angestrebt ein Basissystem anzubieten, das leicht aufzusetzen ist und eine große Bandbreite an verschiedenen Entwicklungsumgebungen unterstützt. OpenAI Gym versucht damit eine Standardisierung für die Veröffentlichung von Ergebnissen in der Erforschung von künstlicher Intelligenz anzubieten, um Publikationen leichter vergleichen und reproduzieren zu können

Installieren Sie die OpenAi Gym Umgebung auf ihrem Computer. Folgen Sie der Anweisung hier: Gym.

Moeglicherweise reicht ein

    pip install gym

in ihrere Anaconda Umgebung.

Alternative koennen Sie auch eine Vm in unserer Azure Subscription aufsetzen und das OpenAi Gym dort installieren.

Testen Sie ihre installation mit dem Python Skript Cartpole.

Aufgabe 3

Gegeben st das Tic Tac Toe Skript.

Handelt es sich hierbei um Reinforcement Learning? Diskutieren sie mit ihrem Nachbarn.
Welcher Ansatz wird hier verfolgt: Policy- oder Value-Based oder etwas anderes?
Ab welcher Anzahl von Trainings-Iterationen ist ein Unentschieden oder Sieg mit einer Wahrscheinlichkeit von >90% gegeben?

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md
cartpole.py		cartpole.py
n-armed Bandit Problem.ipynb		n-armed Bandit Problem.ipynb
tic_tac_toe.ipynb		tic_tac_toe.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Übung - 06: Reinforcement Learning

Ziel der Übung

Aufgabe 1

Aufgabe 2

Aufgabe 3

About

Releases

Packages

Languages

THRO-INFM18/06_uebung

Folders and files

Latest commit

History

Repository files navigation

Übung - 06: Reinforcement Learning

Ziel der Übung

Aufgabe 1

Aufgabe 2

Aufgabe 3

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages