Tic-Tac-Toe-Q-Learning

Algorithm used: Q learning (TD(0))

State space : {string of 0's, 1's and 2's}

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
BestPlayer.py		BestPlayer.py
Board.py		Board.py
Constants.py		Constants.py
Environment.py		Environment.py
Game.py		Game.py
Mvalue.npy		Mvalue.npy
Play.py		Play.py
Player.py		Player.py
QAfterStatePlayer.py		QAfterStatePlayer.py
QAftersymmminmax.npy		QAftersymmminmax.npy
QAftersymmrand.npy		QAftersymmrand.npy
QAftersymmsafe.npy		QAftersymmsafe.npy
QPlayer.py		QPlayer.py
Qnormal1.npy		Qnormal1.npy
Qnormalall.npy		Qnormalall.npy
Qnormalmm.npy		Qnormalmm.npy
Qnormalsafe.npy		Qnormalsafe.npy
Qtest1.npy		Qtest1.npy
Qtest2.npy		Qtest2.npy
Qtestall1.npy		Qtestall1.npy
README.md		README.md
Readme		Readme
Train.py		Train.py

Provide feedback