개발언어 : Python==3.6.10
딥러닝/머신러닝 프레임워크 : torch,torchvision -> https://pytorch.org/ , tensorflow==2.1.0 , numpy
게임환경 구현용 UI 라이브러리 : Pygame
통합개발환경 ide : Pycharm
OS : Ubuntu 18.04
H/W GPU : Geforce GTX 1660 ti
기존의 오목 대회나 정규 시합에서 적용되는 금수(금지된 수)에 대해 적용하기에는
State가 충분히 작고 Agent의 학습 부담을 덜기위해 착수된 돌이 5개가 연이어서
직선 혹은 대각선으로 연결시 해당 돌의 승리로 구현
코드 기반으로 작용하는 Rule-based AI agent 15x15 state 구현화면입니다.
돌이 3개 혹은 4개 이상일 경우 특정 Array 좌표에 돌을 둘수 있도록
유리한 환경에 따라 차등적으로 조건을 선택하도록 구현
강화학습 기반 Agent와 Rule-based Agent간의 대국
각 대국별 현재 State와 RL Agent의 Policy-value network를 통해 현재 State에 대한 가중치 확인
RL(Reinforcement Learning) AI Agent는 MCTS 알고리즘을 기반으로
자가대국(Agent vs Agent)을 통해 Policy-value network를 형성,
자가대국 횟수별 Model를 차등적으로 저장 후, 벤치마킹 대상인 Rule 기반 Agent와의 대국을 통해 성능평가
AlphaGo Omok Version By Kim Joon Yeon, Kim Sang Woo, Lee Seung Hyeok, Han Dae Ho
Copyright 2018. Kim Joon Yeon, Kim Sang Woo, Lee Seung Hyeok, Han Dae Ho All Rights Reserved.