Dima Elisabeta, Florea Bogdan, Jinga Andreea, Oleniuc Iulian, Tomescu Mihai
- AI Agent and NN: Dima Elisabeta, Oleniuc Iulian
- Environment: Jinga Andreea, Tomescu Mihai
- Training: Florea Bogdan
- Testing: everybody
https://www.youtube.com/playlist?list=PLqtRfUCC8StaPgSLI6wnQX4bzQ5Qsi_VD
Number of steps needed to reach the target vs. shortest path improvement over time
Reward convergence over time and slight decrease on the long run while using one neural network
- avem o imagine single-channel, mai precis o matrice
$n \times n$ cu valori întregi între$0$ și$9$ , unde valoarea$9$ apare exact o singură dată și reprezintă targetul nostru - imaginile naturale nu conțin pixeli distribuiți random, ci în general aceștia formează diverși gradienți, de exemplu în paper avem gradienți liniari și circulari
- agentul trebuie să exploreze imaginea formând un path care merge cât de cât pe drumul indus de gradient și care la final atinge targetul
- la pasul curent, agentul poate vedea doar pe o anumită rază, stabilită de noi
- environment
- generare de imagini random
- generare de imagini cu gradienți circulari
- afișare (de exemplu cu
pyplot
) a imaginii cu traseul ales (valorile între$0$ și$10$ trebuie mapate la culori reale, probabil alb-negru, unde$10$ reprezintă valoare pixelilor din afara matricei)
- agent
- funcție care efectuează pasul curent cu
$\epsilon$ -greedy - funcție care face experience replay
- funcție care efectuează pasul curent cu
- learning
- execuția episoadelor
- afișare de statistici
- euristici de genul hai să băgăm 3 frame-uri într-1 state
- neural network
- structura cu convoluții și chestii