# Q-Deep learning

Q-learning tradicional con el uso de su tabla tiene limitaciones por ejemplo si los estados y acciones son continuos o muy grandes, porque la tabla se vuelve inmanejable. Para solucionar esto se usa Deep Q-learning, que usa una red neuronal para aproximar la funcion Q(s,a) en lugar de una tabla. 

Remplazamos la tablaa por una funcion no lineal, osea una red neuronal
$$
Q(s,a; \theta) \approx Q^*(s,a)
$$

- Donde $\theta$ son los parametros de la red neuronal (pesos y bias).

Esto tiene implicaciones en como se calcula la funcion objetivo (tarjet de bellman) y como se calcula la funcion de perdida.

Ecuacion para el entrenamiento de la red neuronal:
$$
y_t = r_{t+1} + \gamma \max_{a'} Q_{\theta^-}(s_{t+1}, a')
$$

Y la **función de pérdida (error cuadrático medio)** es:

$$
L(\theta) = \mathbb{E}_{(s,a,r,s') \sim \mathcal{D}} \Big[ \big( y_t - Q_\theta(s,a) \big)^2 \Big]
$$

Donde:

* ( $Q_\theta(s,a)$ ): la **red principal** (online network) que estamos entrenando.
* ( $Q_{\theta^-}(s',a')$ ): la **red objetivo**, con parámetros **congelados** que se actualizan cada cierto número de pasos.
* ( $\mathcal{D}$ ): el **replay buffer**, una memoria de experiencias pasadas.
* ( $y_t$ ): el **target de Bellman**, que se considera una estimación del valor óptimo.





### Proceso resumido:

1. **Recolectar experiencia:**

   * El agente interactúa con el entorno y guarda $(s_t, a_t, r_{t+1}, s_{t+1})$ en el buffer ( $\mathcal{D}$ ).

2. **Muestrear minibatch:**
   $$
   (s_i, a_i, r_i, s'_i) \sim \mathcal{D}
   $$

3. **Calcular los objetivos:**
   $$
   y_i = r_i + \gamma \max_{a'} Q_{\theta^-}(s'_i, a')
   $$

4. **Calcular la pérdida:**
   $$
   L(\theta) = \frac{1}{N} \sum_i (y_i - Q_\theta(s_i, a_i))^2
   $$

5. **Actualizar parámetros:**
   $$
   \theta \leftarrow \theta - \alpha \nabla_\theta L(\theta)
   $$

