# Bitacora #4 - Experimento con REWARD_FUNCTION y LOSS_APPROACH
**Fecha:** 2026-02-16  
**Autor:** Francis Bravo  

## 1. Motivacion

En los entrenamientos anteriores ([#1](bitacora_2_entrenamiento_2026-02-15.ipynb#train-1) y [#2](bitacora_3_entrenamiento_2026-02-16.ipynb#train-2)) se observ√≥:

- **Win Rate estancado** en ~40-45% vs random (rendimiento aleatorio)
- **Q_select colapsado** a -1.0 sin importar la recompensa (cabeza muerta)
- **Q_place sin diferenciacion** clara entre victorias y derrotas
- **Loss estancado** en ~0.25 sin mejora sostenida

### An√°lisis de las causas ra√≠z

Tras [corregir el bug de visualizaci√≥n](bitacora_3_entrenamiento_2026-02-16.ipynb#cell-7), se confirm√≥ que:

1. **Los datos de entrenamiento son correctos** (bug solo afectaba visualizaci√≥n)
2. **El problema NO es por datos corruptos**
3. **Las causas reales son arquitecturales/algor√≠tmicas:**
   - `REWARD_FUNCTION="propagate"` ‚Üí Se√±al de aprendizaje d√©bil (todos los estados reciben la misma recompensa)
   - `LOSS_APPROACH="combined_avg"` ‚Üí Promedia Q_place y Q_select, posiblemente diluyendo la se√±al
   - Posible problema en arquitectura `QuartoCNN_uncoupled`

### Hip√≥tesis del experimento

**Si cambiamos `REWARD_FUNCTION` y `LOSS_APPROACH` para dar se√±ales de aprendizaje m√°s fuertes y enfocadas, entonces Q_select dejar√° de colapsar y el modelo aprender√° pol√≠ticas efectivas.**

## 2. Cambios de parametros

### 2.1 Propuesta seleccionada

**Propuesta: ULTRA-AGRESIVA (Mezcla de todos los cambios recomendados)**

Esta propuesta combina m√∫ltiples cambios simult√°neos para maximizar la diferencia con los entrenamientos anteriores y atacar todas las causas ra√≠z identificadas.

**NOTA:** Se mantiene la arquitectura `QuartoCNN_uncoupled` por restricci√≥n del proyecto.

### 2.2 Resumen de cambios vs entrenamiento #2

| Parametro | Entrenamiento #2 | Nuevo valor | Razon |
|-----------|------------------|-------------|-------|
| **REWARD_FUNCTION** | `"propagate"` | **`"discount"`** | Recompensas descontadas temporalmente = se√±al de aprendizaje m√°s fuerte con credit assignment claro |
| **LOSS_APPROACH** | `"combined_avg"` | **`"only_select"`** | Enfocarse exclusivamente en rescatar la cabeza Q_select colapsada |
| **N_LAST_STATES** | 6/6 | **8/8** | A√∫n m√°s diversidad de estados en el historial |
| **TEMPERATURE_EXPLORE** | 1.0 | **0.7** | Menos exploraci√≥n aleatoria, m√°s explotaci√≥n de pol√≠ticas aprendidas |
| **TAU** | 0.005 | **0.01** | Target network se actualiza 2x m√°s r√°pido (m√°s responsivo) |
| **GAMMA** | 0.90 | **0.95** | Mayor peso a recompensas futuras (necesario para "discount") |
| **LR** | 5e-4 | **3e-4** | Ligeramente m√°s conservador para estabilidad con tantos cambios |

**Cambios totales: 7 par√°metros modificados simult√°neamente**

### 2.3 Justificaci√≥n de la estrategia

Esta propuesta ataca **simult√°neamente** las causas ra√≠z identificadas:

1. **Se√±al de recompensa d√©bil** ‚Üí `REWARD_FUNCTION="discount"` + `GAMMA=0.95`
2. **Diluci√≥n de la se√±al de aprendizaje** ‚Üí `LOSS_APPROACH="only_select"`
3. **Cabeza Q_select colapsada** ‚Üí Entrenamiento exclusivo con `only_select`

Adem√°s optimiza:
- **Diversidad de datos** ‚Üí `N_LAST_STATES=8`
- **Calidad de exploraci√≥n** ‚Üí `TEMPERATURE_EXPLORE=0.7`
- **Velocidad de convergencia** ‚Üí `TAU=0.01`

**Arquitectura mantenida:** `QuartoCNN_uncoupled` (restricci√≥n del proyecto)

### 2.4 Parametros completos del entrenamiento

Parametros configurados para este experimento. Los valores **en negrita** son los que cambiaron respecto al entrenamiento #2.

#### Configuracion principal

| Parametro | Valor | trainRL | resume | Descripcion |
|-----------|-------|---------|--------|-------------|
| STARTING_NET | `None` | [L42](trainRL.py#L42) | [L45](trainRL_resume_latest.py#L45) | Pesos aleatorios (sin checkpoint previo) |
| EXPERIMENT_NAME | `"06_ULTRA"` | [L43](trainRL.py#L43) | [L46](trainRL_resume_latest.py#L46) | Nombre del experimento |
| ARCHITECTURE | `QuartoCNN_uncoupled` | [L50](trainRL.py#L50) | [L54](trainRL_resume_latest.py#L54) | Red con cabezas independientes (mantener) |
| **LOSS_APPROACH** | **`"only_select"`** | [L51](trainRL.py#L51) | [L55](trainRL_resume_latest.py#L55) | Solo entrena cabeza Q_select |
| **REWARD_FUNCTION** | **`"discount"`** | [L52](trainRL.py#L52) | [L56](trainRL_resume_latest.py#L56) | Recompensas descontadas temporalmente |

#### Hiperparametros de entrenamiento

| Parametro | Valor | trainRL | resume | Descripcion |
|-----------|-------|---------|--------|-------------|
| EPOCHS | `3000` | [L66](trainRL.py#L66) | [L70](trainRL_resume_latest.py#L70) | Epocas totales |
| BATCH_SIZE | `64` | [L61](trainRL.py#L61) | [L65](trainRL_resume_latest.py#L65) | Muestras por batch (mantener) |
| **LR** | **`3e-4`** | [L111](trainRL.py#L111) | [L117](trainRL_resume_latest.py#L117) | Learning rate inicial (40% menor) |
| LR_F | `1e-5` | [L112](trainRL.py#L112) | [L118](trainRL_resume_latest.py#L118) | Learning rate final (mantener) |
| **TAU** | **`0.01`** | [L113](trainRL.py#L113) | [L119](trainRL_resume_latest.py#L119) | Tasa de soft update (2x m√°s r√°pido) |
| **GAMMA** | **`0.95`** | [L115](trainRL.py#L115) | [L121](trainRL_resume_latest.py#L121) | Factor de descuento (mayor para discount) |
| MAX_GRAD_NORM | `1.0` | [L110](trainRL.py#L110) | [L116](trainRL_resume_latest.py#L116) | Clipping de gradientes (mantener) |
| torch.manual_seed | `5` | [L171](trainRL.py#L171) | [L204](trainRL_resume_latest.py#L204) | Semilla para reproducibilidad |

#### Generacion de experiencia

| Parametro | Valor | trainRL | resume | Descripcion |
|-----------|-------|---------|--------|-------------|
| GEN_EXPERIENCE_BY_EPOCH | `True` | [L56](trainRL.py#L56) | [L60](trainRL_resume_latest.py#L60) | Generar experiencia nueva cada epoca |
| MATCHES_PER_EPOCH | `100` | [L73](trainRL.py#L73) | [L77](trainRL_resume_latest.py#L77) | Partidas de self-play por epoca |
| **N_LAST_STATES_INIT** | **`8`** | [L69](trainRL.py#L69) | [L73](trainRL_resume_latest.py#L73) | Estados del historial (inicio, +33%) |
| **N_LAST_STATES_FINAL** | **`8`** | [L71](trainRL.py#L71) | [L75](trainRL_resume_latest.py#L75) | Estados del historial (final, sin curriculum) |
| **TEMPERATURE_EXPLORE** | **`0.7`** | [L91](trainRL.py#L91) | [L95](trainRL_resume_latest.py#L95) | Temperatura para exploracion (30% menos random) |
| TEMPERATURE_EXPLOIT | `0.1` | [L94](trainRL.py#L94) | [L98](trainRL_resume_latest.py#L98) | Temperatura para explotacion (mantener) |
| mode_2x2 | `True` | [L63](trainRL.py#L63) | [L67](trainRL_resume_latest.py#L67) | Victoria por cuadrado 2x2 habilitada |

#### Evaluacion y guardado

| Parametro | Valor | trainRL | resume | Descripcion |
|-----------|-------|---------|--------|-------------|
| N_MATCHES_EVAL | `30` | [L59](trainRL.py#L59) | [L63](trainRL_resume_latest.py#L63) | Partidas de evaluacion vs baselines por epoca |
| FREQ_EPOCH_SAVING | `1000` | [L96](trainRL.py#L96) | [L100](trainRL_resume_latest.py#L100) | Guardar modelo cada N epocas |
| FREQ_EPOCH_PLOT_SHOW | `50` | [L101](trainRL.py#L101) | [L105](trainRL_resume_latest.py#L105) | Mostrar plots cada N epocas |
| PLOTS_FOLDER | `...\Mech Interp\Plots` | [L48](trainRL.py#L48) | [L52](trainRL_resume_latest.py#L52) | Carpeta de guardado de plots HTML |
| SMOOTHING_WINDOW | `10` | [L104](trainRL.py#L104) | [L110](trainRL_resume_latest.py#L110) | Ventana de suavizado para plots |
| Q_PLOT_TYPE | `"hist"` | [L107](trainRL.py#L107) | [L113](trainRL_resume_latest.py#L113) | Tipo de plot de Q-values |

## 3. Valores derivados

Valores calculados automaticamente con los nuevos parametros:

| Valor | Calculo | Entrenamiento #2 | Nuevo valor |
|-------|---------|------------------|-------------|
| STEPS_PER_EPOCH | N_LAST_STATES_FINAL * MATCHES_PER_EPOCH | 6 * 100 = **600** | 8 * 100 = **800** |
| ITER_PER_EPOCH | STEPS_PER_EPOCH // BATCH_SIZE | 600 // 64 = **9** | 800 // 64 = **12** |
| REPLAY_SIZE | 100 * STEPS_PER_EPOCH | 100 * 600 = **60,000** | 100 * 800 = **80,000** |
| N_BATCHS_2_UPDATE_TARGET | ITER_PER_EPOCH // 3 | 9 // 3 = **3** | 12 // 3 = **4** |

### Impacto de los cambios derivados:

- **33% m√°s experiencia por √©poca** (800 vs 600 transiciones)
- **33% m√°s iteraciones DQN** por √©poca (12 vs 9)
- **33% m√°s replay buffer** (80k vs 60k transiciones)
- **Target network se actualiza 4 veces por √©poca** (vs 3 antes)
- **Combinado con TAU=0.01 (2x m√°s r√°pido)** ‚Üí Target network much√≠simo m√°s responsivo

### Diferencia total vs entrenamiento #1 (baseline):

| M√©trica | Entrenamiento #1 | Este experimento | Mejora |
|---------|------------------|------------------|--------|
| STEPS_PER_EPOCH | 200 | 800 | **4x** |
| ITER_PER_EPOCH | 6 | 12 | **2x** |
| REPLAY_SIZE | 20,000 | 80,000 | **4x** |
| Target updates/√©poca | 2 | 4 | **2x** |
| Velocidad de update (TAU) | 0.01 | 0.01 | **1x** |

## 4. Registro de entrenamientos

<a id="train-table"></a>

| # | Fecha | Script | Epocas | Par√°metros clave | Resultado | Ver gr√°ficas |
|---|-------|--------|--------|-----------------|-----------|--------------|
| [1](#train-1) | 2026-02-16 | trainRL.py | 3000 | REWARD="discount", LOSS="only_select", N_STATES=8, TEMP=0.7, TAU=0.01, GAMMA=0.95, LR=3e-4 | ‚ùå **FALLIDO** - Q_select colaps√≥, Paradoja descubierta | ‚Üì |
| [2](#train-2) | - | - | - | - | - | ‚Üì |
| [3](#train-3) | - | - | - | - | - | ‚Üì |

---

### Resumen del entrenamiento #1

**Completado:** 2026-02-16  
**Configuraci√≥n:** ULTRA-AGRESIVA (7 par√°metros modificados)  
**Objetivo:** Rescatar Q_select con REWARD="discount" + LOSS="only_select"  
**Duraci√≥n:** 3000 √©pocas completadas  

**Resultado final:** ‚ùå **FALLIDO**
- Q_select colaps√≥ igual que en entrenamientos anteriores
- Win Rate sin mejora significativa (~47-50% vs random)
- Loss mejor√≥ 32% pero sin traducirse en mejor gameplay

**Hallazgo cr√≠tico:** üî¨ **PARADOJA DEL ONLY_SELECT**
- Q_select (entrenada) ‚Üí Colaps√≥ completamente
- Q_place (NO entrenada) ‚Üí Mejor√≥ significativamente
- **Conclusi√≥n:** El problema es arquitectural, no de hiperpar√°metros

**M√©tricas clave:**
- ‚úÖ Loss: ~0.16 (vs ~0.25 anterior, -32% mejor)
- ‚úÖ Q_place: Diferenciaci√≥n clara por recompensa
- ‚ùå Q_select: Colapsado a -1.0 despu√©s de √©poca 1000
- ‚ùå Win Rate vs random: ~47-50% (nivel aleatorio)
- ‚ùå Win Rate vs bot_loss-BT: ~35-37% (sin mejora)

**Recomendaci√≥n:** Investigaci√≥n arquitectural de Q_select antes de m√°s entrenamientos de hiperpar√°metros

In [None]:
from IPython.display import display, Image, Markdown
from os import path

IMG_FOLDER = r"C:\Users\bravo\Documents\Metodos Numericos Pycharm\Mech Interp\Imagenes de la Bitacoras"

# Descomentar cuando tengas las im√°genes
# display(Markdown("#### Win Rate"))
# display(Image(filename=path.join(IMG_FOLDER, "nombre_imagen.png")))

# display(Markdown("#### Q-values Progress"))
# display(Image(filename=path.join(IMG_FOLDER, "nombre_imagen.png")))

# display(Markdown("#### Training Loss"))
# display(Image(filename=path.join(IMG_FOLDER, "nombre_imagen.png")))

# display(Markdown("#### Board Comparisons"))
# display(Image(filename=path.join(IMG_FOLDER, "nombre_imagen.png")))

## 5. Observaciones y resultados

### 5.1 Entrenamiento #1 - ULTRA-AGRESIVO

<a id="train-1"></a>

**Fecha:** 2026-02-16  
**Status:** ‚úÖ COMPLETADO

#### Par√°metros usados:

```python
# Configuraci√≥n cr√≠tica
REWARD_FUNCTION = "discount"      # Cambio de "propagate"
LOSS_APPROACH = "only_select"     # Cambio de "combined_avg"
ARCHITECTURE = QuartoCNN_uncoupled  # Mantener

# Hiperpar√°metros DQN
LR = 3e-4                         # Cambio de 5e-4
GAMMA = 0.95                       # Cambio de 0.90
TAU = 0.01                         # Cambio de 0.005

# Generaci√≥n de experiencia
N_LAST_STATES = 8                  # Cambio de 6
TEMPERATURE_EXPLORE = 0.7          # Cambio de 1.0
BATCH_SIZE = 64                    # Mantener
MATCHES_PER_EPOCH = 100            # Mantener
```

#### Resultados finales (√âpoca 3000):

| M√©trica | Valor observado | Entrenamiento #2 | Cambio |
|---------|----------------|------------------|---------|
| **Win Rate vs random** | ~47-50% | ~45% | +5% ‚¨ÜÔ∏è |
| **Win Rate vs bot_loss-BT** | ~35-37% | ~37% | Sin cambio ‚û°Ô∏è |
| **Q_select estado** | **Colapsado a -1.0** | Colapsado a -1.0 | ‚ùå Sin mejora |
| **Q_select diferenciaci√≥n** | **NO** | NO | ‚ùå Sin mejora |
| **Q_place diferenciaci√≥n** | **S√ç - CLARA** | D√©bil | ‚úÖ Mejor√≥ |
| **Loss final** | ~0.16-0.17 | ~0.25 | ‚¨áÔ∏è -32% mejor |
| **Loss estabilidad** | Estable pero oscilante | Estable | M√°s bajo pero no converge |

#### An√°lisis detallado por gr√°fica:

##### 1. Training Loss
- **Observaci√≥n:** Loss oscila entre 0.15-0.18, promedio ~0.16-0.17
- **Comparaci√≥n:** 32% m√°s bajo que entrenamiento #2 (~0.25)
- **Problema:** No muestra convergencia clara, permanece oscilante durante todas las 3000 √©pocas
- **Interpretaci√≥n:** Menor loss indica mejor ajuste, pero la falta de convergencia sugiere que el modelo no est√° alcanzando un √≥ptimo estable

##### 2. Win Rate vs Rivals
- **vs bot_random (naranja):** 
  - Oscila entre 45-52%, promedio ~47-50%
  - Ligeramente superior al 50% esperado para jugador aleatorio
  - **Mejora marginal** vs entrenamiento #2 (~45%)
  
- **vs bot_loss-BT (azul):**
  - Oscila entre 30-40%, promedio ~35-37%
  - **Sin mejora** respecto a entrenamiento #2 (~37%)
  - Sigue siendo inferior al rendimiento aleatorio esperado

- **Conclusi√≥n:** El modelo apenas supera al bot aleatorio y no logra vencer consistentemente al bot_loss-BT

##### 3. Q-value Progress ‚ö†Ô∏è **HALLAZGO CR√çTICO**

**Q_place (fila superior):**
- ‚úÖ **Muestra diferenciaci√≥n clara por recompensa**
- R=-1 (izq): Valores concentrados en -0.5 a -1.0 (violeta/morado oscuro)
- R=0 (centro): Valores concentrados cerca de 0 (cyan/verde)
- R=1 (der): Valores concentrados en 0 a +0.5 (amarillo/verde)
- **Interpretaci√≥n:** Q_place **S√ç aprendi√≥** a diferenciar estados seg√∫n resultado del juego
- **Paradoja:** Mejor√≥ respecto a entrenamientos anteriores, a pesar de NO ser entrenada (LOSS="only_select")

**Q_select (fila inferior):**
- ‚ùå **COLAPSO TOTAL - Sin diferenciaci√≥n**
- Las tres gr√°ficas (R=-1, R=0, R=1) muestran **exactamente el mismo patr√≥n**
- Patr√≥n: Diagonal que comienza en 0 y colapsa a -1.0 alrededor de √©poca 1000
- Despu√©s de √©poca 1000: Todos los Q_select = -1.0 (amarillo uniforme en el borde inferior)
- **Interpretaci√≥n:** Q_select **NO aprendi√≥ nada √∫til**, colaps√≥ completamente
- **Paradoja:** Empeor√≥ o se mantuvo igual, a pesar de SER la √∫nica cabeza entrenada (LOSS="only_select")

##### 4. Board Comparisons
- ‚úÖ **Bug de visualizaci√≥n corregido:** Ahora se muestran piezas en los tableros
- Se observan estados con 8-16 piezas colocadas (estados finales de partida)
- Los tableros superiores e inferiores muestran los mismos estados antes/despu√©s de la acci√≥n
- **Limitaci√≥n:** Sin m√°s informaci√≥n sobre estrategias espec√≠ficas aprendidas

#### Hallazgo parad√≥jico principal:

üî¥ **PARADOJA DEL ONLY_SELECT:**

Con `LOSS_APPROACH="only_select"` esper√°bamos:
- ‚úÖ Q_select aprende (√∫nica cabeza entrenada)
- ‚ùå Q_place no aprende (sin gradientes)

**Resultado real:**
- ‚ùå Q_select colaps√≥ completamente a -1.0
- ‚úÖ Q_place mejor√≥ su diferenciaci√≥n

**Hip√≥tesis sobre la paradoja:**
1. **Q_place mejora pasivamente:** Al usar `only_select`, los gradientes NO actualizan Q_place, pero la red compartida (backbone CNN) s√≠ se actualiza. Esto mejora las features, beneficiando a Q_place indirectamente.

2. **Q_select colapsa por problema estructural:** El colapso persistente sugiere un problema m√°s profundo:
   - Posible dead ReLU en la cabeza Q_select
   - Arquitectura inadecuada para la tarea de selecci√≥n
   - Initializaci√≥n problem√°tica que lleva a gradientes que empujan valores a -‚àû

3. **REWARD_FUNCTION="discount" insuficiente:** Aunque proporciona mejor se√±al temporal que "propagate", no es suficiente para rescatar Q_select.

## 6. Conclusiones generales

### 6.1 Comparaci√≥n con entrenamientos anteriores

| M√©trica | Entrenamiento #1 (Bit√°cora 2) | Entrenamiento #2 (Bit√°cora 3) | Este experimento (Bit√°cora 4) | Evoluci√≥n |
|---------|-------------------------------|-------------------------------|-------------------------------|-----------|
| Win Rate vs random | ~0.50 | ~0.45 | **~0.47-0.50** | ‚¨ÜÔ∏è Ligera mejora |
| Win Rate vs bot_loss-BT | ~0.37 | ~0.37 | **~0.35-0.37** | ‚û°Ô∏è Sin cambio |
| Q_select estado | Colapsado a -1.0 | Colapsado a -1.0 | **Colapsado a -1.0** | ‚ùå Sin cambio |
| Q_select diferenciaci√≥n | No | No | **No** | ‚ùå Sin cambio |
| Q_place diferenciaci√≥n | No | D√©bil | **S√≠ - CLARA** | ‚úÖ Mejor√≥ significativamente |
| Loss final | ~0.25 | ~0.25 | **~0.16-0.17** | ‚úÖ -32% mejor |
| Loss convergencia | Estancado | Estancado | **Oscilante sin convergencia** | ‚ö†Ô∏è Mejor pero inestable |

**Resumen de evoluci√≥n:**
- ‚úÖ **Mejoras:** Loss m√°s bajo, Q_place diferencia por recompensa, Win Rate vs random ligeramente mejor
- ‚ùå **Sin cambio:** Q_select sigue colapsado, Win Rate vs bot_loss-BT estancado
- ‚ö†Ô∏è **Preocupaci√≥n:** Ning√∫n entrenamiento logra superar consistentemente a los baselines

### 6.2 Validaci√≥n/Refutaci√≥n de la hip√≥tesis inicial

**Hip√≥tesis planteada:**
> "Si cambiamos `REWARD_FUNCTION` y `LOSS_APPROACH` para dar se√±ales de aprendizaje m√°s fuertes y enfocadas, entonces Q_select dejar√° de colapsar y el modelo aprender√° pol√≠ticas efectivas."

**Resultado:** ‚ùå **HIP√ìTESIS REFUTADA**

#### An√°lisis de cada componente:

1. **¬øREWARD_FUNCTION="discount" mejor√≥ la se√±al de aprendizaje?**
   - ‚úÖ Parcialmente: Loss baj√≥ de ~0.25 a ~0.16
   - ‚ùå Insuficiente: Q_select no se rescat√≥

2. **¬øLOSS_APPROACH="only_select" rescat√≥ Q_select?**
   - ‚ùå **NO:** Q_select colaps√≥ igual o peor
   - ‚úÖ **Efecto inesperado:** Q_place mejor√≥ parad√≥jicamente

3. **¬øEl modelo aprendi√≥ pol√≠ticas efectivas?**
   - ‚ùå **NO:** Win Rate sigue en niveles aleatorios (~50% vs random, ~35% vs bot_loss-BT)
   - ‚ö†Ô∏è El modelo NO aprendi√≥ estrategias superiores a juego aleatorio

### 6.3 Descubrimiento principal: La Paradoja del Only_Select

**Hallazgo m√°s importante del experimento:**

Al entrenar SOLO la cabeza Q_select (`LOSS="only_select"`):
- La cabeza Q_select (entrenada) **empeor√≥/colaps√≥**
- La cabeza Q_place (NO entrenada) **mejor√≥ significativamente**

**Implicaciones:**

1. **El problema de Q_select es arquitectural, no de entrenamiento:**
   - Cambiar hiperpar√°metros (LR, GAMMA, TAU, REWARD) ‚Üí No resuelve el colapso
   - Enfocarse exclusivamente en entrenarla ‚Üí No resuelve el colapso
   - **Conclusi√≥n:** Hay un problema estructural en la cabeza Q_select

2. **Q_place aprende "pasivamente" del backbone compartido:**
   - Aunque sus pesos finales no reciban gradientes, se beneficia de las mejores features
   - El backbone CNN se entrena con gradientes de Q_select
   - Estas features mejoradas permiten a Q_place diferenciar mejor los estados

3. **LOSS="combined_avg" podr√≠a ser mejor que "only_select":**
   - Entrenar ambas cabezas simult√°neamente podr√≠a evitar el colapso
   - El promedio de losses podr√≠a estabilizar el entrenamiento

### 6.4 Causas ra√≠z del fracaso persistente

Despu√©s de 3 entrenamientos fallidos (bit√°coras 2, 3 y 4), las causas ra√≠z son:

#### 1. Problema arquitectural en Q_select ‚ö†Ô∏è **CR√çTICO**
- **Evidencia:** Colapso persistente independiente de:
  - Funci√≥n de recompensa (propagate vs discount)
  - Loss approach (combined_avg vs only_select)
  - Hiperpar√°metros (LR, GAMMA, TAU, BATCH_SIZE)
  - Cantidad de datos (N_LAST_STATES=2‚Üí6‚Üí8)

- **Posibles causas t√©cnicas:**
  - Dead ReLU neurons en la cabeza Q_select
  - Inicializaci√≥n inadecuada de pesos
  - Desbalance en tama√±o de espacio de acci√≥n (select > place)
  - Falta de normalizaci√≥n en las salidas

#### 2. Funci√≥n de recompensa a√∫n insuficiente
- "discount" es mejor que "propagate" (loss baj√≥ 32%)
- Pero a√∫n no proporciona se√±al suficientemente clara
- **Hip√≥tesis:** Quarto requiere recompensas shaped intermedias (ej: bonus por amenazas creadas)

#### 3. Arquitectura uncoupled posiblemente sub√≥ptima
- Las cabezas desacopladas no comparten aprendizaje eficientemente
- Q_select podr√≠a beneficiarse de se√±ales de Q_place
- **Restricci√≥n:** No podemos cambiar arquitectura (limitaci√≥n del proyecto)

### 6.5 Impacto de los cambios individuales

| Cambio | Impacto observado | Conclusi√≥n |
|--------|------------------|------------|
| REWARD_FUNCTION="discount" | Loss -32%, Q_place mejor√≥ | ‚úÖ √ötil, pero insuficiente |
| LOSS_APPROACH="only_select" | Q_select colaps√≥, Q_place mejor√≥ | ‚ùå Contraproducente |
| N_LAST_STATES=8 | M√°s diversidad de datos | ‚ö†Ô∏è No se tradujo en mejor aprendizaje |
| TEMPERATURE_EXPLORE=0.7 | Mejor calidad de self-play | ‚ö†Ô∏è Mejora marginal en Win Rate |
| TAU=0.01, GAMMA=0.95 | Target network m√°s responsivo | ‚ö†Ô∏è No evit√≥ el colapso |
| LR=3e-4 | Entrenamiento m√°s estable | ‚úÖ Loss m√°s bajo |

**Conclusi√≥n general:** Los cambios mejoraron m√©tricas secundarias (loss, Q_place) pero **NO resolvieron el problema fundamental** (Q_select colapsado, Win Rate bajo).

### 6.6 Pr√≥ximos pasos recomendados

#### Opci√≥n 1: Investigaci√≥n arquitectural de Q_select üî¨ **RECOMENDADA**

**Problema:** Q_select colapsa sistem√°ticamente ‚Üí Requiere an√°lisis profundo

**Acciones:**
1. **Inspeccionar pesos de la cabeza Q_select:**
   - Cargar checkpoint de √©poca 500 (antes del colapso)
   - Cargar checkpoint de √©poca 1500 (despu√©s del colapso)
   - Comparar distribuci√≥n de pesos: ¬øhay dead neurons?

2. **Analizar gradientes durante entrenamiento:**
   - Agregar logging de gradientes en Q_select
   - Verificar si hay gradient vanishing/exploding
   - Revisar si ReLUs se activan correctamente

3. **Probar cambios arquitecturales menores:**
   - Cambiar ReLU ‚Üí LeakyReLU en Q_select
   - Agregar Batch Normalization antes de Q_select
   - Cambiar inicializaci√≥n de pesos (He ‚Üí Xavier)

#### Opci√≥n 2: Volver a LOSS="combined_avg" con discount üîÑ

**Hip√≥tesis:** El promedio de ambas cabezas podr√≠a estabilizar Q_select

**Par√°metros sugeridos:**
```python
REWARD_FUNCTION = "discount"      # Mantener (mejor que propagate)
LOSS_APPROACH = "combined_avg"    # Volver a entrenar ambas
GAMMA = 0.95                       # Mantener
LR = 3e-4                          # Mantener
TAU = 0.01                         # Mantener
N_LAST_STATES = 8                  # Mantener
TEMPERATURE_EXPLORE = 0.7          # Mantener
```

**Justificaci√≥n:** Q_place mejor√≥ cuando NO fue entrenada directamente, sugiere que el entrenamiento conjunto podr√≠a ser beneficioso.

#### Opci√≥n 3: Shaped rewards intermedias üéØ

**Hip√≥tesis:** Recompensas binarias (victoria/derrota) son insuficientes para Quarto

**Implementaci√≥n:**
- +0.1 por crear amenaza (3 piezas alineadas)
- +0.3 por crear doble amenaza
- -0.1 por dar pieza que permite victoria inmediata al oponente
- +1.0 / -1.0 para victoria/derrota final

**Justificaci√≥n:** Juegos con alta ramificaci√≥n (como Quarto) se benefician de recompensas shaped.

#### Opci√≥n 4: Cambiar arquitectura (si se levanta restricci√≥n) üèóÔ∏è

**Si se permite cambiar arquitectura:**
- Probar `QuartoCNN` (cabezas acopladas)
- Implementar arquitectura con atenci√≥n
- Separar completamente los encoders de place y select

### 6.7 Conclusi√≥n final

**Estado actual:** Despu√©s de 4 entrenamientos extensivos (bit√°coras 2, 3, 4) con diversos cambios de hiperpar√°metros:
- ‚ùå **Q_select permanece colapsada** en todos los escenarios
- ‚ùå **Win Rate no mejora** significativamente
- ‚úÖ Loss mejor√≥ (pero sin traducirse en mejor gameplay)
- ‚úÖ Descubrimos la Paradoja del Only_Select

**Diagn√≥stico:** El problema es **arquitectural, no de hiperpar√°metros**. Ajustar LR, GAMMA, TAU, BATCH_SIZE, etc. no resolver√° el colapso de Q_select.

**Acci√≥n cr√≠tica necesaria:** **Inspecci√≥n arquitectural profunda de Q_select** antes de continuar con m√°s entrenamientos de hiperpar√°metros.

**Lecci√≥n aprendida:** Cambiar muchos hiperpar√°metros simult√°neamente (7 en este caso) sin entender la causa ra√≠z puede generar mejoras superficiales sin resolver el problema fundamental.

## 7. Sistema de Torneo Masivo (3000+ Agentes)

### 7.1 Motivaci√≥n

Para evaluar y rankear eficientemente los **3001 agentes** entrenados, se desarroll√≥ un sistema de torneo escalable que combina:
- **Swiss Tournament System** (emparejamiento por score similar)
- **Bradley-Terry Scoring** (ranking estad√≠stico robusto)

### 7.2 Problema de escalabilidad

#### Round-Robin tradicional (descartado)
- **Complejidad:** O(N¬≤) = N √ó (N-1) / 2 matches
- **Para 3001 agentes:** 4,501,500 matches
- **Tiempo estimado:** ~260 d√≠as (asumiendo 1.5 seg/match)
- **Conclusi√≥n:** ‚ùå **IMPRACTICABLE**

#### Swiss Tournament (implementado)
- **Complejidad:** O(N √ó R) donde R = n√∫mero de rondas
- **Para 3001 agentes (1 ronda):** ~1,500 matches
- **Tiempo estimado:** ~13-16 minutos
- **Conclusi√≥n:** ‚úÖ **VIABLE**

### 7.3 Scripts creados

#### Script principal: `run_swiss_BT_tournament.py`

**Caracter√≠sticas principales:**
1. **Swiss Tournament System** con emparejamiento por McMahon scoring (considera √©poca del bot)
2. **Bradley-Terry scoring** para ranking estad√≠stico final
3. **Sistema BYE** autom√°tico para n√∫mero impar de agentes (3001)
4. **Optimizaciones de performance** para ejecuci√≥n r√°pida
5. **Guardado solo de CSVs** (no archivos individuales de partidas)
6. **Guardado at√≥mico** (solo si el torneo completa exitosamente)

**Rutas configuradas:**
```python
AGENTS_FOLDER = r"C:\Users\bravo\Documents\Metodos Numericos Pycharm\Mech Interp\TorneoMasivo\Agentes"
RESULTS_FOLDER = r"C:\Users\bravo\Documents\Metodos Numericos Pycharm\Mech Interp\TorneoMasivo\ResutadosTorneo"
```

### 7.4 Configuraci√≥n para 15 minutos (3001 agentes)

#### Par√°metros del torneo

```python
# Configuraci√≥n ULTRA-R√ÅPIDA
NUM_ROUNDS = 1                    # Solo 1 ronda Swiss
MATCHES_PER_PAIRING = 1           # 1 match por emparejamiento
ENABLE_COLOR_SWAP = False         # Sin swap = 2x m√°s r√°pido
SAMPLE_PERCENTAGE = 100           # Usar todos los emparejamientos
TOP_N_BOTS = None                 # Usar todos los 3001 agentes

# Par√°metros del juego
TEMPERATURE = 0.1                 # Temperatura baja = m√°s determinista
DETERMINISTIC = False             # Mantener algo de estocasticidad
```

#### Optimizaciones Bradley-Terry

```python
BRADLEY_TERRY_EPOCHS = 5          # Reducido de 100 (10x m√°s r√°pido)
BRADLEY_TERRY_THRESHOLD = 1e-2    # Relajado de 1e-6 (converge m√°s r√°pido)
BRADLEY_TERRY_NORMALIZE = True    # Normalizar scores finales

# Regularizaci√≥n para prevenir divisi√≥n por cero
EPSILON = 0.01                    # Regularizaci√≥n vectorizada
```

### 7.5 Optimizaciones implementadas

#### 1. **Reducci√≥n de iteraciones Bradley-Terry**
- De 100 √©pocas ‚Üí 5 √©pocas (**20x m√°s r√°pido**)
- Threshold relajado: 1e-6 ‚Üí 1e-2 (converge m√°s r√°pido)

#### 2. **Vectorizaci√≥n de regularizaci√≥n**
```python
# ANTES: Double loop O(N¬≤) - MUY LENTO
for i in range(N):
    for j in range(N):
        W_reg[i,j] = W[i,j] + EPSILON

# DESPU√âS: Operaci√≥n vectorizada - 100x M√ÅS R√ÅPIDO
W_regularized = W + EPSILON  # NumPy broadcasting
np.fill_diagonal(W_regularized.values, W.values.diagonal())
```

#### 3. **Sin color swap**
- `ENABLE_COLOR_SWAP = False` ‚Üí Solo 1 match por pairing
- Reduce matches de ~3,000 ‚Üí ~1,500 (**2x m√°s r√°pido**)
- Trade-off: Menos informaci√≥n por pairing

#### 4. **Sistema BYE autom√°tico**
Para 3001 agentes (n√∫mero impar):
- Un bot recibe BYE cada ronda (+1.0 puntos)
- Emparejamiento autom√°tico del bot sin pareja
- No afecta el tiempo de ejecuci√≥n

### 7.6 Tiempo de ejecuci√≥n estimado

**Configuraci√≥n ULTRA-R√ÅPIDA (3001 agentes):**

| Componente | Tiempo estimado |
|------------|----------------|
| Carga de agentes | ~30-60 seg |
| Ronda 1 (~1,500 matches) | ~10-12 min |
| Bradley-Terry (5 epochs) | ~15-30 seg |
| Guardado de resultados | ~5-10 seg |
| **TOTAL** | **~13-16 minutos** |

**F√≥rmula general:**
```
Tiempo_total ‚âà (N/2) √ó NUM_ROUNDS √ó MATCHES_PER_PAIRING √ó (1 + SWAP) √ó 1.5seg + BT_time
```

### 7.7 Archivos de salida

El script genera los siguientes CSVs en `ResutadosTorneo/`:

#### 1. `swiss_BT_tournament_results_YYYYMMDD_HHMMSS.csv`
Ranking final con Bradley-Terry scores:

| Columna | Descripci√≥n |
|---------|-------------|
| `rank` | Posici√≥n final (1 = mejor) |
| `name` | Nombre del agente |
| `bt_score` | Score Bradley-Terry normalizado |
| `score` | Puntos Swiss acumulados |
| `epoch` | √âpoca de entrenamiento del agente |

#### 2. `swiss_BT_tournament_matches_YYYYMMDD_HHMMSS.csv`
Log de todos los matches jugados:

| Columna | Descripci√≥n |
|---------|-------------|
| `round` | N√∫mero de ronda |
| `player1` | Nombre del bot P1 |
| `player2` | Nombre del bot P2 |
| `winner` | Nombre del ganador |
| `outcome` | Resultado (1=P1 gana, 0=P2 gana) |

#### 3. `swiss_BT_tournament_config_YYYYMMDD_HHMMSS.json`
Configuraci√≥n exacta del torneo (para reproducibilidad):
- Todos los par√°metros usados
- Timestamp de ejecuci√≥n
- N√∫mero de agentes participantes
- Versi√≥n del script

### 7.8 Documentaci√≥n adicional

Se crearon documentos de referencia:

| Archivo | Descripci√≥n |
|---------|-------------|
| [SWISS_BT_README.md](SWISS_BT_README.md) | Documentaci√≥n completa del sistema de torneo |
| [CONFIGURACIONES_RAPIDAS.md](CONFIGURACIONES_RAPIDAS.md) | Gu√≠a de configuraciones predefinidas (15 min, 1 hora, 1 d√≠a, etc.) |

### 7.9 C√≥mo ejecutar el torneo

```bash
# Desde el directorio del proyecto
python run_swiss_BT_tournament.py
```

**Requisitos previos:**
1. Tener 3001 agentes (archivos .pth) en `TorneoMasivo/Agentes/`
2. Crear carpeta de resultados: `TorneoMasivo/ResutadosTorneo/`
3. Asegurar que los agentes tengan nombres con formato: `bot_epoch_XXXX.pth`

**Monitoreo durante ejecuci√≥n:**
- El script muestra progreso en tiempo real
- Logs detallados en consola
- Si hay errores, el torneo se aborta (no guarda resultados parciales)

### 7.10 Pr√≥ximas mejoras posibles

Para experimentos futuros:

1. **Mayor precisi√≥n** (si hay tiempo):
   - Aumentar `NUM_ROUNDS` a 3-5 rondas
   - Habilitar `ENABLE_COLOR_SWAP = True`
   - Aumentar `MATCHES_PER_PAIRING` a 2-3

2. **An√°lisis de clusters**:
   - Agrupar bots por nivel de skill (usando BT scores)
   - Identificar √©pocas √≥ptimas de entrenamiento

3. **Head-to-head entre top bots**:
   - Extraer top 100 bots del torneo
   - Hacer round-robin completo solo entre ellos

4. **Validaci√≥n estad√≠stica**:
   - Bootstrap de rankings para intervalos de confianza
   - An√°lisis de sensibilidad a par√°metros BT