# Visualización de conceptos

Este Notebook no requiere ejecución de código. Su objetivo es poner en práctica los conceptos que se han visto en clase utilizando la herramienta [https://playground.tensorflow.org/](https://playground.tensorflow.org/)

## Ejercicio 1: Clasificación Lineal Simple

**Objetivo:** Comprender cómo una red neuronal simple con una capa y una neurona puede resolver problemas linealmente separables.

Este ejercicio te permitirá observar el comportamiento de la red neuronal más simple posible en un problema que puede ser resuelto mediante una separación lineal. Es importante entender que algunos problemas no requieren arquitecturas complejas y pueden ser resueltos eficientemente con modelos simples.

### Configuración:
- **Conjunto de Datos:**: Clasificación. Gaussian. (Separables por corte vertical; seleccionar de las opciones disponibles)
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 1
- **Número de Neuronas:** 1 neurona
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Lineal
- **Regularización:** Ninguna

### Parámetros del Dataset:
- **Train:** 90% (porcentaje de datos para entrenamiento)
- **Noise:** 50% (nivel de ruido en los datos)
- **Batch:** 10 (tamaño del lote para el entrenamiento)
- **Marcar:** "Show test data"

### Preguntas a resolver:
- ¿Por qué una sola neurona es suficiente para este problema?
- ¿Cómo afectan los parámetros del dataset al entrenamiento?
- ¿Qué representa la frontera de decisión generada?
- ¿Por qué la activación lineal funciona en este caso?

## Ejercicio 2: Modificando el Número de Neuronas

**Objetivo:** Observar el efecto de añadir neuronas en un problema que ya es linealmente separable.

En este ejercicio exploraremos qué sucede cuando aumentamos la complejidad de nuestra red neuronal para un problema que ya puede ser resuelto de forma simple. Esto es importante para entender cuándo más complejidad no necesariamente significa mejor rendimiento.

### Configuración Primera Variante:
- **Conjunto de Datos:** "Corte vertical" (mantener del ejercicio anterior)
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 1
- **Número de Neuronas:** 3 neuronas
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Lineal
- **Regularización:** Ninguna

### Configuración Segunda Variante:
- **Conjunto de Datos:** "Corte vertical" (mantener del ejercicio anterior)
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 2
- **Número de Neuronas:** 2 neuronas por capa
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Lineal
- **Regularización:** Ninguna

### Preguntas a resolver:
- ¿Cambia significativamente la frontera de decisión al añadir más neuronas?
- ¿Se mantiene la naturaleza lineal de la separación?
- ¿Hay diferencias en la velocidad de convergencia?
- ¿Qué ventajas o desventajas observas con mayor complejidad?
- ¿Por qué la red sigue aprendiendo una frontera lineal similar?

## Ejercicio 3: Overfitting - Varianza

**Objetivo:** Explorar el concepto de overfitting creando una red excesivamente compleja para un problema simple.

Este ejercicio te permitirá observar qué sucede cuando utilizamos una arquitectura muy compleja para resolver un problema simple. Es fundamental entender los conceptos de sesgo (bias) y varianza en el aprendizaje automático.

### Configuración Primera Variante (Complejidad Máxima + Activación Lineal):
- **Conjunto de Datos:** "Corte vertical"
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** Máximo disponible
- **Número de Neuronas:** Máximo disponible por capa
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Lineal
- **Regularización:** Ninguna

### Configuración Segunda Variante (Complejidad Máxima + ReLU):
- **Conjunto de Datos:** "Corte vertical"
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** Máximo disponible
- **Número de Neuronas:** Máximo disponible por capa
- **Tasa de Aprendizaje:** 0.03
- **Activación:** **ReLU** <- ¡Cambia!
- **Regularización:** Ninguna

### Preguntas a resolver:
- ¿Qué diferencias observas entre la activación Lineal y ReLU en una red muy compleja?
- ¿Se produce overfitting? ¿Cómo lo identificas?
- ¿Por qué una red muy compleja con activación lineal funciona bien pero con ReLU no?
- ¿Qué papel juega la función de activación en el overfitting?
- ¿Cómo se comporta la pérdida en entrenamiento vs validación?

## Ejercicio 4: Regularización para Controlar Overfitting

**Objetivo:** Aprender cómo la regularización L2 puede ayudar a controlar el overfitting en redes complejas.

Continuando con el ejercicio anterior, ahora exploraremos cómo las técnicas de regularización pueden mitigar el problema del overfitting sin necesidad de reducir la complejidad arquitectural de la red.

### Configuración:
- **Conjunto de Datos:** "Corte vertical"
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 5
- **Número de Neuronas:** 5
- **Tasa de Aprendizaje:** 0.03
- **Activación:** ReLU
- **Regularización:** L2 (experimenta con diferentes valores)

### Regularización L2

La L2 Regularization (también conocida como weight decay) es una técnica para evitar el sobreajuste en modelos de machine learning.
Lo que hace es penalizar pesos grandes en el modelo. La intuición es:

- Si los pesos son muy grandes, el modelo se ajusta demasiado a los datos de entrenamiento.
- Si los pesos son pequeños y distribuidos, el modelo tiende a ser más simple y generalizar mejor.

La **regularización L2** añade un término que penaliza los pesos grandes:

$$
\mathcal{L}_{total}(\mathbf{w}) = \mathcal{L}_{data}(\mathbf{w}) + \lambda \|\mathbf{w}\|_2^2
$$

con

$$
\|\mathbf{w}\|_2^2 = \sum_{j=1}^d w_j^2,
$$

donde $\lambda > 0$ controla la intensidad de la penalización.

La regla de actualización de un peso $w_j$ con regularización L2 es:

$$
w_j \;\leftarrow\; w_j - \eta \left( \frac{\partial \mathcal{L}_{\text{data}}}{\partial w_j} \;+\; 2\lambda w_j \right)
$$

donde:
- $\eta$ es la tasa de aprendizaje (learning rate),
- $\lambda$ controla la fuerza de la regularización.

### Preguntas a resolver:
- ¿Cómo afecta la regularización L2 al overfitting observado en el ejercicio anterior?
- ¿Qué sucede con diferentes valores de regularización (muy bajo, medio, muy alto)?
- ¿Se mantiene la capacidad de la red para resolver el problema?
- ¿Cómo cambia la frontera de decisión con regularización?
- ¿Cuál es el trade-off entre sesgo y varianza al aplicar regularización?
- ¿Por qué la regularización es efectiva para controlar redes muy complejas?

## Ejercicio 5: Problemas No Lineales - Dataset XOR

**Objetivo:** Comprender las limitaciones de las redes lineales y la necesidad de funciones de activación no lineales.

El problema XOR es un caso clásico que no puede ser resuelto por un perceptrón simple debido a que no es linealmente separable. Este ejercicio demuestra la importancia de las funciones de activación no lineales y la profundidad en las redes neuronales.

### Parámetros del Dataset:
- **Train:** 90% (porcentaje de datos para entrenamiento)
- **Noise:** 25% (nivel de ruido en los datos) <- ¡Cambio!
- **Batch:** 10 (tamaño del lote para el entrenamiento)
- **Marcar:** "Show test data"

**Reducimos el nivel de ruido**

### Configuración Variante 1 (Sin Activación):
- **Conjunto de Datos:** XOR
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 0 (solo capa de salida)
- **Número de Neuronas:** 1
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Ninguna (lineal)
- **Regularización:** Ninguna

### Configuración Variante 2 (Una Capa):
- **Conjunto de Datos:** XOR
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 1
- **Número de Neuronas:** Variable (experimentar)
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Ninguna (lineal)
- **Regularización:** Ninguna

### Configuración Variante 3 (Dos Capas):
- **Conjunto de Datos:** XOR
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 2
- **Número de Neuronas:** 4 neuronas en primera capa, 2 en segunda
- **Tasa de Aprendizaje:** 0.03
- **Activación:** Ninguna (lineal)
- **Regularización:** Ninguna

### Preguntas a resolver:
- ¿Por qué una red sin funciones de activación no lineales no puede resolver el problema XOR? (independientemente del número de capas o neuronas)
- ¿Qué patrón sigue el problema XOR y por qué no es linealmente separable?
- ¿Cómo se ve la frontera de decisión de cada configuración lineal (0, 1 o 2 capas) al intentar aprender XOR?
- ¿Qué efecto tendría agregar funciones de activación no lineales en una red para resolver XOR?

## Ejercicio 6: Arquitecturas No Lineales y Neuronas Muertas

**Objetivo:** Explorar el funcionamiento de las funciones de activación ReLU y el fenómeno de las neuronas muertas.

Ahora que hemos visto las limitaciones de las redes lineales, exploraremos cómo las funciones de activación no lineales permiten resolver problemas complejos, pero también introducen nuevos desafíos como las neuronas muertas.

### Configuración Primera Variante (4x4 con ReLU):
- **Conjunto de Datos:** XOR
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 2
- **Número de Neuronas:** 4 neuronas por capa
- **Tasa de Aprendizaje:** 0.03
- **Activación:** ReLU
- **Regularización:** Ninguna

### Configuración Segunda Variante (4x2 con ReLU):
- **Conjunto de Datos:** XOR
- **Características de Entrada:** X₁ y X₂ (por defecto)
- **Número de Capas:** 2
- **Número de Neuronas:** 4 neuronas en primera capa, 2 en segunda
- **Tasa de Aprendizaje:** 0.03
- **Activación:** ReLU
- **Regularización:** Ninguna

### Preguntas a resolver:
- ¿Logra la red resolver el problema XOR con activación ReLU?
- ¿Observas neuronas que se "mueren" (permanecen inactivas)?
- ¿Por qué algunas configuraciones fallan en converger?
- ¿Cómo afecta el número de neuronas a la estabilidad del entrenamiento?
- ¿Qué significa "encontrar el punto dulce en la arquitectura"?
- ¿Cuál es la relación entre complejidad arquitectural y capacidad de aprendizaje?
- ¿Por qué la inicialización de pesos puede afectar el resultado?

## Ejercicio 7: Exploración del Dataset Círculo

**Objetivo:** Analizar cómo las redes neuronales manejan patrones con simetría radial.

El dataset de círculo presenta un tipo diferente de separación no lineal donde los datos están organizados en un patrón circular. Este ejercicio te permitirá explorar cómo las redes neuronales pueden aprender fronteras de decisión curvas y complejas.

### Configuración Inicial:
- **Conjunto de Datos:** Círculo
- **Características de Entrada:** Solo X₁ y X₂ (sin modificaciones adicionales)
- **Número de Capas:** Experimenta con diferentes valores
- **Número de Neuronas:** Experimenta con diferentes configuraciones
- **Tasa de Aprendizaje:** 0.03 (ajusta según sea necesario)
- **Activación:** Experimenta con diferentes funciones
- **Regularización:** Experimenta según el comportamiento observado

### Preguntas a resolver:
- ¿Qué tipo de frontera de decisión se necesita para separar este dataset?
- ¿Cuál es la arquitectura mínima necesaria para resolver este problema?
- ¿Cómo se compara la dificultad de este problema con XOR?
- ¿Qué funciones de activación funcionan mejor para este tipo de geometría?
- ¿Necesitas más o menos neuronas comparado con XOR? ¿Por qué?
- ¿Cómo afecta la simetría del problema al aprendizaje?
- ¿Observas algún patrón en cómo la red construye la frontera circular?

## Ejercicio 8: Exploración del Dataset Espiral

**Objetivo:** Enfrentar uno de los problemas de clasificación más desafiantes con patrones espirales entrelazados.

El dataset espiral representa uno de los problemas de clasificación más complejos disponibles en TensorFlow Playground. Los datos forman espirales entrelazadas que requieren fronteras de decisión muy sofisticadas y redes con alta capacidad expresiva.

### Configuración Inicial:
- **Conjunto de Datos:** Espiral
- **Características de Entrada:** Solo X₁ y X₂ (sin modificaciones adicionales)
- **Número de Capas:** Experimenta con diferentes profundidades
- **Número de Neuronas:** Experimenta con diferentes anchuras
- **Tasa de Aprendizaje:** 0.03 (puede requerir ajustes)
- **Activación:** Experimenta con diferentes funciones
- **Regularización:** Monitorea el overfitting

### Preguntas a resolver:
- ¿Cuál es la arquitectura mínima capaz de separar las espirales?
- ¿Cómo se compara la complejidad requerida con los datasets anteriores?
- ¿Qué forma tiene la frontera de decisión final?
- ¿Es necesario usar regularización para evitar overfitting?
- ¿Cómo afecta la tasa de aprendizaje a la convergencia?
- ¿Observas diferencias significativas entre funciones de activación?
- ¿Qué estrategias de arquitectura (más profunda vs más ancha) funcionan mejor?
- ¿Por qué este problema es considerado uno de los más desafiantes?

## Ejercicio 9: Experimento con Dropout y Manipulación de Pesos

**Objetivo:** Observar la robustez y adaptabilidad de las redes neuronales mediante la manipulación manual de pesos.

Este ejercicio final te permitirá experimentar con la manipulación directa de los pesos de la red para entender cómo se adapta el sistema cuando algunas conexiones se eliminan o se modifican. Es una forma práctica de visualizar conceptos como dropout y la redundancia en las redes neuronales.

### Configuración Base:
- **Conjunto de Datos:** Cualquiera de los datasets anteriores (recomendado: XOR o Círculo)
- **Características de Entrada:** X₁ y X₂
- **Número de Capas:** 2-3 capas
- **Número de Neuronas:** Configuración estable que funcione bien
- **Tasa de Aprendizaje:** 0.03
- **Activación:** ReLU o Tanh
- **Regularización:** Ninguna inicialmente

### Procedimiento del Experimento:
1. **Entrenar la red** hasta que funcione correctamente
2. **Pausar el entrenamiento**
3. **Hacer clic en un peso** para ponerlo a cero (simular neurona muerta)
4. **Reanudar el entrenamiento** y observar la adaptación
5. **Repetir** con diferentes pesos y combinaciones

### Preguntas a resolver:
- ¿Cómo se adapta la red cuando eliminas un peso importante?
- ¿Qué sucede si eliminas múltiples pesos simultáneamente?
- ¿Hay pesos más críticos que otros para el funcionamiento de la red?
- ¿La red puede recuperarse y mantener su rendimiento?
- ¿Cómo se redistribuyen las responsabilidades entre las neuronas restantes?
- ¿Qué nos enseña esto sobre la redundancia en las redes neuronales?
- ¿Cómo se relaciona este experimento con técnicas como dropout?
- ¿Observas diferencias según el momento del entrenamiento en que elimines los pesos?