# Deep Learning and Neural Network

## Introducción a las Redes Neuronales

Las redes neuronales son un modelo computacional inspirado en el funcionamiento del cerebro humano. Están compuestas por nodos llamados "neuronas", organizados en capas, que procesan información y aprenden patrones a partir de datos. Estas redes son fundamentales en el campo del aprendizaje profundo (deep learning) y se utilizan para resolver problemas complejos como reconocimiento de imágenes, procesamiento de lenguaje natural y predicción de series temporales.

El aprendizaje en redes neuronales se realiza ajustando los pesos de las conexiones entre neuronas mediante algoritmos de optimización, permitiendo que el modelo mejore su desempeño conforme recibe más datos. Gracias a su capacidad para modelar relaciones no lineales y extraer características relevantes, las redes neuronales han revolucionado múltiples áreas de la inteligencia artificial.

**Las redes neuronales artificiales o RNA** son o corresponden al componente principal del __deep learning__. Estas redes neuronales artificiales realmente se implementaron en 1943 por un neuropsicologo, pero este se cambio por el support vector por problemas de potencia y simplificacion, pero en los 90s se volve a retomar. Para el 2000 se implemento una **Red Neuronal Convolucional**.

**¿Por que tomo tanta fuerza hasta hace tan poco?**

Las redes neuronales artificiales necesitan conjuntos de datos muy grandes para ser entrenadas, pero a medida que se han creado tecnicas de machine learning y datos como lo permitio la creciente evolucion de internet, evolucionando la extraccion de datos y por tanto mejora el entrenamiento de esos algoritmos al igual que una mejora en el hardware osea recursos computacionales mas potentes para tratar grandes volumenes de informacion al igual de tratar algoritmos. Estos tipos de algoritmos hay que probarse de demasiadas maneras para verificar su funcionalidad y acierto.

El deep learning se dice que se crearon a semejanza a las neuronas biologicas, pero tristemente no conocemos como funcionan nuestras neuronas ademas de que se conectan e intercambian informacion y se dice que son semejantes porque se conectan diferentes neuronas artificiales entre si que tienen diferentes pesos activando diferentes conexiones y respuestas.

## Gradient Descent

- ¿Qué es?
    - Es un algoritmo para encontrar el mínimo de una función (por ejemplo, la función de pérdida de un modelo). Imagina que estás en la cima de una colina y quieres bajar hasta el valle: gradient descent te indica en qué dirección y cuánto moverte en cada paso.

- Intuición simple
    - Calculas la pendiente (derivada) en el punto actual; esa pendiente te dice hacia dónde disminuye la función. Das un paso en esa dirección y repites hasta llegar al mínimo.

- Pasos básicos
    1. Inicializar los parámetros (por ejemplo θ).
    2. Calcular el gradiente ∇J(θ) (la dirección de mayor aumento).
    3. Actualizar: θ ← θ - α ∇J(θ), donde α es la tasa de aprendizaje (learning rate).
    4. Repetir hasta convergencia o hasta un número fijo de iteraciones.

- Fórmula clave
    - θ ← θ - α ∇J(θ)

- Puntos importantes
    - α (learning rate): si es muy grande puedes saltarte el mínimo; si es muy pequeño, la convergencia será muy lenta.
    - Puede converger a mínimos locales en funciones no convexas (como redes neuronales).
    - Es útil normalizar las características para que el algoritmo converja más rápido.
    - Variantes: batch (usando todo el conjunto), stochastic (un ejemplo a la vez), mini-batch (pequeños lotes) — mini-batch es la opción más común en deep learning.
    - Mejoras comunes: momentum, RMSprop, Adam (más robustas y rápidas).

- Ejemplo rápido (intuición matemática)
    - Para f(x) = x^2, ∇f = 2x. La regla de actualización es x ← x - α·2x; iterando esto, x tiende a 0 (el mínimo).
    
- ¿Para qué se usa?
    - Ajustar los parámetros de modelos de regresión, redes neuronales y, en general, cualquier problema donde necesitemos minimizar una función de pérdida.



# Redes neuronales artificiales y el PERCERTRON

El perceptrón fue el primer modelo de neurona artificial funcional, propuesto por Frank Rosenblatt en 1957. Es un clasificador lineal sencillo que establece una frontera de decisión entre dos clases mediante una combinación lineal de entradas y una función de activación escalón.

¿Qué hace y cómo funciona?
- Representación: entradas x (vector), pesos w y sesgo b.
- Salida: ŷ = 1 si w·x + b > 0, en caso contrario ŷ = 0 (o usando ±1 según la convención).
- Regla de aprendizaje (perceptron learning rule): para cada ejemplo (x, y)
    - predecir ŷ
    - si hay error, actualizar: w ← w + η (y − ŷ) x, b ← b + η (y − ŷ), donde η es la tasa de aprendizaje.

Propiedades clave
- Convergencia: si los datos son linealmente separables, el algoritmo del perceptrón converge en un número finito de pasos (teorema de convergencia del perceptrón).
- Limitaciones: no puede resolver problemas no linealmente separables (ej. la función XOR). Esa limitación fue señalada en el libro de Minsky y Papert (1969) y motivó críticas que ralentizaron la investigación durante una época.
- Legado: aunque simple, el perceptrón sentó las bases conceptuales para redes neuronales más complejas (perceptrón multicapa) y estimuló el desarrollo de algoritmos como backpropagation y modelos de deep learning.

Usos prácticos
- Buen punto de partida pedagógico para entender clasificación lineal y actualización de pesos.
- En la práctica se usa cuando la frontera entre clases es aproximadamente lineal; para problemas más complejos se requieren capas ocultas o modelos no lineales.

**TLU $\rightarrow$ Threshol logic unit**

![tlu](Images/tlu.png)

![funcion activacion](Images/acti.png)

![percertron](Images/percertron.png)

![train](Images/train.png)

Limitaciones del Perceptrón
* EI Perceptrón no proporciona como resultado una probabilidad, sino que realiza las predicciones basándose en un threshold estático
* Construye límites de decisión lineales
* EI uso de Perceptrones tiene grandes limitaciones, no permite resolver problemas sencillos como el problema de clasificación XOR
* Más adelante, se descubre que muchas de las limitaciones del Perceptrón se solucionan añadiendo más capas de TLUs, apareciendo el Multi-Layer Perceptron

# Perceptron Multicapa
Se compone de un input layer y ademas de una o mas capas de TLUs, cada capa de TLU intermedia se denomina hidden layer (input y output layer). Ahora todas las capas estan conectadas unas entre otras entre capas y entre mas de 2 **hidden layers** se denomina __deep network neural__ (DNN).

![multicapa](Images/multi.png)


* Durante mucho tiempo una de las mayores limitación del Perceptrón Multicapa era que no existía una forma adecuada de entrenarlo
* En 1986 D. E. Rumelhart presenta un algoritmo que revoluciona la manera de entrenar el Perceptrón Multicapa, el algoritmo backpropagation 
* EI cambio clave del algoritmo backpropagation respecto a los utilizados anteriormente fue remplazar la función de activación Heaviside Step function por la *sigmoide*
* En la actualidad existen otras funciones de activación populares, como la *tanh(z)* o la *ReLU(z)*

# El gradient descent y la regresión logística

## Resumen rápido
- Gradient descent (GD) es una familia de algoritmos para minimizar una función de pérdida ajustando parámetros iterativamente en la dirección del gradiente negativo.
- La regresión logística es un modelo lineal para clasificación binaria que estima la probabilidad de clase usando la función sigmoide y se entrena minimizando la entropía cruzada (log-loss) mediante optimizadores como GD.

## Regresión logística: modelo y probabilidad
- Modelo lineal: z = Xθ (X incluye sesgo/1).
- Función sigmoide: σ(z) = 1 / (1 + e^{-z}).
- Predicción de probabilidad: p(y=1|x) = σ(x^T θ).
- Decisión: ŷ = 1 si p ≥ 0.5 (límite), o usar umbrales distintos según coste de errores.

## Función de pérdida (binary cross-entropy / log-loss)
- Para m ejemplos:
    J(θ) = −(1/m) Σ [ y^{(i)} log p^{(i)} + (1−y^{(i)}) log (1−p^{(i)}) ].
- Interpretación: máxima verosimilitud (MLE) bajo Bernoulli.

## Gradiente (derivada) y regla de actualización
- Vector de probabilidades p = σ(Xθ).
- Gradiente: ∇J(θ) = (1/m) X^T (p − y).
- Gradient descent (batch):
    θ ← θ − α ∇J(θ),
    donde α es la tasa de aprendizaje.
- Para regularización L2: J_reg = J + (λ/2m) ||θ||^2, y el gradiente añade (λ/m) θ (no sobre el término de sesgo).

## Variantes de optimización
- Batch GD: usa todo el conjunto → estable pero costoso.
- Stochastic GD (SGD): actualiza por ejemplo → ruido, converge rápido en grandes datos.
- Mini-batch GD: compromete: eficiencia y estabilidad (batch típicos: 32–512).
- Optimizadores adaptativos: Momentum, RMSprop, Adam (usualmente mejores para deep learning, Adam es frecuente en práctica).

## Consideraciones prácticas y estabilidad numérica
- Escalar/normalizar características (standardización o min-max) para mejor convergencia.
- Inicialización de θ cerca de 0 (por ejemplo, pequeños aleatorios).
- Elegir α adecuado: demasiado grande diverge, demasiado pequeño lento. Usar decaimiento del learning rate o validación.
- Evitar overflow/underflow en σ: usar implementaciones numéricamente estables (p.ej. log-sum-exp, evitar calcular log(σ) directamente).
- Regularización para evitar sobreajuste y para problemas con muchas características.
- Balance de clases: ponderar la pérdida, sobremuestreo, umbral distinto o métricas apropiadas.

## Evaluación
- Métricas: accuracy, precision, recall, F1, AUC-ROC (importante cuando clases desbalanceadas).
- Matriz de confusión y curvas ROC/PR para entender comportamiento según umbral.

## Extensiones
- Multiclase: softmax + cross-entropy (generaliza la sigmoid).
    softmax(z)_k = exp(z_k) / Σ_j exp(z_j).
- Features polinómicas o interacciones para fronteras de decisión no lineales.
- Modelos lineales con núcleos o usar redes neuronales para relaciones complejas.

## Intuición geométrica
- Regresión logística aprende un hiperplano en el espacio de características que separa clases en términos de log-odds.
- La frontera de decisión para p=0.5 es {x | θ^T x = 0}.

## Consejos de implementación rápidos
- Empieza con mini-batch + Adam; revisa over/underfitting con curvas de pérdida entrenamiento/validación.
- Monitoriza gradientes (exploding/vanishing) y pérdidas; usa early stopping.
- Regularización λ: buscar por validación (p. ej. grid search o búsqueda bayesiana).
- Para producción, calibrar probabilidades si se requiere (p. ej. Platt scaling o isotonic).

Resumen final: entender la relación entre la función de pérdida (entropía cruzada), la función sigmoide/softmax y el gradiente es clave; aplicar buenas prácticas (normalización, regularización, elección de optimizador y evaluación con métricas adecuadas) permite entrenar modelos de regresión logística robustos y bien calibrados.

![gradient y logistica](Images/rna_gradient_logistica.png)

**Que es gradiente**

El gradiente de una función es un vector que contiene sus derivadas parciales; indica la dirección de mayor aumento y su magnitud cuánto cambia la función en esa dirección. En optimización, el negativo del gradiente se usa para bajar la función (gradient descent), es decir, moverse en la dirección de mayor disminución.

![gradiente](Images/gradiente.png)

![error](Images/errorGra.png)

# Backpropagation — explicación muy fácil

- Idea central: calcular cuánto contribuye cada peso al error final y ajustar los pesos para reducir ese error. Es "echar la culpa" hacia atrás desde la salida hasta las entradas usando la regla de la cadena.

Pasos simples:
1. Forward pass  
    - Calculas salidas de la red: z = W·x + b, a = f(z) para cada capa, ŷ al final.
2. Computar la pérdida L(y, ŷ) (p. ej. entropía cruzada).
3. Backward pass (propagar el error hacia atrás)  
    - Para la capa de salida: δ = ∂L/∂z = (∂L/∂ŷ) * f'(z).  
    - Para una capa anterior: δ_l = (W_{l+1}^T · δ_{l+1}) * f'_l(z_l).  
    - Gradientes: ∂L/∂W_l = δ_l · a_{l-1}^T, ∂L/∂b_l = δ_l.
4. Actualizar pesos (gradiente descendente):  
    - W_l ← W_l − α · ∂L/∂W_l,  b_l ← b_l − α · ∂L/∂b_l.

Intuición breve:
- La derivada f'(z) indica cuánto cambia la salida de una neurona si cambias su entrada.  
- Multiplicando por W^T distribuyes el "error" hacia las neuronas anteriores (regla de la cadena).  
- Repetir esto capa por capa te da exactamente cuánto debe cambiar cada peso para reducir la pérdida.

Analogía:
- Imagina varios controles (pesos) que afectan un resultado final malo. Backpropagation dice cuánto mover cada control para mejorar el resultado, empezando por el efecto visible (salida) y repartiendo responsabilidad hacia los controles anteriores.

Consejos prácticos:
- Usar activaciones con derivadas estables (ReLU, para evitar vanishing en algunas capas).  
- Mini-batches y optimizadores (Adam) ayudan a converger más rápido.  
- Frameworks (TensorFlow, PyTorch) hacen esto automáticamente con autograd.

Resumen: forward para medir el error, backward para calcular gradientes con la regla de la cadena, actualizar pesos para mejorar la predicción.

![backpropagation](Images/backpropagation.png)

![a](Images/a.png)

![b](Images/b.png)

![c](Images/c.png)

# Tipos de Redes Neuronales Profundas

## Redes Neuronales Fully Connected (Totalmente Conectadas / Dense)

Las redes fully connected son arquitecturas en las que cada neurona de una capa está conectada a todas las neuronas de la capa siguiente. Suelen componerse de una capa de entrada, una o varias capas ocultas y una capa de salida.

Concepto básico
- Forward pass: para cada capa l: z_l = W_l · a_{l-1} + b_l, a_l = f(z_l) donde f es la función de activación (ReLU, sigmoid, tanh, etc.).
- Entrenamiento: se minimiza una función de pérdida mediante backpropagation y un optimizador (SGD, Adam, ...).

Ventajas
- Simplicidad y expresividad: pueden aproximar funciones arbitrarias con suficientes neuronas/capas.
- Buen punto de partida para problemas tabulares y como bloque en arquitecturas híbridas.

Limitaciones
- Gran número de parámetros → riesgo de sobreajuste y coste computacional.
- No explotan estructuras espaciales o secuenciales (para imágenes o texto conviene CNNs o RNN/Transformers).
- Pueden sufrir problemas de vanishing/exploding gradients en redes muy profundas.

Buenas prácticas
- Normalizar/estandarizar características de entrada.
- Inicialización adecuada de pesos (He para ReLU, Xavier para sigmoid/tanh).
- Usar activaciones modernas (ReLU/LeakyReLU) para capas ocultas.
- Regularización: L2, dropout y/o early stopping para evitar overfitting.
- Batch normalization para estabilizar y acelerar el entrenamiento.
- Elegir tamaño y número de capas por validación (usar validación cruzada o set de validación).

Casos de uso típicos
- Modelado en datos tabulares, regresión y clasificación sencillas, y como capas finales en modelos más complejos.

## Redes Neuronales Convolucionales (CNN)

- ¿Qué son?  
    - Arquitecturas diseñadas para procesar datos con estructura de grilla (p. ej. imágenes). Extraen características locales mediante filtros (kernels) compartidos y construyen representaciones jerárquicas.
- Operación clave: convolución  
    - Un kernel desliza sobre la entrada y calcula productos punto → mapas de características (feature maps). Parámetros: tamaño del kernel, stride (paso) y padding (relleno).
- Intuición  
    - Las primeras capas capturan bordes y texturas; capas intermedias combinan patrones simples en formas más complejas; las capas profundas detectan objetos/rasgos semánticos.
- Forward y entrenamiento  
    - Forward: conv → activación (ReLU) → pooling (opcional) → batch-norm → repetición → fully connected → softmax/log-loss.  
    - Entrenamiento: backprop + optimizadores (Adam, SGD con momentum), mini-batches y data augmentation.
- Ventajas y limitaciones  
    - Ventajas: parámetros compartidos (menos parámetros), invarianza local, excelente para visión.  
    - Limitaciones: requieren muchos datos, sensibles a transformaciones no vistas (aunque se mitiga con augmentación), costo computacional en modelos grandes.

### Componentes, arquitecturas y buenas prácticas

- Componentes comunes  
    - Convolutional layers (kernels 3×3 o 5×5), Pooling (max/avg), Batch Normalization, Activaciones (ReLU/LeakyReLU), Dropout, Fully Connected finale, Skip connections (ResNet).
- Arquitecturas clásicas  
    - LeNet → AlexNet → VGG → Inception → ResNet. Cada una introduce mejoras: mayor profundidad, módulos eficientes o conexiones residuales.
- Buenas prácticas  
    - Normalizar entradas, usar inicializaciones apropiadas (He para ReLU), emplear augmentación (rotación, recorte, flip, color jitter), usar transfer learning en datasets pequeños, monitorizar over/underfitting con curvas de pérdida, ajustar learning rate (schedulers), usar batch-norm y regularización (weight decay, dropout).
- Consideraciones prácticas  
    - Tamaño del batch y memoria GPU afectan el entrenamiento. Usar mixed precision para acelerar. Evaluar con métricas de clasificación y visualizaciones (mapas de activación, Grad-CAM) para interpretabilidad.

## Redes Neuronales Recurrentes (RNN)

- ¿Qué son?  
    - Arquitecturas diseñadas para procesar datos secuenciales (texto, series temporales, audio). Mantienen un estado oculto que acumula información de pasos anteriores y permite modelar dependencias temporales.

- Operación clave  
    - En cada paso temporal t: h_t = f(W_x x_t + W_h h_{t-1} + b), y opcionalmente y_t = g(V h_t + c). El estado oculto h actúa como memoria que se actualiza paso a paso.
    - Tipos de retorno: unidireccional (hacia adelante), bidireccional (procesa la secuencia en ambas direcciones).

- Intuición  
    - Las RNN "recuerdan" información previa a través del estado oculto; útil cuando la predicción depende de contexto histórico (p. ej. palabras previas en una oración).

- Forward y entrenamiento  
    - Forward: se recorre la secuencia actualizando h_t y produciendo salidas intermedias o finales.  
    - Backpropagation Through Time (BPTT): se desenvuelve la red en el tiempo y aplica backprop para acumular gradientes a lo largo de los pasos.  
    - Variantes: entrenamiento por truncamiento de BPTT (truncated BPTT) para secuencias largas; teacher forcing en modelos seq2seq.

- Ventajas y limitaciones  
    - Ventajas: modelan información temporal, compacidad para secuencias cortas/medias, útiles en tareas de lenguaje, series temporales y audio.  
    - Limitaciones: dificultades con dependencias a muy largo plazo por vanishing/exploding gradients en RNNs simples; cómputo secuencial que dificulta paralelización; pueden ser reemplazadas por arquitecturas basadas en atención (Transformers) en muchos casos.

- Componentes, arquitecturas y buenas prácticas

    - Arquitecturas comunes  
        - Vanilla RNN (simple): útil pedagógicamente pero limitado por gradientes.  
        - LSTM (Long Short-Term Memory): introduce puertas (input, forget, output) y celda de memoria para manejar dependencias largas.  
        - GRU (Gated Recurrent Unit): variante más simple que LSTM con rendimiento comparable en muchas tareas.  
        - Bidirectional RNNs: concatenan contexto pasado y futuro para tareas donde la secuencia completa está disponible.  
        - Seq2Seq (encoder–decoder) y attention: para traducción, resumen y tareas de generación; la atención mejora la gestión de long-range dependencies.

    - Buenas prácticas  
        - Usar LSTM/GRU en lugar de RNNs básicas para dependencias largas.  
        - Aplicar gradient clipping para evitar exploding gradients.  
        - Normalización (layer norm) y dropout recurrente para regularizar.  
        - Truncar BPTT para secuencias demasiado largas; usar batching con padding y máscaras.  
        - Inicializar pesos adecuadamente y ajustar el learning rate (schedulers).  
        - En tareas generativas, emplear teacher forcing durante el entrenamiento y técnicas de sampling controlado en inferencia.  
        - Considerar Transformers/attention cuando se requiera paralelización y manejo eficiente de dependencias globales.

    - Casos de uso típicos  
        - Modelado de lenguaje, traducción automática, reconocimiento de voz, predicción de series temporales, etiquetado secuencial (NER, POS), y generación de secuencias.

Resumen: las RNNs y sus variantes con puertas (LSTM/GRU) son la elección clásica para secuencias; sin embargo, en problemas con dependencias muy largas o necesidad de paralelismo, las arquitecturas basadas en atención suelen ofrecer mejores resultados.