# 3. Deep Learning

## 3.1 Retomando Deep Learning
Deep Learning es un subconjunto del Machine Learning que se basa en el uso de redes neuronales artificiales para aprender de grandes cantidades de datos. La idea central es que, mediante el uso de múltiples capas de procesamiento, las redes neuronales pueden identificar patrones complejos y aprender representaciones de datos, lo que las hace especialmente útiles para tareas como el reconocimiento de imágenes, el procesamiento de lenguaje natural (NLP) y el análisis de datos no estructurados.

### Características principales del Deep Learning
* **Supervisados, Semi Supervisado y No Supervisado:** deep learning puede aplicarse en diferentes escenarios de aprendizaje, dependiendo de las disponibilidad de etiquetas en los datos.
* **Grandes cantidades de recursos:** el entrenamiento de redes neuronales profundas requiere de un alto poder de cómputo, como GPUs, para procesar grandes volúmenes de datos estructurados, no estructurados y semi estructurados.
* **Muchas capas de modelos:** estas redes constan de varias capas (entrada, ocultas y salida) que procesan los datos para lograr una comprensión más profunda del problema.
* **Sensibilidad a hiperparámetros:** parámetros como el número de épocas, el tamaño del batch y la tasa de aprendizaje deben ajustarse correctamente para evitar problemas como el sobre o sub ajuste.
* **Funciones de costo:** se utilizan para medir el rendimiento del modelo, y el objetivo es minimizar el error en cada iteración.

### Redes Neuronales y Aprendizaje a partir de Grandes Cantidades de Datos
Las redes neuronales son la base del deep learning, inspiradas en la estructura y funcionamiento del cerebro humano. Estas redes aprenden de grandes cantidades de datos a través de un proceso iterativo. Durante el entrenamiento, las redes ajustan sus pesos internos (conexiones entre neuronas) mediante algoritmos de optimización, como el descenso de gradiente, para mejorar su capacidad de predecir resultados.
* **Perceptrón y Redes Multicapa (MLP):** estas redes neuronales básicas aprenden a partir de una o varias capas de neuronal conectadas, donde cada capa procesa la información de manera no lineal, lo que permite capturar patrones complejos.
* **Redes Neuronales Convolucionales (CNN):** utilizadas principalmente en el procesamiento de imágenes, las CNN están diseñadas para procesar datos estructurados en forma de pixeles. Estas redes aprenden a identificar patrones espaciales y son útiles en aplicaciones como la visión por computadora.
* **Redes Neuronales Recurrentes (RNN):** son útiles para datos secuenciales o series temporales, como el procesamiento de texto o el reconocimiento de voz. Las RNN tienen la capacidad de "recordar" información de entradas anteriores para influir en las predicciones actuales.

### Impacto y Aplicaiones del Deep Learning
El deep learning ha revolucionado muchas industrias debido a su capacidad para procesar grandes volúmenes de datos no estructurados y generar predicciones precisas. Algunos ejemplos de aplicaciones incluyen:
* **Reconocimiento de Imágenes:** en sistemas de seguridad y redes sociales, las redes neuronales identifican y etiquetan objetos o rostros en imágenes.
* **Procesamiento de Lenguaje Natural (NLP):** utilizado en asistentes virtuales como siri o aleza, así como en aplicaciones de traducción automática.
* **Sistemas de Recomendación:** plataformas como amazon y netflix utilizan redes neuronales para sugerir productos o contenidos en función de patrones de comportamiento.

Deep learning sigue evolucionando, y su capacidad para manejar problemas complejos lo convierte en una herramienta fundamental en la ciencia de datos.

# 3.2 Principales Arquitecturas de Deep Learning

## Perceptrón y Perceptrón Multicap (MLP)

### Perceptrón
El *perceptrón* es la unidad básica de una red neuronal artificial, inspirado en las neuronas biológicas. Fue propuesto por el psicólogo Frank Rosenblatt en 1958 y refinado posteriormente por Minsky y Papert en 1969. Es un modelo computacional simple que realiza una suma ponderada de sus entradas y aplica una función de activación para determinar la salida.
* **Función del Perceptrón:** se utiliza principalmente para problemas de clasificación binaria. Acepta múltiples entradas (variables) y produce una única salida que puede ser clasificada como 1 o 0, dependiendo del umbral aplicado. Es un modelo generalizable porque no requiere que las entradas sean binarias, como ocurria en modelos anteriores.

* **Limitaciones:** el perceptrón original solo puede resolver problemas linealmente separables. Un famoso ejemplo es el problema XOR, que el perceptrón no puede solucionar debido a su naturaleza de clasificación linea.

### Perceptrón Multicapa (MLP)
El *Perceptrón Multicapa* es una extensión de perceptrón que incluye múltiples capas de neuronas (entrada, ocultas y salida). Cada capa oculta aplica una función de activación no lineal, lo que le permite al MLP resolver problemas má complejos que el perceptrón simple.
* **Capas del MLP:** las redes MLP tienen una o más capas ocultas entre la capa de entrada y la de salida. A diferencia del perceptrón, el MLP puede resolver problemas no lineales y de clasificación más complejos. Utiliza el algoritmo de *backpropagation* para ajustar los pesos de las conexiones entre las neuronas, minimizando el error de predicción.

* **Aplicaciones:** el MLP es utilizado en una amplia variedad de tareas como el reconocimiento de voz, la predicción de series temporales y la clasificación de imágenes. Su capacidad para procesar datos no lineales lo hace muy poderoso en diferentes campos.

### Ventajas del MLP
* Puede resolver problemas no lineales

* Es capaz de aprender a partir de grandes cantidades de datos.

* Es ampliamente utilizado para tareas supervisadas, como la clasificación y regresión.

### Desventajas del MLP
* Requiere una gran cantidad de datos para un entrenamiento eficiente.

* Es costoso computacionalmente debido al gran número de parámetros que debe ajustar.

* El proceso puede ser lento y propenso a problemas de overfitting si no se controla adecuadamente.


## Redes Neuronales Convolucionales (CNN)
Las redes neuronales convolucionales son un tipo especializado de red neuronal diseñada específicamente para el procesamiento de imágenes y datos visuales. A diferencia de las redes MLP, las CNN se enfocan en aprender patrones espaciales de los datos, lo que las hace especialmente útiles en tareas de visión por computadora.

### Estructura de una CNN
Una CNN generalmente consta de tres tipos principales de capas:
1. **Capas Convolucionales:** son las capas centrales de las CNN. Utilizan filtron o *kernels* para realizar productos escalares sobre pequeñas porciones de la imagen, creando lo que se conoce como un *mapa de activación*. Estas capas permiten que la red detecte características como bordes, texturas y patrones dentro de la imagen.

2. **Capas de Agrupación (Pooling):** reducen la dimensionalidad del mapa de activación, resumiendo las características más importantes de cada región. El tipo de pooling más común es el max pooling, que selecciona el valor máximo de una región del mapa de activación.

3. **Capas Completamente Conectadas (Fully Connected):** estas capas toman las representaciones aprendidad por las capas convolucionales y generan la salid final, como la probabilidad de que una imagen pertenezca a una clase determinada.

### Aplicaciones de las CNN
Las CNN son muy efectivas en tarear como:
* Reconocimiento de imágenes, clasifiación de objetos en imágenes

* Visión por computadura, análisis de imágenes y videos.

* Procesamiento de lenguajes natural (NLP), aunque es menos común, también se utilizan en tareas de procesamiento de texto, como el análisis de sentimientos o la clasificación de documentos.

### Ventajas de las CNN
* Son muy eficientes para el procesamiento de imágenes.

* Pueden identificar patrones complejos sin la necesidad de realizar un pre procesamiento extenso.

* Tienen menos parámetros que una red completamente conectada, lo que reduce el riesgo de sobreajuste.

### Desventajas de las CNN
* Requieren grandes cantidades de datos para entrenarse eficazmente.

* Son computacionalmente intensivas y necesitan hardware especializado, como GPUs.


## Redes Neuronales Recurrentes (RNN)
Las redes neuronales recurrentes son un tipo de red neuronal diseñada para trabajar con datos secuenciales. A diferencia de las redes neuronales tradicionales, las RNN pueden "recordar" información previa y utilizarla para influir en la salida actual, lo que las hace ideales para tareas donde el orden de los datos es importante.

### Características de las RNN
* **Memoria:** la característica distintiva de las RNN es su capacidad para "recordar" la información de las entradas anteriores en una secuencia y utilizarla para influir en las predicciones actuales. Esto se logra a través de ciclos en su arquitectura interna, donde las salidas de una capa.


















