# **¿Cómo crear una Red Neuronal.?** 

*by: Alberto Padilla Nieto*

 ## Pasos para Red Neuronal. 

1. **Definir el problema:** Es importante tener una comprensión clara del problema que se desea resolver antes de comenzar a diseñar la red neuronal.<br><br>
2. **Recopilar y preparar los datos:** La calidad y cantidad de los datos de entrada es crucial para el éxito de una red neuronal. Es necesario seleccionar los datos adecuados y prepararlos para el entrenamiento.<br><br>
3. **Regularización:** La regularización es una técnica utilizada para prevenir el sobreajuste en una red neuronal. Algunos ejemplos de técnicas de regularización incluyen L1 y L2 regularización, y la eliminación de dropout.<br><br>
4. **Diseñar la arquitectura de la red:** La elección de la arquitectura adecuada es fundamental para el éxito de una red neuronal. Esto incluye la selección de la cantidad y tipo de capas, el número de neuronas por capa, la función de activación, y más.<br><br>
5. **Seleccionar un algoritmo de entrenamiento:** La elección del algoritmo de entrenamiento correcto puede tener un gran impacto en el rendimiento de la red neuronal. Algunos ejemplos de algoritmos de entrenamiento incluyen backpropagation, gradiente descendente estocástico, y el método de propagación de errores hacia atrás.<br><br>
6. **Entrenar y validar la red:** Una vez que se ha diseñado la red neuronal y se ha seleccionado el algoritmo de entrenamiento, se debe entrenar la red utilizando los datos de entrenamiento preparados anteriormente. Es importante validar el rendimiento de la red neuronal utilizando un conjunto de datos separado que no se haya utilizado durante el entrenamiento.<br><br>
7. **Ajustar la red:** Después de validar la red, es posible que sea necesario ajustar la arquitectura o los parámetros de la red para mejorar el rendimiento.<br><br>
8. **Evaluar la red:** Finalmente, es importante evaluar la red neuronal utilizando datos de prueba para determinar su rendimiento real en situaciones del mundo real.<br><br>

# **Librerias** 

**TensorFlow:** una plataforma de aprendizaje automático de código abierto desarrollada por Google que se utiliza para crear y entrenar modelos de aprendizaje profundo.<br>
**Keras:** una biblioteca de redes neuronales de alto nivel que se ejecuta sobre TensorFlow y se utiliza para crear y entrenar modelos de aprendizaje profundo de manera rápida y eficiente.<br>
~~~~
                        import tensorflow as tf
                        from tensorflow import keras
~~~~
**PyTorch:** una biblioteca de aprendizaje automático de código abierto desarrollada por Facebook que se utiliza para crear y entrenar modelos de aprendizaje profundo.<br>
~~~~
                        import torch
~~~~
**XGBoost:** una biblioteca de gradient boosting en árboles que se utiliza para la regresión y la clasificación de conjuntos de datos estructurados.<br>
**LightGBM:** otra biblioteca de gradient boosting en árboles que se centra en la eficiencia y la velocidad de entrenamiento.<br>
**CatBoost:** otra biblioteca de gradient boosting en árboles que se utiliza para la clasificación y la regresión, y que tiene como objetivo mejorar la precisión de los modelos y reducir el tiempo de entrenamiento.<br>
~~~~
                        import xgboost as xgb
                        import lightgbm as lgb
                        import catboost as cb
~~~~
**NLTK:** una biblioteca de procesamiento de lenguaje natural que se utiliza para trabajar con datos de texto y procesar el lenguaje natural.<br>
**Gensim:** otra biblioteca de procesamiento de lenguaje natural que se utiliza para modelar y analizar grandes conjuntos de datos de texto, como colecciones de documentos o corpus.<br>
~~~~
                        import nltk
                        import gensim
~~~~
**Cluster:** es un módulo de la biblioteca Scikit-Learn que proporciona herramientas para el clustering de datos, incluyendo el algoritmo de K-Means y Gaussian Mixture Models (GMM).<br>



~~~~
                        from sklearn.cluster import KMeans
                        from sklearn.mixture import GaussianMixture
~~~~

**SVM (Support Vector Machine):** es un módulo que implementa un algoritmo para la clasificación y regresión. El módulo incluye dos variantes: SVC, que es la implementación de SVM para clasificación, y LinearSVC, que es la implementación de SVM para clasificación lineal.<br>

~~~~
                        from sklearn.svm import SVC
                        from sklearn.svm import LinearSVC
~~~~
**Ensemble:** Estos modelos utilizan múltiples árboles de decisión para mejorar la precisión y generalización del modelo. incluyendo Random Forest Classifier y Gradient Boosting Classifier.<br>
~~~~
                        from sklearn.ensemble import RandomForestClassifier
                        from sklearn.ensemble import GradientBoostingClassifier
~~~~
**Librerías Machine Learning**<br>
- **Librerías gráficas:** Estas librerías permiten la visualización de datos y la creación de gráficos y diagramas para ayudar en el análisis de datos. Matplotlib.pyplot es una de las librerías más populares para visualización de datos en Python, Seaborn se enfoca en gráficos estadísticos más sofisticados y Pandas.plotting proporciona algunas herramientas de visualización integradas en Pandas para análisis de datos.
~~~~
                        import matplotlib.pyplot, 
                        import seaborn, 
                        import pandas.plotting
~~~~

- **Librerías de dataframes:** Pandas es una librería muy útil para el análisis de datos y la manipulación de datos en forma de tablas y dataframes. Numpy también se utiliza frecuentemente en combinación con Pandas para realizar operaciones matemáticas en los datos.
~~~~
                        import pandas
                        import numpy  
~~~~

- **Librerías del sistema:** Estas librerías están relacionadas con la manipulación del sistema operativo y los archivos. Os proporciona funciones para trabajar con los sistemas operativos, Base64 se utiliza para la codificación y decodificación de datos, io.BytesIO proporciona un buffer de bytes para leer y escribir datos en memoria, PIL.Image permite la manipulación de imágenes, IPython.display muestra objetos en formato HTML en notebooks de Jupyter, tkinter es una biblioteca gráfica para interfaces de usuario en Python y tkinter.font proporciona funciones para trabajar con fuentes.
~~~~
                        import o 
                        import base6 
                        import io.BytesI 
                        import PIL.Imag 
                        import IPython.displa 
                        import tkinte 
                        import tkinter.font  
~~~~

- **Librerías de informes:** Estas librerías se utilizan para generar informes y realizar análisis estadísticos. Statsmodels.api proporciona funciones para realizar análisis de regresión y otros modelos estadísticos, statsmodels.formula.api proporciona una interfaz más sencilla para trabajar con modelos estadísticos, Pandas_profiling genera informes automatizados sobre los datos, y statsmodels.stats.outliers_influence proporciona funciones para analizar los puntos atípicos en los datos.
~~~~
                        import statsmodels.api 
                        import statsmodels.formula.api 
                        import pandas_profiling 
                        import statsmodels.stats.outliers_influence
~~~~

- **Librerías para datos de entrenamiento y prueba:** sklearn.model_selection proporciona funciones para dividir los datos en conjuntos de entrenamiento y prueba para su uso en modelos de aprendizaje automático.
~~~~
                        import sklearn.model_selection
~~~~

# **Carga y Exploración y Contextualizar de Datos**

# **Pre-procesamiento de Datos**

- **Para datos numéricos:**
> 1. Escalamiento para que todas las características estén en la misma escala.<br>
> 2. Normalización para convertir las características en un rango de valores entre 0 y 1.<br>
> 3. Manejo de datos faltantes, por ejemplo, eliminando las instancias con valores faltantes o imputando valores.<br>
- **Para procesamiento de imágenes:**
> 1. Redimensionamiento para asegurarse de que todas las imágenes tengan el mismo tamaño.<br>
> 2. Normalización para convertir los valores de píxeles en un rango de valores entre 0 y 1.<br>
> 3. Data augmentation para aumentar el tamaño del conjunto de datos y mejorar la generalización de la red.<br>
- **Para procesamiento de lenguaje natural:**
> 1. Tokenización para dividir el texto en palabras o en frases.<br>
> 2. Eliminación de stopwords y signos de puntuación.<br>
> 3. Creación de vocabulario para asignar un número a cada palabra en el conjunto de datos.<br>
> 4. Padding para igualar la longitud de las secuencias.<br>
- **Para Series temporales:**
> 1. Normalización: Asegurarse de que las series temporales tengan la misma escala.<br>
> 2. Relleno de valores faltantes: Si hay valores faltantes en la serie temporal, se pueden rellenar con el último valor conocido o con un valor estimado.<br>
> 3. División en ventanas: Las series temporales pueden dividirse en ventanas deslizantes de un tamaño determinado para crear secuencias más pequeñas.<br>
> 4. Creación de características: Las características adicionales, como la media móvil, la varianza, etc., pueden crearse a partir de los datos de la serie temporal existente.<br>
> 5. Transformación: Las series temporales pueden transformarse para crear series estacionarias o para reducir la varianza.
- **Para Datos de audio:**
> 1. Normalización: Asegurarse de que los datos de audio tengan la misma escala.<br>
> 2. Reducción de ruido: Eliminar el ruido de los datos de audio.<br>
> 3. Extracción de características: Extraer características de los datos de audio, como la frecuencia, la amplitud, el espectro, etc.<br>
> 4. Transformación: Los datos de audio se pueden transformar mediante el uso de técnicas de Fourier o Wavelet para reducir la varianza o mejorar la precisión.<br>
> 5. Augmentación de datos: Los datos de audio se pueden aumentar mediante la adición de ruido, la variación de la velocidad, etc.<br>
- **Para Datos geoespaciales:**
> 1. Interpolación: Si hay valores faltantes en los datos geoespaciales, se pueden interpolar para estimar los valores faltantes.<br>
> 2. Normalización: Asegurarse de que los datos geoespaciales tengan la misma escala.<br>
> 3. Creación de características: Las características adicionales, como la elevación, la temperatura, la humedad, etc., pueden crearse a partir de los datos geoespaciales existentes.<br>
> 4. Transformación: Los datos geoespaciales se pueden transformar mediante el uso de técnicas de proyección o reducción de dimensionalidad.<br>
- **Para Datos de sensores:**
> 1. Normalización: Asegurarse de que los datos de los sensores tengan la misma escala.<br>
> 2. Eliminación de valores atípicos: Eliminar los valores extremos de los datos de los sensores.<br>
> 3. Creación de características: Las características adicionales, como la media móvil, la varianza, etc., pueden crearse a partir de los datos de los sensores existentes.<br>
> 4. Transformación: Los datos de los sensores se pueden transformar mediante el uso de técnicas de Fourier o Wavelet para reducir la varianza o mejorar la precisión.<br>
> 5. Augmentación de datos: Los datos de los sensores se pueden aumentar mediante la adición de ruido o la variación de la frecuencia de muestreo.<br>

# **Arquitectura** 

## Arquitectura

- **Capa de entrada:** es la primera capa de la red neuronal y recibe los datos de entrada que serán procesados por la red.<br><br>
- **Capas ocultas:** son las capas intermedias de la red neuronal que procesan los datos de entrada. Estas capas están formadas por neuronas que reciben información de la capa anterior y la transforman para pasarla a la siguiente capa.<br><br>
- **Capa de salida:** es la última capa de la red neuronal y es responsable de producir la salida de la red neuronal. La salida puede ser una clasificación, una predicción o cualquier otra información relevante para el problema que estemos tratando de resolver.<br><br>
- **Neuronas:** son los elementos básicos que componen la red neuronal. Cada neurona recibe una entrada y produce una salida. La salida de una neurona se calcula mediante una función de activación que determina si la neurona se activa o no.<br><br>
- **Pesos:** son los valores que determinan la fuerza de las conexiones entre las neuronas en la red neuronal. Cada conexión entre dos neuronas tiene un peso asociado que indica la importancia de la información que se transmite a través de esa conexión.<br><br>
- **Función de activación:** es la función que determina la salida de una neurona en función de su entrada y de los pesos de las conexiones que la conectan con otras neuronas.<br><br>
- **Función de pérdida:** es la función que mide el error de la red neuronal. Esta función se utiliza para ajustar los pesos de la red neuronal durante el entrenamiento.<br><br>
- **Función de coste:** es similar a la función de pérdida, pero se utiliza para medir el error en el conjunto de validación o prueba de la red neuronal, en lugar del conjunto de entrenamiento. Esta función se utiliza para evaluar el rendimiento general de la red neuronal.<br><br>
- **Batch normalization:** es una técnica utilizada para normalizar la salida de una capa de neuronas. Esta técnica ayuda a mejorar la estabilidad y la velocidad de convergencia de la red neuronal.<br><br>
- **Algoritmo de aprendizaje:** es el algoritmo que se utiliza para ajustar los pesos de la red neuronal durante el entrenamiento. El algoritmo más comúnmente utilizado es el descenso del gradiente.<br><br>
- **Bias (Sesgo):** son los valores que se añaden a cada neurona para ajustar su salida. El bias se utiliza para asegurarse de que las neuronas se activen incluso si su entrada es cero.<br><br>
- **Función de regularización:** es una técnica que se utiliza para evitar el sobreajuste en la red neuronal. Esto implica la introducción de una penalización en la función de pérdida para evitar que los pesos de la red neuronal se vuelvan demasiado grandes durante el entrenamiento. Las técnicas de regularización comunes incluyen el **dropout y la regularización L1 y L2.**<br><br>
- **Tasa de aprendizaje:** es un parámetro utilizado por el algoritmo de aprendizaje para determinar la cantidad de ajuste que se realiza en los pesos de la red neuronal en cada iteración del entrenamiento. Una tasa de aprendizaje adecuada es esencial para garantizar que la red neuronal se entrene correctamente.<br><br>

## Tipos de Capas 

- **Capa densa (completamente conectada):**
~~~~
from keras.layers import Dense

# Crear una capa densa con 64 neuronas y función de activación 'relu'
dense_layer = Dense(64, activation='relu')
~~~~
- **Capa de convolución:**
~~~~
from keras.layers import Conv2D

# Crear una capa de convolución con 32 filtros, tamaño de filtro 3x3 y función de activación 'relu'
conv_layer = Conv2D(32, (3, 3), activation='relu')

~~~~
- **Capa de pooling:**
~~~~
from keras.layers import MaxPooling2D

# Crear una capa de pooling con tamaño de pool 2x2
pool_layer = MaxPooling2D(pool_size=(2, 2))

~~~~
- **Capa de dropout:**
~~~~
from keras.layers import Dropout

# Crear una capa de dropout con una tasa de abandono del 20%
dropout_layer = Dropout(0.2)
~~~~
- **Estas capas se pueden apilar y combinar** para crear una arquitectura de red neuronal personalizada. Por ejemplo, la siguiente línea de código crea una red neuronal con una capa densa de entrada, dos capas densas ocultas, una capa de dropout y una capa de salida densa:
~~~~
from keras.models import Sequential

model = Sequential([
    Dense(64, activation='relu', input_shape=(input_dim,)),
    Dense(128, activation='relu'),
    Dense(64, activation='relu'),
    Dropout(0.2),
    Dense(output_dim, activation='softmax')
])
~~~~
Donde input_dim y output_dim son las dimensiones de entrada y salida de la red neuronal, respectivamente.

## **Tipos de Redes**

- **Redes feedforward:** Son las redes neuronales más simples y comunes. Se componen de una capa de entrada, una o más capas ocultas y una capa de salida. Las señales fluyen solo en una dirección, desde la entrada hasta la salida. Estas redes son comúnmente utilizadas para tareas de clasificación y regresión.
<img src=https://d1.awsstatic.com/whatisimg/intro-gluon-1%20(1).ac2f31378926b5f99a4ba9d741c4aebe3b7a29e2.png width="400"><br><br>
- **Redes recurrentes:** En este tipo de red neuronal, las neuronas tienen conexiones recurrentes, lo que significa que pueden recibir información de otras neuronas en capas anteriores. Las redes recurrentes son útiles para tareas en las que la entrada es una secuencia de datos, como en el procesamiento del lenguaje natural o en la predicción de series de tiempo.<img src=https://abdatum.com/media/images/neuronas-recurrentes.jpeg width="400"><br><br>
- **Redes convolucionales:** Estas redes están diseñadas específicamente para tareas de visión por computadora y procesamiento de imágenes. Utilizan capas convolucionales para extraer características de la imagen y reducir la dimensionalidad antes de pasar la información a capas completamente conectadas para la clasificación final.<img src=https://i0.wp.com/www.aprendemachinelearning.com/wp-content/uploads/2018/11/CNN-08.png width="400"><br><br>
- **Redes autoencoder:** Son una arquitectura de red neuronal que se utiliza para el aprendizaje no supervisado de características. Consisten en una capa de entrada, una o más capas ocultas y una capa de salida. El objetivo del autoencoder es aprender a codificar la entrada en una representación de menor dimensión y luego reconstruir la entrada original a partir de esta representación comprimida.<img src=http://www.cs.us.es/~fsancho/images/2020-03/vaearc.png width="400"><br><br>
- **Redes generativas adversarias (GAN):** Esta arquitectura de red neuronal consta de dos redes: un generador y un discriminador. El generador crea muestras que parecen reales, mientras que el discriminador intenta distinguir entre las muestras reales y las generadas. El objetivo es que el generador aprenda a generar muestras que engañen al discriminador y se parezcan lo más posible a las muestras reales.<img src=https://www.iartificial.net/wp-content/uploads/2019/03/redes-generativas-adversarias-1024x291.webp width="400"><br><br>
- **Redes neuronales de Memoria a Corto y Largo Plazo (LSTM):** son una variante de las redes recurrentes que se utilizan principalmente para modelar secuencias de datos con dependencias a largo plazo. Las LSTM tienen una estructura de celda que les permite almacenar información a largo plazo y decidir cuándo y cómo olvidarla.<img src=https://www.researchgate.net/profile/Xuan_Hien_Le2/publication/334268507/figure/fig8/AS:788364231987201@1564972088814/The-structure-of-the-Long-Short-Term-Memory-LSTM-neural-network-Reproduced-from-Yan.png width="400"><br><br>
- **Redes neuronales Transformer:** se han utilizado en aplicaciones de procesamiento de lenguaje natural. La arquitectura Transformer utiliza una estructura de atención que permite a la red tomar en cuenta diferentes partes del texto simultáneamente, lo que la hace más eficiente que otras arquitecturas en el procesamiento de secuencias largas.<img src=https://blogs.nvidia.com/wp-content/uploads/2022/03/Transformer-apps.jpg width="400"><br><br>
- **Redes neuronales Residuales:** se utilizan para construir redes profundas más fáciles de entrenar. Las redes residuales contienen conexiones directas entre capas, lo que permite que la información fluya directamente desde la entrada a través de múltiples capas sin ser alterada por la función de activación de la capa.<img src=https://www.iartificial.net/wp-content/uploads/2019/03/redes-generativas-adversarias-1024x291.webp width="400"><br><br>

## Funciones de Activación

<img src=https://assets-global.website-files.com/5d7b77b063a9066d83e1209c/60d2424009416f21db643e21_Group%20807.jpg width="400">

Una función de activación es una función matemática que se aplica a la salida de una neurona en una red neuronal artificial. Su función principal es introducir no-linealidad en la red neuronal, permitiendo así que la red pueda modelar funciones complejas.<br><br>

- **Función de activación Sigmoide:**<br><br>
<img src=https://ml4a.github.io/images/figures/sigmoid.png width="400"><br><br>
Se utiliza en problemas donde se necesita una salida en un rango limitado de valores, como en la clasificación binaria o en problemas de regresión que tienen valores de salida acotados.
> **Ventajas:** La función sigmoide es suave y diferenciable, lo que facilita el entrenamiento de la red. También tiene una interpretación probabilística, lo que puede ser útil en algunos casos.<br><br>
> **Desventajas:** La función sigmoide puede sufrir el problema del gradiente desvaneciente, lo que dificulta el entrenamiento de redes profundas. Además, la función tiene un rango limitado de valores de salida, lo que puede limitar la capacidad de la red para modelar funciones complejas.

- **Función de activación ReLU:**<br><br>
<img src=https://ml4a.github.io/images/figures/relu.png width="400"><br><br>
Se utiliza en problemas donde se necesita una salida no lineal, como en la clasificación o la regresión, especialmente en redes neuronales profundas.
>**Ventajas:** La función ReLU es simple y rápida de calcular. También es no lineal, lo que permite que la red pueda modelar funciones complejas.<br><br>
> **Desventajas:** La función ReLU puede tener problemas con gradientes negativos, lo que puede llevar a que algunas neuronas queden inactivas (problema de "neuronas muertas"). Además, la función no es suave, lo que puede dificultar el entrenamiento de la red en algunos casos.

- **Función de activación Tangente Hiperbólica:**<br><br>
<img src=https://www.researchgate.net/profile/Ignacio-Arroyo-Fernandez/publication/264899327/figure/fig18/AS:614376570642432@1523490197254/Figura-215-Funcion-de-activacion-tangente-hiperbolica-para-los-nodos-de-procesamiento.png width="400"><br><br>
Se utiliza en problemas donde se necesita una salida en un rango de valores simétrico, como en la clasificación o la regresión.
> **Ventajas:** La función tangente hiperbólica es suave y diferenciable, lo que facilita el entrenamiento de la red. También tiene un rango de valores de salida más amplio que la función sigmoide, lo que puede permitir que la red modele funciones más complejas.<br><br>
> **Desventajas:** La función tangente hiperbólica también puede sufrir el problema del gradiente desvaneciente en redes profundas. Además, la función puede tener problemas con valores grandes de entrada, lo que puede llevar a saturación de la neurona.

- **Función de activación Softmax:**<br><br>
<img src=https://production-media.paperswithcode.com/methods/Screen_Shot_2020-05-23_at_11.56.35_PM_yh1VO82.png width="400"><br><br>
Se utiliza en problemas de clasificación de varias clases, donde se necesita una salida que represente la probabilidad de pertenecer a cada clase. Por esta razón es que la función softmax es típicamente utilizada para "filtrar" un conjunto de valores que se encuentren por debajo de un valor máximo establecido.
> **Ventajas:** La función Softmax es útil para problemas de clasificación, ya que normaliza las salidas de las neuronas para que sumen 1, lo que permite interpretar la salida como una distribución de probabilidad sobre las clases.<br><br>
> **Desventajas:** La función Softmax puede sufrir problemas de estabilidad numérica si las entradas son muy grandes o muy pequeñas. También puede ser propensa al sobreajuste en problemas de clasificación con muchas clases.

- **Función de activación Leaky ReLU:**<br><br>
<img src=https://numerentur.org/wp-content/uploads/2019/06/PRELU4.png width="400"><br><br>
Se utiliza en problemas donde se necesita una salida no lineal que evite el problema de "neuronas muertas".
> **Ventajas:** La función Leaky ReLU es una variante de la función ReLU que evita el problema de "neuronas muertas" al permitir gradientes negativos. También es simple y rápida de calcular.<br><br>
> **Desventajas:** La función Leaky ReLU puede tener problemas de saturación para valores grandes de entrada, lo que puede limitar su capacidad para modelar funciones complejas. Además, el valor de la constante alpha debe ajustarse correctamente para obtener buenos resultados.

- **Función de activación ELU:**<br><br>
<img src=https://numerentur.org/wp-content/uploads/2019/06/ELU1.png width="400"><br><br>
Se utiliza en problemas donde se necesita una salida no lineal que evite el problema de "neuronas muertas" y reduzca el sobreajuste.
> **Ventajas:** La función ELU es una función suave y diferenciable que evita el problema de "neuronas muertas" y puede ayudar a reducir el sobreajuste en algunas redes. También tiene un rango de valores de salida más amplio que la función ReLU.<br><br>
> **Desventajas:** La función ELU puede ser más lenta de calcular que la función ReLU y puede sufrir problemas de saturación para valores grandes de entrada.

- **Función de activación Swish:**<br><br>
<img src=https://i.ytimg.com/vi/JewUzs5XugE/maxresdefault.jpg width="400"><br><br>
 La función Swish es una función suave, no lineal y diferenciable que se asemeja a la función ReLU pero con una saturación suave. A diferencia de la función GELU, la función Swish tiene una forma similar a una S.
> **Ventajas:** La función Swish es una función suave y diferenciable que ha demostrado tener un mejor rendimiento que la función ReLU en algunas redes neuronales. También es fácil de calcular y tiene una forma de curva similar a la función sigmoide.<br><br>
> **Desventajas:** La función Swish puede ser más lenta de calcular que la función ReLU y puede sufrir problemas de saturación para valores grandes de entrada.

- **Función de activación GELU:**<br><br>
<img src=https://assets-global.website-files.com/5d7b77b063a9066d83e1209c/60d2424009416f21db643e21_Group%20807.jpg width="400"><br><br>
La función GELU (Gaussian Error Linear Unit) es una función de activación propuesta recientemente que se utiliza en redes neuronales profundas. La función GELU es una función suave, no lineal y diferenciable que se asemeja a la función ReLU pero con una curva más suave y una saturación más suave.
> **Ventajas:** La función GELU es una función suave y diferenciable que ha demostrado tener un mejor rendimiento que la función ReLU en algunas redes neuronales. También es fácil de calcular y tiene una forma de curva similar a la función sigmoide.<br><br>
> **Desventajas:** La función GELU puede ser más lenta de calcular que la función ReLU y puede requerir una mayor capacidad de cómputo para entrenar modelos grandes.

- **Función de activación Lineal:**<br><br>
<img src=https://iq.opengenus.org/content/images/2021/11/Activation-2.png width="400"><br><br>
Se utiliza en problemas donde se necesita una salida lineal en lugar de una no lineal, como en la regresión.
> **Ventajas:** La función lineal es simple y fácil de calcular. Es útil en algunos casos donde se necesita una salida lineal en lugar de una no lineal.<br><br>
> **Desventajas:** La función lineal no introduce no linealidad en la red y, por lo tanto, no es adecuada para la mayoría de las aplicaciones de redes neuronales.

- **Y MÁS...**

### **RESUMEN**
<img src=https://assets-global.website-files.com/5d7b77b063a9066d83e1209c/62b18a8dc83132e1a479b65d_neural-network-activation-function-cheat-sheet.jpeg width="800"><br><br>

## Funciones de Pérdida

## Algoritmos de Aprendizaje 

## Bias

## Optimizadores 

Los optimizadores de redes neuronales son algoritmos utilizados para ajustar los pesos y los sesgos de las neuronas en una red neuronal durante el proceso de entrenamiento, con el objetivo de minimizar la función de pérdida y mejorar el rendimiento del modelo.<br><br>
- **Parámetros de Código**:<br><br>
    **loss_func:** es la función de pérdida que se utiliza para evaluar el error de la red neuronal en función de las etiquetas verdaderas y las etiquetas predichas.<br><br>
    **inputs:** son los datos de entrada (características) que se utilizan para entrenar la red neuronal.<br><br>
    **targets:** son las etiquetas verdaderas correspondientes a los datos de entrada.<br><br>
    **weights:** son los pesos de la red neuronal que se actualizan durante el entrenamiento para minimizar la función de pérdida.<br><br>
    **biases:** son los sesgos de la red neuronal que se actualizan durante el entrenamiento para minimizar la función de pérdida.<br><br>
Durante el entrenamiento, la red neuronal ajusta los pesos y sesgos para minimizar la función de pérdida. Para ello, se utilizan los datos de entrada (inputs) y las etiquetas verdaderas (targets) para calcular el error de la red neuronal en función de los pesos y sesgos actuales. A continuación, se utiliza un optimizador para actualizar los pesos y sesgos en función de la magnitud del error y la tasa de aprendizaje especificada. Este proceso se repite iterativamente hasta que la red neuronal alcance una precisión aceptable.<br><br>
- **Tipos**:<br><br>
>**Gradient Descent (descenso de gradiente):** es el optimizador más básico y utilizado en la mayoría de los modelos de aprendizaje profundo. El algoritmo se basa en calcular el gradiente de la función de pérdida y actualizar los pesos y sesgos de las neuronas en la dirección opuesta al gradiente.<br><br>
~~~~
                    # Inicializar los pesos y sesgos
                    weights, biases = initialize_params()

                    # Calcular el gradiente de la función de pérdida
                    grads = calculate_gradient(loss_func, inputs, targets, weights, biases)

                    # Actualizar los pesos y sesgos en la dirección opuesta al gradiente
                    weights -= learning_rate * grads['weights']
                    biases -= learning_rate * grads['biases']
~~~~
>**Stochastic Gradient Descent (SGD):** es similar al descenso de gradiente, pero se utiliza una muestra aleatoria de los datos de entrenamiento para calcular el gradiente y actualizar los pesos y sesgos. Este optimizador es más rápido y escalable que el descenso de gradiente.<br><br>
~~~~
                    # Inicializar los pesos y sesgos
                    weights, biases = initialize_params()

                    # Repetir para cada muestra en los datos de entrenamiento
                    for i in range(num_samples):
                        # Seleccionar una muestra aleatoria
                        sample = random.choice(data)

                        # Calcular el gradiente de la función de pérdida para la muestra seleccionada
                        grads = calculate_gradient(loss_func, sample['inputs'], sample['targets'], weights, biases)

                        # Actualizar los pesos y sesgos en la dirección opuesta al gradiente
                        weights -= learning_rate * grads['weights']
                        biases -= learning_rate * grads['biases']
~~~~
>**Adaptive Moment Estimation (Adam):** es un optimizador popular en la industria del aprendizaje profundo que combina las ventajas del descenso de gradiente y el SGD. El algoritmo utiliza una tasa de aprendizaje adaptativa para actualizar los pesos y sesgos en función del historial de gradiente.<br><br>
~~~~
                    # Inicializar los pesos y sesgos
                    weights, biases = initialize_params()

                    # Inicializar los momentos del gradiente
                    m = 0
                    v = 0

                    # Repetir para cada época de entrenamiento
                    for epoch in range(num_epochs):
                        # Calcular el gradiente de la función de pérdida
                        grads = calculate_gradient(loss_func, inputs, targets, weights, biases)

                        # Actualizar los momentos del gradiente
                        m = beta1 * m + (1 - beta1) * grads['weights']
                        v = beta2 * v + (1 - beta2) * (grads['weights'] ** 2)

                        # Corregir el sesgo de los momentos del gradiente
                        m_hat = m / (1 - beta1 ** epoch)
                        v_hat = v / (1 - beta2 ** epoch)

                        # Actualizar los pesos y sesgos en función de los momentos corregidos del gradiente
                        weights -= learning_rate * m_hat / (np.sqrt(v_hat) + epsilon)
                        biases -= learning_rate * grads['biases']
~~~~
>**Root Mean Square Propagation (RMSProp)**: es otro optimizador que adapta la tasa de aprendizaje en función del historial de gradiente. El algoritmo utiliza la media cuadrática de los gradientes pasados para ajustar la tasa de aprendizaje.<br><br>
~~~~
                    # Inicializar los pesos y sesgos
                    weights, biases = initialize_params()

                    # Inicializar la media cuadrática del gradiente
                    r = 0

                    # Repetir para cada época de entrenamiento
                    for epoch in range(num_epochs):
                        # Calcular el gradiente de la función de pérdida
                        grads = calculate_gradient(loss_func, inputs, targets, weights, biases)

                        # Actualizar la media cuadrática del gradiente
                        r = beta * r + (1 - beta) * (grads['weights'] ** 2)

                        # Actualizar los pesos y sesgos en función de la tasa de aprendizaje adaptativa
                        weights -= learning_rate * grads['weights'] / (np.sqrt(r) + epsilon)
                        biases -= learning_rate * grads['biases']
~~~~
>**Adagrad:** es un optimizador que ajusta la tasa de aprendizaje de cada parámetro de manera individual en función de su historial de gradiente. El algoritmo da más importancia a los parámetros con gradientes raros y menos importancia a los parámetros con gradientes comunes.<br><br>
~~~~
                    # Inicializar los pesos y sesgos
                    weights, biases = initialize_params()

                    # Inicializar el acumulador del gradiente
                    cache = 0

                    # Repetir para cada época de entrenamiento
                    for epoch in range(num_epochs):
                        # Calcular el gradiente de la función de pérdida
                        grads = calculate_gradient(loss_func, inputs, targets, weights, biases)

                        # Actualizar el acumulador del gradiente
                        cache += grads['weights'] ** 2

                        # Actualizar los pesos y sesgos en función de la tasa de aprendizaje adaptativa
                        weights -= learning_rate * grads['weights'] / (np.sqrt(cache) + epsilon)
                        biases -= learning_rate * grads['biases']
~~~~

# **Diseño de una Red Neuronal** 

## Inputs

## Weights

## Nodos

## Funciones (activación, pérdidas, costes

## Elección de Capas

- **Comenzar con una cantidad conservadora de neuronas y aumentarla gradualmente:** una estrategia común es comenzar con una cantidad conservadora de neuronas y aumentarla gradualmente hasta que se alcance un buen rendimiento. Esto permite explorar diferentes tamaños de red y encontrar el equilibrio adecuado entre la complejidad y el rendimiento.<br><br>
- **Basado en la complejidad del problema:** la elección del número de neuronas también puede basarse en la complejidad del problema. Problemas más complejos pueden requerir una red neuronal más grande con más neuronas, mientras que problemas más simples pueden requerir una red más pequeña.<br><br>
- **Basado en la arquitectura de la red:** la elección del número de neuronas también puede depender de la arquitectura de la red neuronal. Por ejemplo, una red convolucional puede tener un número diferente de neuronas en cada capa que una red completamente conectada.<br><br>
- **Uso de técnicas de selección de características:** otra estrategia común es utilizar técnicas de selección de características para reducir la cantidad de entradas que entran en la red neuronal. Esto puede permitir el uso de una red neuronal más pequeña con menos neuronas.<br><br>
- **Uso de técnicas de validación cruzada:** la validación cruzada puede ser utilizada para evaluar el rendimiento de la red neuronal para diferentes tamaños de red y seleccionar el tamaño que ofrece el mejor rendimiento.<br><br>

## Función de Regularización.

# Compilación y Guardado del Modelo

# **Contextualizar**