### How to train a neural net?

La retropropagación es como un maestro que corrige un examen. Imagina que tienes un grupo de estudiantes (que representan las neuronas de una red) que intentan resolver un problema. Al final, el maestro (la función de pérdida) revisa las respuestas y les dice a los estudiantes qué tan bien lo hicieron. Si un estudiante se equivocó, el maestro le da consejos sobre cómo mejorar.

Ahora, en lugar de solo decirles que se equivocaron, el maestro les dice exactamente qué parte de su respuesta fue incorrecta y cómo pueden ajustar su enfoque para hacerlo mejor la próxima vez. Esto es lo que hace la retropropagación: ayuda a cada "neurona" a entender cómo debe cambiar su "respuesta" (o peso) para que el grupo en su conjunto obtenga una mejor calificación.

**Ejemplo Práctico**

Imagina que estás aprendiendo a lanzar una pelota a un cesto. Al principio, lanzas la pelota y no entra. Luego, alguien te dice que debes lanzar un poco más alto. La próxima vez que lances, ajustas tu técnica basándote en ese consejo. Cada vez que lanzas, recibes retroalimentación y haces pequeños ajustes hasta que finalmente logras encestar. Así funciona la retropropagación: ajustamos los pesos de la red neuronal basándonos en el error que cometimos, para mejorar nuestras predicciones.

![image.png](attachment:image.png)

### How Have we Trained Before?

Gradient Descent: 

- 1. **Make prediction**
- 2. **Calculate loss**
- 3. Calculate gradient of the loss function w.r.t. parameters
- 4. Update parameters by taking a step in the opposite direction
- 5. Iterate 

![image-2.png](attachment:image-2.png)

![image-3.png](attachment:image-3.png)

---

### Backpropagation 

magina que estás ajustando la dirección de un barco. Si te das cuenta de que te estás alejando de tu destino, necesitas saber cuánto y en qué dirección corregir el rumbo. La retropropagación hace algo similar: calcula cómo deben cambiar los pesos en cada capa de la red para que el modelo se acerque más a la respuesta correcta en el futuro.

![image-4.png](attachment:image-4.png)

**Backpropagation**

We obtain desired changes to inputs using calculus:

- Functions are chosen to have "nice" derivatives.
- Numerical issues are to be considered. 

![image-5.png](attachment:image-5.png)

![image-6.png](attachment:image-6.png)

![image-7.png](attachment:image-7.png)

---

### The sigmoid Activation Function

Las funciones de activación son como interruptores que deciden si una neurona en una red neuronal debe "encenderse" o "apagarse". Imagina que estás en una habitación oscura y tienes un interruptor de luz. Cuando enciendes el interruptor, la luz se enciende y puedes ver todo a tu alrededor. De manera similar, las funciones de activación permiten que las redes neuronales tomen decisiones sobre qué información es importante y cuál no. Por ejemplo, la función sigmoide, que hemos mencionado, convierte cualquier número en un valor entre 0 y 1, lo que es útil para problemas donde queremos resultados claros, como clasificar algo como "sí" o "no".

Sin embargo, hay un pequeño problema con la función sigmoide: a veces, cuando los números son muy grandes o muy pequeños, la luz apenas se enciende, lo que significa que la red tiene dificultades para aprender. Esto se llama el "problema del gradiente que se desvanece". Así que, aunque la función sigmoide es útil, hay otras funciones de activación que pueden ayudar a las redes neuronales a aprender mejor y más rápido.

### Other Popular activation functions

**La función ReLU**: es como un filtro que decide qué información dejar pasar en una red neuronal. Si el valor de entrada (llamado "z") es mayor que cero, simplemente lo deja pasar tal cual. Pero si el valor es menor o igual a cero, lo convierte en cero. Imagina que tienes una puerta: si alguien está de pie (valor positivo), la puerta se abre y entra. Si está sentado o no hay nadie (valor cero o negativo), la puerta permanece cerrada. Esto ayuda a que la red neuronal se enfoque en las partes más importantes de la información.


**Variante "Leaky ReLU":** . En lugar de cerrar la puerta completamente cuando el valor es negativo, deja que una pequeña cantidad de información pase. Así, si el valor es negativo, lo multiplica por un número pequeño (como 0.01) en lugar de convertirlo en cero. Esto es útil porque asegura que la red siga aprendiendo, incluso cuando algunos valores son negativos.

![image-8.png](attachment:image-8.png)

---

### Popular deep learning Library

**Keras y su accesibilidad**

Keras es una biblioteca de alto nivel que facilita la construcción de redes neuronales, siendo muy accesible y similar al inglés.
Se ejecuta principalmente sobre TensorFlow, que ha incorporado la sintaxis simplificada de Keras, haciéndolo más accesible que antes.

**Otras bibliotecas de aprendizaje profundo**

TensorFlow, desarrollado por Google, tiene una gran comunidad y es conocido por su curva de aprendizaje más pronunciada, aunque Keras ha mejorado esto.
PyTorch, desarrollado por Facebook, es más orientado a la investigación y también cuenta con una comunidad amplia, siendo inicialmente más accesible que TensorFlow.

**El legado de Theano**

Theano, considerado el "abuelo" de los marcos de aprendizaje profundo, dejó de desarrollarse en 2017, pero fue fundamental para muchos investigadores académicos.
Aunque ya no se utiliza activamente, su influencia persiste en las bibliotecas actuales.

---

### A typical keras workflow


**Construcción de la red**

- Se debe definir la cantidad de capas y nodos en cada capa al construir la estructura de la red.
- Después de definir la estructura, se compila el modelo especificando la función de pérdida, métricas a rastrear y el optimizador.

**Ajuste del modelo**

- Se ajusta el modelo a los datos de entrenamiento, especificando el tamaño del lote y el número de épocas.
- Una vez ajustado, se puede predecir con nuevos datos y evaluar los resultados.

**Uso de Keras**

- Keras ofrece dos enfoques para construir modelos: el modelo secuencial, que es más simple y lineal, y la API funcional, que permite arquitecturas más complejas.
- El modelo secuencial es ideal para quienes están comenzando y cubre lo necesario para los modelos más simples, como redes densas y convolucionales.

### Sequential Model


```python
# First, import the sequential function and initialize your model object: 

from keras.models import Sequential

model = Sequential()

# then we add layers to the model one by one
from keras.layers import Dense, Activation
```
### coded summary

```python
# Import libraries, model  elements 
from keras.models import Sequential
from keras.layers import Dense, Activation

model = Sequential()

# For the first layer, specify the input dimension
model.add(Dense(units=4, input_dim=3))

# Specify activation function
model.add(Activation('sigmoid'))

# For subsequent layers, the input dimension is presumed from the previous layer
model.add(Dense(units=4))
model.add(Activation('sigmoid'))
```

