# **12. ¿Cómo funcionan las redes neuronales?**

En esta clase vamos a aprender sobre **Redes Neuronales (Neural Networks)**.

Tal vez has escuchado acerca de Deep Learning que es usado en muchas compañías para resolver problemas complejos, por ejemplo:
- **Etiqueta de imagenes**
- **Generación de texto**

**Redes Neuronales (Neural Networks)** son las bases de problemas de **DeepLearning** y vamos a aprender sobre ello un poco más.

El **objetivo** de esta clase son 3 puntos:
1. **Entender** el concepto de Redes Neuronales. Los elementos fundacionales del **Deep Learning**.

Una vez que ya tenemos una idea de los diferentes elementos en las arquitecturas de **Redes neuronales**, vamos a invertir tiempo en saber como entrenar estas redes neuronales.

2. **Entender** como funciona el entrenamiento de redes neuronales. Esto significa cómo actualizar los parámetros para que así las redes neuronales tomen buenas decisiones. 

Finalmente vamos a ver como evaluar las **Redes Neuronales**

3. **Entender** cómo evaluar las redes neuronales. Esto significa cómo medir el performance (si es bueno), también si podemos realmente entender si el performance es bueno y si está respondiendo apropiadamente las preguntas que queremos responder .

## **Red neuronal**

![image.png](attachment:image.png)

Empecemos con, **¿qué es en realidad una Red Neuronal?**

Se compone de **3 etapas** para pensar en ello:
- **Input Layer (Capa de entrada)**: Esta capa toma los **datos preprocesados** y los ajusta a las siguiente etapa **Hidden Layer(Capa Oculta)**. 
- **Hidden Layer (Capa oculta)**: También en ocasiones hay más de una **Capa oculta**. Representa complejas operaciones y funciones que te permiten modelar preguntas difíciles, como por ejemplo; clasificar una imagen de un perro o un gato, o también generar algún párrafo basado en texto.
- **Output Layer (Capa de salida)**: Esta capa prove la respuesta o predicción que queremos.

Ahora, cada modulo individual está considera como un **Nodo (Node)** o una **Neurona (Neuron)** y estos son operaciones o funciones que toman los datos de cada **Capa** hasta la **Capa de salida**.

Entre estas **Neuronas** hay algo llamado **una conexión** o **Edge**, y estas **conexiones** indican la relación entre estos **nodos**.

Ahora, **Redes neuronales** típicamente son ejecutadas en **aprendizaje supervisado** ya sea en el contexto de **Regresión** o **Clasificación**.

Tomemos un ejemplo de **Redes Neuronales**

![image.png](attachment:image.png)

Imagina que **Estamos en compañía de anuncios**. Y me gustaría entender si alguien va a dar clic en mi anuncio. Trabajo con una compañía de ventas y estoy tratando de entender acerca de sus consumidores, también tenemos información sobre demografía de los consumidores:
- Edad
- Salario
- Dinero gastado anteriormente
- Número de objetos comprados

Usando esos **features** podemos pasarlos a traves de la **Capa oculta** para saber si podemos predecir **"Si van a hacer clic en un anuncio"**. Así que profundicemos más en ello.

## **Capa de entrada a una unidad oculta**

![image.png](attachment:image.png)

**Hidden unit:** Un nodo que pertenece a la capa oculta.     
**Hidden layer:** A layer of nodes in a neural network that are not directly connected to the input.

En este ejemplo, tenemos una serie de **features** conectadas a un **hidden unit**; es decir un nodo que pertenece a una **hidden layer**. Cada uno de los **features** van a estar conectados a traves de **conexiones** o **edges** a un **hidden unit** y a menudo están asociados. Por lo que tendremos una combinación lineal de **pesos (weights)** e **input features** que van a entrar al **hidden unit**.

**Combinación lineal**

$$g_1(x) = w_{0,1}+w_{1,1}x_1+w_{2,1}x_2+w_{3,1}x_3+w_{4,1}x_4$$

En este caso la **fuerza** de cada **weight** ya sea positiva o negativa, indica la relación de cada una de las **features** y el **hidden unit**.

Ilustremos y veamos como funciona esto

## **Ejemplo**

![image.png](attachment:image.png)

Imaginemos que tenemos un ejemplo de un consumidor que tiene 23 años y gana 35K US al año, además que no ha comprado ningún articulo previamente.

Ahora vamos a establecer los **weights (pesos)** de esta relación. 

Recordemos que hablamos anteriormente de la normalización pero en este caso no la usaremos para efectos prácticos y de ejemplo simple.

Vemos que tenemos diferentes **weights** asociados a las **conexiones** de las input **features**. Si evaluamos lo que es cada **feature**, vamos a obtener una cifra.

![image.png](attachment:image.png)

En este caso es **7** vamos a ir avanzando con este problema, para saber como todo esto funciona, así vamos a entender como se opera.

El objetivo es tener multiples **hidden units**. Así vamos a obtener diferentes formas de como representar nuestra información.

![image.png](attachment:image.png)

## **Capa de entrada conecta con múltiples unidades ocultas**

![image.png](attachment:image.png)

Como habíamos dicho anteriormente, el objetivo es tener multiples **hidden units** que me ayuden a tener diferentes representaciones o diferentes **weights** de mi información. Por ejemplo un **hidden layer** puede constar de diferentes **hidden units**. Así por ejemplo si tenemos $w_{1,1}$ estamos hablando de una conexión de el $1^{er}$ input **feature** y el $1^{er}$ **hidden layer**.

Así podemos generalizarlo como:

$$w_{i,j}$$

Donde **$i$** es **input feature** y **$j$** **output hidden unit**

## **Hidden units**

Ahora hablemos de que realizan los **hidden units**

![image.png](attachment:image.png)

El objetivo es que agregue la información de una capa previa que puede ser una **input layer(capa de entrada)** o **hidden layer(capa oculta)** antes de esta **hidden unit** y pasar esta señal a traves de ella. La forma en que trabaja es **toma la combinación lineal** que es la entrada y se la pasa a una **función de activación**.

Ahora vamos a discutir que es una **función de activación**.

Tu puedes pensar en una función de activación como **guide keeper of source**.

**Guide keeper of source** en el contexto de una función de activación podría interpretarse como "guía y guardián de la fuente" o "guardián orientador de la fuente".

Si lo relacionamos con funciones de activación en redes neuronales, la idea podría ser que la función de activación "guía" el flujo de información a través de la red, determinando qué señales pasan y cuáles no, al tiempo que "guarda" o "protege" la fuente de información al filtrar y transformar los datos antes de que lleguen a las capas posteriores.

Básicamente, la función de activación actúa como un mecanismo de control que da forma a la propagación de la información dentro de la red.

![image.png](attachment:image.png)

##### **La habilidad de pasar una señal.**

Pueden haber funciones de activación simples; por ejemplo **linear** que lo que hace es pasar la combinación lineal del anterior, a traves de una función lineal.

Sin embargo para conseguir información y funciones complejas, requerimos a menudo de este tipo de **funciones complejas** que sean capaces de modelar. Así por ejemplo podemos usar una función comúnmente usada llamada **ReLU (Rectified Linear Unit)**. Lo que nos dice es: **Si el valor es negativo no transfiere la señal pero si el valor es positivo, pasará solo un especifico valor**.

![image.png](attachment:image.png)

Ahora estas funciones están típicamente **indefinidas** en un valor continuo, ahora si queremos obtener funciones que están definidas en un intervalo podemos recurrir a otras. 

Por ejemplo las funciones **Sigmoid** y **tanh** que pasan un valor entre 0 y 1 o -1 y 1, así que permite que mas valores complejos no lineales puedan pasar, y por lo tanto nos permiten modelar funciones complejas.

## **La predicción: capa de salida**

![image.png](attachment:image.png)

Finalmente después de una serie de **hidden layers** podemos encontrar la capa de salida **output layer**. Lo que hace esta capa es darnos **el valor de predicción que nos interesa**.

Ahora podemos pensar en la **output layer** de manera similar a una **hidden unit** con diferentes funciones de activación disponibles.

#### **Funciones de activación para la capa de salida**
Como hemos mencionado anteriormente las **funciones de activación** en la **capa de salida** deben ser elegidas cuidadosamente algunas de ellas pueden ser o tener:
- **Rango limitado** (softmax / Sigmoide)
- **Indefinidas** (Linear / ReLU)

Ahora las siguientes **funciones de activación** están pensadas para **clasificación** y **regresión**

![image-2.png](attachment:image-2.png)

### **Clasificación**

Para esta tarea nosotros típicamente queremos trabajar con un valor de probabilidad (un valor que este entre 0 y 1), así nosotros podemos entender algo que es o no es probable. Una muy común es **Softmax** pero también **Sigmoid** tiene potencial de ser usada.

### **Regresión**

Por ultimo si nosotros queremos **valores continuos** nosotros podemos usar las que son usadas para tareas de **regresión**, así que podemos usar las funciones **Linear** y **ReLU**

## **¿Qué es Deep Learning?**

![image.png](attachment:image.png)

Cómo se convierte esto en **Deep Learning** para poder convertir el concepto de una **Red Neuronal** a **Deep** es añadir o profundizar en capas de **hidden layers**. Así que hay 2 parámetros en los que debemos pensar cuando hablamos de **Deep Learning**

1. **Deep (Profundidad)**: Consiste en añadir mas **hidden layers (capas ocultas)**, que nos permite añadir una mayor representación compleja de **input features**.
2. **Width (Ancho)**: Consiste en añadir **hidden units (unidades ocultas)**, que lo que hacen es hacer uso efectivo de las **input features** en diferentes formas.

Ajustando entre estos parámetros nos ayuda a entender tal vez lo que necesitamos resolver o la pregunta de interés. 
 
En la siguiente serie de clases, vamos a ver como entrenar **Redes Neuronales**, hay muchos parámetros que necesitamos entender para saber como poder actualizarlos de manera adecuada, esto es muy importante.