# BACKPROPAGATION (propagación hacia atrás de errores o retropropagación) - Asignacion de pesos

Este método emplea un ciclo propagación – adaptación de dos fases:
- Al aplicarse una entrada a la red como, este se propaga a través de las capas hasta generar una salida. Las salidas se comparan y se calcula una señal de error para cada una de las salidas.
- Las salidas de error se propagan hacia atrás hacia todas las neuronas de la capa oculta que contribuyen directamente a la salida. Este proceso se repite, capa por capa, hasta que todas las neuronas de la red hayan recibido una señal de error que describa su contribución relativa al error total.

![image.png](attachment:image.png)

A medida que se entrena la red, las neuronas de las capas intermedias se organizan a sí mismas de tal modo que las distintas neuronas aprenden a reconocer distintas características del espacio total de entrada. 

Después del entrenamiento, cuando se presente un patrón arbitrario de entrada que contenga ruido o que esté incompleto, las neuronas de la capa oculta responderán con una salida activa si la nueva entrada contiene un patrón que se asemeje a aquella característica que las neuronas individuales hayan aprendido a reconocer durante su entrenamiento.

### Problema general de la asignación de pesos

la información se introduce en la primera capa de neuronas por la izquierda, propagándose hacia delante hasta que llega a la capa de neuronas de salida, dando el resultado final. Este resultado se compara con los valores reales para calcular el error que se comete, y propagar este error hacia atrás a través de la red neuronal, lo que nos va a permitir ajustar los pesos durante el proceso de entrenamiento. Es importante recalcar que en la propagación hacia atrás todos los pesos se ajustan de manera simultánea.

¿Y si ajustamos los pesos y probarmos todas las combinaciones posibles para que se minimice el error? 

![image.png](attachment:image.png)

Supongamos que tenemos 1000 valores posibles para cada uno de estos 20 pesos. **Imposible de realizar**

### Pasos para implementar el Backpropagation

1. Asignamos a cada conexión neuronal un peso con un valor pequeño (no nulo)
2. Ingresamos los datos de entrada a la red neuronal
3. La información se propaga de izquierda a derecha, hasta llegar a la capa de neuronas de salida, obteniendo el resultado final 4. Medimos el error que hemos cometido para esa observación
5. Comienza la propagación hacia atrás de derecha a izquierda, actualizando los pesos de cada conexión neuronal, dependiendo de la responsabilidad del peso actualizado en el error cometido
6. Repetimos los pasos desde el paso 2, actualizando todos los pesos para cada observación o conjunto de observaciones de nuestro conjunto de entrenamiento.
7. Cuando todas las observaciones del conjunto de entrenamiento ha pasado por la red neuronal, hemos completado lo que se denomina un Epoch. Podemos realizar tantos Epochs como creamos convenientes.

### Matematicamente hablando

![image.png](attachment:image.png)

Para hacer mínimo el error tenemos que derivar con respecto de cada uno de ellos, tenemos que hacer derivadas parciales con respecto a cada peso.
Una vez obtenido el valor mínimo, repetimos el proceso tantas veces como sea necesario para que las conexiones de la red queden ajustadas de manera adecuada.

Para cualquier numero de capas k y cualquier neurona i dentro de la capa, tenemos que:

![image.png](attachment:image.png)

### Ejemplo Práctico
![image.png](attachment:image.png)

Asignamos pesos
![image.png](attachment:image.png)

Definimos el conjunto de datos
![image-2.png](attachment:image-2.png)

Propagacion hacia adelante
![image.png](attachment:image.png)

Calculamos el error
![image.png](attachment:image.png)

![image.png](attachment:image.png)

Como actualizamos los pesos para reducir el error? = **Backpropagation**

Usando backpropgation actualizamos los pesos mediante el descenso de gradiente. El descenso de gradiente es un algoritmo de optimización iterativo para encontrar el mínimo de una función, que en nuestro caso queremos minimizar la función de error. Para encontrar un mínimo local de una función usando el descenso de gradiente, se toman pasos proporcionales al negativo del gradiente de la función en el punto actual.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Entonces para actualizar w6 podemos aplicar la siguiente fórmula
![image.png](attachment:image.png)

De manera similar, podemos derivar la fórmula de actualización w5 y cualquier otro peso existente entre la salida y la capa oculta.
![image.png](attachment:image.png)

Sin embargo, cuando se mueve hacia atrás para actualización w1, w2, w3y w4existente entre la entrada y la capa oculta, la derivada parcial de la función de error con respecto a w1, por ejemplo, será de la siguiente manera.
![image.png](attachment:image.png)

En resumen, las fórmulas de actualización para todos los pesos serán las siguientes:
![image.png](attachment:image.png)

Podemos reescribir las fórmulas de actualización en matrices de la siguiente manera
![image.png](attachment:image.png)

Propagacion hacia atras
![image.png](attachment:image.png)

Ahora, usando los nuevos pesos repetiremos el paso adelante.
![image.png](attachment:image.png)

Visualización de retropropagación
<img src="http://hmkcode.github.io/images/ai/netflow-sample.gif" width="750" align="center">

# APRENDIZAJE POR REFUERZO (REINFORCEMENT LEARNING)

![image-2.png](attachment:image-2.png)

El Reinforcement Learning se basa en un aprendizaje por medio de un esquema de “premios y castigos” (ej. el perro de Pablov) en un entorno en donde hay que tomar acciones y que está afectado por múltiples variables que cambian con el tiempo (ejemplo del automovil)

En los modelos de Aprendizaje Supervisado (o no supervisado) como redes neuronales, árboles, knn, se intenta “minimizar la función coste” o reducir el error. En cambio en el RL se intenta “maximizar la recompensa“. Y esto puede ser a pesar de a veces cometer errores.

![image.png](attachment:image.png)

### Componentes del RL

![image.png](attachment:image.png)
- el Agente: será nuestro modelo que queremos entrenar y que aprenda a tomar decisiones.
- Ambiente: será el entorno en donde interactúa y “se mueve” el agente. El ambiente contiene las limitaciones y reglas posibles a cada momento.

Entre ellos hay una relación que se retroalimenta y cuenta con los siguientes nexos:

- Acción: las posibles acciones que puede tomar en un momento determinado el Agente.
- Estado (del ambiente): son los indicadores del ambiente de cómo están los diversos elementos que lo componen en ese momento.
- Recompensas (ó castigos!): a raíz de cada acción tomada por el Agente, podremos obtener un premio ó una penalización que orientarán al Agente en si lo está haciendo bien ó mal.

### Procesos de Recompensa de Markov

![image.png](attachment:image.png)
Un proceso de Markov es un proceso sin memoria y aleatorio. Es una secuencia de estados aleatorios que posee la propiedad de Markov. Hce referencia a procesos que juzgan que tan positivo es estar en un estado. Y nos muestra que el futuro es independiente del pasado, dado el presente.

### Casos de Uso del Aprendizaje por Refuerzo

- Robots: para dejar que los brazos mecánicos hagan intentos “a ciegas” para moverse e ir recompensando cuando lo hacen bien.
- En el ambiente financiero: para decidir cómo conformar una cartera de inversión sin intervención humana.
- Creacion de webs personalizadas: premia al algoritmo si acierta con las sugerencias que hace al usuario o penalizar al modelo si sus recomendaciones no le son de utilidad.
- En los videjuegos: por lo general el jugador es el agente que debe decidir qué movimientos hacer

<img src="https://thumbs.gfycat.com/OrdinaryFrayedDogfish.webp" width="750" align="center">

<img src="https://thumbs.gfycat.com/DemandingGiddyBlowfish.webp" width="750" align="center">

<img src="https://miro.medium.com/max/1652/1*sDjnmi8Y8BrfE9jfmj13Tg.gif" width="750" align="center">

### ¿Cómo funciona el RL?

**Premios y Castigos**
![image-2.png](attachment:image-2.png)
Una recompensa para un humano es algún estímulo que le de placer. Podría ser un aumento de sueldo, chocolate, una buena noticia. Para el modelo ed ML, la recompensa es sencillamente un Score: un valor numérico.

Pero como entrenamos al sistema? ¿Fuerza Bruta? (DeepMind - Starcraft)

Esto tiene un lado bueno y uno malo. El malo es que tenemos que usar la fuerza bruta para que aprenda. Lo bueno es que contamos con equipos muy potentes que nos posibilitan realizar esta atrocidad. Por otra parte, Recordemos que estamos apuntando a casos de uso mucho más grande y ambicioso que el de sólo distinguir entre perros y gatos

### Q-Learning, el algoritmo más usado

Repasando:

- Políticas (Q): Es una tabla que le indicará al modelo como actuar en cada estado.
- Acciones: las diversas elecciones que puede hacer el agente en cada estado
- Recompensas: si sumamos ó restamos puntaje con la acción tomada
- Comportamiento avaro del agente. Es decir, si se dejará llevar por grandes recompensas inmediatas, ó irá explorando y valorando las riquezas a largo plazo

A partir de esto tenemos:

Q(estado, acción) nos indicará el valor de la política para un estado y una acción determinados

### Ecuacion de Bellman
![image.png](attachment:image.png)

Explica como se actualizan las políticas Q^(s,a) en base al valor actual más una futura recompensa, en caso de tomar dicha acción. Hay dos ratios que afectan a la manera en que influye esa recompensa: la tasa de aprendizaje y la tasa de descuento que tendrá en cuenta la recompensa a corto o largo plazo.

<img src="https://i1.wp.com/www.aprendemachinelearning.com/wp-content/uploads/2020/12/pong-reinforcement.gif?resize=365%2C278&ssl=1" width="750" align="center">

![image.png](attachment:image.png)

### Como Conlusion:

La clave del aprendizaje por refuerzo es cómo se entrena al agente. En lugar de inspeccionar los datos proporcionados, el modelo interactúa con el entorno, buscando formas de maximizar la recompensa. En el caso del aprendizaje por refuerzo profundo, una red neuronal se encarga de almacenar las experiencias y así mejora la forma en que se realiza la tarea.

  # Funciones de base radial

Las funciones de base radial (RBF) se originaron para dar solución al problema de interpolación exacta en varias variables

- Son funciones cuya salida depende de la distancia a un punto denominado **centro**
- Son funciones simétricas con respecto a 0
- Se definen al menos dos parámetros:
 - Centro: Punto donde la función posee un máximo
 - Anchura: Magnitud de la variación de la función según cuanto se aleja del centro.

#### Definiciones

- Se tiene un modelo similar al perceptron multicapa
- La capa de entrada recibe señales y no realiza ningun procesamiento
- Capa oculta: Realiza una transformacion local de las entradas y no lineal de esas señales, a diferencia de perceptron
- Capa de salida:  Se realiza una combinación lineal de las activaciones de las neuronas de la capa oculta y actúa como salida de la red

![image.png](attachment:image.png)

La técnica de funciones de base radial presenta un conjunto de N funciones base, una para cada dato, de la forma φ(||x − x^n||), donde φ es una función no lineal, x es un conjunto de entrada. Así, la n-ésima función base dependerá de la distancia ||x − x^n||, usualmente euclídea, entre x y x^n.
La salida de la aplicación será una combinación lineal de las funciones base
![image.png](attachment:image.png)

Tanto estudios teóricos como los empíricos han mostrado que, a efectos del problema de interpolación, muchas propiedades de la función interpolante son independendientes de la forma precisa de la función no lineal φ. En la literatura se han ensayado varias posibilidades para φ, pero la eleccion mas frecuente es la función gaussiana

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

Las combinaciones lineales de funciones base radiales proporcionan un interpolante que pasa exactamente por cada uno de
los puntos del conjunto de datos. Si los datos presentan distorsión entonces el interpolante es típicamente, una función muy oscilante; en tal caso, se deberá elegir como interpolante otra función que sea más suave y promedie el ruido de los datos. Una limitaci´on adicional del procedimiento de interpolación.
![image.png](attachment:image.png)

la inclusión de las funiones de base radiales interpolan de forma suave los datos, donde el número de funciones base está determinado por la complejidad de la función a representar, más que por el tamaño del conjunto de datos. 

### Arquitectura de una RBFN

![image.png](attachment:image.png)

- Capa de entrada: reciben las señales, no realizan ningún preprocesado.
- Capa Oculta: reciben las señales de la capa de entrada y realizan una transformación local y no lineal sobre dichas señales (Diferencia con el MLP).
- Capa de Salida: Se realiza una combinación lineal de las activaciones de las neuronas de la capa oculta y actúa como salida de la red.

**Capa de salida**

- Cada elemento procesado calcula su valor neto como unacombinación lineal de las salidas de la capa oculta
- Para un patrón dado [x1, x2, ..., xn] la salida cada elemento k de la capa de salida se obtiene como:

![image.png](attachment:image.png)

Donde wik son los pesos asociados a cada elemento k de la salida y el elemento i de la capa oculta y zi(n) son las salidas
procesadas obtenidas de la capa oculta. En total tenemos m neuronas en la capa oculta y r en la capa de salida. uk es el
umbral de cada neurona de salida.


**Capa oculta**

Cada elemento procesado i, de la capa oculta tiene asociada una función de base radial de tal manera que representa una clase o categoría, donde dicha clase viene dada por (Ci, di).

Ci representa un centro de cluster (pesos asociados a cada neurona i) y di representa la desviación o dilatación de la función de base radial asociada a dicho elemento.

![image.png](attachment:image.png)

La salida de cada elemento de la capa oculta zi(n) se calcula como la distancia que existe ente el patrón de entrada X(n) al centro del cluster Ci ponderada inversamente por di y aplicando después a ese valor una función de base radial. 

![image.png](attachment:image.png)

Las funciones de base radial tienen todas ellas un carácter Local pues son funciones que alcanzan un nivel cercano al máximo de su recorrido cuando el patrón de entrada x(n) está próximo al centro de la neurona. A medida que el patrón se aleja del centro, el valor de la función va tendiendo al valor mínimo de su recorrido.

Las salidas de las redes de neuronas de base radial son, por tanto una combinación lineal de gausianas, cada una de las cuales se activa para una determinada porción del espacio definido por los patrones de entrada. 

![image.png](attachment:image.png)

El entrenamiento de este tipo de redes, determina todos los parámetros de la red.

- Parámetros de la capa de salida: Pesos, W
- Parámetros de la capa Oculta: Centros, C y desviaciones asociadas d.

La determinación de los parámetros de la capa oculta, se realiza mediante la optimización en el espacio de entradas, ya que cada neurona va a representar una zona diferente en dicho espacio.

#### Aprendizaje Híbrido

- Fase No supervisada: Determinación de parámetros de la capa oculta.
- Fase Supervisada: Determinación de pesos en capa de salida.

### Fase No supervisada

1.Determinación de centros:

- Algoritmo K-mens
- Mapas de Kohonen

**Algoritmo K-means**

- Es un algoritmo de agrupamiento, permite generar la partición de un conjunto de n datos en k grupos
- En RBF se requeriere para calcular los centros en la técnica de aprendizaje híbrido
- Algoritmo:
    - Inicialmente, se calculan los k centros aleatoriamente ci = (x1, x2, ...., xn)
    - Se toman las distancias a cada uno de los puntos de entrada y se asigna al centro más cercano
    - Si los centros son distintos a los iniciales, se vuelve a realizar el proceso
    - El algoritmo se detiene cuando no hay cambio en los centros

**Ejemplo**

![image.png](attachment:image.png)

2.Determinacion de desviaciones:

Se deben de calcular de manera que cada neurona de la capa oculta se active en una región del espacio de entradas y de manera que el solapamiento de las zonas de activación de una neurona sea lo más ligero posible, para suavizar así la interpolación.

Se tienen varias aproximaciones:
- Media Uniforme de las distancias euclídeas del centro Ci a los p centros más cercanos. 
![image.png](attachment:image.png)

- Media geométrica de la distancia del centro a sus dos vecinos más cercanos.
![image.png](attachment:image.png)

### Fase supervisada

- Se utiliza la técnica de corrección del error que se usa en Adeline o MLP
- Minimización del error cuadrático medio

![image.png](attachment:image.png)

Donde 𝜖 es el factor de entrenamiento, uk es el umbral, tk es la salida deseada, wik es el peso y yk es la salida obtenida.

### Aprendizaje totalmente supervisado

En este caso, todos los parámetros de la red, centros, amplitudes, pesos y umbrales, se determinan de manera completamente supervisada y con el objetivo de minimizar el error cuadrático medio.

En este proceso, en ningún momento se tiene en cuenta que las amplitudes alcancen valores tales que el solapamiento de las activaciones de las neuronas de la capa oculta sea lo más suave posible. Así que en principio, esa característica de localidad se puede perder.

![image.png](attachment:image.png)

**Comparación**

![image.png](attachment:image.png)