<a href="https://colab.research.google.com/github/BryanMed/ML-Blog/blob/master/Tipos_aprendizaje.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tipos de aprendizaje

Según san wikipedia, el aprendizaje se define como:

> "Aprendizaje es el proceso de adquirir conocimiento (nuevo o modificando el existente) ... la habilidad de aprender está presente en humanos, animales y *algunas máquinas*"

De manera general podemos ver a este fenómeno como un proceso continuo que surge de las interacciones entre el agente y su ambiente. Desde el punto de vista del Machine Learning, podemos definir al aprendizaje mediante la siguiente secuencia de eventos:

1.   El modelo es estimulado por el ambiente
2.   El modelo es sometido a cambios en sus parámetros libres debido a este estimulo
3.   Una vez este modelo sea estimulado nuevamente, este responderá de una manera distinta al ambiente, debido a los cambios que sufrió.

Al hablar de modelos (matemáticos, no yo... bueno también aplica) podemos tomar como ejemplo al perceptrón, en donde el ambiente podemos verlo como el vector de entradas $x$, de acuerdo a su salida los parámetros libres (bias y pesos sinápticos) serán modificados, así, cuando la volvamos a someter el mismo ambiente/estímulo, la salida del perceptrón responderá de una manera distinta para bien o para mal.

Existen diversas maneras por las que los modelos de Machine Learning pueden aprender, y estos métodos están clasificados de acuerdo a la manera en la que son modificados los parámetros libres, a continuación veremos algunos de ellos.

## Aprendizaje por corrección del error
Este tipo de aprendizaje toma al **error** como un mecanismo de control que permitirá ajustar los parámetros libres, recordando, el error $e(x)$ se calcula como la diferencia entre el valor esperado $y(x)$ y la predicción del modelo $\hat{y}(x)$, es decir:

$$ e(x) = y(x) - \hat{y}(x)$$

Lo que se espera que se logre con este tipo de aprendizaje es que el error vaya disminuyendo, indicando que la predicción sea cada vez menos diferente al valor esperado. 

Si bien esta manera de medir el error es muy intuitiva, no es recomendable ya que si queremos evaluar el *performance* final de nuestro modelo, tendremos que calcular y **sumar** el error de los elementos internos, por ejemplo, de cada perceptrón en una red neuronal. El utilizar este sencillo cálculo del error tiene dos principales problemirijillas:

* No es una medida que esté normalizada, por lo que modelos que cuenten con más elementos o datos de entrada, tendrán más error que en los modelos simples. 
* Los errores de los elementos pueden ser positivos ($y = 1, \hat{y} = 0 \rightarrow e = 1 $) o negativos ($y = 0, \hat{y} = 1 \rightarrow e = -1$), lo que al sumar todos los errores, se puede dar el caso de que muchos de estos se cancelen entre ellos. 

Para evitar estos inconvenientes, son utilizadas las **funciones de costo** que permiten cuantificar la capacidad de realizar buenas o malas predicciones al modelo de machine learning. Entre las más populares encontramos:

### Error absoluto medio (_mean absolute error_)

El error absoluto medio se calcula por medio de la siguiente expresión:

$$ MAE = \frac{1}{m} \sum_{i=1}^{m}|\hat{y}_i - y_i| $$
$$ = \frac{1}{m} \sum_{i=1}^{m}|e_i|$$

Este índice genera el promedio de los errores absolutos ($|e_i| = \hat{y}_i - y_i$)

### Error cuadrático medio (_mean squared error_)

El error cuadrático medio se caclula a partir de:

$$ MSE = \frac{1}{m} \sum_{i=1}^{m}(\hat{y}_i - y_i)^2 $$
$$ = \frac{1}{m} \sum_{i=1}^{m}e_i^2$$
Y esta vez lo que se calcula es el promedio de los errores al cuadrado

Estas son solo algunas de las funciones de costo más populares, donde cada una tiene sus ventajas y desventajas, en la documentación de [tensorflow](https://www.tensorflow.org/api_docs/python/tf/keras/losses) podrás observar más de estas funciones.

---

Ahora que platicamos de algunas maneras del calcular el error, podemos discutir algunos de los métodos de aprendizaje.

### Aprendizaje basado en memoria 

En los aprendizajes basados en memoria, se almacenan explícitamente ejemplos de clasificaciones correctas entrada-salida.

La idea principal de este enfoque es que permite a los modelos clasificar conceptos por su similaridad con conceptos anteriormente mostrados. La fortaleza de este sistema es la capacidad de calcular la similaridad entre los nuevos datos respecto a los datos utilizados en el entrenamiento.

Un algoritmo representativo de este tipo de aprendizaje es el **K vecinos más cercanos**, en el que se utilizan vectores de entrenamiento que son particionados en regiones basadas en etiquetas. En la fase de entrenamiento del algoritmo, se almacenan los vectores característicos y las etiquetas de las clases de los ejemplos de entrenamiento, mientras que en la fase de clasificaciónn, se evalúan los ejemplos, se calcula la distancia entre el valores almacenados y el nuevo vector y se seleccionan los $k$ ejemplos más cercanos.

### Aprendizaje Hebbiano
Se basa en ela teoría hebbiana el cual se refiere a la plasticidad sináptica en el que el valor de una conexión sináptica se incrementa si las neuronas de ambos lados de dichas sinapsis se activan repetidas veces de forma simultanea, en pocas palabras"las células que se disparan juntas, permanecerán conectadas". Desde el punto de vista de neuronas artificiales, este principio se describe como in método para determinar la forma en la que se modifican los pesos entre las neuronas. El peso entre dos neuronas se incremwnta si las dos neuronas se activa simultaneamente y se reduce si se activan por separado. La formulación de este aprendizaje es como sigue:

$$w_{ij} = x_ix_j$$

En donde $w_{ij}$ es el peso de la conexión de la neurona $j$ a la neurona $i$ y $x_i$ el valor de entrada para la neurona $i$

### Aprendizaje competitivo
Los modelos de aprendizaje competitivo se diferencian de los otros modelos en la manera que se representan los patrones. En los modelos tradicionales, las neuronas colaboran para presentar generar un patrón, sin embargo, en este tipo de redes cada neurona compite con las otras neuronas para representar los patrones.
Las neuronas compiten en cual representa mejor al patrón y la ganadora se lleva todo el aprendizaje de ese patrón. 

El aprendizaje de esta red se basa en comparar los patrones con los pesos sinápticos que llegan a las neuronas de salida. La función actualizar de la neurona asigna valores mayores a las neuronas de salida que representan mejor el patrón. Una vez que sabemos cual es la neurona ganadora, hacemos que sus pesos acerquen aún más a los patrones para que la aprendan.

El problema de esta red son las neuronas muertas, son neuronas de la capa de salida que no han ganado nunca y no representan ningun grupo de aptrones y por tanto no sirven para nada.


### Aprendizaje de Boltzmann
Derivado del campo de la termodinámica, es muy similar al aprendizaje por correccción del error y es utilizado durante el aprendizaje supervizado. En este algoritmo el estado de cada neurona individual, además de la salida del sistema son tomados en consideración. En las máquinas de Boltzmann las neuronas constituyen una estructura recurrente y trabajan de manera binaria (estados "on" y "off"). Esta máquina es caracterizada por una función de energia E, cuyo valor es determinado por los estados particulaes ocupados por las neuronas individules de la máquina.

Las neuronas de una máquina de Boltzmann se clasifican en dos grupos, _visibles_ y _invisibles_.































