# Notas de Inteligencia Artificial 
Estas notas se realizan con respecto a lo enseñado por el profesor Alvaro Mauricio Montenegro Diaz y con respecto a sus notas de clase del curso del **Inteligencia Artificial** de la Universidad Nacional de Colombia. 

---

## Redes Neuronales
Como tal, las redes neuronals buscan simular el funcionamiento de las redes biologicas en los organismos vivos, por esto es importante que recordemos algunas de las caracteristicas de las neuronas biologicas segun los biologos:
* **Función de la Dendrita.** Recibe las señales de otras neuronas.
* **Soma (cuerpo celular).** Suma todas las señales entrantes para generar una señal total de entrada(input).
* **Estructura del Axón.** Cuando la suma sobrepasa un cierto umbral numérico, la neurona se activa, dispara y la señal viaja a través del axón hacia otras neuronas.
* **Trabajo de la Sinápsis.** Es el punto donde se realiza la interconexión de una neurona con otras neuronas. La cantidad de la señal transmitida depende en la fuerza (peso sináptico) de las conexiones. Las conexiones pueden ser inhibidoras (disminuyendo la fuerza) o de excitación (aumentando la fuerza) en principio.

Estas acciones podemos asociarlas a una transformación de ciertos parametros, donde hay una información de llegada por medio de las dendritas, luego es transformada y sumada en el cuerpo celular, para ser transmitada mediante una información de salida por medio del axón, siendo la sinápsis la forma en que se comparten información las neuronas. Así es como funciona una red neuronal simple, tal que:
* Las dendritas in las Redes Neuronales Biológicas son un análogo a las entradas conteniendo un peso especifico basada en la interconexión "sináptica" presente en la Red Neuronal Artificial.
* El cuerpo celular es comparable a la unidad artificial llamada "neurona" en una Red Neuronal Artificial, que también comprende la suma de señales y umbral de activación.
* La salida de los Axones (presentes en la sinápsis) son el análogo de los datos de salida en la Red Neuronal Artificial.

Para empezar a trabajar con redes, es importante tener en claro que trabajar con una sola neurona limita las capacidades de nuestra red. Por este motivo, se suelen utilizar multiples neuronas por capas como se muestra acontinuación.

![Esquema de positron con multiples capas ocultas](https://iapunk.es/wp-content/uploads/2022/11/matias-alvarado.png)

Hay tres partes normalmente en una red neuronal : una capa de entrada, con unidades que representan los campos de entrada; una o varias capas ocultas; y una capa de salida, con una unidad o unidades que representa el campo o los campos de destino. Las unidades se conectan con fuerzas de conexión variables (o ponderaciones). Los datos de entrada se presentan en la primera capa, y los valores se propagan desde cada neurona hasta cada neurona de la capa siguiente. al final, se envía un resultado desde la capa de salida.

Podemos entonces ver las redes neuronales como mapeos a los que le hacemos entrar una información inicial y nos devuelven un resultado final. El teorema de representación universal "The Universal Approximation Theorem
" nos garantiza que cualquier función $Y=Y(x)$ puede ser representada por una red, incluso para mapeos complejos.

La red neuronal más conocida es el **perceptron**, un tipo de red que conciste en distintas neuronas que realizan regresiones de los datos variando ciertos parametros que deben ser maximizados por medio de  algun metodo maximal como lo es el del gradiente descendiente y un metodo de comparación mediante una función de activación que nos permite saber cuando tendremos el valor deseado por la red. En general se trata de un algoritmo para el aprendizaje supervisado de clasificadores binarios.

Sin embargo, el perceptron no es la unica red neuronal existente, mayor mente conocido como arquitectura. Podemos clasificar las arquitecturas de redes neuronales en 5 primordiales:

1. **Red neuronal de perceptrón multicapa.** Estas redes utilizan más de una capa oculta de neuronas, a diferencia del perceptrón de una sola capa. También se conocen como Redes neuronales de alimentación profunda.

2. **RNA convolucional.** Esta redes se basan en el concepto matemáticos de convolución. Escencialmente se basan en filtros que se aplican por ejemplo a las imágenes. Los filtros son estimados para cada red.

3. **Transformer.** Estas redes sons especiales para el tratamiento de procesamiento de lenguaje natural. Recientemente han sido aplicadas a series de tiempo e imágenes. Se basan en el concepto de auto-atención.

4. **Red neuronal recurrente.** Tipo de red neuronal en la que las neuronas de cada capa oculta tienen auto-conexiones. Las redes neuronales recurrentes poseen memoria. En cualquier caso, la neurona de capa oculta recibe la activación de la siguiente capa, así como su valor de activación anterior. Muy usadas principalemnte en series de tiempo. Los modelos más conocidos con LSTM y GRU.

5. **Red autocodificadora o auto-encoder.** Es escencialmente un perceptron multicapa de múltiples usos como parte de otras arquitecturas. Por sí mismas son útiles para hacer reducción de dimensión de los datos.

---


## Enfoque Matemático de una RNA
Ahora tratemos de entender mejor como funciona una red neuronal. Cómo meniconamos incialmente, la red neuronal recibe información incialemte en su capa de entrada, por medio de un vector de información $x=(x_1,\ldots,x_n)$, de modo que la capa de entrada tendra $n$ neuronas artificales.

Cada componente $x_i$ de la capa de entrada se multiplica por el peso correspondiente $w_i$, donde los pesos son la información utilizada por la red neuronal para resolver un problema específico. Estos pesos deben aprenderse (ajustarse, estimarse) en el paso de entrenamiento, como se menciono anteriormente poara el perceptron. Los pesos representan el conocimiento que tiene lared del problema en cuestión. 

Ahora, los pesos y la formación de entrada deben ser combiandos mediante un producto escalar, de modo que la información de salida sera una combinación lineal de la información transformada por el perceptron, y se agrefa un **sesgo** o **bias** que ayuda a acomadar los datos y el cual tambien puede ser variado en caso de ser requerido. 

La suma es entonces un número real $z=\sum_i x_iw_i+b$ esta suma se transforma a través de una **función de activación**, digamos $g()$, para obtener la salida neta $x'=g(z)$. La función de activación determina el comportamiento de la neurona. La siguiente figura muestra como funciona lo anterior para una red con capas ocultas.

![Funcionamiento de redes neuronales con capas ocultas](https://raw.githubusercontent.com/AprendizajeProfundo/Diplomado-Avanzado/c01c908a0388a58b45cac707cb716438197a2d88/Redes%20Neuronales/Imagenes/ANN_Capa_Oculta.png)

Note entonces, que en general los datos que entran antes de aplicar la función de activación son transformaciones afines de los datos de entrada, de modo que si utilizamos multiples neuronas con solo esta información de saldia, solo podremos replicar comportamientos lineales, por lo que la función de activación permite realizar tareas más complejas. 

##Optimización 
Para que la red neuroal funcione, nuetra tarea es hacer que los parametros de la red se ajusten a los parametros del modelo utilizando los datos de entrada, de tal manera que esto lo realice la propia red neuronal de manera supervisada. Para esto, definimos lo que se conoce como una **función de costo** o **función de pérdida**, la acual se encarga de estimar la precisión del perceptron con respecto al objetivo. Por lo que lo unico que falta por hacer es minimizar la función de costo con el objetivo de encontrar los parametros que minimizan el error.

La función de costo puede tener multiples formas dependiendo del problema que estemos tratando, como podria ser el primer momento (valor esperado) o el segundo momento (variancia), dependiendo del tipo de problema de optimización que nos encontremos. Esto nos conduce a un nuevo problema, el cual consiste en como calcular los gradientes descendientes de la función de costo sabiendo que estos apunten en la dirección en que se encuentran los minimos locales o globales de la misma, siendo imposible saber en cual de estos nos encontramos. 

## Métodos de optimización basados en el gradiente
Entonces, en resumen, el problema de aprendizaje se reduce a un problema de optimización. El metodo general del **gradiente descendiente**, implica utilizar $-\nabla_x f(x)$ para buscar minimos locales, de modo que el metodo se escribe como:

$$ x^{(k+1)} = x^{(k)} - \eta_k \nabla_x f(x^{(k)})  $$

donde los valores $\eta_k$ se suele llamar **tasa de aprendizaje** la cual se encarga de controlar el tamaño de paso de tal forma que logremos ubicarnos cerca del minimo local deseado.

###  Gradiente descendiente en lote
Este es un metodo que consiste en utilizar el metodo clasico vainilla pero con la diferencia de que se realiza la optimización por lotes, esto con el objetivo de reducir el esfuerzo computacional que requiere optmizar un conjunto de datos muy grande. De esta forma, si escogemos el conjunto de datos de entrenamiento $(\mathbf{x}_{train},\mathbf{y}_{train})$ y definimos a $\mathfrak{L}$ como la función de pérdida, entonces obtendremos 
$$ \mathbf{\theta}_{k+1} = \mathbf{\theta}_{k}  -\eta_k \nabla_{\mathbf{\theta}}\mathfrak{L}(\mathbf{x}_{train},\mathbf{y}_{train},\mathbf{\theta}_{k})$$
donde $\mathbf{\theta}$ es el conjunto de datos de entrenamiento completo. El principal problema de resolver el gradiente descendiente es como encontrar la tasa de aprendizake $\eta_k$ apropieda para el entrenamiento. note que la tasa de aprendizaje toma valores entre $0$ y $1$ siendo cero el caso extremo en que la neurona no se ajusta y uno el caso en que se hace una mayor variación de los parametros.
### Gradiente descendiente estocástico
Una variación del metodo de gradiente descendiente en lote es el  Gradiente descendiente estocástico, el cual cosnsiste en escoger los paramatros de entrenamiento $(\mathbf{x}_{train},\mathbf{y}_{train})$ seleccionadolos de manera al azar en cada época. 

Teniendo en cuenta los dos metodos anteriores, existen variaciones como lo puede ser el escoger mini-lotes que hacen de la optimización mucho más eficiente, sin embargo dos de los metodos más interesantes son el Método del momento y el metodo RMSprop.

### Método del momento
Los metodos del gradiente tienen complicaciónes en los puntos donde el gradiente cambia de forma abrupta tipica de los minimos locales, por esto el método del momento consiste en amortiguar las oscilaciones en torno al minimo local haciendo que el proceso de optimización se acelere, esto lo hace sumando una fracción $\lambda$ del vector de actualización del paso anterior al vector de actualización actual. De forma que tenemos 

\begin{align}
 \mathbf{v}_{k} &= \lambda  \mathbf{v}_{k-1} + \eta_k \nabla_{\mathbf{\theta}}\mathfrak{L}(\mathbf{x}_{train},\mathbf{y}_{train},\mathbf{\theta}_{k})\\
\mathbf{\theta}_{k+1} &= \mathbf{\theta}_{k}  -  \mathbf{v}_{k} 
\end{align}
donde $\lambda<1$, usualemente igual a $0.9$.

## RMSprop
en este metodo dividimos la tasa de aprendizaje en cada caso por un promedio del cuadrado de los componente del gradiente del paso anterior. Por cada componente $\theta$ del vector de parametros $\mathbf{\theta}$, sea $g$la respectiva componente del gradiente asociada a $\theta$, entonces el métodos es como sigue:
1. $E[g^2]_t=\lambda E[g^2]_{t-1} + (1-\lambda)g^2_t $
2. $\theta_{t-+1}=\theta_t - \frac{\lambda}{\sqrt{E[g^2]_{t+\epsilon}}}g_t$

donde el termino $\epsilon>0$ ayuda a evitar diviones por cero.

---

## Teoría de la Información
Las bases de la teoria de la información consisten en analizar la cantidad de información otorgada por un mensaje dependiendo del grado de sorpresa del mensaje. 

En general, si un evento tiene una probabilidad alta, entonces decimos que el evento **no es sorprendente**, por el contrario, eventos con baja probabilidad son eventos con un **alto grado de sorpresa**. Definido de una manera un poco más formal, decimos que el contenido de informacion  es la cantidad de información obtenida cuando se muestra una distribución de probabilidad, donde el contenido de información es una variable aleatoria definida para cualquier evento en la teoría de la probabilidad.

Teniendo en cuenta lo anterior, el valor esperado de la auto-información es lo que se conoce como **entropia**, la cual nos da información sobre la incertidumbre del ensamble estadistico, es decir, desde un punto de vista estadistico nos brinda la información promedio de un ensable y desde un punto de vista fisíco nos habla sobre el grado de 
desinformación del sistema. los ensambles con mayor incertidumbre son aquellos que asignan igual probabilidad para todo evento, es decir, distribuciónes de probabilidad constantes, mientras que la incertudumbre es cero solo si la distribución  de probabilidad es unitaria, es decir, conocemos el estado del sistema en su totalidad. 

Sea $X$ una variable aleatoria discreta con $\Omega =\{x_1,x_2,...\}$ y probabilidades $\mathcal{p}=\{p_i|P(X=x_i), i=1,2,...\}$. Si $x\in\Omega$, entonces el **contenido de información** o **información de shanon** del conjunto de eventos ${x}$ viede dado por:

$$ I(\{x\}) = -\log_kP(X=x)=\log_k\left[\frac{1}{P(X=x)}\right] $$

donde $k$ es una base que depende de la cardinalidad de $\Omega$, usualmente cuando trabajamos con datos que solo toman dos valores, tenemso k=2 y la unidad se denomina bit. Para logaritmos Neperianos utilizamos una unidad denominada nat.

Por otra parte, la **entropía de Shannon** de la variable aleatoria $X$, o lo que es lo mismo, la entropía de la distribución asociada X se define como:
$$ H(X)=\sum_{x\in\Omega}P(X=z)I(x)= -\sum_{x\in\Omega}P(X=z)\log{P(x=x}=-\sum_{i}p_i\log{p_i}$$
algunos autores llaman a esta cantidad incertidumbre, teniendo en cuenta la interpretación de la entropía. 

Cuando se trabaja con información en inteligencia artificial, se suele buscar modelos lo menos entropicos posibles, es decir en los que tengamos total certesa de las predicciónes y por ende mayor predectibilidad. Por lo mismo, en algunas ocaciones sera de utilidad minimizar la entropia del modelo mediante metodos de optimización.  

Note entonces que para comprender la entropia, es importante estudiar como se comporta la información de un sistema, de modo que:
 * $I(p)$ por definición disminuye monotónicamente en $p$, de modo que el aumento de la probabilidad de un evento disminuye la información del evento.
 * $I(p)>0$, siendo siempre una cantidad positiva.
 * $I(1)=0$, ya que los eventos que siempre ocurren no aportan infromación.
 * $I(p_1p_2)=I(p_1) + I(p_2)$, la información de eventos independientes es aditiva.
 
La ultima propiedad es en general, una propuedad crucial. Ya que establece que la probabilidad conjunta de fuentes de información independientes comunica tanta información como los eventos individuales por separado. De modo que es la entropia la que nos dice la información promedio de una distribución.

---

### Dos desigualdades importantes en teoría de la información
Es posible comprobar que si $0\leq p\leq1$ entonces $0\leq -p\log{p}$, de modo que la entropia de Shanon es una cantidad que siempre es positiva. Adicionalmente, si tenemos $p_1,...,p_M$ y $q_1,...,q_M$ números arbitrarios tal que $\sum_i p_i =1$ y $\sum_i q_i =1$, entonces 
$$  -\sum_{i=1}^M p_i\log{p_i} = \sum_{i=1}^M p_i\log{q_i} $$
y la igualdad se cumple solo si $p_i=q_i$ para todo $i=1,...,M$. Esto quiere decir entonces que para dos distribuciones de probabilidad la información promedio siempre es mejor a la información ponderada con la probabilidad de la otra distribución.

Con esto, es posible demostrar un teorema del cual ya habiamos hecho mencional, tal que:
$$ H(p_1,...,p_M) \leq \log{M} $$
donde la probabilidad se cumple solo si para todo $p_i$ se cumple que $p_i=1/M$, lo cual quiere decir que las distribuciónes de probabilidad uniforme son las distribuciones de mayor entropia. 

### Otros tipos de Entropías
#### Entropía Conjunta:
Sean $X$ y $Y$ variables aleatorias con distribución de probabilidad conjunta
$$ p_{ij}=p(x_i,y_j)=p(X=x_i,Y=y_i)$$
con $i=1,...,M$ y $J=1,...,L$, entonces la entropía conjunta resulta natural definirla como
$$ H(X,Y) = -\sum_{i,j} p(x_i,y_j)\log{p(x_i,y_j)} $$
de donde se puede verificar que 
$$H(X,Y)\leq H(X) + H(Y) $$
#### Entropía Condicional:
Suponiendo las mismas variables aleatorias $X$ y $Y$ con distribución de probabilidad conjunta $p_{ij}$, entonces si se conoce el valor $X=x_i$, tendremos que la distribución de $Y$ se caracteriza por el conjunto de probabilidades condicionales $p(y_j|x_i)$. De aqui, definimos la entropia condicional de $Y$ dado $X=x_i$ como
$$ H(Y|X=x_i) = -\sum_{j} p(y_j|x_i)\log{p(y_j|x_i)}$$
o por otra parte, puede reescribirse como
$$ H(Y|X) = -\sum_{i,j} p(x_i,y_j)\log{p(y_j|x_i)}$$
y se puede verificar que 
$$H(X,Y)= H(X) + H(Y|X) = H(Y) + H(X|Y)  $$
y
$$H(Y|X)\leq H(X,Y) $$
y la igualdad se tiene si y solo si $X$ y $Y$ son independientes.

Siendo estas dos cantidades las dos más utilizadas en teoria de la información.

---

## Introducción a la API funcional de Keras-3 
Ahora empezaremos a estudiar TensorFlow, una libreria de python que nos permite realizar Machine Learning de manera mucho más sencilla que con otras herramientas. 

Inicialmente, necesitaremos importar ciertas funciones y clases de [TensorFlow](https://www.tensorflow.org/api_docs/python/tf/all_symbols), las cuales se importaran como sigue:

In [2]:
#Importación de metodos de versiones futuras de python
from __future__ import absolute_import, division, print_function

#Importación de TensorFlow 
import tensorflow as tf
print('Version de Tensorflow = ', tf.__version__)

ModuleNotFoundError: No module named 'tensorflow'

Ahora trabajaremos con la librería [Keras](https://keras.io/getting_started/), la cual es una libreria de Deep Learninf que trabaja con TensorFlow y la cuale es muy reconocida dentro del mundo de las redes neuronales y que adicionalmente, se encuentra escrita en en codigo abierto.

In [None]:
# Objetos de la API de Keras
from tensorflow.keras.layers import Dense, Flatten, Conv2D, Activation, MaxPooling2D
from tensorflow.keras.layers import BatchNormalization,GlobalAveragePooling2D, Dropout
from tensorflow.keras import Model

from tensorflow.keras.utils import plot_model

# datos mnist
from tensorflow.keras.datasets import mnist

## Regresión Básica
Cuando tenemos un problema de regresión, lo que estamos realizando es la predicción de un valor continuo como lo puede ser la probabilidad de un precio. En contraste de un problema de clasificación, en donde tratamos de selecciónar una clase de una lista de clase.

Teniendo en cuenta lo anterior, ahora realizaremos un codigo en python utilizando tensorflow con el fin de aprender a realizar regresiónes, para esto, se utilizara el data set [Auto MPG](https://archive.ics.uci.edu/dataset/9/auto+mpg)


## Librerias:
Las librerias utilizadas para esta practica seran:
* **Tensorflow**, el cual es una libreria para realizar Machine Learining en python, cargando una gran cantidad de material estadistico.