<a href="https://colab.research.google.com/github/JacoboGGLeon/RNA/blob/master/parte1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clasificación supervisada con Redes Neuronales Artificiales (RNA)
## UNAM-FES Acatlán, 24 de septiembre, A-723
## Jacobo G. González León
## 09:00 A 13:00
### @jacoboggleon
### Parte 1

## Redes Neuronales biológicas

Las RNA están basadas en la biología de las redes neuronales que se encuentran en los cerebros animales.


<img src="https://miro.medium.com/max/2661/1*aS8v6PQS67HQvyQONye92A.jpeg" height= "250"> 
<img src="http://live-helen-wills-neuroscience-institute.pantheon.berkeley.edu/wp-content/uploads/2016/01/Cajal_cortex_drawings.png" height= "250">


[a) Cajal, 1895. Image courtesy of Javier DeFelipe. DeFelipe, J., El jardín de la neurología: sobre lo bello, el arte y el cerebro. Madrid, 2014. Fig. 34.](https://medium.com/brain-byte-blog/ten-things-you-didnt-know-about-7cc5ad942a48)

[b) Dan Feldman on Santiago Ramón y Cajal’s Drawings of Brain Structures
](https://neuroscience.berkeley.edu/dan-feldman-on-santiago-ramon-y-cajals-drawings-of-brain-structures/)


<img src="https://ars.els-cdn.com/content/image/3-s2.0-B9781907568992500025-f02-02-9781907568992.jpg" height= "250">

[Artificial neural networks technology to model, understand, and optimize drug formulations](https://www.sciencedirect.com/science/article/pii/B9781907568992500025)

<img src="http://www.asimovinstitute.org/wp-content/uploads/2019/04/NeuralNetworkZoo20042019.png" height= "250">

[The mostly complete chart of Neural Networks, explained
](https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464)

La abstracción de una neurona sería de la siguiente forma:

<img src="https://docs.google.com/uc?export=download&id=1lDJGa9rFQomIJ5qc3nJg61PhdxtHlG4z" height= "250">

Donde:

$$
\begin{align}
y &= f(w_1 x_1 + w_2 x_2 + b) \\
y &= f\left(\sum_i w_i x_i +b \right)
\end{align}
$$

De manera más sencilla, se puede ver como el producto de dos vectores:

$$
h = \begin{bmatrix}
x_1 \, x_2 \cdots  x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_1 \\
           w_2 \\
           \vdots \\
           w_n
\end{bmatrix}
$$

## Tensores


* Matriz de matrices
* Estructura de datos fundamental

<img src="https://docs.google.com/uc?export=download&id=1wbd31r6lU2M3THUDA808a6sI5eRjsTq2" height= "250">


## Importar librerías


In [0]:
import torch

## Creación una función de activación

* Función de activación sigmoide
$$
f(h) = \frac{\mathrm{1} }{\mathrm{1} + e^h }
$$

* Argumentos

  x: torch.Tensor

In [0]:
def activation(x): 
    return 1/(1+torch.exp(-x))

## Generar datos aleatorios

Proponer una semilla aleatoria conocida


In [0]:
torch.manual_seed(7)

<torch._C.Generator at 0x7ff07cb68950>

## Crear 3 variables con valores aleatorios
A través de una distribución normal, crear un tensor de tamaño (1,5) una fila y 5 columnas


In [0]:
features = torch.randn((1,5))

## Crear pesos aleatorios 

In [0]:
weights = torch.rand_like(features)

## Agregar el sesgo
Crear un sólo valor 

In [0]:
bias = torch.randn((1,1))

# RNA unicapa

## Problema 
### Calcular la salida de la RNA con variables `features` de entrada, pesos `weights` y sesgo `bias`

## Solución

### Se puede hacer la suma y multiplicación en la misma operación a través de la multiplicacoón de matrices

In [0]:
y = activation(torch.sum(features * weights) + bias)
y

tensor([[0.6140]])

In [0]:
y = activation((features * weights).sum() + bias)
y

tensor([[0.6140]])

Si se intenta directamente la multiplicación entre `features` y `weights`, al tener el mismo tamaño (1,5), vamos a tener un error 

```python
RuntimeError: size mismatch, m1: [1 x 5], m2: [1 x 5]
```

In [0]:
torch.mm(features, weights)

RuntimeError: ignored

Podemos conocer el tamaño de nuestros tensores

In [0]:
features.shape

torch.Size([1, 5])

In [0]:
weights.shape

torch.Size([1, 5])

Tenemos varias alternativas:
* `weights.reshape(a,b)` nos regresará un nuevo tensor con el tamaño (a,b) 
* `weights.resize_(a,b)` nos regresará el mismo tensor con diferente tamaño
* `weights.view(a,b)` nos regresará un nuevo tensor con el tamaño (a,b) 

In [0]:
y = activation(torch.mm(features, weights.view(5,1)) + bias)

y

tensor([[0.6140]])

Ahora que conocemos el algoritmo de una neurona, podemos comenzar a enlazar estas unidades en capas y montones de capas para formar una RNA.
La salida de una neurona se convierte en una entrada de la siguiente capa. Conociendo que los problemas contienen múltiples 
unidades de entradas y salidas, necesitamos expresar ahora los pesos `weights` como una matriz.
 

La primer capa, llamada `input layer`, son las entradas $(x_1, x_2, x_3)$. La segunda capa oculta, llamada `hidden layer` son las neuronas $(h_1, h_2)$. La tercer capa, llamada `output layer`, es la salida, en este caso podría ser $y$.

Entonces esta RNA se puede expresar matemáticamente con matrices y utilizar la multiplicación de matrices. Por ejemplo, la capa oculta donde están las neuronas$(h_1,h_2)$ se puede calcular así:

$$
\vec{h} = [h_1 \, h_2] = 
\begin{bmatrix}
x_1 \, x_2 \cdots \, x_n
\end{bmatrix}
\cdot 
\begin{bmatrix}
           w_{11} & w_{12} \\
           w_{21} &w_{22} \\
           \vdots &\vdots \\
           w_{n1} &w_{n2}
\end{bmatrix}
$$

Y la salida de esta RNA es tomando a la capa oculta $\vec{h}$ como entrada de la neurona de salida $y$ en la tercer capa "de salida"

Generamos datos

In [0]:
torch.manual_seed(7)

<torch._C.Generator at 0x7ff07cb68950>

Creamos 3 variables aleatorias

In [0]:
features = torch.randn((1,3))
features

tensor([[-0.1468,  0.7861,  0.9468]])

Definimos el tamaño de cada capa en la RNA

`n_input`: número de neuronas de entradam, entonces debe ser del mismo tamaño que la entrada `features`

In [0]:
n_input = features.shape[1]
n_input

3

`n_hidden`: número de neuronas ocultas 

In [0]:
n_hidden = 2

`n_output`: número de neuronas de salida

In [0]:
n_output = 1

Generamos los pesos aleatorios para las neuronas que conectan la capa de entrada y la capa oculta

In [0]:
W1 = torch.randn(n_input, n_hidden)
W1

tensor([[-1.1143,  1.6908],
        [-0.8948, -0.3556],
        [ 1.2324,  0.1382]])

Generamos los pesos aleatorios para las neuronas que conectan la capa oculta y la capa de salida

In [0]:
W2 = torch.randn(n_hidden, n_output)
W2

tensor([[-1.6822],
        [ 0.3177]])

Generamos el sesgo para las neuronas de operación en las capas oculta y de salida

In [0]:
B1 = torch.randn((1, n_hidden))
B1

tensor([[0.1328, 0.1373]])

In [0]:
B2 = torch.randn((1, n_output))
B2

tensor([[0.2405]])

# RNA usando multiplicación entre matrices

## Problema

### Calcular la salida de esta RNA (multicapa) usando los pesos `weights` `W1`y `W2`, y el sesgo `bias` `B1` y `B2`

## Solución
### 

In [0]:
h = activation(torch.mm(features, W1) + B1)
h

tensor([[0.6813, 0.4355]])

In [0]:
output = activation(torch.mm(h, W2) + B2)
output

tensor([[0.3171]])

Si todo sale bien, y por tener la misma semilla, deberíamos tener el mismo resultado `tensor([[ 0.3171]])`

El número de neuronas de operación en la capa oculta es un hyperparámetro de la RNA, llamado así para diferenciarlo de los parámetros pesos `weights` y sesgos `bias`

Como se puede intuir, entre más neuronas de operación se agregan a la capa oculta, y a la par agregando más capas ocultas, ¿a la RNA le será mejor para "aprender" de los datos?