In [2]:
import numpy as np

# Resumen del libro Deep Learning with Python

 ## [Tensores](#Tensores)
 
 #### [Escalar](#Escalar)
 #### [Vector](#Vector)
 #### [Matriz](#Matriz)
 #### [Tensor 3-dimensional](#Tensor-3-dimensional)
 #### [Tensor n-dimensional](#Tensor-n-dimensional)
 
 ### [Manipulando tensores](#Manipulando-tensores)

# Tensores

Las estructuras basicas de datos en Deep Learning son los tensores
que son basicamente arrays n-dimensionales, por ejemplo una matriz
es un tensor 2-dimensional.

## Escalar

In [3]:
# Vamos a crear un escalar (tensor 0-dimensional) en numpy:

escalar = np.array(27)
print("Tensor: " + str(escalar)) # Nos muestra el escalar que acabamos de crear
print("Dimension: " + str(escalar.ndim)) # Nos muestra las dimensiones (el rango o los ejes) del tensor que hemos creado

Tensor: 27
Dimension: 0


## Vector

In [4]:
# Vamos a crear un vector (tensor 1-dimensional) en numpy:

vector = np.array([1,2,3,4]) # Creamos un vector 4-dimensional
print("Tensor: " + str(vector))
print("Dimension: " + str(vector.ndim))

Tensor: [1 2 3 4]
Dimension: 1


## Matriz

In [5]:
# Vamos a crear una matriz (tensor 2-dimensional) en numpy:

matriz = np.array([[1,2,3,4],
                  [5,6,7,8],
                  [9,10,11,12]])
print("Tensor: \n\n " + str(matriz))
print("\n Dimension: " + str(matriz.ndim))

Tensor: 

 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

 Dimension: 2


## Tensor 3-dimensional

In [6]:
#Vamos a crear un tensor 3-dimensional en numpy:

tensor3d = np.array([  [[1, 1, 2, 34, 0],
                       [6, 2, 3, 35, 1],
                       [7, 3, 4, 36, 2]],
              
                       [[2, 1, 2, 34, 0],
                       [6, 2, 3, 35, 1],
                       [7, 3, 4, 36, 2]],
                
                       [[3, 1, 2, 34, 0],
                       [6, 2, 3, 35, 1],
                       [7, 3, 4, 36, 2]]   ])

print("Tensor: \n\n " + str(tensor3d))
print("\n Dimension: " + str(tensor3d.ndim))

Tensor: 

 [[[ 1  1  2 34  0]
  [ 6  2  3 35  1]
  [ 7  3  4 36  2]]

 [[ 2  1  2 34  0]
  [ 6  2  3 35  1]
  [ 7  3  4 36  2]]

 [[ 3  1  2 34  0]
  [ 6  2  3 35  1]
  [ 7  3  4 36  2]]]

 Dimension: 3


## Tensores n-dimensionales

Puede que nos hayamos dado cuenta de un patron. Aumentar de dimension un tensor no es mas
que meter varios tensores de la dimension anterior en un array.

# Manipulando tensores

Para **crear** tensores es como hemos visto arriba:

In [7]:
tensor = np.array([1,2])
print(tensor)

[1 2]


Para ver la **forma** que tiene un tensor:

In [8]:
forma = tensor3d.shape
print(forma)

(3, 3, 5)


Para ver el **tipo** de un tensor:

In [9]:
tipo = tensor3d.dtype
print(tipo)

int64


## Slicing

Es un slicing normal y corriente, pero hay que tener en cuenta la n-dimensionalidad del tensor

In [10]:
tensor3d_slice1 = tensor3d[0:1,0:1,0:2] # De la primera matriz coge la primera fila, los dos primeros elementos.
tensor3d_slice2 = tensor3d[0:2,0:2,0:2] # De las 2 primeras matrices coge las 2 primeras filas, y de estas los dos primeros elementos.
tensor3d_slice3 = tensor3d[0:3,0:1,0:2] # De las 3 primeras matrices coge la primera fila, los dos primeros elementos.

print("\n")
print("tensor3d_slice1: \n")
print(tensor3d_slice1)
print("---------------------")
print("tensor3d_slice2: \n")
print(tensor3d_slice2)
print("---------------------")
print("tensor3d_slice3: \n")
print(tensor3d_slice3)



tensor3d_slice1: 

[[[1 1]]]
---------------------
tensor3d_slice2: 

[[[1 1]
  [6 2]]

 [[2 1]
  [6 2]]]
---------------------
tensor3d_slice3: 

[[[1 1]]

 [[2 1]]

 [[3 1]]]


Los indices del slicing se van seleccionando de fuera hacia dentro.
en el ejemplo ` tensor3d[0:3,0:1,0:2] ` hemos seleccionado las 3 primeras matrices,
de estas tres matrices hemos cogido de cada una la primera fila, y de cada una de las filas que
hemos cogido solo nos quedamos con los 2 primeros elementos.

En Deep Learning consideramos el primer indice (el primer eje) como el **eje de los ejemplos**
,ya que es el indice del conjunto mas exterior que engloba todos los datos.

## Lotes de datos

Normalmente en Deep Learning los ejemplos se usan por **lotes** (batchs en ingles), es decir,
separan todos los ejemplos que tenemos en dos o mas lotes.

## Tensores en el mundo real

**Vectores de datos ->** tensores 2-d de la forma (ejemplos, caracteristicas)

**Series temporales ->** tensores 3-d de la forma (ejemplos, tiempo, caracteristicas).

**Imagenes ->** tensores 4-d de la forma (ejemplos, altura, anchura, canales) o de la forma (ejemplos, canales, altura, anchura)

**Videos ->** tensores 5-d de la forma (ejemplos, frames, altura, anchura, canales) o de la forma (ejemplos, frames, canales, altura, anchura)

## Operaciones con tensores

### Operacion ReLu

In [11]:
def naive_relu(x):
    
    assert len(x.shape)==2 # Nos aseguramos antes de empezar el programa que
                           # lo que le pasamos es un tensor 2-d
    
    x = x.copy() # Evitamos modificar el tensor original
    
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i,j] = max(x[i,j],0)
            
    return x

### Suma de tensores

In [12]:
def naive_add(x,y):
    
    assert len(x.shape)==2 # Nos aseguramos de que los dos elementos que
    assert len(y.shape)==2 # vamos a sumar son tensores 2-d
    
    x = x.copy()
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            x[i,j] += y[i,j]
    
    return x

Sabiendo como es la suma podemos implementar facilmente la resta, multiplicacion y la division. Solo hay que cambiar que operacion hacemos con los elementos.

### Suma de tensores de distinta dimension

In [13]:
def naive_add_matrix_and_vector(x, y):
    
    assert len(x.shape) == 2 # Una matriz
    assert len(y.shape) == 1 # Un vector
    assert x.shape[1] == y.shape[0]
    
    x = x.copy()
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            
            x[i, j] += y[j] # A todos los elementos de la misma columna
                            # les vamos sumando cada elemento correspondiente
                            # del vector
    
    return x


### Producto escalar entre vectores

In [14]:
def naive_vector_dot(x, y):
    
    assert len(x.shape) == 1
    assert len(y.shape) == 1
    assert x.shape[0] == y.shape[0]

    z = 0
    for i in range(x.shape[0]):
        z += x[i] * y[i]
        
    return z


### Producto escalar entre matriz y vector:

Cada elemento de z es el producto escalar entre cada fila de la matriz y el vector

In [15]:
def naive_matrix_vector_dot(x, y):
    
    assert len(x.shape) == 2
    assert len(y.shape) == 1
    assert x.shape[1] == y.shape[0]
    
    z = np.zeros(x.shape[0])
    for i in range(x.shape[0]):
        for j in range(x.shape[1]):
            z[i] += x[i, j] * y[j]
            
    return z

### Producto escalar entre matrices

In [16]:
def naive_matrix_dot(x, y):
    
    assert len(x.shape) == 2
    assert len(y.shape) == 2
    assert x.shape[1] == y.shape[0] # Solo se puede hacer si la primera
                                    # matriz tiene las mismas columnas
                                    # como filas tiene la segunda
            
    z = np.zeros((x.shape[0], y.shape[1]))
    for i in range(x.shape[0]):
        for j in range(y.shape[1]):
            row_x = x[i, :]
            column_y = y[:, j]
            z[i, j] = naive_vector_dot(row_x, column_y)
    
    return z

Todo esto se hace mucho mas simple con numpy:

### Suma de tensores en numpy

In [17]:
xs,ys = np.array([1,2,3]),np.array([4,5,6])

suma = xs + ys # Da igual si son de distinta dimension
print(suma)

[5 7 9]


### Operacion ReLu en numpy

In [18]:
xr = np.array([1,-1,0])

relu = np.maximum(xr, 0)
print(relu)

[1 0 0]


### Producto escalar en numpy

In [19]:
xe,ye = np.array([1,2,3]),np.array([4,5,6])

prod_esc = np.dot(xe, ye)
print(prod_esc)

32


![ejemplo de forma](producto_escalar_matrices.png)

### Remodelado de tensores en numpy

In [20]:
xre = np.array([[0., 1.],
                [2., 3.],
                [4., 5.]])
print("Sin remodelar: \n" + str(xre))

remodelado = xre.reshape((6,1))
print("\n Remodelado: \n" + str(remodelado))

Sin remodelar: 
[[0. 1.]
 [2. 3.]
 [4. 5.]]

 Remodelado: 
[[0.]
 [1.]
 [2.]
 [3.]
 [4.]
 [5.]]


### Transpuesta de una matriz

In [21]:
print("Matriz: \n" + str(matriz))

transpuesta = matriz.transpose()
print("\n Transpuesta: \n" + str(transpuesta))

Matriz: 
[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]

 Transpuesta: 
[[ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]
 [ 4  8 12]]


## El motor de las Redes Neuronales:  optimizacion basada en gradiente

En la base del Machine Learning esta el *bucle de entrenamiento*:

1- Coge un lote de ejemplos que seran entrenamiento y otro para targets.  

2- Ejecuta la red sobre entrenamiento para obtener predicciones sobre los targets.  

3- Calcula la diferencia entre lo que deberia haber predecido y lo que ha predecido.  

4- Actualiza los pesos de la red para minimizar la diferencia.

Este bucle es basicamente lo que permite a nuestro modelo aprender.

Todos estos pasos son relativamente sencillos, excepto el cuarto, para el que usaremos el **gradiente**.

Primero tenemos que definir el concepto de **derivada**:

![Derivada de f en p](derivada_de_f_en_p.png)
Derivada de f en p

La derivada nos inidica **como varia** y en funcion de x.
Para que una funcion sea derivable tiene que ser **continua** y **suave**.

### Gradiente: derivada de una operacion de tensor

Es basicamente la derivada de una funcion en un tensor

![Gradiente de un tensor](gradiente_de_un_tensor.png)

Necesitamos un numero que nos indique cuanto nos movemos en en el gradiente.
A este numero normalmente se le llama ***Learning Rate***

### Descenso por el gradiente estocastico (aleatorio)

#### Mini-batch stochastic gradient descent

1- Coge un lote de los ejemplos de entrenamiento x y sus correspondientes targets.  

2- Ejecuta la red sobre x para obtener *y_preds*.  

3- Calcula la diferencia entre lo predecido y lo que deberiamos haber predecido.  

4- Calcula el gradiente de esa diferencia, considerando los parametros de la red.  

5- Modifica los parametros de la red en direccion opuesta al gradiente, por ejemplo `W-= step * gradient` para reducir la diferencia.

Si cogiesemos un elemento solo por cada iteracion, estariamos hablando de ***true stochastic gradient descent***

Si cogiesemos todos los datos en cada iteracion, hablariamos de ***batch stochastic gradient descent***

![Gradiente en 2D](gradiente_2d.png)