<center>
<h1>Deep Learning with Python - Francois Chollet</h1>
<h2> Capítulos 01 e 02</h2>
</center>


In [None]:
import numpy as np
from tensorflow.keras import datasets
from tensorflow import keras
from tensorflow.keras import layers

In [None]:
(train_images, train_labels), (test_images, test_labels) = datasets.cifar10.load_data()

print(train_images.shape)
print(test_images.shape)

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
(50000, 32, 32, 3)
(10000, 32, 32, 3)


***

### <center> Trechos do Texto </center>

> Learning, in the context of machine learning, describes an automatic search process for data transformations that produce useful representations of some data, guided by some feedback signal.

> In machine learning, a category in a classification problem is called a class. Data points are called samples. The class associated with a specific sample is called a label.

> The core building block of neural networks is the layer. You can think of a layer as a filter for data: some data goes in, and it comes out in a more useful form

> tensors are a generalization of matrices to an arbitrary number of dimensions (note that in the context of tensors, a dimension is often called an axis).

> This gap between training accuracy and test accuracy is an example of overfitting: the fact that machine learning models tend to perform worse on new data than on their training data.

> *(...) neural networks consist entirely of chains of tensor operations (...) you can interpret a neural network as a very complex geometric transformation in a high-dimensional space, implemented via a series of simple steps.*

> ***Backpropagation is simply the application of the chain rule to a computation graph.***

> *Learning means finding a set of values for the model's weights that minimizes a loss function.*

> What is transformative about deep learning is that it allows a model to learn all layers of representation jointly, at the same time, rather than in succession (greedily, as it’s called) 

---

### <center> Resumo </center>

Modelos de ***deep learning*** são construídos com os seguintes items:

1. *Layers*
  - Os *layers* são uma especíe de filtro para os dados. Eles aplicam transformações que deixam os dados mais úteis para o modelo e os enviam para a próxima camada.
2. *Loss function*
  - A *função de perda* (*loss function*) é a métrica que buscamos minimizar durante o treinamento do modelo. É o que diz se o modelo está tendo um desempenho bom ou não.
3. *Optimizer*
  - O *otimizador* é o que diz como o gradiente da função de perda será utilizado para mudar os parâmetros do modelo.

---

#### <center> Tensores </center>

Os layers dos modelos são alimentados através de ***tensores***, que são uma generalização de matrizes para um número $n$ de dimensões. Abaixo, podemos ver como imagens coloridas são representadas através de tensores. As primeiras duas dimensões (32 $\times$ 32) são o tamanho da imagens em pixels, enquanto a última é o e espectro RGB de cada pixel.

In [None]:
print(train_images[0].shape)
print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in train_images[0]]))

(32, 32, 3)
[59 62 63]	[43 46 45]	[50 48 43]	[68 54 42]	[98 73 52]	[119  91  63]	[139 107  75]	[145 110  80]	[149 117  89]	[149 120  93]	[131 103  77]	[125  99  76]	[142 115  91]	[144 112  86]	[137 105  79]	[129  97  71]	[137 106  79]	[134 106  76]	[124  97  64]	[139 113  78]	[139 112  75]	[133 105  69]	[136 105  74]	[139 108  77]	[152 120  89]	[163 131 100]	[168 136 108]	[159 129 102]	[158 130 104]	[158 132 108]	[152 125 102]	[148 124 103]
[16 20 20]	[0 0 0]	[18  8  0]	[51 27  8]	[88 51 21]	[120  82  43]	[128  89  45]	[127  86  44]	[126  87  50]	[116  79  44]	[106  70  37]	[101  67  35]	[105  70  36]	[113  74  35]	[109  70  33]	[112  72  37]	[119  79  44]	[109  71  33]	[105  69  27]	[125  89  46]	[127  92  46]	[122  85  39]	[131  89  47]	[124  82  41]	[121  79  37]	[131  89  48]	[132  91  53]	[133  94  58]	[133  96  60]	[123  88  55]	[119  83  50]	[122  87  57]
[25 24 21]	[16  7  0]	[49 27  8]	[83 50 23]	[110  72  41]	[129  92  54]	[130  93  55]	[121  82  47]	[113  77  43]	[112  78  4

In [None]:
print(train_images[0][2].shape)
print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in train_images[0][2]]))

(32, 3)
25	24	21
16	7	0
49	27	8
83	50	23
110	72	41
129	92	54
130	93	55
121	82	47
113	77	43
112	78	44
112	79	46
106	75	45
105	73	38
128	92	48
124	87	47
130	92	56
127	89	56
122	85	51
115	79	43
120	85	47
130	95	54
131	96	55
139	102	62
127	90	51
126	89	49
127	89	50
130	92	53
142	105	68
130	94	58
118	84	50
120	84	50
109	73	42


Os tensores performam as mesmas operações que as matrizes, mas algumas coisas que chamam atenção, são:

- *Broadcasting*: é completar uma matriz para que uma operação com outra matriz seja viável. No exemplos abaixo, vemos a adição de duas matrizes tal que: $$X_{3 \times 3} + y_{1 \times 3} \xrightarrow{Broadcasting} X_{3 \times 3} + Y_{{3 \times 3}}$$


In [None]:
X = np.random.random((3, 3))
y = np.random.random((3,))

print("Matrizes X e y originais:\n\n")
print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in X]))
print("\n")
print(y)

y = np.expand_dims(y, axis=0)
Y = np.concatenate([y] * 3, axis=0)

print("\n\nMatrizes X e Y após a operação:\n\n")
print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in X]))
print("\n")
print('\n'.join(['\t'.join([str(cell) for cell in row]) for row in Y]))


Matrizes X e y originais:


0.017404007623929685	0.757174364606277	0.4590071296361412
0.4692090721022908	0.1664666125848685	0.27262222603439035
0.1926766946943067	0.9821710966619618	0.9770286625319604


[0.97246745 0.54651047 0.31648371]


Matrizes X e Y após a operação:


0.017404007623929685	0.757174364606277	0.4590071296361412
0.4692090721022908	0.1664666125848685	0.27262222603439035
0.1926766946943067	0.9821710966619618	0.9770286625319604


0.9724674519508465	0.5465104707225186	0.316483714154691
0.9724674519508465	0.5465104707225186	0.316483714154691
0.9724674519508465	0.5465104707225186	0.316483714154691


- Multiplicação de tensores: segundo [essa resposta do *math exchange*](https://math.stackexchange.com/questions/63074/is-there-a-3-dimensional-matrix-by-matrix-product), a multiplicação de tensores em dimensões maiores do que 2 funcionaria da seguinte forma: $$c_{il} = \sum_{j,k} a_{ijk} \cdot b_{kjl} $$
  - Na wikipedia essa operação está descrita como [*tensor contraction*](https://en.wikipedia.org/wiki/Tensor_contraction)

- Operações com tensores: algumas operações com tensores possuem uma representaa mais específica. Algumas delas são (ver características no livro):
  - Translação
  - Rotação
  - Escalonamento

---

#### <center>Gradiente</center>

Minimizar o erro de uma rede neural é minimizar uma função de custo $f: \mathbb{R^n} \rightarrow \mathbb{R}$. Por se tratar de uma minimização, utilizamos o ***gradiente*** para navegar a superfície de erro até o ponto mínimo. O gradiente de uma função é dado por: $$\nabla f(x_1, \dots, x_n) = \left (\frac{\partial f }{\partial x_1}, \dots, \frac{\partial f}{\partial x_n} \right )$$

Quando rodamos o modelo a primeira vez (lembrando que os pesos são iniciados de forma aletória) e conseguimos o primeiro conjunto de respostas ($\hat{y}$), temos o ***forward pass***. Após calcularmos o erro do modelo (o quão longe $\hat{y}$ ficou de $y$), fazemos o ***backward pass***, que é utilizar o gradiente do função de erro (como os pesos da rede alteram o erro) para descobrir como alterar os pesos e diminuir o erro. A medida de alteração nos pesos é a ***learning rate***. O ato de usar o erro para atualizar todos os pesos da rede é o algoritmo de ***backpropagation***, e consiste em utilizar a *regra da cadeia* para saber como as camadas escondidas iniciais (e todas as outras) da rede impactam no erro.

#### <center>Modelo Implementado com Tensorflow</center>

In [None]:
# Exemplo de modelo implementado à "mão" com TensorFlow.

from math import ceil
import tensorflow as tf


class NaiveDense:
  """Dense layer"""

  def __init__(self, input_size, output_size, activation):
    self.activation = activation
  
    w_shape = (input_size, output_size)
    w_initial_value = tf.random.uniform(w_shape, minval=0, maxval=1e-1)
    self.W = tf.Variable(w_initial_value) # Weights

    b_shape = (output_size,)
    b_initial_value = tf.zeros(b_shape)
    self.b = tf.Variable(b_initial_value) # Bias

  def __call__(self, inputs):
    return self.activation(tf.matmul(inputs, self.W) + self.b)
  
  @property # Usado para transformar `weights` em uma propriedade da classe
  def weights(self):
    return [self.W, self.b]

class NaiveSequential:
  """Empilhando layers"""

  def __init__(self, layers):
    self.layers = layers
  
  def __call__(self, inputs):
    x = inputs
    for layer in self.layers:
      x = layer(x)
    return x
  
  @property
  def weights(self):
    weights = []
    for layer in self.layers:
      weights = weights + layer.Weights
    return weights

class BatchGenerator:
  
  def __init__(self, images, labels, batch_size=120):
    assert len(images) == len(labels)
    self.index = 0
    self.images = images
    self.labels = labels
    self.batch_size = batch_size/
    self.num_batches = ceil(len(images) / batch_size)
  
  def next(self):
    images = self.images[self.index: self.index + self.batch_size]
    labels = self.labels[self.index: self.index + self.batch_size]
    
    self.index = self.index + self.batch_size
    return images, labels

---

### <center> Dúvidas </center>

- Não entendi muito bem o método de otimização usando *momentum*. O senhor pode passar a intuição dele?
- A intuição por trás do algoritmo de *backpropagation* ficou meio confusa para mim na parte de inverter o grafo computacional para achar como os pesos contribuem para a variação na *loss function*. Pode explicar de novo?
- Os dados são distribuído em batchs para cada nó do modelo, certo? A distribuição inicial pode alterar o resultado final do modelo?