<a href="https://colab.research.google.com/github/fabiobento/dnn-course-2024-1/blob/main/00_course_folder/cert_prof_dl_intro/1%20-%20Um%20novo%20paradigma%20de%20programa%C3%A7%C3%A3o/7%20-%20C1_W1_Lab_1_hello_world_nn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

adaptado de [Certificado Profissional Desenvolvedor do TensorFlow para DeepLearning.AI](https://www.coursera.org/professional-certificates/tensorflow-in-practice) de [Laurence Moroney](https://laurencemoroney.com/)

# O Hello World da aprendizagem profunda com redes neurais

Como todo primeiro aplicativo, você deve começar com algo muito simples que mostre a estrutura geral de como seu código funciona.

No caso da criação de redes neurais, um caso simples é quando ela aprende a relação entre dois números. Assim, por exemplo, se estiver escrevendo código para uma função como esta, você já conhece as "regras": 


```
def hw_function(x):
    y = (2 * x) - 1
    return y
```

Então, como você treinaria uma rede neural para realizar a tarefa equivalente?
> Usando dados!

Ao alimentá-la com um conjunto de xs e ys, ela deve ser capaz de descobrir a relação entre eles.

## Importações de bibliotecas

Vamos começar com as importações. Aqui, você está importando o [TensorFlow](https://www.tensorflow.org/) e chamando-o de `tf` por convenção e facilidade de uso.

Em seguida, você importa uma biblioteca chamada [`numpy`](https://numpy.org) que ajuda a representar dados como matrizes facilmente e a otimizar operações numéricas.

O _framework_ que você usará para criar uma rede neural como uma sequência de camadas chama-se [`keras`](https://keras.io/) e, portanto, você também a importará.



In [2]:
import tensorflow as tf
import numpy as np
from tensorflow import keras

print(tf.__version__)

2024-04-02 12:48:33.129212: I tensorflow/core/util/port.cc:111] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-04-02 12:48:33.435563: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-04-02 12:48:33.435640: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-04-02 12:48:33.436912: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-04-02 12:48:33.533981: I tensorflow/core/platform/cpu_feature_g

2.14.0


## Definir e compilar a rede neural

A seguir, você criará a rede neural mais simples possível.
> Ela tem uma camada com um neurônio, e a forma de entrada para ela é apenas um valor.

Você criará esse modelo usando a classe [Sequential](https://keras.io/api/models/sequential/) do Keras, que permite definir a rede como uma sequência de [camadas](https://keras.io/api/layers/).

Você pode usar uma única camada [Dense](https://keras.io/api/layers/core_layers/dense/) para criar essa rede simples, conforme mostrado abaixo.

In [3]:
# Criar um modelo sequencial simples
model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[1])])

2024-04-02 12:48:37.771133: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:894] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero. See more at https://github.com/torvalds/linux/blob/v6.0/Documentation/ABI/testing/sysfs-bus-pci#L344-L355
2024-04-02 12:48:37.785910: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:894] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero. See more at https://github.com/torvalds/linux/blob/v6.0/Documentation/ABI/testing/sysfs-bus-pci#L344-L355
2024-04-02 12:48:37.786045: I tensorflow/compiler/xla/stream_executor/cuda/cuda_gpu_executor.cc:894] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero. See more at https://github.com/torvalds/linux/blob/v6.0/Documentation/ABI/testing/sysf

Agora, você compilará a rede neural. Ao fazer isso, você precisa especificar duas funções: uma [loss](https://keras.io/api/losses/) e um [optimizer](https://keras.io/api/optimizers/).

Até aqui você já viu muita matemática para aprendizado de máquina, correto? :-)
É aqui que as equações geralmente são usadas.

Mas, nesse caso, ela está bem encapsulada em funções e classes para você. Mas o que acontece aqui? Vamos explicar...
* Você sabe que na função declarada no início deste notebook, a relação entre os números é `y=2x-1`.
* Quando o computador está tentando "aprender" isso, ele faz uma suposição... talvez `y=10x+10`.
* A função `loss` mede as respostas adivinhadas em comparação com as respostas corretas conhecidas e mede se o resultado foi bom ou ruim.
* Em seguida, ela usa a função `optimizer` para fazer outra estimativa. Com base no resultado da função de perda, ele tentará minimizar a perda.
> Nesse ponto, talvez ele chegue a algo como `y=5x+5`, que, embora ainda seja muito ruim, está mais próximo do resultado correto (ou seja, a perda é menor).
* Isso será repetido para o número de _epochs_ que você verá em breve.
> Mas, primeiro, veja como você dirá a ele para usar [mean squared error](https://keras.io/api/losses/regression_losses/#meansquarederror-function) para a perda e [stochastic gradient descent](https://keras.io/api/optimizers/sgd/) para o otimizador.

Com o tempo, você aprenderá as funções diferentes e apropriadas de perda e otimizador para diferentes cenários.

In [4]:
# Compile o modelo
model.compile(optimizer='sgd', loss='mean_squared_error')

## Fornecendo os dados

Em seguida, você fornecerá alguns dados. Nesse caso, você está pegando 6 X's e 6 Y's. Você pode ver que a relação entre eles é `y=2x-1`, portanto, onde `x = -1`, `y=-3` etc. 

A maneira típica de declarar as entradas e saídas do modelo é usar o `numpy`, uma biblioteca Python que fornece muitas estruturas de dados do tipo array.
> Você pode especificar esses valores criando matrizes numpy com [`np.array()`](https://numpy.org/doc/stable/reference/generated/numpy.array.html).

In [5]:
# Declarar entradas e saídas do modelo para treinamento
xs = np.array([-1.0,  0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-3.0, -1.0, 1.0, 3.0, 5.0, 7.0], dtype=float)

# Treinamento da rede neural

O processo de treinamento da rede neural, em que ela "aprende" a relação entre os x e os y, está na chamada [`model.fit()`](https://keras.io/api/models/model_training_apis/#fit-method).
> É aqui que a rede passa pelo loop de que falamos acima: faz um palpite, mede o quão bom ou ruim ele é (também conhecido como perda), usa o otimizador para fazer outro palpite etc.

O treinamento ocorrerá para o número de "epochs" que você especificar. Ao executar esse código, você pode acompanhar a perda no lado direito.

In [6]:
# Treinar o modelo
model.fit(xs, ys, epochs=500)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500


2024-04-02 12:57:03.375066: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x722039099370 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
2024-04-02 12:57:03.375087: I tensorflow/compiler/xla/service/service.cc:176]   StreamExecutor device (0): NVIDIA GeForce RTX 2080 SUPER, Compute Capability 7.5
2024-04-02 12:57:03.386920: I tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:442] Loaded cuDNN version 8600
2024-04-02 12:57:03.429113: I ./tensorflow/compiler/jit/device_compiler.h:186] Compiled cluster using XLA!  This line is logged at most once for the lifetime of the process.


Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78/500
Epoch 79/500
Epoch 80/500
Epoch 81/500
Epoch 82/500
Epoch 83/500
Epoch 84/500
Epoch 85/500
Epoch 86/500
Epoch 87/500
Epoch 88/500
Epoch 89/500
Epoch 90/500
Epoch 91/500
Epoch 92/500
Epoch 93/500
Epoch 94/500
Epoch 95/500
Epoch 96/500
Epoch 97/500
Epoch 98/500
Epoch 99/500
Epoch 100/500
Epoch 101/500
Epoch 102/500
Epoch 103/500
Epoch 104/500
Epoch 105/500
Epoch 106/500
Epoch 107/500
Epoch 108/500
Epoch 109/500
Epoch 110/500
Epoch 111/500
Epoch 112/500

<keras.src.callbacks.History at 0x722134b20390>

Ok, agora você tem um modelo que foi treinado para aprender a relação entre `x` e `y`.

Você pode usar o método [`model.predict()`](https://keras.io/api/models/model_training_apis/#predict-method) para que ele descubra o `y` para um `x` previamente desconhecido.

Assim, por exemplo, se `x=10`, qual você acha que será `y`? Tente adivinhar antes de executar esse código:

In [7]:
# Fazer uma predição
print(model.predict([10.0]))

[[18.985237]]


Você deve ter pensado em "19", certo? Mas acabou ficando um pouco abaixo. Por que você acha que isso aconteceu? 

Lembre-se de que as redes neurais lidam com probabilidades:
> Portanto, com base nos dados que alimentamos o modelo, ele calculou que há uma probabilidade muito alta de que a relação entre `x` e `y` seja `y=2x-1`, mas com apenas 6 pontos de dados não podemos ter certeza.
> Com isso, o resultado para 10 é muito próximo de 19, mas não necessariamente 19.

Ao trabalhar com redes neurais, você verá que esse padrão é recorrente:
> Você quase sempre lidará com probabilidades, não com certezas, e fará um pouco de codificação para descobrir qual é o resultado com base nas probabilidades, principalmente quando se trata de classificação.
