Começaremos com a ideia geral do que são **redes neurais** e porque você deve se interessar por elas. Redes neurais (também conhecidas como **Redes neurais artificiais**) são uma classe de aprendizado de máquina que frequentemente é combinada com aprendizado profundo. A característica que define uma rede neural *profunda* é que ela possi duas ou mais **camadas ocultas**. É seguro dizer que a maioria das redes neurais são uma forma de aprendizado profundo:

![figura_1-2.png](attachment:figura_1-2.png)

***Figura 1.1***: Representação dos vários campos da inteligência artificial e onde elas se encaixam.

# Um Breve Histórico

Desde o advento dos computadores, cientistas veêm formulando maneiras de que as máquinas sejam capazes de receber entradas e retornar saídas desejadas para tarefas, por exemplo, de **classificação** e **regressão**. Além disso, em aprendizado de máquina há o aprendizado **supervisionado** e o **não supervisionado**. Aprendizado de máquina supervisionado é usado quando temos os dados pré-estabelecios e rotulados que serão usados para o treinamento. Suponhamos que você possui dados de sensores de um servidor que mede a taxa de uploads/downloads, temperatura e umidade a cada 10 minutos. Normalmente, esse servidor opera como o esperado e sem interrupções, porém algumas partes falham e causam uma pausa no servidor. Nós podemos coletar os dados e então dividí-los em duas classes: uma classe para tempo/observações quando o servidor estava em operação normal e a outra classe para tempo/observações quando o servidor estava parado. Quando o servidor está falhando, queremos o rotular os dados do sensor que levaram à falha, bem como os dados que precederam uma falha. Quando o servidor está operando normalmente, nós simplesmente rotularemos esses dados como "normal".

O que cada sensor mede nesse exemplo é chamado de *feature*. Um grupo de features compõem um conjunto de features (representado como vetores/matrizes) e o valor de um conjunto de features pode ser referido como uma amostra. As amostras são dadas aos modelos de redes neurais para treiná-las e que as mesmas retornem um resultado desejado a partir das entradas das amostras ou que prevejam algo durante a fase de inferência.

os rótulos "normal" e "falha" são **classificações** ou **rótulos**. Durante o seu estudo, você verá essas informações como **targets** ou **ground-truth**. Esses targets são as classificações que são a *meta* ou o *alvo*, sabidamente  *verdadeiras e corretas*, para o algoritmo aprender. Para esse exemplo, o foco do treino do algoritmo é ler o dado do sensor e predizer se uma falha é eminente. Isto é apenas um exemplo de aprendizado supervisionado para classificação. Para a regressão, os dados são usados para prever valores numéricos, como o preço de ações ou o aumento do combustível. Há também o aprenizado não supervisionado, onde o computador encontra estrutura nos dados sem conhecer os rótulos/classes antecipadamente. Há conceitos adicionais (como aprendizado por reforço e aprendizado semi-supervisionado), mas o foco desse estudo é a classificação e regressão com redes neurais, mas o que veremos aqui pode ser usado em outros casos.

Redes neurais foram criadas nos anos 1940, mas como treiná-las foi um mistério por 20 anos. O conceito de **backpropagation** surgiu nos anos 1960, porém as redes neurais não estavam recebendo tanta atenção até começar a ganhar competições em 2010. Desde então, redes neurais veêm crescendo de maneira astronômica devido às suas habilidades "mágicas" de resolver problemas que antes eram ditos como sem solução, como a legendagem de imagens, tradução de idiomas, síntese de áudio e vídeo e muitas outras coisas.

Atualmente, as redes neurais são a solução primária em competições e desafios de problemas que envolvem tecnologia, tais como: piloto automático em carros, cálculo de risco, detecção de frade, detecção de câncer e muitas outras áreas.

# O que é uma Rede Neural?

Rede neural "artificial" são inspiradas no cérebro humano, só que traduzidos para o computador. Não é uma comparação perfeita, mas há neurônio, ativações e muita interconectividade, mesmo que os processo subjacentes sejam bem distintos:

![figura_2-2.png](attachment:figura_2-2.png)

***Figura 1.2***: Comparaão de um neurônio biológico e um neurônio artificial.

Um único neurônio por si só não tem utilidade, mas quando combinados com centenas o milhares (até mais) com outros neurônios, a interconectividade produz relações e resultados que frequentemente superam qualquer outro método de aprendizado de máquina:

![figura_3-3.png](attachment:figura_3-3.png)

***Figura 1.3***: Exemplo de uma rede neural com 3 camadas ocultas e 16 neurônios cada.

![animacao_1-2.png](attachment:animacao_1-2.png)

***Animação 1.1***: https://nnfs.io/ntr/

A animação acima mostra os exemplos das estrturas de modelos e as quantidades de parâmetros que modelo precisa aprender a se ajustar para retornar os resultados esperados. Os detalhes do que é visto aqui são assuntos dos próximos capítulos.

Isso pode parecer um pouco complicado quando você observa dessa maneira. As redes neurais são consideradas "caixas pretas" (não igual ao dos aviões) em que muitas vezes não temos ideia do motivo que elas chegam às conclusões que chegam.

As *camadas densas*, a mais comum das camadas, consistem em interconectar os neurônios. Em uma camada densa, cada neurônio de uma determinada camada está conectado a cada neurônio da próxima camada, o que significa que o valor de saída de um neurônio é o valor de entrada do neurônio da camada seguinte. Cada conexão entre os neurônio possui um peso associado a ele, que um fator de treinamento de quanto dessa entrada usar e esse peso é multiplicado pelo valor de entrada. Uma vez que as entradas e os pesos fluem para o neurônio, eles são somados e um *bias* (outro parâmetro de treinamento) é adicionado. O propósito do bias é deslocar a saída positivamente ou negativamente, que frequentemente nos ajuda a mapear mais tipos de dados dinâmicos do mundo real.

O conceitos de pesos e biases podem ser considerados como "botões" que podem ser ajustaros para o treinamento do modelo. Em redes neurais, nós frequentement temos milhares ou milhões desses parâmetros ajustados pelo otimizador durante o treino. Você pode estar se perguntando: "por que não ter somente biases ou apenas os pesos?" Biases e pesos são ambos parâmetros ajustáveis e ambos têm impacto nas saídas dos neurônios, mas de maneiras diferentes. Como os pesos são multiplicados, eles mudarão apenas a magnitude ou mudarão o sinal do número (positivo e negativo). A equação da saída do neurônio não é tão diferente da função afim:

- Função afim: f(x) = ax + b


- Função do neurônio: saída = entrada.peso + bias

Podemos visualizar como:

![figura_4-2.png](attachment:figura_4-2.png)

***Figura 1.4***: Gráfico de uma única entrada do nerônio com peso = 1, bias = 0 e a entrada x.

Ajustando o peso temos um impacto na angulação da reta:

![figura_5-2.png](attachment:figura_5-2.png)

***Figura 1.5***: Gráfico de uma única entrada do neurônio com peso = 2, bias = 0 e entrada x.

Se aumentarmos o valor do peso, a angulação da reta torna-se mais íngreme. Se diminuirmos o valor do peso, a angulação dimini. Se deixarmos o valor do peso negativo, a angulação da reta torna-se negativa:

![figura_6-2.png](attachment:figura_6-2.png)

***Figura 1.6***: Gráfico de uma única entrada do neurônio com peso = -0.70, bias = 0 e entrada x.

Isso deve nos dar uma ideia de como o peso impacta no valor de saída do neurônio. Mas e o parâmetro bias? O deslocamento de bias atua na reta por completo:

![figura_7-2.png](attachment:figura_7-2.png)

***Figura 1.7***: Gráfico de uma única entrada com peso = 1, bias = 2 e saída x.

Ao aumentarmos o bias, a reta corta o eixo Y mais acima. Se diminuirmos o bias, a reta corta o eixo Y mais abaixo. Vejamos um exemplo com o bias negativo:

![figura_8-2.png](attachment:figura_8-2.png)

***Figura 1.8***: Gráfico de uma única entrada com peso = 1, bias = -0.70 e entrada x.

![animacao_2-2.png](attachment:animacao_2-2.png)

***Animação 1.2***: https://nnfs.io/bru/

Como podemos ver, pesos e biases impactam na saída dos neurônios, mas eles trabalham de maneira distinta. A forma como os pesos e oa bias influenciam será visto mais a frente quando falarmos de **funções de ativação**.

De modo geral, a etapa da função tenta mimetizar um neurônio cerebral. Na programação, um interruptor "liga e desliga" pode ser chamado de **função degrau** porque parece um degrau quando ela é representada graficamente:

![figura_9-2.png](attachment:figura_9-2.png)

***Figura 1.9***: Gráfico de uma função degrau.

Para a função degrau, se o valor de saída do neurônio, que é expressa por *sum(entradas.pesos) + bias*, for maior do que 0, o neurônio é ativado. Por outro lado, se o valor da saída for 0 ou menor, o neurônio não é ativado. A fórmula para um único neurônio é a seguinte:

In [None]:
saida = sum(entradas * pesos) + bias

Normalmente, usamos uma função de ativação para a saída:

In [None]:
saida = ativacao(saida)

Embora você possa usar uma função degrau para a sua função de ativação, tendemos a usar algo um pouco mais avançado. As redes neurais atuais tendem a usar funções de ativação mais informativas, como a função de ativação **Rectified Linear** (ReLU). A saída de cada neurônio pode ser uma parte da camada da saída final, bem como a entrada da outra camada de neurônios. Embora a função completa de uma rede neural possa ser muito grande, vejamos um simples exemplo com 2 camadas ocultas e 4 neurônios cada:

![figura_10-2.png](attachment:figura_10-2.png)

***Figura 1.10***: Exemplo básico de uma rede neural.

Junto com essas 2 camadas ocultas, temos mais duas camdas: a de entrada e a da saída. A camada de entrada representa o dado que será entregue à rede neural, por exemplo, valores de pixel de uma imagem ou a temperatura obtida por um sensor. Embora esse dado possa ser "bruto" quanto coletado, você frequentemente fará os processos de **normalização** e **escalonamento** dos dados, uma vez que os dados devem ser entrgues como números. Contudo, é comum processar os dados enquanto mantém suas características e tendo os valores em intervalos como 0 a 1 ou -1 a 1. Para chegar a esse formato, você precisar usar as funções de normalização e escalonamento. A camada de saída é o que a rede neural retorna. Com a classificação, onde o objetivo é predizer a classe que o dado de entrada pertence, a camada de saída geralmente possui muitos neurônios quanto o conjunto de dados de treino tem classes, mas poderemos ter somente um neurônio para a classificação binária. Por exemplo, se o seu objetivo é classificar uma coleção de fotos como "cachorro" ou "gato", você tem das classes no total. Isso quer dizer que a camada de saída terá somente dois neurônios: um para indicar "chachorro" e o outro, "gato". Você pode também ter um único neurônio na camada de saída que retorna "cachorro" ou "não é um cachorro":

![figura_11.png](attachment:figura_11.png)

***Figura 1.11***: Representação visual dos dados da imagem sendo passados pela rede neural, gerando uma classificação.

Para cada imagem informada nessa rede neral, a saída final terá um valor calculado para o neurônio de saída "gato" e "cachorro". O neurônio de saída que receber a maior pontuação será a previsão de classe para a imagem usada como entrada:

![figura_12.png](attachment:figura_12.png)

***Figura 1.12***: Representação visual dos dados da imagem sendo passados pela rede neural, gerando uma classificação.

![animacao_3.png](attachment:animacao_3.png)

***Animação 1.3***: https://nnfs.io/qtb/

A grande "culpada" por fazer a fama das redes neurais serem desafiadoras é a matemática usada. Por exemplo, vamos imaginar uma rede neural e o que acontece durante uma simples transmissão de dados e a matemática envolvida no processo. Redes neuraõ são na verdade um compilado de equações matemáticas que nós, programadores, transformamos em código. Para isso, não se preocupe em entender tudo. A ideia aqui é dar a você uma impressão do alto nível do que está acontecendo.

Abaixo você verá uma das funções matemáticas que as redes neurais utilizam, não se preocupe com o tamanho nem com os símbolos:

![figura_13.png](attachment:figura_13.png)

***Figura 1.13***: Fórmula completa da equação *forward* em um exemplo de modelo de rede neural.

![animacao_4.png](attachment:animacao_4.png)

***Animação 1.4***: https://nnfs.io/vkt/

Isso pode parecer confuso a primeira vista, mesmo que o que é mostrado acima é a parte mais fácil da rede neural. Para que fique tudo mais simples e o mais entendível possível, ao longo do estudo iremos codificar cada parte de uma rede neural, e, ao fazer isso, você deve perceber que o entendimento das funções (como a mostrada acima) torna-se mais fácil. Por exemplo, a função acima pode ser representada em uma função Python da seguinte forma:

In [None]:
# Importar a biblioteca
import numpy as np

# Criar a função de perda
loss = -np.log(
    np.sum(
        y * np.exp(
            np.dot(
                np.maximum(
                    0,
                    np.dot(
                        np.maximum(
                            0,
                            np.dot(
                                X,
                                w1.T
                            ) + b1
                        ),
                        w2.T
                    ) + b2
                ) + b3
        ) /
        np.sum(
            np.exp(
                np.dot(
                    np.maximum(
                        0,
                        np.dot(
                            np.maximum(
                                0,
                                np.dot(
                                    X,
                                    w1.T
                                ) + b1
                            ),
                            w2.T
                        ) + b2
                   ),
                   w3.T
               ) + b3
           ),
           axis=1,
           keepdims=True
))))

Há diversas funções que você ainda pode não estar familiarizado. Por conta disso, abaixo terão os links com toda a documentação de cada função:

- `np.log()`: https://numpy.org/doc/stable/reference/generated/numpy.log.html


- `np.sum()`: https://numpy.org/doc/stable/reference/generated/numpy.sum.html


- `np.exp()`: https://numpy.org/doc/stable/reference/generated/numpy.exp.html


- `np.dot()`: https://numpy.org/doc/stable/reference/generated/numpy.dot.html


- `np.maximum()`: https://numpy.org/doc/stable/reference/generated/numpy.maximum.html


- `np.ndarray.T`: https://numpy.org/doc/stable/reference/generated/numpy.ndarray.T.html

Depois de separarmos cada elemento. aprender como eles funcionam, consequentemente, as coisas não parecem ficar tão assustadoras e confusas. Nada da função acima necessita mais do que álgebra do ensino médio! No começo pode ser uma confusão entender como tudo funciona, mas quebrando em partes menores fica mais fácil de entender como cada pedaço funciona.

![animacao_5.png](attachment:animacao_5.png)

***Animação 1.5***: https://nnfs.io/vkr/

Uma rede neural típica possi mlhares ou até mesmo milhões de **parâmetros ajustáveis** (pesos e biases). Seguindo essa ideia, as redes neurais atuam como enormes funções com um vasto número de **parâmetros**. O conceito de uma função longa com milhões de variáveis que pode solucionar um problema não é muito difícil. Com muitas variáveis relacionadas aos neurônios, dispostos em camadas interconectadas, podemos imaginar que existe diversas combinações para essas variáveis que retornaram as saídas desejadas. Encontrar a combinação dos parâmetros (pesos e biases) é o verdadeiro desafio.

O objetivo final das redes neurais é ajustar os parâmetros para que sejam aplicados em entradas desconhecidas, gerando uma saída desejada. Quando os algoritmos de aprendizado de máquina supervisionado são treinados, nós mostramos ao modelo exemplos de entrada e suas saídas respectivas. Um dos grandes problemas dessa técnica é o **overfitting**. Esse problema acontece quando o modelo aprende somente com os dados de treino e não "entende" nada sobre as dependências de entrada/saída subjacentes. Nesse caso, a rede neural apenas "memorizou" os dados de treino.

Desde modo, usamos os dados "da amostra" para treinar o modelo e os dados "de fora da amostra" para validar a rede neural. Certos padrões são utilizados para auxiliar na criação do modelo, por exemplo, em um conjunto de dados de 100 mil amostrar (dados e rótulos), 10 mil desses dados serão separados para a etapa de validação, ou seja, o modelo treinará com 90 mil dados e será avaliada com 10 mil dados, sendo esses últimos dados que a rede neural nunca viu. O objetivo dessa etapa é qe o modelo não apenas preveja com uma boa precião os dados de treino, mas també seja capaz de prever com a mesma precisão os dados de validação que ele nunca viu.

Isso é chamado de **generalização**, isto é, o modelo aprendeu durante o treino ao invés de memorizar. A ideia é que "treinamos" (lento ajuste nos pesos e biases) uma rede neural com grandes quantidade de exemplos. Após o treino, entregamos os dados que o modelo nunca viu para que o mesmo retorne o que desejamos com a mesma precisão do treino.

Agora você deve ter um compreensão geral do que são as redes neurais, ou pelo menos qual é o objetivo e como planejamos atingir esse objetivo. Para treinar as redes neurais, nós calculamos o quão "errados" os algoritmos usados estão (chamado de **perda**) e tentar de modo lento o ajuste dos parâmetros (pesos e biases) que então, após várias iterações, o modelo gradualmente erra menos. O objetivo de todas as redes neurais é generalizar, o que significa que a rede neural pode receber diversos exemplos nunca antes vistos e acertar com precisão a saída desejada. Redes neurais podem ser usadas mais do que apenas para problemas de classificação (esse tipo de problema é o mais comum do uso de redes naurais). Podemos usá-las em problemas de regressão (prever um valor escalar), clusterização (atribuir dados não estruturados em grupos) e muitas otras tarefas.

Para os códigos deste capítulo, recursos e erratas:

![material_suplmentar.png](attachment:material_suplmentar.png)

***Material suplementar***: https://nnfs.io/ch1