Embora assumimos que todos nós aqui estamos longe de sermos iniciantes na programação, vamos começar devagar a explicar as coisas com calma. Para começar, estamos usando o `Notebook Jupyter` com a versão do `Python` na versão `3.7+`. Começaremos usando o jeito puro do `Python` para montar um neurônio, depois usaremos as bibliotecas `NumPy` para isso e a `Matplotlib`para a visualização gráfica.

Seguindo os passos desse estudo, poderemos criar os nosso neurônios somente com as funções nativas do `Python`, mas usar a biblioteca `NumPy` poupará tempo e recurso.

# Um Único Neurônio

Digamos que temos somente um neurônio e há três entradas para ele. Como na maioria dos casos, quando inicializamos os parâmetros para uma rede neural, os pesos usados na rede são escolhidos aleatoriamente e as biases começam em zero. Faremos isso daqui a pouco. A entrada poderá ser os dados de treino ou a saída dos neurônios anteriores. Agora criaremos os valores das três entradas:

In [1]:
# Entradas do neurônio
entradas = [1, 2, 3]

Cada entrada necessita de um peso associado. Entradas são dados que passamos ao modelo para que ele retorne uma saída desejada, enquanto os pesos são os parâmetros que usaremos para ajustar esses resultados. Os pesos são um tipo de valor que são mudados durante a fase de treino, bem como as biases que também mudam ao longo dessa fase. Os valores para os pesos e biases indicam se o modelo está funcionando ou não. Começaremos informando os pesos. De modo aleatório, informaremos os pesos:

In [2]:
# Entradas do neurônio
entradas = [1, 2 ,3]

# Pesos de cada entrada
pesos = [0.2, 0.8, -0.5]

Depois de configurados os pesos, adicionaremos o bias. Até esse momento, criamos um modelo de um único neurônio com três entradas. Como o nosso modelo possui somente um neurônio, termos apenas um valor de bias, uma vez que cada neurônio suporta somente um valor de bias. O bias é um valor adicional para o ajuste, mas não está associado com a entrada nem com os pesos. De modo aleatório, escolheremos um valor para o bias:

In [3]:
# Entradas do neurônio
entradas = [1, 2, 3]

# Pesos de cada entrada
pesos = [0.2, 0.8, -0.5]

# Bias no neurônio
bias = 2

Esse neurônio somo cada entrada multiplicada pelo peso associado a cada entrada e por fim, soma a bias. Todos os neurônios fazem isso, sendo a saída de cada neurônio o cálculo explicado acima. Nossa saída desse neurônio é:

In [4]:
# Obter o valor de saída do neurônio
saida = (entradas[0] * pesos[0]+
         entradas[1] * pesos[1]+
         entradas[2] * pesos[2] + bias)

# Mostrar o valor da saída
print(saida)

2.3


![figura_1.png](attachment:figura_1.png)

***Figura 2.1***: Visualização da matemática para o neurônio.

![animacao_1.png](attachment:animacao_1.png)

***Animação 1.1***: https://nnfs.io/bkr

Mas e se quisermos adicinar mais uma entrada, o que devemos fazer? Como cada entrada está associada com um peso, essa nova entrada deve ser multplicada por esse novo peso:

In [5]:
# Entradas do neurônio
entradas = [1.0, 2.0, 3.0, 2.5]

# Pesos de cada entrada
pesos = [0.2, 0.8, -0.5, 1.0]

# Bias do neurônio
bias = 2.0

A visualização gráfica do neurônio é mais ou menos assim:
![figura_2-2.png](attachment:figura_2-2.png)

***Figura 2.2***: Visualização de como as entradas, pesos e biases interagem com o neurônio

![animacao_2.png](attachment:animacao_2.png)

***Animação 2.2***: https://nnfs.io/djp

Juntando todo o código, incluindo a nova entrada e o novo peso, a saída será:

In [6]:
# Entradas do neurônio
entradas = [1.0, 2.0, 3.0, 2.5]

# Pesos de cada entrada
pesos = [0.2, 0.8, -0.5, 1.0]

# Bias do neurônio
bias = 2.0

# Obter o valor da saída do neurônio
saida = (entradas[0] * pesos[0]+
         entradas[1] * pesos[1]+
         entradas[2] * pesos[2]+
         entradas[3] * pesos[3] + bias)

# Mostrar a saída
print(saida)

4.8


![figura_3.png](attachment:figura_3.png)

***Figura 2.3***: Visualização da matemática para o neurônio.

![animacao_3.png](attachment:animacao_3.png)

***Animação 2.3***: https://nnfs.io/djp

# Uma Camada de Neurônios

Uma rede neural típica possui camadas de mais de um neurônio. Camadas não são nada além de grupos de neurônios. Cada neurônio em uma camada recebe a mesma entrada, mas contêm seus próprios pesos e biases, gerando saídas únicas. A saída da camada é um conjunto dessas saídas (uma por neurônio). Vejamos como é a representação gráfica de 3 neurônios e 4 entradas:

![figura_4.png](attachment:figura_4.png)

***Figura 2.4***: Visualização de uma camada de neurônios com entrada em comum.

![animacao_4.png](attachment:animacao_4.png)

***Animação 2.4***: https://nnfs.io/mxo

Manteremos as 4 entradas do neurônio único e os mesmos pesos para o primeiro neurônio. Colocaremos mais 2 conjuntos de pesos e mais 2 biases para os novos neurônios. Ao final, teremos uma saída com 3 valores, não 1 como antes, uma vez que temos 3 neurônios agora:

In [7]:
# Entrada dos neurônios
entradas = [1, 2, 3, 2.5]

# Pesos de cada neurônio
pesos_1 = [0.2, 0.8, -0.5, 1]
pesos_2 = [0.5, -0.91, 0.26, -0.5]
pesos_3 = [-0.26, -0.27, 0.17, 0.87]

# Biases dos neurônios
bias_1 = 2
bias_2 = 3
bias_3 = 0.5

# Saídas da camada
saidas = [
    # Neurônio 1:
    entradas[0] * pesos_1[0]+
    entradas[1] * pesos_1[1]+
    entradas[2] * pesos_1[2]+
    entradas[3] * pesos_1[3]+ bias_1,
    
    # Neurônio 2:
    entradas[0] * pesos_2[0]+
    entradas[1] * pesos_2[1]+
    entradas[2] * pesos_2[2]+
    entradas[3] * pesos_2[3]+ bias_2,
    
    # Neurônio 3:
    entradas[0] * pesos_3[0]+
    entradas[1] * pesos_3[1]+
    entradas[2] * pesos_3[2]+
    entradas[3] * pesos_3[3]+ bias_3
]

# Mostrar as saídas
print(saidas)

[4.8, 1.21, 2.385]


![figura_5.png](attachment:figura_5.png)

***Figura 2.5***: Visualização da matemática para uma camada.

![animacao_5.png](attachment:animacao_5.png)

***Animação 2.5***: https://nnfs.io/mxo

No código acima, temos 3 conjuntos de pesos e biases, cada um destinado para um único neurônio. Cada neurônio está *conectado* com a mesma entrada. A diferença é o valor dos pesos e bias que cada neurônio utiliza. Essa rede neural é conhecida como **rede neural totalmente conectada**. Todo neurônio na mesma camada possui conexões com a camada anterior. Esse tipo de rede neural é muito comum, mas podemos notar que juntar todos os neurônios de uma camada manualmente é uma tarefa bem chata e passível de erro. Até agora vimos o código para somente uma camada com alguns neurônios. Imagine conidifcar mais camadas e com muitos neurônios em cada camada. Isso é um grande desafio para fazer usando os nosso métdos vistos até agora. Ao invés disso, podemos usar um loop para automatizar essa tarefa. Colocaremos os pesos em uma lista de pesos para que possamos iterar sobre eles e mudaremos o código para que sejam usados loops ao invés de operações complicadas:

In [8]:
# Entradas dos neurônios
entradas = [1, 2, 3, 2.5]

# Pesos dos neurônios
pesos = [
    [0.2, 0.8, -0.5, 1],
    [0.5, -0.91, 0.26, -0.5],
    [-0.26, -0.27, 0.17, 0.87]
]

# Biases dos neurônios
biases = [2, 3, 0.5]

# Saída da camada
saidas = []

# Loop para cada neurônio
for pesos_neuronio, bias_neuronio in zip(pesos, biases):
    # Zerar a saída de cada neurônio
    saida_neuronio = 0
    
    # Loop para cada entrada e pesos do neurônio
    for entrada, peso in zip(entradas, pesos_neuronio):
        # Multiplicar a entrada pelo peso associado e
        # adicionar ao valor da saída do neurônio
        saida_neuronio += entrada * peso
    
    # Adicionar o bias do neurônio
    saida_neuronio += bias_neuronio
    
    # Colocar a saída do neurônio na lista "saidas"
    saidas.append(saida_neuronio)
    
# Mostrar as saídas
print(saidas)

[4.8, 1.21, 2.385]


O que fizemos aqui foi a mesma coisa que fizemos antes, mas um pouco mais dinâmico. Se você estiver um pouco confuso com o que está acontecendo, use a função **print()** para saber o que ocorre a cada linha. A função **zip()** nos permite iterar sobre várias variáveis (no caso, listas) simultaneamente. Novamente, o que estamos fazendo aqui é para cada neurônio, pegar uma entrada, multiplicar pelo peso associado e adicionar o valor do bias ao final do loop. Por fim, colocamos em uma lista a saída de cada neurônio.

É isso! Como sabemos que temos três neurônios? E por que temos três? Para saber quantos neurônios há na camada, basta analisar quantos pesos e biases temos. Conforme você for criando redes neurais por conta própria, você decidirá quantos neurônios terá em cada camada. Você pode combinar quantas entradas você tem com quantos neurônios você desejar. Conforme você progride nos notebooks, você ganhará alguma intuição de quantos neurônios poderão ser usados por camada. Começaremos com poucos neurônios para que você entenda a essência das rede neurais.

Como o código acima utiliza loops, podemos modificar o quantidade de entradas ou o número de neurônios na camada, ou qualquer coisa que seja possível fazer com uma camada. Como dito no começo desse notebook, seria um desserviço não mostrar o `NumPy` aqui, pois o `Python` não realiza a matemática de matriz/tensor/array de modo eficiente. Mas primeiro, a razão da biblioteca de aprendizado profundo mais famosa do `Python`ser chamada de `TensorFlow` é que ela realiza as operações em **tensores**.

# Tensores, Arrays e Vetores

*O que são __tensores__?*

Tensores são *parentes* dos arrays, mas com diferenças sutis. Para entender os tensores, vamos compara e descrever outras estruturas de dados em `Python`. Vamos começar com uma lista. Uma lista `Python` é definida por objetos dentro de colchetes separados por vírgulas, o que usamos até aagora foram listas. Um exemplo de lista:

In [9]:
lista = [1, 5, 6, 2]

Uma lista de lista:

In [10]:
lista_de_listas = [[1, 5, 6, 2],
                   [3, 2, 1, 1]]

Uma lista de listas de listas (que confusão!):

In [11]:
lista_de_listas_de_listas = [
    # Lista 1:
    [[1, 5, 6, 2],
     [3, 2, 1, 3]],
    
    # Lista 2
    [[5, 2, 1, 2],
     [6, 4, 8, 4]],
    
    # Lista 3
    [[2, 8, 5, 3],
     [1, 1, 9, 4]]
]

O que vimos aqui pode ser um array ou um array representando um tensor. Uma lista é apenas uma lista e pode ter qualquer formato, até mesmo tamanho de listas diferentes:

In [12]:
outra_lista_de_listas = [[4, 2, 3],
                         [5, 1]]

A lista acima ***NÃO*** pode ser considerada um array porque não é **homologa**. Uma lista de listas é homologa quando cada lista possui a mesma dimesão (tamanho das listas) e deve ser verdade para qualquer dimesão. No casoacima, temos uma lista de dimensão 2. Essa dimensão indica a quantidade de listas presentes na lista. A segunda dimensão é o tamanho de cada lista dentro da lista mãe, no caso a primeira lista tem dimensão 3 e a segunda, 2. No código acima, lemos através da dimensão "linha" (conhecida como segunda dimensão). A primeira lista possui 3 elementos e a segunda 2 elementos, ou seja, não é homologo e por isso não é um array. Embora analisar a lista em uma dimensão já seja suficiente para provar que não é um array, podemos analisar a dimensão "coluna" (conhecida como primeira dimensão); as duas primeiras colunas possuem 2 elementos e a terceira coluna somente 1. Vale ressaltar que as dimensões não precisam ter o mesmo tamanho, é perfeitamente aceitável que um array possa ter 3 colunas (primeira dimensão) e 4 linhas (segunda dimensão).

Uma matriz é muito simples. É um array retangular, possui colunas e linhas e é bidimensional. Logo, uma matriz pode ser um array (um array 2D). Mas todos os arrays podem ser matrizes? É... não! Um array pode ser mais do que apnas colunas e linhas, pode ter quatro dimensões, 20 e assim por diante.

In [13]:
lista_matriz_array = [[4, 2],
                      [5, 1],
                      [8, 2]]

A célula acima pode ser considera uma matriz válida por conta das colunas e linhas, logo pode ser considerado um array. O *shape* (formato) desse array é 3x2, ou da maneira certa de escrever o shape: (3, 2), indicando que há 3 colunas e 2 linhas.

Para denotar um shape, precisamos verificar cada dimensão. Como já aprendemos, uma matriz é um array 2D. A primeira dimensão é o que tem dentro do primeiro par de colchetes, se olharmos para dentro desse par de colchete veremos 3 listas: [4, 2], [5, 1] e [8, 2]; portanto o tamanho dessa dimensão é 3 e cada uma dessas listas possui o mesmo shape para formar um array (e uma matriz nesse caso). O próximo tamanho de dimensão é o número de elementos dentro dos colchetes internos da lista, e podemos ver que todos eles possuem 2 elementos.

Com um array 3D, como a *lista_de_listas_de_listas*, temos 3 níveis dentro da lista:

In [14]:
lista_de_listas_de_listas = [
    # Lista 1:
    [[1, 5, 6, 2],
     [3, 2, 1, 3]],
    
    # Lista 2
    [[5, 2, 1, 2],
     [6, 4, 8, 4]],
    
    # Lista 3
    [[2, 8, 5, 3],
     [1, 1, 9, 4]]
]

O primeiro nível é array com 3 matrizes:

In [15]:
matriz_1 = [[1, 5, 6, 2],
            [3, 2, 1, 3]]

matriz_2 = [[5, 2, 1, 2],
            [6, 4, 8, 4]]

matriz_3 = [[2, 8, 5, 3],
            [1, 1, 9, 4]]

Ao analizarmos a lista com todas as listas, temos 3 listas internas, portante a dimensão é 3 (primeiro nível). Se olharmos para a primeira matriz, podemos ver que contém duas listas ([1, 5, 6, 2] e [3, 2, 1, 3]), logo a dimensão é 2, embora a matriz interna tenha 4 elementos (segundo nível). Esses 4 elementos formam o terceiro nível e a última dimensão da matriz, pois não há colchetes internos nesse nível.

Portanto, o shape desse array é (3, 2, 4) e é um array 3D, porque o shape contém 3 dimensões:

![figura_6.png](attachment:figura_6.png)

***Figura 2.6***: Exemplo de um array 3D.

![animacao_6.png](attachment:animacao_6.png)

***Animação 2.6***: https://nnfs.io/jps

Depois de vermos tudo isso, o que é um tensor? Quando começamos a discussão entre tensores e arrays no contexto da ciência da computação, usamos um bom tempo para explicar esse debate. A intensidade desse debate parece ser causado pelo fato das pessoas argumentarem de diferentes lugares. A pergunta não é se um tensor é apenas um array, mas sim: "O que é um tensor, para um cientista da computação, dentro do contexto de aprendizado profundo?" Acredito que podemos responder em uma linha.

*Um objeto tensor é um objeto que pode ser representado com um array.*

Isso quer dizer, como programadores que podemos (e faremos) tratar tensores como arrays no contexto de aprendizado profundo. Mas todos os tensores *são apenas* arrays? Não, mas representaremos como arrays em nossos códigos, isto é, para nós, são somente arrays.

Mas o que é um array? Nesse estudo definiremos um array como uma ordenação homologa de números. Usaremos essa nomenclatura com mais ênfase com a biblioteca `NumPy`, uma vez que esse pacote utiliza essa nomenclatura. Um array linear, chamado de array 1D, é o exemplo mais simples de um array, para o `Python` é como se fosse uma lista. Arrays podem consistir de dados multidimensionais e um bom exemplo é a matriz utilizada na matemática, que é representada como um array 2D. Cada elemento desse array pode ser acessado usano uma tupla de índices como uma chave, o que indica que podemos recuperar qualquer elemento do array.

Precisamos aprender mais uma noção, um vetor. Simplesmente, um vetor em matemática é o que chamamos de lista em `Python` ou um array 1D no `NumPy`. É claro, listas e arrays `NumPy` não possuem as mesmas propriedades de um vetor, mas como podemos escrever uma matriz sendo uma lista de lista em `Python`, também podemos escrever um vetor como uma lista ou um array!. Além disso, podemos ver o vetor algébrico (matemático) como um conjunto de números dentro de colchetes. Isso é contrastante ao olhar físico, onde a representação de um vetor é feito por setas, caracterizando magnitune e direção.

# Produto Escalar e Adição Vetorial

Vejamos agora a multiplicação vetorial, isso é uma das operações mais importantes quando performamos vetores. Podemos atingir o mesmo objetivo usando o método de `Python` puro na criação do nosso neurônio artificial aplicado nos vetores utilizando um **produto escalar**. Tradicionalmente, utilizamos produtos escalares para vetores e podemos nos referir o que estamos fazendo aqui como trabalhar com vetores, assim como podemos chamá-los de "tensores". Todavia, isso parece aumentar o misticismo das redes neural (como se fossem esses objetos em um espaço vetorial multidimensional que nunca entenderemos). Continue pensando nos vetores como arrays 1D ou uma lista em `Python`.

Por conta das diversas variáveis e interconexões criadas, podemos criar um modelo bem complexo e de relações não-lineares com funções de ativação não-linear. Para isso devemos isar a produto escalar. O usaremos porque precisamos de resultados para os cálculos sem muita bagunça. Você pode fazer o produto escalar com matemática básica. Quando multiplicamos vetores, você performa um produto escalar ou um produto cruzado. Um produto cruzado resulta em um vetor, enquanto um produto escalar resulta em um escalar (um único valor/número).

Primeiro, vamos entender o que um produto escalar de dois vetores é. Os matemáticos os descrevem como:

![equacao_1.png](attachment:equacao_1.png)

***Equação 2.1***: Equação do produto escalar.

Um produto escalar de dois vetores é a soma de produtos consecutivos de elementos vetorizados. Ambos os vetores devem ter o mesmo tamanho, mesma quantidade de elementos.

Vamos escrever como um produto escalar é calculado com o `Python`. Para isso, teremos dois vetores que podem ser representados como duas listas `Python`. Então, multiplicamos os elementos de mesmo índice e adicionamso tudo ao resultado do produto. Ou seja, temos duas listas atuando como vetores:

In [16]:
# Criar os vetores
a = [1, 2, 3]
b = [2, 3, 4]

# Obter o produto escalar
produto_escalar = a[0]*b[0] + a[1]*b[1] + a[2]*b[2]

# Mostrar o produto escalar
print(produto_escalar)

20


![figura_7.png](attachment:figura_7.png)

***Figura 2.7***: Matemática por trás do exemplo do produto escalar.

![animacao_7.png](attachment:animacao_7.png)

***Animação 2.7***: https://nnfs.io/xpo

Agora, e se chamarmos *a* de "entrada" e *b* de "presos"? Por incrével que pareça, as operações do produto escalar começam a ficar parecidas com o que já vimos nas seções anteriores. Nós precisamo multiplicar nossos pesos e entradas de mesmo índice e somar os resultados juntos. O produto escalar performa o mesmo tipo de operação, logo, faz sentido o usarmos aqui. Retornando ao código da rede neural, vamos usar o produto escalar nela. As funções e métodos integrados do `Python` não coneguem resolver bem as operações necessárias, para isso usaremos o pacote `NumPy`.

Ainda falta nessa seção a adição vetorial. Nessa operação, ao invés de somar os produtos de cada item dos vetores, somaremos os valores de mesmo índice e será retornado um vetor de mesmo tamanho que os vetores somados; diferente do produto escalar, onde nos é retornado um único valor:

![equacao_2.png](attachment:equacao_2.png)

***Equação 2.2***: Equação da soma vetorial.

Vejamos como fazer isso somente com o `Python`:

In [17]:
# Criar os vetores
a = [1, 2, 3]
b = [2, 3, 4]

# Obter a soma vetorial
soma_vetorial = [a[0]+b[0], a[1]+b[1], a[2]+b[2]]

# Mostrar a soma vetorial
print(soma_vetorial)

[3, 5, 7]


# Um Único Neurônio com `NumPy`

Vamos usar o `NumPy` para criar o produto escalar e a adição vetorial de uma única vez. Fazer isso torna o código muito mis fácil de ler e escrever (além de deixá-lo mais rápido):

In [18]:
# Importar a biblioteca
import numpy as np

# Entradas do neurônio
entradas = [1.0, 2.0, 3.0, 2.5]

# Pesos de cada entrada
pesos = [0.2, 0.8, -0.5, 1.0]

# Bias do neurônio
bias = 2.0

# Saida do neurônio
saida = np.dot(pesos, entradas) + bias

# Mostrar o valor da saída
print(saida)

4.8


O que foi feito na célula acima foi o que fizemos no começo desse notebook, só que aqui de um modo muito mais rápido e eficiente.

![animacao_8.png](attachment:animacao_8.png)

***Animação 2.8***: https://nnfs.io/blq

# Uma Camada de Neurônios com `NumPy`

Voltamos agora à nossa camada de 3 neurônios, o que nos diz que os pesos podem ser uma matriz ou um vetor. Em `Python` puro, escrevemos isso como uma lista de listas. Com `NumPy`, isso poderá ser um array 2D, que chamamos de matriz. Na nossa primeira camada de exemplo, multiplicamos os pesos com uma lista contendo entradas, que resultavam em uma lista com as saídas de cada neurônio.

Nós também mostramos o produto escalar de dois vetores, mas os pesos agora são uma matriz e precisamos criar um produto escalar e um vetor de entrada. O `NumPy` faz isso de modo muito fácil, tratando essa matriz como uma lista de vetores e cria o produto escalar um por um com o vetor de entrada, retornando uma lista desses produtos.

O resultado do produto escalar, no nosso caso, é um vetor (ou uma lista) da somatória do produto dos pesos e entradas de cada neurônio. A partir daqui, precisamos adicionar as biases correspondentes de cada neurônio. As biases podem ser adicionadas facilmente ao resultado do produto escalar como um vetor de mesmo tamanho. Podemos usar uma lista `Python` aqui, o `NumPy` converte como array automaticamente.

Anteriormente, calculamos a saída de cada neurônio pelo produto escalar com o bias, um por um. Agora mudamos a ordem dessas operações: faremos primeiro o produto escalar de todos os neurônios e depois adicionamos o bias. Quando somamos dois vetores usando o `NumPy`, cada *enésimo* elemento é somado, resultando em um vetor de mesmo tamanho. Isso simplifica e otimiza o código, o deixando mais rápido e intuitivo:

In [19]:
# Importar a biblioteca
import numpy as np

# Entradas dos neurônios
entradas = [1.0, 2.0, 3.0, 2.5]

# Pesos dos neurônios
pesos = [
    [0.2, 0.8, -0.5, 1],
    [0.5, -0.91, 0.26, -0.5],
    [-0.26, -0.27, 0.17, 0.87]
]

# Biases dos neurônios
biases = [2.0, 3.0, 0.5]


# Saídas dos neurônios
saidas = np.dot(pesos, entradas) + biases

# Mostrar o vetor das saídas
print(saidas)

[4.8   1.21  2.385]


![animacao_9.png](attachment:animacao_9.png)

***Animação 2.9***: https://nnfs.io/cyx

Essa sintaxe envolve o produto escalar dos pesos e entradas seguido pelo vetor de adição das biases, sendo essa maneira a mais comum usada para representar o cálculo de *entradas.pesos+bias*. Para explicar a ordem dos parâmetros usados em **np.dot()**, devemos pensar o que vem primeiro definirá o shape de saída. No nosso caso, passamos uma lista com os pesos dos neurônios primeiro e depois as entradas. Como visto, um produto escalar de uma matriz e um vetor resulta em uma lista desse produto. O método **np.dot()** trata a matriz como uma lista de vetores e cria um produto escalar para cada um desses vetores com outro vetor. Nesse exemplo, usamoa essa propriedade para passar uma matriz, que é um vetor com os pesos de cada neurônio e um vetor de entrada para obter a lista com os produtos escalares, ou seja, obter as saídas dos neurônios.

# Um Lote de Dados

Para treinar um rede neural, precisamos passar **lotes de dados**. O exemplo de entrada que temos possui apenas uma amostra (ou **obsrvação**) de vários recursos:

In [20]:
# Entradas dos neurônios
entradas = [1, 2, 3, 2.5]

Imagine que cada número é um valor de um sensor diferente, como vimos no Notebook 1, trabalhando simultaneamente. Cada um desses valores é um dado observado e juntos eles formam um **conjunto de recursos**, também conhecidos como **observação** ou mais comum, **amostra**:

![figura_8.png](attachment:figura_8.png)

***Figura 2.8***: Visualização de um array 1D.

![animacao_10.png](attachment:animacao_10.png)

***Animação 2.10***: https://nnfs.io/lqw

Frequentemente, as redes neurais esperam usar muitas **amostras** por duas razões. A primeira é que é mais rápido treinar lotes em paralelo e a segunda, é que esses lotes ajuda com a generalização durante o treinamento. Se você ajustar uma amostra por vez, provavelmente você ficará ajustando essa amostra ao invés de produzir lentamente ajustes gerais de pesos e biases que se ajustem a todo o conjunto de dados. Ajustar ou treinar em lotes fornece uma maior chance de realizar alterações mais siginificativas nos pesos e biases. Para o conceito de montagem em lotes ao invés de uma amostra por vez, a animação abaixo pode ajudar:

![figura_9.png](attachment:figura_9.png)

***Figura 2.9***: Exemplo de uma equação linear ajustada com lotes de 32 amostras.

![animacao_11.png](attachment:animacao_11.png)

***Animação 2.11***: https://nnfs.io/vyu

Um exemplo de lote de dados se parece assim:

![figura_10.png](attachment:figura_10.png)

***Figura 2.10***: Exemplo de um lote, com seu shape e tipo.

![animacao_12.png](attachment:animacao_12.png)

***Animação 2.12***: https://nnfs.io/lqw

Podemos usar, no nosso caso, listas para armazenar uma amostra como multiplas amostras para criar um lote de observações. Um exemplo de lote de observações, cada um com sua amostra, se parece com isso:

In [21]:
# Criação de um lote
entradas = [
    [1, 2, 3, 2.5],
    [2, 5, -1, 2],
    [1.5, 2.7, 3.3, -0.8]
]

Essa lista de listas pode ser convertida em um array, desde que seja homologo. Observe que cada "lista" nessa grande lista é uma amostra representando o conjunto de recursos. [1, 2, 3, 2.5], [2, 5, -1, 2] e [1.5, 2.7, 3.3, -0.8] são todas **amostras**, e também podem ser chamadas de **conjunto de recursos** ou **observações**.

Temos uma matriz com as entradas e uma matriz com os pesos e precisamos criar o produto escalar de algum modo, mas como obteremos esse produto? De modo parecido, criamos um produto escalar com uma matriz e um vetor, tratamos a matriz como uma lista de vetores que resultou em uma lista dos produtos escalares. Nesse exemplo, Precisamos gerenciar ambas as matrizes como listas de vetores e criar o produto escalar com todos os valores, resultando em uma lista de listas de saídas, ou simplesmente uma matriz. Essa operação é conhecida como **produto de matriz**.

# Produto de Matriz

O **produto de matriz** é uma operação onde duas matrizes sofrem operações dos produtos escalares com todas as linhas da primeira matriz com todas as colunas da segunda matriz, resultando em uma matriz de **produto escalar**:

![figura_11.png](attachment:figura_11.png)

***Figura 2.11***: Visualização de uma matriz de produto de matriz.

![animacao_13.png](attachment:animacao_13.png)

***Animação 2.13***: https://nnfs.io/jei

Para criar um produto de matriz, o tamanho da segunda dimensão da primeira matriz deve ser o mesmo tamanho da primeiro dimensão da segunda matriz. Por exemplo, se a primeira matriz possui um shape (5, 4) e a segunda matriz um shape (4, 7), elas podem fazer o produto de matriz. O shape final é um array de tamanho com a primeira dimensão da primeira matriz e com a segunda dimensão da segunda matriz, (5, 7). Outro exemplo, a primeira matriz tem um chape de (5, 4) e  e a segunda matriz um shape de (4, 5). A matriz final terá um shape (5, 5).

Para deixar mais claro, também podemos criar um produto de matriz com vetores. Na matemática, podemos chamar qualquer coisa de vetor de coluna ou vetor de linha. Os vetores que representam matrizes com um dimensão possuem tamanho 1:

![figura_12.png](attachment:figura_12.png)

***Figura 2.12***: Representação de vetores de tamanho 1.

*a* é um vetor de linha. Esse vetor é muito parecido com o que vimos anteriormente (um *a* com seta). A diferença da escrita entre vetor de linha e vetor é que nos vetores os valores são separados por vírgulas e há uma seta acima do *a*. Um vetor de linha é uma linha da matriz. Por outro lado, *b* é chamado de vetor de coluna porque veio de uma coluna da matriz. Como vetores de linha e colunas são tecnicamente matrizes, não os chamaremos de vetores mais.

Quando criamos um produto de matriz entre eles, o resultado também é uma matriz, mas contém somente um valor:

![figura_13.png](attachment:figura_13.png)

***Figura 2.13***: Produto de linha de vetor e coluna de vetor.

![animacao_14.png](attachment:animacao_14.png)

***Animação 2.14***: https://nnfs.io/bkw

Em outras palavras, vetores de linha e coluna são matrizes com uma dimensão de tamanho 1, e as criamos pelo **produto de matriz** ao invés de **produto escalar**, que resulta em uma matriz de um único valor. Nesse caso, criamos uma matriz multiplicando as matrizes com shape (1, 3) e (3, 1), resultando em um aray com shape (1, 1) ou tamanho 1x1.

# Transposição de Produdo de Matriz

Como fomos cair em dois vetores de linha e coluna? Para isso, usamos a relção de produto escalar e produto de matriz para mostrar que um produto escalar de dois vetores é igual a um produto de matriz de vetores de linha e coluna (as setas acima das letras definem que são vetores):

![equacao_3.png](attachment:equacao_3.png)

***Equacao 2.3***: Equação geral da transposição de matriz.

Nós também simplificamos um pouco, não mostrando que o vetor de coluna *b* na verdade um vetor **transposto** de *b*. A própria equação de produto escalar dos vetores *a* e *b* escritos como produto de matriz se parece assim:

![equacao_4.png](attachment:equacao_4.png)

***Equação 2.4***: Equação dos vetores *a* e *b*.

A partir dessa equação estamos aprendendo mais uma operação, a **transposição**. A tranposição modifica a matriz de um modo que as linhas virem as colunas e as colunas virem linhas:

![figura_16.png](attachment:figura_16.png)

***Figura 2.16***: Exemplo de um array de transposição.

![animacao_15.png](attachment:animacao_15.png)

***Animação 2.15***: https://nnfs.io/qut

![figura_17.png](attachment:figura_17.png)

***Figura 2.17***: Exemplo de um array de transposição.

![animacao_16.png](attachment:animacao_16.png)

***Animação 2.16***: https://nnfs.io/pnq

Agora precisamoa voltar a definição de vetores de linha e coluna para atualizar o que acabamos de aprender.

Um vetor de linha é uma matriz onde o tamanho da primeira dimensão (número de linhas) é igual a 2 e o tamanho da segunda dimensão (número de colunas) igual a *n* (tamanho do vetor). Em outras palavras, um vetor de linha tem um tamanho de 1xn ou um shape (1, n):

![equacao_5.png](attachment:equacao_5.png)

***Equação 2.5***: Representação de um vetor de linha genérico.

Como o `NumPy` e 3 valores, definimos um vetor de linha como:

In [22]:
# Importar a biblioteca
import numpy as np

# Criar um vetor de linha
np.array([[1, 2, 3]])

array([[1, 2, 3]])

Usamos colchetes duplos aqui. Para transformar uma lista em uma matriz contendo uma única linha (mesma coisa que criar um vetor de linha a partir de um vetor), podemos colocar essa lista em um array numpy:

In [23]:
# Importar a biblioteca
import numpy as np

# Criar a lista
a = [1, 2, 3]

# Criar o array numpy
np.array([a])

array([[1, 2, 3]])

Novamente, observe que usamos os colchetes antes de transformar a lista em um array. Além dessa forma, há outra possível com o método **expand_dims()** do `NumPy`:

In [24]:
# Importar a biblioteca
import numpy as np

# Criar a lista
a = [1, 2, 3]

# Expandir as dimensões no eixo X
np.expand_dims(np.array(a), axis=0)

array([[1, 2, 3]])

Para informar a **expand_dims()** qual dimensão deve ser expandida, basta passar o índice para o parâmeto *axis*.

Um vetor de coluna é uma matriz onde o tamanho da segunda dimensão é igual a 1. Em outras palavras, um vetor de coluna possui tamanho nx1 ou um shape (n, 1):

![equacao_6.png](attachment:equacao_6.png)

***Equação 2.6***: Representação de um vetor de coluna genérico.

Com o `NumPy`, esse vetor pode ser criado da mesma forma que o vetor anterior, mas precisa passar pela operação de transposição (essa operação transforma linha em coluna e coluna em linha):

![equacao_7.png](attachment:equacao_7.png)

***Equação 2.7***: Representação da operação de transposição genérica.

Quando transformamos o vetor *b* em um vetor de linha *b*, usamos o mesmo método para transformar o vetor *a* em vetor de linha *a*, para então realizarmos a transposição do vetor de linha *b* em um vetor de coluna *b*:

![equacao_8.png](attachment:equacao_8.png)

***Equação 2.8***: Representação da transposição do vetor de linha *b*.

Com o `NumPy` fica assim:

In [25]:
# Importar a biblioteca
import numpy as np

# Criar as listas
a = [1, 2, 3]
b = [2, 3, 4]

# Transformar em vetor de linha
a = np.array([a])

# Transformar em vetor de coluna
b = np.array([b]).T

# Produto de matriz
np.dot(a, b)

array([[20]])

Nós atingimos o mesmo resultado que o produto escalar dos dois vetores, mas usando matrizes para retornar uma matriz, exatamente o que esperávamos. Vale mencionar que o `NumPy` não possui uma função dedicada ao produto de matriz, tanto o produto escalar como o produto de matriz utilizam a mesma função: **np.dot()**.

Como podemos ver, para criar um produto de matiz comdois vetores, pegamos um depois e transformamos em vetor de linha e o segundo, fazemos a sua transposição para transformá-lo em um vetor de coluna. Criamos um produto de matriz que nos retorna uma matriz com um valor somente. Nós também criamos um produto de matriz com dois arrays para aprender como o produto de matriz funciona, essa operação gera uma matriz de produtos escalares com todas as combinações de vetores de linha e coluna.

# Uma Camada de Neurônios e Lote de Dados com `NumPy`

Vamos voltar às nossas entradas e pesos, quando os vimos, mencionamos que precisamos criar produtos escalares em todos os vetores que constituem as matrices de entrada e peso. Como acabamos de aprender, isso é a criação de produto de matriz. Nós apenas precisamos criar uma transposição no segundo argumento, que no caso é a matriz com os pesos, para transformar os vetores de linha em vetores de coluna.

Inicialmente, somo capazes de criar o produto escalar das entradas e peses sem a transposução, uma vez que os pesos são uma matriz, mas a entrada é apenas um vetor. Nesse caso, o produto escalar resulta em um vetor de produto escalar em cada linha de uma matriz e isso é um único vetor. Quando as entradas viram lotes de entradas (uma matriz), precisamos criar o produto de matriz. Essa operação pega todas as linhas da matriz esquerda (entradas) e todas as colunas da matriz direita (pesos), criando ao final um produto escalar e os resultados são um array. Ambos os arrays possuem o mesmo shape, porém, ao criar um produto de matriz, o valor do índice 1 da primeira matriz e o valor do índice 0 da segunda matriz deve ser o mesmo (na figura abaixo eles ainda não são os mesmos):

![figura_18-2.png](attachment:figura_18-2.png)

***Figura 2.18***: Explicação do porque devemos transpor um produto de matriz.

Se transpusermos o segundo array, os índices do shape trocam de posição:

![figura_19-2.png](attachment:figura_19-2.png)

***Figura 2.19***: Após a transposição, podemos criar o produto de matriz.

![animacao_17.png](attachment:animacao_17.png)

***Animação 2.17***: https://nnfs.io/crq

Se olharmos para essa perspectiva das entradas e pesos, precisaremos criar um produto escalar para cada entrada e cada peso. O produto escalar pega a primeira linha do primeiro array e a primeira coluna do segundo array, mas até agora os dados que serão combinados em ambos os arrays estão dispostos em linha. Transpondo o segundo array, as linhas viram colunas, tornando possível a criação do produto de matriz. Essa operação nos retorna uma matriz com todos os produtos escalares que foram calculados. A matriz resultante consiste de saídas de todos os neurônios após os cálculos feitos com todas as amostras:

![figura_20.png](attachment:figura_20.png)

***Figura 2.20***: Representação visual do protudo escalar das entradas e dos pesos transpostos.

![animacao_18.png](attachment:animacao_18.png)

***Animação 2.18***: https://nnfs.io/gjw

Como vimos, o segundo argumento de **np.dot()** é a matriz que será transposta (pesos), então devemos passar para essa função como primeiro parâmetro as entradas. Mas mudamos isso aqui. Antes, os modelos retornavam a saída do neurônio usando somente uma amostra de dado, um vetor, mas agora estamos usando um loto de dados. Continuaremos mantendo a mesma ordem de parâmetros para **np.dot()**, mas, como veremos daqui a pouco, é mais fácil usar o resultado de uma lista de saídas de camadas por cada amostra do que uma lista de neurônios e suas saídas.  Queremos o array resultante das amostras e não dos neurônios, uma vez que a próxima camada espera receber um lote de entradas.

Podemos solucionar isso usando o `NumPy`. Podemos passar para **np.dot()** uma lista de listas `Python` para que internamente o `NumPy` a converta em matrizes. Faremos a transposição da matriz dos pesos com a função **T**, uma vez que uma lista de listas `Python` não pode fazer essa operação. Falando dos biases, não precisamos criar um array `NumPy` para isso, essa biblioteca se ajeita bem com isso.

Biases são listas, portanto são um array 1D. A adição do vetor de bias na matriz (no produto escalar, no caso) funciona semelhante aos produto esclar de matriz e vetor visto anteriormente: o vetor bias será adicionado em cada linha da matriz. Como cada coluna de produto de matriz resulta em uma saída de um neurônio, e o vetor será adicionado em cada linha do vetor, o primeiro bias será adicionado ao primeiro elemento desse vetor, o segundo com o segundo e assim por diante. É isso o que precisamos, o bias de cada neurônio precisa ser adicionado em todos os resultados criados pelo neurônio em todos os vetores de entrada (amostras):

![figura_21.png](attachment:figura_21.png)

***Figura 2.21***: Representação visual do produto de matriz das entradas e pesos somado ao vetor de bias.

![animacao_19.png](attachment:animacao_19.png)

***Animação 2.19***: https://nnfs.io/qty

Vamos colocar em código tudo o que vimos:

In [26]:
# Importar a biblioteca
import numpy as np

# Entradas
entradas = [
    [1.0, 2.0, 3.0, 2.5],
    [2.0, 5.0, -1.0, 2.0],
    [-1.5, 2.7, 3.3, -0.8]
]

# Pesos
pesos = [
    [0.2, 0.8, -0.5, 1.0],
    [0.5, -0.91, 0.26, -0.5],
    [-0.26, -0.27, 0.17, 0.87]
]

# Biases
biases = [2.0, 3.0, 0.5]

# Saídas dos neurônios
saidas = np.dot(entradas, np.array(pesos).T) + biases

# Mostrar as saídas
print(saidas)

[[ 4.8    1.21   2.385]
 [ 8.9   -1.81   0.2  ]
 [ 1.41   1.051  0.026]]


Como podemos ver, nessa rede neural pega em grupos as entradas (amostras) e retorna as saída em grupos (previsões). Se você utilizar qualquer biblioteca de rede neural, você passará uma lista de entradas e será retornada uma lista de predições.

Para o códigos, recursos e erratas deste capítulo, acesse:

![material_suplementar.png](attachment:material_suplementar.png)

***Material Suplementar***: https://nnfs.io/ch2