#### Dependências

In [4]:
# Gráficos
import matplotlib.pyplot as plt
# Matemática
import math
# Manipulação de Vetores
import numpy as np

# Fixar números aleatórios gerados
np.random.seed(0)

# Trabalhar com dados
import pandas as pd
from sklearn.datasets.mldata import fetch_mldata

# Utilidades
import utils

# Recarregar automaticamente dependências caso elas mudem
%load_ext autoreload
%autoreload 2


The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Introdução à Redes Neurais

Redes neurais podem ser vistas de maneira bastante simplificada como **funções matemáticas**. Uma simples definição de redes neurais é:

> "Redes Neurais são *aproximadores de função*"

Desse modo, similar à funções, as redes neurais possuem entradas e saídas.

Falando em Deep Learning, essas entradas são normalmente **tensores**, isto é, vetores de diferentes dimensões. De maneira matemática, você pode pensar em tensores da seguinte forma:

![](https://www.kdnuggets.com/wp-content/uploads/scalar-vector-matrix-tensor.jpg)
Imagem de: https://www.kdnuggets.com/2018/05/wtf-tensor.html

Já os matemáticos que gostam de cachorros, preferem pensar em tensores da seguinte forma:

![](https://pbs.twimg.com/media/CvUaME-VIAACHLb.jpg)
Imagem de: https://pbs.twimg.com/media/CvUaME-VIAACHLb.jpg

Na prática, um **scalar** é apenas um valor (0-dimensional); um **vetor** é um array de scalares (uni-dimensional); uma **matriz** é um array de vetores (bi-dimensional); e um **tensor** é qualquer vetor com N-dimensões (por exemplo, um cubo é um tensor de 3 dimensões). Vale salientar que, tecnicamente, o conceito de tensor engloba todos eles. Porém, na prática, chamamos de tensores os vetores com 3 ou mais dimensões. Veja [**esse vídeo**](https://www.youtube.com/watch?v=f5liqUk0ZTw) para mais detalhes.

Ainda pensando dessa forma, poderíamos imaginar um tensor 4-dimensional como um **array de cubos**; um tensor 5-dimensional seria uma **matriz de cubos**; um tensor 6-dimensional seria um **cubo de cubos**, e assim por diante...

<img align='center' src='https://media3.giphy.com/media/xT0xeJpnrWC4XWblEk/giphy.gif'>

# História das Redes Neurais

A história das redes neurais é curiosa, engraçada e triste ao mesmo tempo. 

Certo dia, em 1958, um certo cientista nova-yorkino, inspirado pelo trabalho de seus colegas que estudavam sobre o cérebro humano, terminou de projetar um algoritmo que conseguia aprender sozinho a resolver problemas simples. Nascia ali, o **Perceptron**. Em sua estrutura básica, o Perceptron é formado por 3 partes:

<img align='center' src='https://github.com/arnaldog12/Manual-Pratico-Deep-Learning/raw/2d4adc1a095b815d523cf1d84ba3422c8c30ae1d/images/perceptron.png' width=400>

- __entradas__ $x_1,...,x_D$: representam os atributos dos seus dados com dimensionalidade $D$. O Perceptron aceita qualquer tamanho de entrada, porém a saída é sempre apenas um valor.
- __junção aditiva__ $\sum$: também chamada de _função agregadora_, nada mais é que a soma ponderada das entradas com os __pesos__ ($w_1,...,w_D)$. Em geral, o resultado é somado com um __bias__ $b$, responsável por deslocar o resultado do somatório. A junção aditiva é descrita pela seguinte fórmula:

$$\sum_i^D{x_iw_i} + b$$

- __função de ativação__ $f$: utilizada para mapear o resultado da junção aditiva em uma saída esperada. No caso do Perceptron, ela é a função _step_ (também conhecida como _função degrau_) para mapear a saída em um valor discreto (0 ou 1):

$$f = \begin{cases}1 & se \ wx+b > 0\\0 & caso \ contr\acute ario\end{cases}$$

A ideia inicial do Perceptron, na verdade, era ser uma máquina ao invés de um programa. E foi o que aconteceu. Utilizando o poderosíssimo [IBM 704](https://en.wikipedia.org/wiki/IBM_704) que fazia 12 mil adições por segundo (só para você ter uma noção, um iPhone 7 faz 300 bilhões) os caras construíram uma máquina denominada **Mark I Perceptron**.

<img align='center' src='images/mark_i.jpg' width=600>

A ideia do Mark I Perceptron era que, para uma dada imagem de entrada, a máquina deveria aprender sozinha a classificar a saída em 0 ou 1. Mas, calma, nem imagens existiam naquela época! Então, como projetaram isso? Os cientistas na época conectaram 400 foto-células a entrada do Mark I para simular uma imagem 20x20 (um pouco maior talvez do que as letras desse texto). E para permitir a calibração da máquina, cada entrada dessa era conectada a um potenciômetro (que simulavam os pesos) que eram ajustados automaticamente por motores elétricos para mapear as entradas na saída final 0 ou 1. 

In [5]:
class MyFirstNeuralNetwork(object):

    def __init__(self, weights=0.5):
        self._weights = weights
    
    def function(self, _input):
        return self._activation_function(_input * self._weights)
    
    def _activation_function(self, data):
        return data

In [6]:
nn = MyFirstNeuralNetwork()

## Referências

Este conteúdo é baseado nos seguintes materiais:

* [Capítulo 3](https://github.com/iamtrask/Grokking-Deep-Learning) de Grokking Deep Learning.

