# 1.1 Introdução a Redes Neurais: o que são?

## Funções

Redes neurais podem ser vistas de maneira bastante simplificada como **funções matemáticas**. Abstraindo o conceito formal de funções e pensando em computação: uma função recebe entradas, realiza uma computação e produz uma saída.

```
Entradas: x ----> Computação: f ------> Saídas: f(x)
```

**Matemática**

$f(x) = x \times 2 + 3$
 

**Python**

```python
def f(x):
    return x * 2 + 3
```


Assim, uma simples definição de redes neurais é:

> "Redes Neurais são *aproximadores de funções*"

Similar à funções, as redes neurais possuem entradas e saídas. As entradas são representadas por amostras dos seus dados. As saídas, por sua vez, depende de que tarefa estamos desempenhando.

## Em busca da função perfeita


### Exemplo: [base dados Iris](https://mari-linhares.github.io/codando-deep-learning/notebooks/glossario.html#iris)

Digamos que para um exemplo da base de dados queremos determinar qual a espécie dessa planta.

**Entradas**

A base de dados iris tem 4 **[atributos](https://mari-linhares.github.io/codando-deep-learning/notebooks/glossario.html#atributos)** de uma planta que iremos usar como entrada.

**Saídas**

Neste caso a saída que nos interessa é a espécie da planta. Então digamos que a saída é um número que indica qual a espécie:

0 = Iris Setosa , 1 = Iris Versicolour, 2 = Iris Virginica

### Obtendo a base de dados

In [19]:
# Ignorar warnings
import warnings
warnings.filterwarnings('ignore')

# Trabalhar com os dados
from sklearn.datasets import fetch_mldata

# Atributos: iris_dataset.data
# Espécie: iris_dataset.target
iris_dataset = fetch_mldata('iris')

print('Numero de exemplos na base:', len(iris_dataset.data))
print('Atributos da primeira planta:', iris_dataset.data[0])
print('Especie da primeira planta:', iris_dataset.target[0])

('Numero de exemplos na base:', 150)
('Atributos da primeira planta:', array([-0.555556,  0.25    , -0.864407, -0.916667]))
('Especie da primeira planta:', 1)


### Vamos codar uma função que resolve esse problema!

Uma função para resolver esse problema precisa receber 4 parâmetros (cada um dos atributos da planta) e produzir uma saída (espécie da planta).


In [21]:
def f(x1, x2, x3, x4):
    # Não importa os atributos pra mim a resposta é sempre: Setosa!!!!
    return 0

print(f(*iris_dataset.data[0]), iris_dataset.target[0])
print(f(*iris_dataset.data[1]), iris_dataset.target[1])
print(f(*iris_dataset.data[-1]), iris_dataset.target[-1])

(0, 1)
(0, 1)
(0, 3)


A função acima é válida para este problema (4 entradas, 1 saída), o problema dela é que... Ela não ta ajudando a gente no nosso problema em nada! Ela simplesmente ignora os atributos e nos diz que qualquer exemplo é da espécie Setosa.

Como podemos avaliar o quão boa é essa função? Uma métrica possível é [acurácia](https://mari-linhares.github.io/codando-deep-learning/notebooks/glossario.html#acuracia)

In [4]:
iris_dataset['data']

array([[-5.55556e-01,  2.50000e-01, -8.64407e-01, -9.16667e-01],
       [-6.66667e-01, -1.66667e-01, -8.64407e-01, -9.16667e-01],
       [-7.77778e-01,  0.00000e+00, -8.98305e-01, -9.16667e-01],
       [-8.33333e-01, -8.33334e-02, -8.30508e-01, -9.16667e-01],
       [-6.11111e-01,  3.33333e-01, -8.64407e-01, -9.16667e-01],
       [-3.88889e-01,  5.83333e-01, -7.62712e-01, -7.50000e-01],
       [-8.33333e-01,  1.66667e-01, -8.64407e-01, -8.33333e-01],
       [-6.11111e-01,  1.66667e-01, -8.30508e-01, -9.16667e-01],
       [-9.44444e-01, -2.50000e-01, -8.64407e-01, -9.16667e-01],
       [-6.66667e-01, -8.33334e-02, -8.30508e-01, -1.00000e+00],
       [-3.88889e-01,  4.16667e-01, -8.30508e-01, -9.16667e-01],
       [-7.22222e-01,  1.66667e-01, -7.96610e-01, -9.16667e-01],
       [-7.22222e-01, -1.66667e-01, -8.64407e-01, -1.00000e+00],
       [-1.00000e+00, -1.66667e-01, -9.66102e-01, -1.00000e+00],
       [-1.66667e-01,  6.66667e-01, -9.32203e-01, -9.16667e-01],
       [-2.22222e-01,  1.


Por exemplo: dado um banco com a altura de determinadas pessoas (entrada), queremos estimar o "peso" dessas pessoas. Nesse caso, o "peso" das pessoas é a variável que queremos estimar. Portanto, o "peso" nesse caso representaria a nossa saída. Sempre que a nossa saída é conhecida, nós dizemos que esse tipo de problema é um problema de **Aprendizagem Supervisionada**.Há casos em que não necessariamente o nosso problema tem uma saída explícita. Nesse caso, teremos uma **Aprendizagem Não-Supervisionada**.

Além disso, quando a **saída assume qualquer valor real** (0, 1.2, 3.14, -26, +34, ...), nós dizemos que temos um **Problema de Regressão**. Por outro lado, quando a **saída é discreta** (0/1, saudável/doente, cachorro/gato/passarinho), nós temos **Problemas de Classificação**.



A grande sacada é o que acontece dentro de `f`! A ideia é que não sabemos qual o melhor `f` possível, e poderíamos tentar várias funções para se **ajustar** aos dados.

Em geral, elas são matrizes $NxD$, onde $N$ (#linhas) **representa o número de amostras** que seu banco de dados tem e $D$ (#colunas) **representa a quantidade de atributos** de cada amostra, também conhecida por *dimensionalidade*. Como exemplo, imagine que tenhamos um banco de dados com 1.000 amostras e cada amostra tem 5 atributos. Logo, nossas entradas seriam representadas por uma matriz $1000x5$, sacou? 



As entradas são representadas pelas amostras dos seus dados. Em geral, elas são matrizes $NxD$, onde $N$ (#linhas) **representa o número de amostras** que seu banco de dados tem e $D$ (#colunas) **representa a quantidade de atributos** de cada amostra, também conhecida por *dimensionalidade*. Como exemplo, imagine que tenhamos um banco de dados com 1.000 amostras e cada amostra tem 5 atributos. Logo, nossas entradas seriam representadas por uma matriz $1000x5$, sacou? 

**As saídas, por sua vez, representam o que você quer que a sua rede aprenda**. Por exemplo: dado um banco com a altura de determinadas pessoas (entrada), queremos estimar o "peso" dessas pessoas. Nesse caso, o "peso" das pessoas é a variável que queremos estimar. Portanto, o "peso" nesse caso representaria a nossa saída. Sempre que a nossa saída é conhecida, nós dizemos que esse tipo de problema é um problema de **Aprendizagem Supervisionada**. Há casos em que não necessariamente o nosso problema tem uma saída explícita. Nesse caso, teremos uma **Aprendizagem Não-Supervisionada**. Além disso, quando a **saída assume qualquer valor real** (0, 1.2, 3.14, -26, +34, ...), nós dizemos que temos um **Problema de Regressão**. Por outro lado, quando a **saída é discreta** (0/1, homem/mulher, cachorro/gato/passarinho), nós temos **Problemas de Classificação**.

### Arquitetura de Redes Neurais

Redes Neurais são definidas em termos de camadas. Em geral, **a primeira camada representa a entrada da rede, enquanto a última camada representa a saída**. Todas as camadas que estão entre as camadas de entrada e saída são chamadas de **camadas escondidas** (ou *hidden layers*). Um exemplo de uma Rede Neural com 2 camadas escondidas pode ser vista na figura abaixo:

<img align='center' src='https://cdn-images-1.medium.com/max/1200/0*hzIQ5Fs-g8iBpVWq.jpg' width=500>

[Fonte da imagem](https://cdn-images-1.medium.com/max/1200/0*hzIQ5Fs-g8iBpVWq.jpg)

Com exceção da camada de entrada, toda camada de uma rede é composta pela seguintes propriedades:

- **número de neurônios**: na figura acima, as duas camadas escondidas tem 4 neurônios, enquanto a camada de saída tem apenas 1.
- **parâmetros**: cada neurônio recebe como entrada todos as saídas dos neurônios das camadas anteriores. Cada entrada dessa é multiplicada por um peso correspondente. **Tais pesos representam o que a Rede Neural pode ajustar para encontrar a solução do problema e são conhecidos como parâmetros**. 

> ⚠️ **Cuidado: não confunda parâmetro com hiperparâmetros!** Parâmetros são o que a sua rede usa para aprender (pesos e bias), enquanto hiperparâmetros são o que você define acerca da sua rede (número de camadas, qtde. de neurônios por camada, função de ativação de cada camada, etc...)

- **função de ativação**: cada neurônio da rede tem uma função de ativação embutida. Elas são responsáveis por dar o poder de não-linearidade à rede - quando você usa uma função de ativação não-linear (*sigmoid*, *tanh*, *ReLU*, etc...), obviamente. Nós estudaremos sobre elas mais à frente um pouco.

In [5]:
class MyFirstNeuralNetwork(object):

    def __init__(self, weights=0.5):
        self._weights = weights
    
    def function(self, _input):
        return self._activation_function(_input * self._weights)
    
    def _activation_function(self, data):
        return data

In [6]:
nn = MyFirstNeuralNetwork()

## Referências

Este conteúdo é baseado nos seguintes materiais:

- [Capítulo 3](https://github.com/iamtrask/Grokking-Deep-Learning) de Grokking Deep Learning.
- [Perceptron](https://en.wikipedia.org/wiki/Perceptron) da Wikipedia
- [Frank Rosenblatt](https://en.wikipedia.org/wiki/Frank_Rosenblatt) da Wikipedia
- [Geoffrey Hinton](https://en.wikipedia.org/wiki/Geoffrey_Hinton) da Wikipedia
- [Backpropagation](https://en.wikipedia.org/wiki/Backpropagation) da Wikipedia