# **Redes Neurais Artificiais**

## **1. Introdução**

Seres humanos são muito bons em aprender! Isto se deve a nosso sistema nervoso, que pode ser entendido como uma grande rede de neurônios interligados.

Um dos objetivos da Inteligência Artificial é o de construir sistemas inteligentes, com capacidade cognitiva similar à dos humanos.

Assim sendo, faz sentido construirmos um modelo inspirado no sistema nervoso, não é mesmo?

Assim nasceram as __Redes Neurais Artificiais (RNAs)__! Essas redes foram inspirados no neurônio biológico e na rede composta por eles. 

#### **1.1 Breve introdução histórica**

A história das redes neurais começa com a primeira modelagem matemática de um neurônio, elaborada por Warren McCulloch e Walter Pitts em 1943. A inspiração é justificada: desde seus primórdios a IA flerta com a ideia de construir máquinas capazes de resolver problemas gerais como humanos - nada mais natural, portanto, do que tentar emular as estruturas básicas do cérebro humano.

A anatomia de um neurônio que inspirou o modelo de McCulloch-Pitts é apresentada abaixo. A informações corre por ela da esquerda para a direita aqui:

- Os dendritos recebem os outputs de outros neurônios que se tornam inputs deste;
- Os sinais dos dentritos vão para o corpo celular do neurônio, onde íons, positivos e negativos, são combinados. Toda vez que a diferença de potencial atinge certo limiar, um pulso elétrico é enviado ao axônio;
-  Por fim, o axônio transmite o sinal vindo do corpo celular (nosso output) para outros neurônios, reinciando o processo.

Há cerca de 10 bilhões deles no cérebro, fortemente conectados uns aos outros: há estimativas de 60 trilhões de conexões ("sinapses") entre eles [1](https://www.amazon.com.br/Redes-Neurais-Princ%C3%ADpios-Simon-Haykin/dp/8573077182). O processo descrito acima acontece o tempo todo e é totalmente paralelizado. Quanto mais relevante for um input, mais ele será reforçado nas sinapses que ocorrem nos dendritos.

Em uma rede neural, tem-se um processo semelhante por meio de uma estrutura computacional também conhecida como neurônio. Neste neurônio, os estímulos são as entradas de um dado problema (i.e. atributos/variáveis de um dataset), essas entradas são processadas por meio de uma soma ponderada, são avaliados por um threshold e o resultado gera uma saída, que pode também ser enviada para outros neurônios.

<img src="https://www.ee.co.za/wp-content/uploads/2019/07/Application-of-machine-learning-algorithms-in-boiler-plant-root-cause-analysis-Fig-1.jpg" width="400" />

Os inputs fazem o papel da informação que chega no neurônio real pelos dendritos, os pesos e a soma fazem o papel das reações químicas, a função de ativação aplica o threshold e o output tem paralelo com o axônio.

A ideia geral dessa estrutura é que, por meio de uma soma ponderada, esse modelo de aprendizado de máquina consiga realizar uma formulação matemática que caracterize a saída em termo da entrada, semelhante à modelos de regressão linear.

Essa estrutura é conhecida como **perceptron**. Entretanto, o perceptron é capaz de desenvolver soluções simples. Para resolução de problemas mais complexos, comumente tem-se uma conexão de diversos neurônios, de forma que cada neurônio (ou conjunto deles) possa focar em uma determinada parte da solução, de forma a dividir uma tarefa complexa em tarefas mais simples.

Embora hoje o Perceptron seja amplamente reconhecido como um algoritmo, ele foi inicialmente concebido como uma máquina de reconhecimento de imagem. Recebe esse nome por desempenhar a função humana de percepção, vendo e reconhecendo imagens.

#### 1.2 Matemática do Perceptron

Nesse nosso perceptron temos 6 __inputs__: $x_1, x_2, x_3, x_4, x_5$ e $x_6$ (retângulos em laranja à esquerda), que correspondem a nossas features de entrada e um __output__ binário que pode ser 0 ou 1.

Como os valores de input são convertidos em output?

1. cada uma das features é multiplicada por um peso distinto que denominamos de $w_1$

2. somamos os valores de todos os neurônios e adicionamos um bias que é um termo que independe dos dados de input

$$ \sum_j{w_j x_j}  + bias = x_1 w_1 + x_2 w_2 + x_3 w_3 + x_4 w_4 + x_5 w_5 + x_6 w_6 + bias $$

3. definimos um threshold tal que o output recebe zero se essa soma for menor que o threshold ou 1 caso contrário

$$ 
output = 
\left\{ 
  \begin{aligned}
    0, & \ \ if \sum_j{w_j x_j} + bias \leq threshold\\
    1, & \ \ if \sum_j{w_j x_j} + bias > threshold\\

  \end{aligned}
  \right.
$$

Variando esses pesos e threshold conseguimos diferentes modelos preditivos.
Podemos perceber que esse perceptron mais simples é muito parecido com uma regressão linear!

$$ y = a x_1 + b x_2 + c x_3 + d $$  

Os coeficientes angulares são chamados de pesos ($w$) nas redes neurais enquanto o intercepto é chamado de bias (viés). Assim como na regressão linear o algorítimo aprendia os valores dos coeficientes angulares e do intercepto, __nas redes neurais o algorítmo irá aprender os valores dos pesos e do bias__.

O termo b na equação é frequentemente chamado de viés, porque controla a predisposição do neurônio para disparar um 1 ou 0, independentemente dos pesos.

Esses perceptrons são chamados de single-layer Perceptrons e não são muito utilizados por não conseguirmos resolver problemas complexos com eles. Assim como na regressão linear, **eles só conseguem resolver problemas que são linearmente separáveis**.

#### 1.3 Mão no código: Perceptron
Vamos utilizar uma base conhecida para testarmos o Perceptron usando o querido sklearn. Mais para frente veremos como criar esse mesmo modelo utilizando uma biblioteca de Deep Learning.

In [1]:
from sklearn import datasets
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score

import warnings
warnings.filterwarnings('ignore')
 
# Importa o dataset do iris
iris = datasets.load_iris()
X = iris.data
y = iris.target

# Separa em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Vamos fazer um scale dos nossos dados
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# Instancia o Perceptron
pp = Perceptron(random_state=42)

# Fita o Perceptron
pp.fit(X_train, y_train)

# Faz as predições nos dados de treino e teste
y_pred = pp.predict(X_test)
y_pred_train_ppn = pp.predict(X_train)

# Printa acurácia no treino e teste
print('Accuracy train: %.3f' % accuracy_score(y_train, y_pred_train_ppn))
print('Accuracy: %.3f' % accuracy_score(y_test, y_pred))

Accuracy train: 0.886
Accuracy: 0.800


#### 1.4 MLP

Imagine que, para um neurônio biológico, podemos realizar algumas atividades mais simples, como por exemplo retirar a mão de um lugar extremamente quente (como uma panela). Pode-se ter uma quantidade pequena de neurônios que, dado o estímulo gerado, possa desenvolver a solução simples de retirar a mão do lugar quente e evitar queimaduras. Por outro lado, se tivermos uma atividade mais complexa como um quebra-cabeça ou uma equação matemática para resolver, a solução pode não vir imediatamente, sendo necessário que o nosso cérebro utilize diversos neurônios para resolução desse quebra cabeça.

Da mesma forma funciona um neurônio no contexto de aprendizagem de máquina, dada uma tarefa mais complexa, pode-se precisar de mais neurônios para desenvolver a solução corretamente. Quando utilizamos vários neurônios, formamos uma rede de neurônios, também conhecida como rede neural, podendo existir diferentes tipos de redes, como por exemplo as redes neurais multicamadas (MLP), redes convolucionais (CNNs) e redes recorrentes.


Agora, podemos combinar uma sequência de perceptrons e criar um __Multilayer Perceptron (MLP)__

<img src="http://neuralnetworksanddeeplearning.com/images/tikz1.png" width=500>

#### 1.5 Mão no código: MLP

[sklearn.neural_network.MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)

In [3]:
# importa modelo
from sklearn.neural_network import MLPClassifier

# Instancia o MLP
mlp = MLPClassifier(random_state=42)

# Fita o MLP
mlp.fit(X_train, y_train)

# Faz as predições nos dados de treino e teste
y_pred_mlp = mlp.predict(X_test)
y_pred_train_mlp = mlp.predict(X_train)

# Printa acurácia no treino e teste
print('Accuracy train: %.3f' % accuracy_score(y_train, y_pred_train_mlp))
print('Accuracy test: %.3f' % accuracy_score(y_test, y_pred_mlp))

Accuracy train: 0.971
Accuracy test: 0.889


Melhoramos bastante nosso Perceptron adicionando mais neurônios à ele!

Vamos entender um pouco melhor como funcionam as RNAs?

## **2. Qual a estrutura de uma Rede Neural Artificial (RNA)?**

Como visto, uma rede neural é composta por varios neurônios que são estruturados para, em conjunto, gerar uma saída. Para uma rede neural básica, também conhecida como uma rede neural multicamada, tem-se como elementos básicos:

- **Unidades (ou neurônios)**: são as unidades mínimas de processamento da rede neural, onde as operações matemáticas são realizadas;

- **Camadas**: há três tipos de camadas:

	- **Camada de entrada (input layer)**: é a camada de entrada de dados. O número de unidades nesta camada é igual ao número de features (variáveis independentes) do modelo;

	- **Camadas ocultas (hidden layers)**: são as camadas de processamento. O número de camadas ocultas, bem como o número de neurônios em cada uma delas, é variável, dependendo do problema e dos dados. Em geral, a melhor estratégia é experimentar diferentes números de camadas e de neurônios;

	- **Camada de saída (output layer)**: é a camada que dá a resposta da rede neural, isto é, o valor predito por ela. O número de unidades nesta camada depende do tipo de output desejado, e é o que determina o target (variável dependente) do modelo.
	
#### E porque utilizamos camadas escondidas?

Imagine que dado os atributos de um problema, cada neurônio receberá essas entradas e calculará os pesos. Esse resultado é processado e enviado para uma segunda camada, podendo esta camada também associar pesos para cada novo neurônio. Dessa forma, tem-se um __aprendizado sequencial em que cada camada pode aprimorar o que foi aprendido nas camadas anteriores tomando decisões mais complexas e mais abstratas__. Sendo assim, em uma rede neural podemos não apenas aprender diferentes partes de um problema por meio do uso de vários neurônios, como podemos também aprimorar essa informação por meio de camadas. 

<img src="https://gadictos.com/wp-content/uploads/2019/05/bp1.png" width="400" />

As camadas e neurônios são interligadas entre si através de conexões. A cada conexão, associa-se um **peso** (que denotamos pela letra **W**). O objetivo da RNA é **"aprender" os pesos que melhor se ajustam aos dados!**

#### Quantas camadas ocultas e quantos neurônios preciso colocar em cada uma?

Para saber essa resposta só com um search de hiperparâmetros.

## Função de ativação

A função de ativação é análoga à [taxa de disparo do potencial](https://en.wikipedia.org/wiki/Action_potential) de ação no cérebro.

As funções de ativação (activation functions) são equações matemáticas que processam os dados de entrada, $z=b+\sum_i w_i x_i$, e determinam qual será a saída de um determinado neurônio. Elas basicamente __decidem se desativam ou ativam os neurônios__ para obter a saída desejada, daí o nome, funções de ativação. Neurônios desativados são aqueles cujo valor é menor ou igual que zero.

Qual foi a função de ativação utilizada no perceptron?

### Função degrau (Step function)

<img src=https://iq.opengenus.org/content/images/2021/11/step-func-2.png width=200 text="https://iq.opengenus.org/binary-step-function/">

Essa é a função de ativação mais simples que temos e veremos outras logo a frente.

Vantagens:
- introduzir não linearidade
- restringem os valores de saídas para um determinado intervalo, evitando que nossa saída atinja tamanhos muito grandes

Problemas no uso da função degrau:
- só funciona para classificação
- não é útil quando há várias classes
- gradiente (derivada) dela é zero, o que dificulta o processo de backpropagation. Ou seja, se você calcular a derivada de f(x) em relação a x, ela será 0.

$$f'(x) = 0, \ para \ todo \ x$$


Na próxima aula veremos outros tipos de função de ativação.


Até agora o que aprendemos:

<img src=https://iq.opengenus.org/content/images/2021/11/step-func-1-2.png width=500 text="https://iq.opengenus.org/binary-step-function/" >

Rede neural é uma grande sequência de composição de funções!

### 5. **Mas e o tal do "Deep Learning"?**

Conforme descrito inicialmente, o conceito de redes neurais foi evoluindo ao longo do tempo. Sendo assim, enquanto na década de 1950 tinhamos o perceptron para estruturar problemas lineares, na década de 1960 surgiram as funções de ativação para resolução de problemas também não lineares. 

Semelhantemente, em 1980 foram propostas as redes neurais multicamadas (MLP), que são redes neurais com a estrutura ilustrada no tópico 2, estruturadas para desenvolver problemas não lineares e de maior complexidade, sendo a ideia geral dessa rede termos 1) vários neurônios em uma camada, cada um (ou conjunto deles) responsável por partes do aprendizado, e 2) uma arquitetura em camadas em que os neurônios da próxima camada recebem o resultado do processamento dos neurônios da camada anterior, sendo o objetivo dessa arquitetura aprimorar features a cada camada até alcançar um nivel de complexidade de features que possa resolver o problema.

De forma geral, quanto mais camadas essa rede tenha, maior tendência a resolver problemas mais complexos. **Quando precisamos de muitas camadas ocultas e muitos neurônios, chamamos essa rede de rede profunda, originando o termo Deep Learning**. 

Isso originou um novo ramo de pesquisa em redes neurais, principalmente com o aumento de acesso a informação e bases de dados, bem como o maior suporte a placas de vídeo e recursos computacionais em geral. Com isso, por volta de 2012, passaram a surgir outras formas de conectar um neurônio em camadas profundas, de forma que hoje o termo Deep Learning é conhecido não apenas por uma rede neural profunda, como também o uso dessas abordagens, tendo como destaque redes convolucionais e redes recorrentes.

## **6. E quando eu uso Redes Neurais?**

No atual cenário de Big Data em que vivemos (há muitos dados em todo o lugar!), os modelos de Redes Neurais e Deep Learning são cada vez mais utilizados!

Isto é possível porque a performance destes modelos aumenta conforme mais dados (e diversidade desses dados) são utilizados, diferentemente dos modelos tradicionais, cuja performance é estabilizada depois de certa quantidade de dados!


<img src=https://lh6.googleusercontent.com/L4wC5XJ-nsLV3pXqNvKTPB8bXx4-NYeFBXuToFiaM-7scsmJrQ8We8RHEZGa_yy2XHVmhRKOSZwKjhzLPKyLXdxcKuGQkUh1tndvimGYfBofExdrzW60QTfyZUmpYwRTCOPsBLQN text="https://machine-learning.paperspace.com/wiki/data-science-vs-machine-learning-vs-deep-learning" width=400>


Então, é de se esperar que os modelos de Deep Learning funcionem melhor nos cenários em que há **muitos dados disponíveis**.

No entanto, se houver tempo e recursos computacionais disponíveis, é sempre uma ideia construir também um modelo de Deep Learning juntamente de outros modelos de Machine Learning, e então comparar qual tem melhor performance! :)

O problema é que quanto mais camadas adicionamos na nossa rede, maior o tempo de treinamento necessário:

<img src=http://neuralnetworksanddeeplearning.com/images/training_speed_4_layers.png text="http://neuralnetworksanddeeplearning.com/chap5.html" width=500>


## Alguns tipos de redes neurais

<img src="https://www.asimovinstitute.org/wp-content/uploads/2019/04/NeuralNetworkZoo20042019.png" width="600" />



___
___

## **Referências**

https://playground.tensorflow.org/

https://www.deeplearningbook.com.br

https://keras.io

https://www.tensorflow.org/tutorials

https://www.louisbouchard.ai/densenet-explained/

https://www.kdnuggets.com/2020/12/optimization-algorithms-neural-networks.html

https://towardsdatascience.com/multilayer-perceptron-explained-with-a-real-life-example-and-python-code-sentiment-analysis-cb408ee93141

[Álgebra Linear](https://mlfromscratch.com/tag/linear-algebra/)

## **Exercício**

Suponha que seus pais têm uma aconchegante cama e café da manhã no campo com um livro de visitas no saguão cadastrado no Airbnb. Todos os hóspedes podem escrever uma nota antes de partir e, até agora, muito poucos saem sem escrever uma nota curta ou uma citação inspiradora. Alguns até deixam desenhos de Molly, o cachorro da família.

No antigo depósito, você se deparou com uma caixa cheia de livros de visitas que seus pais mantiveram ao longo dos anos. Seu primeiro instinto? Vamos ler tudo!

Depois de ler algumas páginas, você acabou de ter uma ideia muito melhor. Por que não tentar entender se os hóspedes deixaram uma mensagem positiva ou negativa?

Você é um Cientista de Dados, e logo se atentou que esta é a tarefa perfeita para um classificador binário!

Então você escolheu uma página de um livro de visitas aleatoriamente para usar como conjunto de treinamento, transcreveu todas as mensagens e deu uma classificação de sentimento positivo ou negativo.

As mensagens estão descritas como uma lista na variável "corpus" abaixo, enquanto a classificação dada por você está na variável "target".

In [4]:
corpus = [
    'We enjoyed our stay so much. The weather was not great, but everything else was perfect.',
    'Going to think twice before staying here again. The wifi was spatty and the rooms smaller than advertised.',
    'The perfect place to relax and recharge.',
    'Never had such a relaxing vacation.',
    'The pictures were misleading, so I was expecting the common areas to be bigger. But the service was good.',
    'There were no clean lines when I got ti my room and the breakfast options were not that many.',
    'Was expecting it to be a bit far from historical downtown, but it was almost impossible to drive through those narrow roads.',
    'I thought that waking up with the chickens was fun, but i was wrong.',
    'Great place for a quick getaway from the city. Everyone is friendly and polite',
    "Unfortunately it was raining during our stay, and there weren\'t many options for indoors activity. Everything was great, but there is litteraly no other aprionts besides being in the rain.",
    'The town festival was postponed, so the area was a complete ghost town. We were the only guests. Not the experience I was looking for.',
    'We had a lovely time. It\'s a fantastic place to go with the children, they loved all the animals.',
    'A little bit off the beaten track, but completely worth it. You can hear the birds sing in the morning and then you are greeted with the biggest, sincerest smiles from the owners.Loved it!',
    'It was good to be outside in the country, visiting old town. Everything was prepared to the uprest detail.',
    'Staff was friendly. Going to come back for sure.',
    'They didn\'t have enought staff for the amount of guests. It took some time to get our breakfast and we had to wait 20 minutes to get more information about old town.',
    'The pictures looked way different.',
    'Best weekend in the countryside I\'ve ever had.',
    'Terrible. Slow staff, slow town. Only good thing was being surrounded by nature.',
    'Not as clean as advertised. Found some cobwebs in the corner of the room.',
    'It was a peaceful getaway in the countryside.',
    'Everyone was nice. Had a good time.',
    'The kids loved running around in nature, we loved the old town. Definitely going back.',
    'Had worse experience.',
    'Surprised this was much different than what was on the website.',
    'Not that windblowing.'
]

# 0: negative sentiment 1: positive
targets = [1,0,1,1,0,0,0,0,1,0,0,1,1,1,1,0,0,1,0,0,1,1,1,0,0,0]

Sabendo disso, respondas as seguintes questões:

1) Qual a sequência de passos que você deve fazer para solucionar esse problema? Escreva essa sequência para guiar sua solução.

In [None]:
# Resposta:
- separar treino e teste
- converter meus dados para valores numéricos utilizando o tfidf com stopwords e lowercase
- fitar meu modelo nos dados de treino
- fazer a predição nos dados de teste
- avaliar meu modelo

Resposta:


2) Agora vamos colocar essa solução em prática! Como modelos de ML queremos que você compare o __Perceptron__ e o __MLP__ estudados nessa aula. Para começar, considere ambos com os parâmetros default da biblioteca do sklearn e utilize como métrica a acurácia.

In [5]:
# Resposta:
import numpy as np
from sklearn import metrics
from sklearn.linear_model import Perceptron
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

# - separar treino e teste
X_train, X_test, y_train, y_test = train_test_split(corpus, targets, test_size=0.2, random_state=123)

# - converter meus dados para valores numéricos utilizando o tfidf com stopwords e lowercase
vectorizer = TfidfVectorizer(stop_words='english', lowercase=True)

X_train = vectorizer.fit_transform(X_train)
X_test = vectorizer.transform(X_test)

# - fitar meu modelo nos dados de treino
pc = Perceptron(random_state=42)
pc.fit(X_train, y_train)

# - fazer a predição nos dados de teste
y_pred = pc.predict(X_test)
y_pred_train = pc.predict(X_train)

# - avaliar meu modelo
print("Acurácia treino: ", accuracy_score(y_train, y_pred_train))
print("Acurácia test: ", accuracy_score(y_test, y_pred))

Acurácia treino:  1.0
Acurácia test:  0.8333333333333334


In [13]:
X_train

<20x109 sparse matrix of type '<class 'numpy.float64'>'
	with 130 stored elements in Compressed Sparse Row format>

In [16]:
X_train.toarray()

array([[0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.25179518],
       ...,
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]])

In [12]:
print(X_train.todense().max())
print(X_train.todense().min())
print(X_train.todense().std())

1.0
0.0
0.09317376515158406


In [6]:
# MLP
mlp = MLPClassifier(random_state=42)
mlp.fit(X_train, y_train)

# - fazer a predição nos dados de teste
y_pred_mlp = mlp.predict(X_test)
y_pred_train_mlp = mlp.predict(X_train)

# - avaliar meu modelo
print("Acurácia treino: ", accuracy_score(y_train, y_pred_train_mlp))
print("Acurácia test: ", accuracy_score(y_test, y_pred_mlp))

Acurácia treino:  1.0
Acurácia test:  1.0


3. Agora, crie um loop no qual você varie o parâmetro hidden_layer_sizes do MLPClassifier entre 2 e 10 e compare os valores da acurácia para cada um deles.

In [7]:
# Resposta
scores_train = {}
scores_test = {}
for i in range(2,11):
    mlp = MLPClassifier(random_state=42, hidden_layer_sizes=i)
    mlp.fit(X_train, y_train)

    # - fazer a predição nos dados de teste
    y_pred_mlp = mlp.predict(X_test)
    y_pred_train_mlp = mlp.predict(X_train)

    scores_train[i] = accuracy_score(y_train, y_pred_train_mlp)
    scores_test[i] = accuracy_score(y_test, y_pred_mlp)

print("Scores de treino: ", scores_train)
print("Scores de test: ", scores_test)

Scores de treino:  {2: 0.7, 3: 0.6, 4: 0.7, 5: 1.0, 6: 1.0, 7: 1.0, 8: 1.0, 9: 1.0, 10: 1.0}
Scores de test:  {2: 0.6666666666666666, 3: 0.5, 4: 0.5, 5: 0.8333333333333334, 6: 0.5, 7: 0.8333333333333334, 8: 0.8333333333333334, 9: 0.8333333333333334, 10: 0.8333333333333334}


_____
_____