# Cap√≠tulo 10 ‚Äì Introdu√ß√£o √†s Redes Neurais Artificiais com Keras

## Configura√ß√£o

In [5]:
# TensorFlow ‚â•2.0 is required
import tensorflow as tf

# Importa√ß√µes comuns
import numpy as np
import os

# para fazer esse notebook ter resultados repet√≠veis
np.random.seed(42)

# para plotar figuras
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

PROJECT_ROOT_DIR = "."

ModuleNotFoundError: No module named 'tensorflow'

## Neur√¥nios biol√≥gicos

C√©lula encontrada principalmente no c√≥rtex cerebral

* Composto de um corpo celular contendo o n√∫cleo e a maioria dos componentes complexos da c√©lula e muitas extens√µes de ramifica√ß√£o chamadas dendritos, al√©m de uma extens√£o muito longa chamada de ax√¥nio

* Os terminais sin√°pticos se conectam aos dendritos de outros neur√¥nios

* Recebem sinais pelas sinapses

* Os neur√¥nios biol√≥gicos recebem curtos impulsos el√©tricos de outros neur√¥nios atrav√©s dessas sinapses chamadas sinais.

* Quando recebem sinais suficientes eles disparam seus sinais

* Quando um neur√¥nio recebe um n√∫mero suficiente de sinais de outros neur√¥nios em alguns milissegundos, ele dispara seus pr√≥prios sinais

![image](https://i.imgur.com/iGaody9.png)

* Neur√¥nios biol√≥gicos s√£o organizados em uma rede de bilh√µes de neur√¥nios conectados

* C√°lculos altamente complexos podem ser realizados por uma vasta rede de neur√¥nios bem simples, muito parecida com um formigueiro complexo que surge dos esfor√ßos combinados de simples formigas.

* Algumas partes do c√©rebro foram mapeadas e parece que os neur√¥nios muitas vezes s√£o organizados em camadas consecutivas, como mostrado na Figura abaixo.

![image](https://i.imgur.com/DG2FTaJ.png)

## Perceptrons

* Inventado em 1957 por Frank Rosenblatt

* O Perceptron √© uma das mais simples arquiteturas RNA.

* Usa um neur√¥nio do tipo Linear Threshold Unit (LTU)

![image](https://i.imgur.com/yncrihU.png)

A LTU calcula

* uma soma ponderada de suas entradas (ùëß = ùë§_1 ùë•_1 + ùë§_2 ùë•_2 + ‚ãØ + ùë§_ùëõ  ùë•_ùëõ = ùë§^ùëá. ùë•)

* ent√£o aplica uma fun√ß√£o degrau a esta soma e gera o resultado ‚Ñé_ùë§ *(ùë•)= ùë†ùë°ùëíùëù(ùëß) em que ùëß = ùë§^ùëá

* Treinar significa encontrar o pesos ideais.

O Perceptron √© composto por uma camada de LTUs como na figura abaixo.

![image](https://i.imgur.com/tGMF1GX.png)

O Perceptron √© treinado com base na regra de Hebb


* refor√ßando conex√µes que levam a previs√µes corretas

* enfraquecendo conex√µes que levam a previs√µes incorretas

### Experimentando o Perceptron

#### O dataset Iris

![image](https://i.imgur.com/qETsWGF.png)

In [None]:
from sklearn.datasets import load_iris

Caracter√≠sticas:

* comprimento de sepala em cm

* largura de sepala em cm

* comprimento de petala em cm

* largura de petala em cm 

Classes:

* Iris-Setosa

* Iris-Versicolour

* Iris-Virginica


N√∫mero de inst√¢ncias = 150 (50 por classe)


In [None]:
iris = load_iris();

In [None]:
dados = iris["data"];
alvos = iris["target"];
nomesAlvo = iris["target_names"];
nomesCaracteristicas = iris["feature_names"];

In [None]:
nomesAlvo

In [None]:
nomesCaracteristicas

In [None]:
dados

In [None]:
alvos

In [None]:
iris

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10,5))
plt.subplot(1, 2, 1)
for contador, nome in enumerate(nomesAlvo):
  x_plot = dados[ alvos == contador]
  plt.plot(x_plot[:,0], x_plot[:,1], linestyle='none', marker='o', label=nome);

plt.xlabel(nomesCaracteristicas[0]);
plt.ylabel(nomesCaracteristicas[1]);
plt.axis('equal');
plt.legend();

plt.subplot(1, 2, 2)
for contador, nome in enumerate(nomesAlvo):
  x_plot = dados[ alvos == contador]
  plt.plot(x_plot[:,2], x_plot[:,3], linestyle='none', marker='o', label=nome);

plt.xlabel(nomesCaracteristicas[2]);
plt.ylabel(nomesCaracteristicas[3]);
plt.axis('equal');
plt.legend();

#### Classifica√ß√£o Bin√°ria

Experimentando Perceptron com duas entradas e uma sa√≠da (2 Classes)

In [None]:
# Vamos simplificar e usar apenas comprimento da p√©tala e largura da p√©tala
dadosReduzidos = dados[:, (2, 3)] # petal length, petal width
dadosReduzidos

In [None]:
len(dados)

In [None]:
alvos

In [None]:
# Uma LTU s√≥ faz classifica√ß√£o bin√°ria
classeAlvo = 0 # iris setosa
alvos == classeAlvo # Iris setosa?

In [None]:
# Convers√£o de l√≥gico para inteiro (true --> 1; false --> 0)
alvoBinario = (alvos == classeAlvo).astype(int) # Iris setosa?
alvoBinario

In [None]:
# importando e treinando o Perceptron
from sklearn.linear_model import Perceptron
classificadorPerceptron = Perceptron()
classificadorPerceptron.fit(dadosReduzidos, alvoBinario) # atributos de entrada e atributo alvo

In [None]:
# Predizendo uma nova amostra (iris setosa)
y_pred = classificadorPerceptron.predict([[1.5, 0.5]])
if (y_pred):
  print ("iris setosa")
else:
  print ("outra flor")

In [None]:
# Predizendo uma nova amostra (prevendo outra flor)
y_pred = classificadorPerceptron.predict([[4, 1]])
if (y_pred):
  print ("iris setosa")
else:
  print ("outra flor")

Observando a matriz de pesos das conex√µes de entrada das LTU

In [None]:
classificadorPerceptron.coef_ # matriz de pesos de entrada

Observando o peso de vies (entre o neuronio de vies e os neuronios LTU)

In [None]:
classificadorPerceptron.intercept_ # matriz de pesos de vies

Avaliando o Perceptron vendo o score com dados de treino

In [None]:
classificadorPerceptron.score(dadosReduzidos,alvoBinario)

#### Classifica√ß√£o Multiclasse (Multioutput)

Testando o Perceptron com 2 entradas e 3 sa√≠das (3 classes). Usando apenas comprimento da p√©tala e largura da p√©tala


In [None]:
np.unique(alvos) # valores unicos da classe alvo

In [None]:
classificadorPerceptron = Perceptron()
classificadorPerceptron.fit(dadosReduzidos, alvos)

In [None]:
# Predizendo uma nova amostra (setosa)
y_pred = classificadorPerceptron.predict([[1.5, 0.5]])
if (y_pred==0):
  print ("iris setosa")
elif (y_pred==1):
  print ("iris versicolor")
else:
  print ("iris virginica")

In [None]:
# Predizendo uma nova amostra (versicolor)
y_pred = classificadorPerceptron.predict([[4, 1]])
if (y_pred==0):
  print ("iris setosa")
elif (y_pred==1):
  print ("iris versicolor")
else:
  print ("iris virginica")

In [None]:
# Predizendo uma nova amostra (virginica)
y_pred = classificadorPerceptron.predict([[6, 2]])
if (y_pred==0):
  print ("iris setosa")
elif (y_pred==1):
  print ("iris versicolor")
else:
  print ("iris virginica")

Observando a matriz de pesos das conex√µes de entrada das LTU

In [None]:
classificadorPerceptron.coef_ # 2 entradas, 3 sa√≠das

Observando o peso de vies (entre o neuronio de vies e os neuronios LTU)

In [None]:
classificadorPerceptron.intercept_ # matriz de pesos de vies

Avaliando o Perceptron vendo o score com dados de treino

In [None]:
classificadorPerceptron.score(dadosReduzidos,alvos)

#### Atividade

Testar o Perceptron com 4 entradas e 3 sa√≠das.


#### Resposta: 4 entradas e 3 sa√≠das

In [None]:
dados.shape

In [None]:
# importando e treinando
per_clf = Perceptron()
per_clf.fit(dados, alvos) 

### Problemas com o Perceptron 

Em 1969, Marvin Minsky e Seymour Papert destacaram um n√∫mero de s√©rias fraquezas dos Perceptrons, em particular o fato de serem incapazes de resolver alguns problemas triviais (por exemplo, o problema de classifica√ß√£o Exclusive OR (XOR).


*   Isso √© verdade para qualquer outro modelo de classifica√ß√£o linear (como classificadores de regress√£o log√≠stica), mas os pesquisadores esperavam muito mais dos Perceptrons, e alguns ficaram t√£o desapontados que abandonaram as redes neurais completamente em favor de problemas de n√≠vel superior, como l√≥gica, resolu√ß√£o de problemas e pesquisa. 


*   Come√ßou um inverno de IA 



A tabela verdade do XOR 

![image](https://i.imgur.com/XI5Hpli.png)

Os cientistas preferiram se concentrar em outros classificadores como o SVM.

In [None]:
# os cientistas preferiram se concentrar em outros classificadores como o SVM
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC # support vector classifier
from sklearn.svm import LinearSVC
clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
clf.fit(dados, alvos) 

In [None]:
clf.score(dados,alvos) 

### O perceptron multicamadas (rede neural) 

Entretanto, algumas das suas limita√ß√µes podem ser eliminadas ao empilharmos v√°rios Perceptrons. A RNA resultante √© chamada de Perceptron Multicamada (MLP). Em particular, como voc√™ pode verificar, a MLP pode resolver o problema XOR calculando a sa√≠da MLP representada √† direita da Figura abaixo. 

![image](https://i.imgur.com/rNruRZ9.png)

![image](https://i.imgur.com/Gayj1Fo.png)

## Outras fun√ß√µes de ativa√ß√£o 

A fun√ß√£o Step n√£o tem derivada, ent√£o ela limitava o Perceptron. Outras fun√ß√µes podem lidar com problemas n√£o lineares.

![image](https://i.imgur.com/OTFyxqA.png)

### Experimentando Rede Neural (antes de maiores detalhes) 

In [None]:
import tensorflow
from tensorflow import keras

In [None]:
dados = iris["data"];
alvos = iris["target"];
nomesAlvo = iris["target_names"];
nomesCaracteristicas = iris["feature_names"];

In [None]:
qtd_saida = len(nomesAlvo); # numero de classes
qtd_entrada = len(nomesCaracteristicas);  # numero de caracteristicas 

In [None]:
# Escalonando as caracter√≠sticas
scaler = StandardScaler()
X_scaled = scaler.fit_transform(dados) 

In [None]:
# dividindo o conjunto de treinamento e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, alvos, test_size=0.33, random_state=42)

In [None]:
# Definindo a arquitetura da rede MLP 
# Unidades de sa√≠da, unidades de entrada, fun√ß√£o de ativa√ß√£o 
modelo = keras.Sequential([
  keras.layers.Dense(16, input_dim=qtd_entrada, activation='relu'),
  keras.layers.Dense(qtd_saida, activation='softmax')
])

In [None]:
modelo.summary() 

#### Outra forma de construir o modelo 

In [None]:
# Definindo a arquitetura da rede MLP
# Unidades de sa√≠da, unidades de entrada, fun√ß√£o de ativa√ß√£o
modelo = keras.Sequential(name ='modelo1')
modelo.add(keras.layers.Dense(8, input_dim=qtd_entrada,activation='relu'))
modelo.add(keras.layers.Dense(qtd_saida, activation='softmax')) 

In [None]:
modelo.compile(loss='sparse_categorical_crossentropy',
  optimizer="sgd",
  metrics=['accuracy']
) 

**Em Keras os argumentos de configura√ß√£o importantes s√£o os seguintes:**

* **N√∫mero de neur√¥nios/unidades na camada**  

* **Fun√ß√£o de ativa√ß√£o** (activation) - a fun√ß√£o de ativa√ß√£o √© uma fun√ß√£o especial usada para descobrir se um neur√¥nio espec√≠fico est√° ativado ou n√£o. Basicamente, a fun√ß√£o de ativa√ß√£o faz uma transforma√ß√£o n√£o linear dos dados de entrada e, assim, permite que os neur√¥nios aprendam melhor. A sa√≠da de um neur√¥nio depende da fun√ß√£o de ativa√ß√£o (*relu*, *sigmoid*, *tanh*, *exponential*, *softmax*).

* **Fun√ß√£o de Perda (loss)** - a fun√ß√£o Loss √© usada para encontrar erros ou desvios no processo de aprendizado (*mean_squared_error*, *mean_absolute_error*, *categorical_crossentropy*, *sparse_categorical_crossentropy*, *binary_crossentropy*)

* **Otimizador (optimizer)** - a otimiza√ß√£o √© um processo importante que otimiza os pesos de entrada comparando a previs√£o e a fun√ß√£o de perda (*sgd*, *rmsprop*, *adagrad*, *adadelta*, *adam*, *adamax*, *nadam*). 

* **M√©tricas (metrics)** - as m√©tricas s√£o usadas para avaliar o desempenho do seu modelo. √â semelhante √† fun√ß√£o de perda, mas n√£o √© usada no processo de treinamento (*accuracy*, *binary_accuracy*, *categorical_accuracy*, *sparse_categorical_accuracy*). 

**Observa√ß√£o**

* Se estiv√©ssemos fazendo **classifica√ß√£o bin√°ria** (com um ou mais r√≥tulos bin√°rios), usar√≠amos a fun√ß√£o de ativa√ß√£o "**sigmoid**" (ou seja, log√≠stica) na camada de sa√≠da e usar√≠amos a fun√ß√£o de perda "**binary_crossentropy**". 

* Se estiv√©ssemos fazendo **classifica√ß√£o multiclasse**, usar√≠amos a fun√ß√£o de ativa√ß√£o "**softmax**‚Äù e a fun√ß√£o de perda "**sparse_categorical_crossentropy**' ou "**categorical_crossentropy**‚Äô. 

* Usamos a fun√ß√£o de perda "**sparse_categorical_crossentropy**" porque temos r√≥tulos esparsos (ou seja, para cada inst√¢ncia, h√° apenas um √≠ndice de classe de destino, de 0 a 2 neste caso), e as **classes s√£o exclusivas**. 

* Se, em vez disso, tiv√©ssemos uma probabilidade alvo por classe para cada inst√¢ncia (como vetores one-hot, por exemplo, [0., 0., 1.] para representar a classe 3), ent√£o precisar√≠amos usar a fun√ß√£o de perda ‚Äú**categorical_crossentropy**‚Äù. 