# Capítulo 10 – Introdução às Redes Neurais Artificiais com Keras

## Configuração

In [5]:
# TensorFlow ≥2.0 is required
import tensorflow as tf

# Importações comuns
import numpy as np
import os

# para fazer esse notebook ter resultados repetíveis
np.random.seed(42)

# para plotar figuras
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

PROJECT_ROOT_DIR = "."

ModuleNotFoundError: No module named 'tensorflow'

## Neurônios biológicos

Célula encontrada principalmente no córtex cerebral

* Composto de um corpo celular contendo o núcleo e a maioria dos componentes complexos da célula e muitas extensões de ramificação chamadas dendritos, além de uma extensão muito longa chamada de axônio

* Os terminais sinápticos se conectam aos dendritos de outros neurônios

* Recebem sinais pelas sinapses

* Os neurônios biológicos recebem curtos impulsos elétricos de outros neurônios através dessas sinapses chamadas sinais.

* Quando recebem sinais suficientes eles disparam seus sinais

* Quando um neurônio recebe um número suficiente de sinais de outros neurônios em alguns milissegundos, ele dispara seus próprios sinais

![image](https://i.imgur.com/iGaody9.png)

* Neurônios biológicos são organizados em uma rede de bilhões de neurônios conectados

* Cálculos altamente complexos podem ser realizados por uma vasta rede de neurônios bem simples, muito parecida com um formigueiro complexo que surge dos esforços combinados de simples formigas.

* Algumas partes do cérebro foram mapeadas e parece que os neurônios muitas vezes são organizados em camadas consecutivas, como mostrado na Figura abaixo.

![image](https://i.imgur.com/DG2FTaJ.png)

## Perceptrons

* Inventado em 1957 por Frank Rosenblatt

* O Perceptron é uma das mais simples arquiteturas RNA.

* Usa um neurônio do tipo Linear Threshold Unit (LTU)

![image](https://i.imgur.com/yncrihU.png)

A LTU calcula

* uma soma ponderada de suas entradas (𝑧 = 𝑤_1 𝑥_1 + 𝑤_2 𝑥_2 + ⋯ + 𝑤_𝑛  𝑥_𝑛 = 𝑤^𝑇. 𝑥)

* então aplica uma função degrau a esta soma e gera o resultado ℎ_𝑤 *(𝑥)= 𝑠𝑡𝑒𝑝(𝑧) em que 𝑧 = 𝑤^𝑇

* Treinar significa encontrar o pesos ideais.

O Perceptron é composto por uma camada de LTUs como na figura abaixo.

![image](https://i.imgur.com/tGMF1GX.png)

O Perceptron é treinado com base na regra de Hebb


* reforçando conexões que levam a previsões corretas

* enfraquecendo conexões que levam a previsões incorretas

### Experimentando o Perceptron

#### O dataset Iris

![image](https://i.imgur.com/qETsWGF.png)

In [None]:
from sklearn.datasets import load_iris

Características:

* comprimento de sepala em cm

* largura de sepala em cm

* comprimento de petala em cm

* largura de petala em cm 

Classes:

* Iris-Setosa

* Iris-Versicolour

* Iris-Virginica


Número de instâncias = 150 (50 por classe)


In [None]:
iris = load_iris();

In [None]:
dados = iris["data"];
alvos = iris["target"];
nomesAlvo = iris["target_names"];
nomesCaracteristicas = iris["feature_names"];

In [None]:
nomesAlvo

In [None]:
nomesCaracteristicas

In [None]:
dados

In [None]:
alvos

In [None]:
iris

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10,5))
plt.subplot(1, 2, 1)
for contador, nome in enumerate(nomesAlvo):
  x_plot = dados[ alvos == contador]
  plt.plot(x_plot[:,0], x_plot[:,1], linestyle='none', marker='o', label=nome);

plt.xlabel(nomesCaracteristicas[0]);
plt.ylabel(nomesCaracteristicas[1]);
plt.axis('equal');
plt.legend();

plt.subplot(1, 2, 2)
for contador, nome in enumerate(nomesAlvo):
  x_plot = dados[ alvos == contador]
  plt.plot(x_plot[:,2], x_plot[:,3], linestyle='none', marker='o', label=nome);

plt.xlabel(nomesCaracteristicas[2]);
plt.ylabel(nomesCaracteristicas[3]);
plt.axis('equal');
plt.legend();

#### Classificação Binária

Experimentando Perceptron com duas entradas e uma saída (2 Classes)

In [None]:
# Vamos simplificar e usar apenas comprimento da pétala e largura da pétala
dadosReduzidos = dados[:, (2, 3)] # petal length, petal width
dadosReduzidos

In [None]:
len(dados)

In [None]:
alvos

In [None]:
# Uma LTU só faz classificação binária
classeAlvo = 0 # iris setosa
alvos == classeAlvo # Iris setosa?

In [None]:
# Conversão de lógico para inteiro (true --> 1; false --> 0)
alvoBinario = (alvos == classeAlvo).astype(int) # Iris setosa?
alvoBinario

In [None]:
# importando e treinando o Perceptron
from sklearn.linear_model import Perceptron
classificadorPerceptron = Perceptron()
classificadorPerceptron.fit(dadosReduzidos, alvoBinario) # atributos de entrada e atributo alvo

In [None]:
# Predizendo uma nova amostra (iris setosa)
y_pred = classificadorPerceptron.predict([[1.5, 0.5]])
if (y_pred):
  print ("iris setosa")
else:
  print ("outra flor")

In [None]:
# Predizendo uma nova amostra (prevendo outra flor)
y_pred = classificadorPerceptron.predict([[4, 1]])
if (y_pred):
  print ("iris setosa")
else:
  print ("outra flor")

Observando a matriz de pesos das conexões de entrada das LTU

In [None]:
classificadorPerceptron.coef_ # matriz de pesos de entrada

Observando o peso de vies (entre o neuronio de vies e os neuronios LTU)

In [None]:
classificadorPerceptron.intercept_ # matriz de pesos de vies

Avaliando o Perceptron vendo o score com dados de treino

In [None]:
classificadorPerceptron.score(dadosReduzidos,alvoBinario)

#### Classificação Multiclasse (Multioutput)

Testando o Perceptron com 2 entradas e 3 saídas (3 classes). Usando apenas comprimento da pétala e largura da pétala


In [None]:
np.unique(alvos) # valores unicos da classe alvo

In [None]:
classificadorPerceptron = Perceptron()
classificadorPerceptron.fit(dadosReduzidos, alvos)

In [None]:
# Predizendo uma nova amostra (setosa)
y_pred = classificadorPerceptron.predict([[1.5, 0.5]])
if (y_pred==0):
  print ("iris setosa")
elif (y_pred==1):
  print ("iris versicolor")
else:
  print ("iris virginica")

In [None]:
# Predizendo uma nova amostra (versicolor)
y_pred = classificadorPerceptron.predict([[4, 1]])
if (y_pred==0):
  print ("iris setosa")
elif (y_pred==1):
  print ("iris versicolor")
else:
  print ("iris virginica")

In [None]:
# Predizendo uma nova amostra (virginica)
y_pred = classificadorPerceptron.predict([[6, 2]])
if (y_pred==0):
  print ("iris setosa")
elif (y_pred==1):
  print ("iris versicolor")
else:
  print ("iris virginica")

Observando a matriz de pesos das conexões de entrada das LTU

In [None]:
classificadorPerceptron.coef_ # 2 entradas, 3 saídas

Observando o peso de vies (entre o neuronio de vies e os neuronios LTU)

In [None]:
classificadorPerceptron.intercept_ # matriz de pesos de vies

Avaliando o Perceptron vendo o score com dados de treino

In [None]:
classificadorPerceptron.score(dadosReduzidos,alvos)

#### Atividade

Testar o Perceptron com 4 entradas e 3 saídas.


#### Resposta: 4 entradas e 3 saídas

In [None]:
dados.shape

In [None]:
# importando e treinando
per_clf = Perceptron()
per_clf.fit(dados, alvos) 

### Problemas com o Perceptron 

Em 1969, Marvin Minsky e Seymour Papert destacaram um número de sérias fraquezas dos Perceptrons, em particular o fato de serem incapazes de resolver alguns problemas triviais (por exemplo, o problema de classificação Exclusive OR (XOR).


*   Isso é verdade para qualquer outro modelo de classificação linear (como classificadores de regressão logística), mas os pesquisadores esperavam muito mais dos Perceptrons, e alguns ficaram tão desapontados que abandonaram as redes neurais completamente em favor de problemas de nível superior, como lógica, resolução de problemas e pesquisa. 


*   Começou um inverno de IA 



A tabela verdade do XOR 

![image](https://i.imgur.com/XI5Hpli.png)

Os cientistas preferiram se concentrar em outros classificadores como o SVM.

In [None]:
# os cientistas preferiram se concentrar em outros classificadores como o SVM
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC # support vector classifier
from sklearn.svm import LinearSVC
clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
clf.fit(dados, alvos) 

In [None]:
clf.score(dados,alvos) 

### O perceptron multicamadas (rede neural) 

Entretanto, algumas das suas limitações podem ser eliminadas ao empilharmos vários Perceptrons. A RNA resultante é chamada de Perceptron Multicamada (MLP). Em particular, como você pode verificar, a MLP pode resolver o problema XOR calculando a saída MLP representada à direita da Figura abaixo. 

![image](https://i.imgur.com/rNruRZ9.png)

![image](https://i.imgur.com/Gayj1Fo.png)

## Outras funções de ativação 

A função Step não tem derivada, então ela limitava o Perceptron. Outras funções podem lidar com problemas não lineares.

![image](https://i.imgur.com/OTFyxqA.png)

### Experimentando Rede Neural (antes de maiores detalhes) 

In [None]:
import tensorflow
from tensorflow import keras

In [None]:
dados = iris["data"];
alvos = iris["target"];
nomesAlvo = iris["target_names"];
nomesCaracteristicas = iris["feature_names"];

In [None]:
qtd_saida = len(nomesAlvo); # numero de classes
qtd_entrada = len(nomesCaracteristicas);  # numero de caracteristicas 

In [None]:
# Escalonando as características
scaler = StandardScaler()
X_scaled = scaler.fit_transform(dados) 

In [None]:
# dividindo o conjunto de treinamento e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, alvos, test_size=0.33, random_state=42)

In [None]:
# Definindo a arquitetura da rede MLP 
# Unidades de saída, unidades de entrada, função de ativação 
modelo = keras.Sequential([
  keras.layers.Dense(16, input_dim=qtd_entrada, activation='relu'),
  keras.layers.Dense(qtd_saida, activation='softmax')
])

In [None]:
modelo.summary() 

#### Outra forma de construir o modelo 

In [None]:
# Definindo a arquitetura da rede MLP
# Unidades de saída, unidades de entrada, função de ativação
modelo = keras.Sequential(name ='modelo1')
modelo.add(keras.layers.Dense(8, input_dim=qtd_entrada,activation='relu'))
modelo.add(keras.layers.Dense(qtd_saida, activation='softmax')) 

In [None]:
modelo.compile(loss='sparse_categorical_crossentropy',
  optimizer="sgd",
  metrics=['accuracy']
) 

**Em Keras os argumentos de configuração importantes são os seguintes:**

* **Número de neurônios/unidades na camada**  

* **Função de ativação** (activation) - a função de ativação é uma função especial usada para descobrir se um neurônio específico está ativado ou não. Basicamente, a função de ativação faz uma transformação não linear dos dados de entrada e, assim, permite que os neurônios aprendam melhor. A saída de um neurônio depende da função de ativação (*relu*, *sigmoid*, *tanh*, *exponential*, *softmax*).

* **Função de Perda (loss)** - a função Loss é usada para encontrar erros ou desvios no processo de aprendizado (*mean_squared_error*, *mean_absolute_error*, *categorical_crossentropy*, *sparse_categorical_crossentropy*, *binary_crossentropy*)

* **Otimizador (optimizer)** - a otimização é um processo importante que otimiza os pesos de entrada comparando a previsão e a função de perda (*sgd*, *rmsprop*, *adagrad*, *adadelta*, *adam*, *adamax*, *nadam*). 

* **Métricas (metrics)** - as métricas são usadas para avaliar o desempenho do seu modelo. É semelhante à função de perda, mas não é usada no processo de treinamento (*accuracy*, *binary_accuracy*, *categorical_accuracy*, *sparse_categorical_accuracy*). 

**Observação**

* Se estivéssemos fazendo **classificação binária** (com um ou mais rótulos binários), usaríamos a função de ativação "**sigmoid**" (ou seja, logística) na camada de saída e usaríamos a função de perda "**binary_crossentropy**". 

* Se estivéssemos fazendo **classificação multiclasse**, usaríamos a função de ativação "**softmax**” e a função de perda "**sparse_categorical_crossentropy**' ou "**categorical_crossentropy**’. 

* Usamos a função de perda "**sparse_categorical_crossentropy**" porque temos rótulos esparsos (ou seja, para cada instância, há apenas um índice de classe de destino, de 0 a 2 neste caso), e as **classes são exclusivas**. 

* Se, em vez disso, tivéssemos uma probabilidade alvo por classe para cada instância (como vetores one-hot, por exemplo, [0., 0., 1.] para representar a classe 3), então precisaríamos usar a função de perda “**categorical_crossentropy**”. 