Fabio Gustavo Gomes Vaz <br> RA: 00282997

Pontifícia Universidade Católica de São Paulo 

`Ciência de Dados e Inteligência Artificial`

#🎓 Aula 11 - Introdução às Redes Neurais Artificiais
28 de outubro de 2021


---
> 👨‍🏫*Professor Rooney Coelho (rracoelho@pucsp.br)*
---


## Introdução

Redes Neurais são uma estrutura de aprendizado de máquina que tenta imitar o padrão de aprendizado de redes neurais biológicas naturais. As redes neurais biológicas têm neurônios interconectados com dendritos que recebem entradas e, com base nessas entradas, produzem um sinal de saída por meio de um axônio para outro neurônio. Tentaremos imitar esse processo por meio do uso de Redes Neurais Artificiais (RNA), que iremos chamar apenas de redes neurais a partir de agora. O processo de criação de uma rede neural começa com a forma mais básica, um único perceptron.

## O Perceptron
 
Vamos começar nossa discussão falando sobre o Perceptron! Um perceptron tem uma ou mais entradas, uma polarização, uma função de ativação e uma única saída. O perceptron recebe entradas, multiplica-as por algum peso e então as passa para uma função de ativação para produzir uma saída. Existem muitas funções de ativação possíveis para escolher, como a função logística, uma função trigonométrica, uma função de degrau, etc. Também nos certificamos de adicionar um viés ao perceptron, isso evita problemas onde todas as entradas podem ser iguais a zero (o que significa nenhum peso multiplicativo teria efeito). Confira o diagrama abaixo para uma visualização de um perceptron:

![title](https://www.kdnuggets.com/wp-content/uploads/perceptron.jpg)


Assim que tivermos a saída, podemos compará-la com um rótulo conhecido e ajustar os pesos de acordo (os pesos geralmente começam com valores de inicialização aleatórios). Continuamos repetindo esse processo até atingir um número máximo de iterações permitidas ou uma taxa de erro aceitável.

Para criar uma rede neural, simplesmente começamos a adicionar camadas de perceptrons, criando um modelo perceptron de várias camadas de uma rede neural. Você terá uma camada de entrada que recebe diretamente suas entradas de recursos e uma camada de saída que criará as saídas resultantes. Quaisquer camadas intermediárias são conhecidas como camadas ocultas porque não "vêem" diretamente as entradas ou saídas de recursos. Para uma visualização disso confira o diagrama abaixo.

![title](https://www.kdnuggets.com/wp-content/uploads/ann-in-hidden-out.jpg)


### 1) Entendendo os dados

Usaremos o conjunto de dados de câncer de mama do SciKit Learn, que possui várias características de tumores com uma classe rotulada indicando se o tumor era maligno ou benigno. Tentaremos criar um modelo de rede neural que possa incorporar essas características e tentar prever rótulos malignos ou benignos para tumores que nunca vimos antes. Vamos começar obtendo os dados.


In [28]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

Imprima os dados `cancer`. Note que não se trata de um DataFrame e sim de um dicionário. O use do `Pandas` não é uma imposição do SciKit Learn.

In [29]:
# Execute este bloco para ver as chaves do dicionário
cancer.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

Imprima a chave `DESCR` para uma descrição completa dos dados. A função `print` aplicada nessa instância irá mostrar um texto descritivo da fonte dos dados e do que eles significam.

In [30]:
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry 
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 3 is Mean Radius, f

Use o parâmetro `shape` (exemplo X.shape) para os dados (chave `data` do dicionário) e veja quantas linhas e colunas temos.

In [31]:
cancer.data.shape

(569, 30)

### 2) Determinação das features e do target

Atribua as features (chave `data`) na variável `X` e o target (chave `target`) na variável `y`.

In [32]:
X = cancer.data
y = cancer.target

### 3) Divisão dos dados entre treinamento e teste

Da mesma forma que se fez nos laboratórios anteriores, divida as `features` e o `target` com a função `train_test_split` do SciKit Learn. Use a proporção padrão para essa separação.

In [33]:
from sklearn.model_selection import train_test_split

X_train , X_test, y_train, y_test = train_test_split(X,y)

### 4) Pré-processamento dos dados

A rede neural pode ter dificuldade em convergir antes do número máximo de iterações permitidas se os dados não estiverem normalizados. O Perceptron multicamadas é sensível ao dimensionamento de recursos, portanto, é altamente recomendável dimensionar seus dados. Observe que você deve aplicar a mesma escala ao conjunto de testes para obter resultados significativos. Existem muitos métodos diferentes para normalização de dados, usaremos o StandardScaler do SciKit Learn para padronização. Utilize os parâmetros adicionais da função como padrão.

In [34]:
from sklearn.preprocessing import StandardScaler
# Use aqui a função StandardScaler para a normalização, busque em exemplos como se utiliza essa função
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

### 5) Treinamento do modelo

Nesta etapa treinaremos o nosso modelo. Tal como os demais modelos do SciKit Learn, a modelagem usando redes neurais é bem similar. Utilizaremos aqui o Perceptron de múltiplas camadas como classificador (Multi-Layer Perceptron) da biblioteca neural_network do SciKit-Learn.

In [35]:
from sklearn.neural_network import MLPClassifier

Agora criaremos uma instância do modelo. Há vários parâmetros que podemos escolher para definir e personalizar, porém definiremos apenas os tamanhos das camadas ocultas `hidden_layer_sizes`. Para esse parâmetro, você passa uma tupla que consiste no número de neurônios que deseja em cada camada, onde a enésima entrada na tupla representa o número de neurônios na enésima camada do modelo MLP. 

```
mlp = MLPClassifier(hidden_layer_sizes= TUPLA_VEM_AQUI)
```

Existem muitas maneiras de escolher esses números, mas para simplificar, escolheremos 3 camadas com o mesmo número de neurônios (30). Usamos esse valor como uma heurístca, onde esse número é igual a quantidade de feautres do modelo!

In [36]:
# Digite seu código aqui
mlp = MLPClassifier(hidden_layer_sizes=(30,30,30))

Agora que o modelo foi feito, podemos realizar o treinamento do nosso modelo com os dados reservados para treinamento, lembre-se de que esses dados já foram processados e escalonados:

In [37]:
# Digite seu código aqui
mlp.fit(X_train,y_train)

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(30, 30, 30), learning_rate='constant',
              learning_rate_init=0.001, max_fun=15000, max_iter=200,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=None, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

Podemos ver a saída que mostra os valores padrão dos outros parâmetros do modelo. Tente alterar esses valores e veja a influência deles na precisão do modelo.

### 6) Previsões e avaliação

Agora que temos um modelo, podemos usá-lo para obter previsões. Faça isso com o método `predict()` com os dados reservados para teste.

In [38]:
y_pred = mlp.predict(X_test)

Agora que se fez a avaliação dos dados reservados para teste, use a função`confusion_matrix` para ver onde a classificação teve precisão.

Imprima o resultado da função `classification_report`, que é aplicada no target reservado teste e nos valores que foram previstos pelo modelo. Aqui você tem um resultado mais detalhado da previsão do seu modelo.

In [39]:
from sklearn.metrics import classification_report,confusion_matrix
# Escreva seu código aqui
confusion_matrix(y_test,y_pred)

array([[45,  0],
       [ 5, 93]])

In [40]:
target_names = ['class 0', 'class 1']
print(classification_report(y_test, y_pred, target_names=target_names))

              precision    recall  f1-score   support

     class 0       0.90      1.00      0.95        45
     class 1       1.00      0.95      0.97        98

    accuracy                           0.97       143
   macro avg       0.95      0.97      0.96       143
weighted avg       0.97      0.97      0.97       143

