# Redes Neurais - Multilayer Perceptron

In [1]:
from IPython.display import Image
Image(url = '../images/RedesNeurais.png')

## World of Data Science
http://collaboratescience.com/WDS/index.html

## Multilayer Perceptron (MLP)

http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

As Redes Neurais são uma estrutura de aprendizado de máquina que tenta imitar o padrão de aprendizagem de redes neurais biológicas naturais. <br />As redes neurais biológicas têm neurônios interconectados com dendritos que recebem entradas, e com base nessas entradas eles produzem um sinal de saída através de um axônio para outro neurônio. Vamos tentar imitar esse processo através do uso de Redes Neurais Artificiais (RNAs), que apenas nos referiremos como redes neurais a partir de agora. O processo de criação de uma rede neural começa com a forma mais básica, um único perceptron.

Vamos começar nossa discussão falando sobre o Perceptron! Um perceptron tem uma ou mais entradas, um viés (bias), uma função de ativação e uma única saída. O perceptron recebe entradas, multiplica essas entradas por algum peso e passa-as para uma função de ativação para produzir uma saída.<br /> Há muitas funções de ativação possíveis tais como a função logística, uma função trigonométrica, uma função de step, etc.<br /> Também nos certificamos de adicionar um viés para o perceptron, isso evita problemas onde todas as entradas poderiam ser iguais a zero (significando Nenhum peso multiplicativo teria um efeito).<br /> Confira o diagrama abaixo para uma visualização de um perceptron:

In [2]:
!pwd

/Users/valencar/Dropbox/AULAS-REMOTAS/Alunos-UEPB-TopicosEspeciaisEmBancoDeDados/RedesNeurais/RN-01


In [3]:
from IPython.display import Image
Image(url = '../images/perceptron.jpg')

Uma vez que temos a saída podemos compará-lo com um rótulo conhecido e ajustar os pesos de acordo (os pesos normalmente começam com valores de inicialização aleatórios). Continuamos a repetir este processo até termos atingido um número máximo de iterações permitidas ou uma taxa de erro aceitável.

Para criar uma rede neural, simplesmente começamos a adicionar camadas de perceptrons juntos, criando um modelo de perceptron multicamada de uma rede neural. Você terá uma camada de entrada que recebe diretamente suas entradas de atributos e uma camada de saída que criará as saídas resultantes. Quaisquer camadas intermediárias são conhecidas como camadas ocultas porque elas não "veem" diretamente as entradas ou saídas do atributo.<br /> O diagrama abaixo demonstra o que é uma rede perceptron multicamada:

In [4]:
from IPython.display import Image
Image(url = '../images/mlp.jpg')

In [5]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [6]:
cancer = load_breast_cancer()

In [7]:
import pandas as pd
df = pd.DataFrame(cancer.data, columns = cancer.feature_names)
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [8]:
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [9]:
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [10]:
len(cancer.feature_names)

30

In [11]:
# Descrição completa do dataset
print(cancer['DESCR'])

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [12]:
cancer['data'].shape

(569, 30)

In [13]:
import numpy as np
np.set_printoptions(suppress=True, precision=5)

X = cancer['data']
y = cancer['target']

In [14]:
X[:1]

array([[  17.99   ,   10.38   ,  122.8    , 1001.     ,    0.1184 ,
           0.2776 ,    0.3001 ,    0.1471 ,    0.2419 ,    0.07871,
           1.095  ,    0.9053 ,    8.589  ,  153.4    ,    0.0064 ,
           0.04904,    0.05373,    0.01587,    0.03003,    0.00619,
          25.38   ,   17.33   ,  184.6    , 2019.     ,    0.1622 ,
           0.6656 ,    0.7119 ,    0.2654 ,    0.4601 ,    0.1189 ]])

In [15]:
y[:3]

array([0, 0, 0])

In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [17]:
len(X_train), len(X_test)

(426, 143)

## Pré-Processamento

A rede neural pode ter dificuldade em convergir antes do número máximo de iterações permitidas se os dados não forem normalizados.<br /> O Perceptron de várias camadas é sensível ao dimensionamento dos atributos, por isso é altamente recomendável escalar seus dados.<br /> Observe que você deve aplicar o mesmo escalonamento ao conjunto de teste para obter resultados significativos.<br /> Existem diversos métodos diferentes para a normalização dos dados, vamos usar o built-in StandardScaler para a padronização.

In [18]:
# Padronização
scaler = StandardScaler()
scaler.fit(X_train)

StandardScaler()

In [19]:
# Aplicando a padronização aos dados
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [20]:
X[0]

array([  17.99   ,   10.38   ,  122.8    , 1001.     ,    0.1184 ,
          0.2776 ,    0.3001 ,    0.1471 ,    0.2419 ,    0.07871,
          1.095  ,    0.9053 ,    8.589  ,  153.4    ,    0.0064 ,
          0.04904,    0.05373,    0.01587,    0.03003,    0.00619,
         25.38   ,   17.33   ,  184.6    , 2019.     ,    0.1622 ,
          0.6656 ,    0.7119 ,    0.2654 ,    0.4601 ,    0.1189 ])

In [21]:
X_train[0]

array([ 0.32122,  2.50114,  0.23126,  0.22209, -0.89266, -1.04795,
       -0.48373, -0.5272 ,  0.19295, -1.38103,  0.28509,  0.78472,
        0.13503,  0.17137, -0.08125, -0.58583, -0.20149, -0.41823,
        1.30067, -0.74889,  0.24769,  1.87951,  0.12217,  0.13656,
       -0.76498, -0.95222, -0.5359 , -0.72277,  0.52744, -1.24847])

In [22]:
X.min(), X.max()

(0.0, 4254.0)

In [23]:
X_train.min(), X_train.max()

(-3.0338644222428255, 12.244318921678424)

## Treinamento do Modelo

Agora é hora de treinar nosso modelo. O SciKit Learn torna isso incrivelmente fácil, usando objetos estimadores.<br /> Neste caso, iremos importar o nosso estimador (o modelo Multi-Layer Perceptron Classifier) da biblioteca neural_network do SciKit-Learn

In [24]:
from sklearn.neural_network import MLPClassifier

Em seguida, criamos uma instância do modelo, há uma série de parâmetros que você pode escolher para definir e personalizar aqui, vamos definir apenas o hidden_layer_sizes. Para este parâmetro você passa uma tupla que consiste no número de neurônios que você quer em cada camada, onde a entrada n-ésima na tupla representa o número de neurônios na n-ésima camada do modelo MLP.<br /> Há muitas maneiras de escolher esses números, mas, por simplicidade, escolheremos três camadas com o mesmo número de neurônios que existem no nosso conjunto de dados:

In [25]:
mlp = MLPClassifier(hidden_layer_sizes = (30,30,30))

Agora que o modelo foi feito podemos ajustar os dados de treinamento para o nosso modelo, lembre-se que esses dados já foram processados e dimensionados:

In [26]:
mlp.fit(X_train, y_train)

MLPClassifier(hidden_layer_sizes=(30, 30, 30))

Você pode ver a saída que mostra os valores padrão dos outros parâmetros no modelo. Eu encorajo você a brincar com eles e descobrir quais os efeitos que eles têm em seu modelo!

## Previsões e Avaliação

Agora que temos um modelo, é hora de usá-lo para obter previsões! Podemos fazer isso simplesmente com o método predict () fora de nosso modelo ajustado:

In [27]:
predictions = mlp.predict(X_test)

Agora podemos usar as métricas construídas pelo SciKit-Learn, como um relatório de classificação e uma matriz de confusão, para avaliar o desempenho do nosso modelo:

In [28]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, predictions)

0.986013986013986

In [29]:
from sklearn.metrics import classification_report,confusion_matrix
print('Confusion Matrix:\n',confusion_matrix(y_test,predictions))
print(classification_report(y_test,predictions))

Confusion Matrix:
 [[55  0]
 [ 2 86]]
              precision    recall  f1-score   support

           0       0.96      1.00      0.98        55
           1       1.00      0.98      0.99        88

    accuracy                           0.99       143
   macro avg       0.98      0.99      0.99       143
weighted avg       0.99      0.99      0.99       143



Parece que somente 3 tumores foram clasisficados de forma incorreta, deixando-nos com uma taxa de 98% de precisão. Isso é muito bom considerando as poucas linhas de código que tivemos de escrever.<br /> A desvantagem entretanto em usar um modelo Multi-Layer Perceptron, é devido a dificuldade de interpretar o próprio modelo.<br /> Os pesos e vieses não serão facilmente interpretáveis em relação a quais características são importantes para o próprio modelo.

No entanto, se você quiser extrair os pesos e viés (bias) do MLP após o treinamento do seu modelo, você usa seus atributos públicos coefs_ e intercepts_.

In [30]:
len(mlp.coefs_)

4

In [31]:
mlp.coefs_[0][:3]

array([[-0.27116, -0.13951,  0.06223,  0.10507, -0.12611,  0.28898,
         0.14749,  0.26441,  0.00955, -0.04749,  0.03773, -0.17881,
         0.11833,  0.16905, -0.08625,  0.0153 ,  0.04585, -0.284  ,
        -0.25949,  0.00713, -0.28638, -0.06355, -0.05436, -0.03267,
         0.17146, -0.10985, -0.07513,  0.20086, -0.07192,  0.19717],
       [ 0.02223, -0.11695,  0.27153,  0.25117, -0.06227, -0.09606,
        -0.1641 , -0.25923, -0.23648,  0.0991 , -0.27319, -0.07174,
        -0.09395, -0.17538, -0.10939, -0.05495, -0.13103, -0.27641,
         0.0027 ,  0.07621, -0.36099,  0.16796,  0.02199,  0.19981,
        -0.16423, -0.20577, -0.04095,  0.31015,  0.09959, -0.18592],
       [ 0.34561, -0.27383, -0.01992, -0.32358, -0.23089, -0.26567,
         0.31526, -0.24134, -0.15202,  0.20603,  0.16691,  0.09302,
        -0.26375,  0.21366, -0.16145, -0.0236 ,  0.00919, -0.1944 ,
         0.14026, -0.30565, -0.10499,  0.03869, -0.18621,  0.10507,
         0.01595, -0.26145, -0.2648 , -0.04833

In [32]:
mlp.coefs_[3][:3]

array([[ 0.10617],
       [-0.60116],
       [ 0.33923]])

In [33]:
len(mlp.coefs_[0])

30

In [34]:
len(mlp.intercepts_[0])

30

---