# Redes Neurais - Multilayer Perceptron

In [1]:
!ls images

 02_01.png   02_12.png	   12_02.png   12_13.png	   Neuronio05.png
 02_02.png   02_13.png	   12_03.png   Adaline01.png	   Neuronio06.png
 02_03.png   02_14_1.png   12_04.png   Gradiente01.png	   Neuronio07.png
 02_04.png   02_14_2.png   12_05.png   Gradiente02.png	   Perceptron01.png
 02_05.png   02_14.png	   12_06.png   iris.names.txt	   Perceptron02.png
 02_06.png   02_15_1.png   12_07.png   mlp.jpg		   perceptron.jpg
 02_07.png   02_15_2.png   12_08.png   MnistExamples.png   README.md
 02_08.png   _02_15.png    12_09.png   Neuronio01.png	   README.txt
 02_09.png   02_15.png	   12_10.png   Neuronio02.png	  'RedesNeurais 2.png'
 02_10.png   _02_16.png    12_11.png   Neuronio03.png	   redesneurais.png
 02_11.png   12_01.png	   12_12.png   Neuronio04.png


In [2]:
from IPython.display import Image
Image(url = 'images/redesneurais.png')

## World of Data Science
http://collaboratescience.com/WDS/index.html

## Multilayer Perceptron (MLP)

http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html

As Redes Neurais são uma estrutura de aprendizado de máquina que tenta imitar o padrão de aprendizagem de redes neurais biológicas naturais. <br />As redes neurais biológicas têm neurônios interconectados com dendritos que recebem entradas, e com base nessas entradas eles produzem um sinal de saída através de um axônio para outro neurônio. Vamos tentar imitar esse processo através do uso de Redes Neurais Artificiais (RNAs), que apenas nos referiremos como redes neurais a partir de agora. O processo de criação de uma rede neural começa com a forma mais básica, um único perceptron.

Vamos começar nossa discussão falando sobre o Perceptron! Um perceptron tem uma ou mais entradas, um viés (bias), uma função de ativação e uma única saída. O perceptron recebe entradas, multiplica essas entradas por algum peso e passa-as para uma função de ativação para produzir uma saída.<br /> Há muitas funções de ativação possíveis tais como a função logística, uma função trigonométrica, uma função de step, etc.<br /> Também nos certificamos de adicionar um viés para o perceptron, isso evita problemas onde todas as entradas poderiam ser iguais a zero (significando Nenhum peso multiplicativo teria um efeito).<br /> Confira o diagrama abaixo para uma visualização de um perceptron:

In [None]:
!pwd

In [3]:
from IPython.display import Image
Image(url = '../images/perceptron.jpg')

Uma vez que temos a saída podemos compará-lo com um rótulo conhecido e ajustar os pesos de acordo (os pesos normalmente começam com valores de inicialização aleatórios). Continuamos a repetir este processo até termos atingido um número máximo de iterações permitidas ou uma taxa de erro aceitável.

Para criar uma rede neural, simplesmente começamos a adicionar camadas de perceptrons juntos, criando um modelo de perceptron multicamada de uma rede neural. Você terá uma camada de entrada que recebe diretamente suas entradas de atributos e uma camada de saída que criará as saídas resultantes. Quaisquer camadas intermediárias são conhecidas como camadas ocultas porque elas não "veem" diretamente as entradas ou saídas do atributo.<br /> O diagrama abaixo demonstra o que é uma rede perceptron multicamada:

In [4]:
from IPython.display import Image
Image(url = '../images/mlp.jpg')

In [5]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [6]:
cancer = load_breast_cancer()

In [7]:
import pandas as pd
df = pd.DataFrame(cancer.data, columns = cancer.feature_names)
df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


In [8]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
mean radius,569.0,14.127292,3.524049,6.981,11.7,13.37,15.78,28.11
mean texture,569.0,19.289649,4.301036,9.71,16.17,18.84,21.8,39.28
mean perimeter,569.0,91.969033,24.298981,43.79,75.17,86.24,104.1,188.5
mean area,569.0,654.889104,351.914129,143.5,420.3,551.1,782.7,2501.0
mean smoothness,569.0,0.09636,0.014064,0.05263,0.08637,0.09587,0.1053,0.1634
mean compactness,569.0,0.104341,0.052813,0.01938,0.06492,0.09263,0.1304,0.3454
mean concavity,569.0,0.088799,0.07972,0.0,0.02956,0.06154,0.1307,0.4268
mean concave points,569.0,0.048919,0.038803,0.0,0.02031,0.0335,0.074,0.2012
mean symmetry,569.0,0.181162,0.027414,0.106,0.1619,0.1792,0.1957,0.304
mean fractal dimension,569.0,0.062798,0.00706,0.04996,0.0577,0.06154,0.06612,0.09744


In [9]:
cancer.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [10]:
cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [11]:
len(cancer.feature_names)

30

In [12]:
# Descrição completa do dataset
print(cancer['DESCR'])

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 features.  For instance, field 0 is Mean Radius, field
    10 is Radius SE, field 20 is Worst Radius.

    - 

In [13]:
cancer['data'].shape

(569, 30)

In [14]:
import numpy as np
np.set_printoptions(suppress=True, precision=5)

X = cancer['data']
y = cancer['target']

In [15]:
X[:1]

array([[  17.99   ,   10.38   ,  122.8    , 1001.     ,    0.1184 ,
           0.2776 ,    0.3001 ,    0.1471 ,    0.2419 ,    0.07871,
           1.095  ,    0.9053 ,    8.589  ,  153.4    ,    0.0064 ,
           0.04904,    0.05373,    0.01587,    0.03003,    0.00619,
          25.38   ,   17.33   ,  184.6    , 2019.     ,    0.1622 ,
           0.6656 ,    0.7119 ,    0.2654 ,    0.4601 ,    0.1189 ]])

In [16]:
y[:3]

array([0, 0, 0])

In [17]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [18]:
len(X_train), len(X_test)

(426, 143)

## Pré-Processamento

A rede neural pode ter dificuldade em convergir antes do número máximo de iterações permitidas se os dados não forem normalizados.<br /> O Perceptron de várias camadas é sensível ao dimensionamento dos atributos, por isso é altamente recomendável escalar seus dados.<br /> Observe que você deve aplicar o mesmo escalonamento ao conjunto de teste para obter resultados significativos.<br /> Existem diversos métodos diferentes para a normalização dos dados, vamos usar o built-in StandardScaler para a padronização.

In [19]:
# Padronização
scaler = StandardScaler()
scaler.fit(X_train)

In [26]:
# Aplicando a padronização aos dados
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [27]:
X[0]

array([  17.99   ,   10.38   ,  122.8    , 1001.     ,    0.1184 ,
          0.2776 ,    0.3001 ,    0.1471 ,    0.2419 ,    0.07871,
          1.095  ,    0.9053 ,    8.589  ,  153.4    ,    0.0064 ,
          0.04904,    0.05373,    0.01587,    0.03003,    0.00619,
         25.38   ,   17.33   ,  184.6    , 2019.     ,    0.1622 ,
          0.6656 ,    0.7119 ,    0.2654 ,    0.4601 ,    0.1189 ])

In [28]:
X_train[0]

array([-0.08945, -0.43728, -0.15535, -0.19693, -0.6058 , -0.77652,
       -0.91184, -0.97542, -0.69577, -0.5019 , -0.652  , -0.64898,
       -0.65052, -0.47176, -0.81099, -0.90311, -0.704  , -1.1268 ,
       -0.94759, -0.74499, -0.16311, -0.29836, -0.20707, -0.275  ,
       -0.7528 , -0.74288, -0.89475, -0.982  , -0.84724, -0.64675])

In [29]:
X.min(), X.max()

(0.0, 4254.0)

In [30]:
X_train.min(), X_train.max()

(-2.7068144911656917, 11.49009498531737)

## Treinamento do Modelo

Agora é hora de treinar nosso modelo. O SciKit Learn torna isso incrivelmente fácil, usando objetos estimadores.<br /> Neste caso, iremos importar o nosso estimador (o modelo Multi-Layer Perceptron Classifier) da biblioteca neural_network do SciKit-Learn

In [31]:
from sklearn.neural_network import MLPClassifier

Em seguida, criamos uma instância do modelo, há uma série de parâmetros que você pode escolher para definir e personalizar aqui, vamos definir apenas o hidden_layer_sizes. Para este parâmetro você passa uma tupla que consiste no número de neurônios que você quer em cada camada, onde a entrada n-ésima na tupla representa o número de neurônios na n-ésima camada do modelo MLP.<br /> Há muitas maneiras de escolher esses números, mas, por simplicidade, escolheremos três camadas com o mesmo número de neurônios que existem no nosso conjunto de dados:

In [32]:
mlp = MLPClassifier(hidden_layer_sizes = (30,30,30))

Agora que o modelo foi feito podemos ajustar os dados de treinamento para o nosso modelo, lembre-se que esses dados já foram processados e dimensionados:

In [33]:
mlp.fit(X_train, y_train)

Você pode ver a saída que mostra os valores padrão dos outros parâmetros no modelo. Eu encorajo você a brincar com eles e descobrir quais os efeitos que eles têm em seu modelo!

## Previsões e Avaliação

Agora que temos um modelo, é hora de usá-lo para obter previsões! Podemos fazer isso simplesmente com o método predict () fora de nosso modelo ajustado:

In [34]:
predictions = mlp.predict(X_test)

Agora podemos usar as métricas construídas pelo SciKit-Learn, como um relatório de classificação e uma matriz de confusão, para avaliar o desempenho do nosso modelo:

In [35]:
from sklearn.metrics import accuracy_score
accuracy_score(y_test, predictions)

0.9790209790209791

In [36]:
from sklearn.metrics import classification_report,confusion_matrix
print('Confusion Matrix:\n',confusion_matrix(y_test,predictions))
print(classification_report(y_test,predictions))

Confusion Matrix:
 [[53  2]
 [ 1 87]]
              precision    recall  f1-score   support

           0       0.98      0.96      0.97        55
           1       0.98      0.99      0.98        88

    accuracy                           0.98       143
   macro avg       0.98      0.98      0.98       143
weighted avg       0.98      0.98      0.98       143



Parece que somente 3 tumores foram clasisficados de forma incorreta, deixando-nos com uma taxa de 98% de precisão. Isso é muito bom considerando as poucas linhas de código que tivemos de escrever.<br /> A desvantagem entretanto em usar um modelo Multi-Layer Perceptron, é devido a dificuldade de interpretar o próprio modelo.<br /> Os pesos e vieses não serão facilmente interpretáveis em relação a quais características são importantes para o próprio modelo.

In [37]:
mlp

In [38]:
mlp.__dict__

{'activation': 'relu',
 'solver': 'adam',
 'alpha': 0.0001,
 'batch_size': 'auto',
 'learning_rate': 'constant',
 'learning_rate_init': 0.001,
 'power_t': 0.5,
 'max_iter': 200,
 'loss': 'log_loss',
 'hidden_layer_sizes': (30, 30, 30),
 'shuffle': True,
 'random_state': None,
 'tol': 0.0001,
 'verbose': False,
 'warm_start': False,
 'momentum': 0.9,
 'nesterovs_momentum': True,
 'early_stopping': False,
 'validation_fraction': 0.1,
 'beta_1': 0.9,
 'beta_2': 0.999,
 'epsilon': 1e-08,
 'n_iter_no_change': 10,
 'max_fun': 15000,
 'n_features_in_': 30,
 '_label_binarizer': LabelBinarizer(),
 'classes_': array([0, 1]),
 'n_outputs_': 1,
 '_random_state': RandomState(MT19937) at 0x786836FDD440,
 'n_iter_': 174,
 't_': 74124,
 'n_layers_': 5,
 'out_activation_': 'logistic',
 'coefs_': [array([[ 0.0972 , -0.05628, -0.06394, -0.16384, -0.18347,  0.0183 ,
           0.33523,  0.22331,  0.00124,  0.27082, -0.20225,  0.24918,
           0.24455, -0.00193, -0.19305,  0.05927, -0.20447, -0.34751,
 

No entanto, se você quiser extrair os pesos e viés (bias) do MLP após o treinamento do seu modelo, você usa seus atributos públicos coefs_ e intercepts_.

In [39]:
len(mlp.coefs_)

4

In [40]:
mlp.coefs_[0].shape

(30, 30)

In [41]:
mlp.coefs_[0][:]

array([[ 0.0972 , -0.05628, -0.06394, -0.16384, -0.18347,  0.0183 ,
         0.33523,  0.22331,  0.00124,  0.27082, -0.20225,  0.24918,
         0.24455, -0.00193, -0.19305,  0.05927, -0.20447, -0.34751,
        -0.1032 ,  0.0143 ,  0.34086, -0.05286,  0.19909, -0.07295,
        -0.08635,  0.13317,  0.26245, -0.023  , -0.30751,  0.30644],
       [-0.10644,  0.27517, -0.32388,  0.00857, -0.12577,  0.15612,
        -0.18726, -0.09433,  0.04691,  0.14906,  0.00105, -0.11047,
         0.02354, -0.04894,  0.00524,  0.00048, -0.00262,  0.03562,
         0.22056,  0.14629,  0.12387, -0.13163, -0.3864 , -0.23239,
        -0.36486,  0.09201,  0.10891,  0.36304, -0.00876,  0.28279],
       [ 0.04338,  0.02135,  0.12499,  0.16218, -0.25844, -0.29991,
         0.1987 ,  0.1337 , -0.27176, -0.14977, -0.12774, -0.11861,
        -0.31991, -0.0347 , -0.2698 , -0.24719, -0.11318,  0.20281,
        -0.14199,  0.17588, -0.09691, -0.14368, -0.27817,  0.25177,
         0.19473, -0.03352, -0.26847,  0.10685

In [42]:
mlp.coefs_[3][:3]

array([[-0.53574],
       [ 0.39277],
       [-0.23592]])

In [43]:
len(mlp.coefs_[0])

30

In [44]:
len(mlp.intercepts_[0])

30

In [45]:
mlp.intercepts_[0]

array([ 0.21178,  0.0863 ,  0.27966,  0.26212,  0.28325,  0.21115,
       -0.15228,  0.03039,  0.07314,  0.22661,  0.17637, -0.31161,
       -0.12544,  0.2672 ,  0.19535, -0.35421,  0.38474, -0.04849,
       -0.06125,  0.31801,  0.15364, -0.06206,  0.03538, -0.06356,
       -0.06953, -0.20819,  0.17489, -0.15625,  0.35031, -0.12559])

# Salvar e carregar o Modelo

In [50]:
##########################
# SAVE-LOAD using pickle #
##########################
import pickle

# save
with open('model.pkl','wb') as f:
    pickle.dump(mlp,f)

# load
with open('model.pkl', 'rb') as f:
    mlp2 = pickle.load(f)

mlp2.predict(X_test[0:1])

array([0])

---