<a href="https://colab.research.google.com/github/luanccp/datascience-coolabproj/blob/master/TEIA09_SciKit_Learn_MLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Neural Networks with Python and SciKit Learn

### Este notebook descreve a criação de uma rede neural em Python usando o Scikit-learn, cuja versão mais recente agora inclui suporte para modelos de Rede Neural.

### Este notebook foi adaptado do link: https://www.kdnuggets.com/2016/10/beginners-guide-neural-networks-python-scikit-learn.html

## SciKit - Learn

### Para acompanhar este tutorial, você precisará ter a última versão do SciKit Learn instalada ou de sua execução via Google Colab.

### É facilmente instalável através de pip ou conda, mas você pode consultar a documentação oficial de instalação para obter detalhes completos sobre isso.

### Link: http://scikit-learn.org/stable/install.html

## Data

### Usaremos o Conjunto de Dados de Câncer de Mama do SciKit Learn, que possui vários recursos de tumores com uma classe rotulada, indicando se o tumor era maligno ou benigno. Vamos tentar criar um modelo de rede neural capaz de detectar essas características e tentar prever rótulos malignos ou benignos para tumores que ele não tenha visto antes. Vamos em frente e comece pegando os dados!

In [0]:
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

### Este objeto é como um dicionário, contém uma descrição dos dados e dos recursos e destinos:

In [2]:
cancer.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

In [3]:
# Para imprimir a descricao completa do dataset:
print(cancer['DESCR'])

Breast Cancer Wisconsin (Diagnostic) Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry 
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 3 is Mean Radius, field
        13 is Radius SE, field 23 is Worst Radius.

        

In [4]:

# 569 data points with 30 features
cancer['data'].shape

(569, 30)

### Vamos configurar seus dados e nossos rótulos:

In [0]:
X = cancer['data']
y = cancer['target']

## Divisão do Dataset em Treinamento e Teste

### Vamos dividir nossos dados em conjuntos de treinamento e testes, isso é feito facilmente com a função train_test_split do SciKit Learn da model_selection:

In [0]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [7]:
X_train.shape

(426, 30)

In [8]:
X_test.shape

(143, 30)

## Pré-processamento dos Dados

### A rede neural pode ter dificuldade em convergir antes do número máximo de iterações permitidas, se os dados não forem normalizados. O Perceptron multicamadas é sensível ao dimensionamento de recursos, por isso é altamente recomendado dimensionar seus dados. Observe que você deve aplicar o mesmo dimensionamento ao conjunto de testes para resultados significativos. Existem muitos métodos diferentes para normalização de dados, usaremos o StandardScaler incorporado para padronização.

In [10]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
# Fit only to the training data
scaler.fit(X_train)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [0]:
# Now apply the transformations to the data:
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

# Modelo de Treinamento

###Agora é hora de treinar nosso modelo. O SciKit Learn torna isso incrivelmente fácil, usando objetos estimadores. Neste caso, vamos importar nosso estimador (o modelo Multi-Layer Perceptron Classifier) ​​da biblioteca neural_network do SciKit-Learn!

In [0]:

from sklearn.neural_network import MLPClassifier

### Em seguida, criamos uma instância do modelo. Há muitos parâmetros que você pode escolher para definir e personalizar. Como um primeiro exemplo, definiremos apenas os hidden_layer_sizes.

### Para este parâmetro, você passa em uma tupla que consiste no número de neurônios que você quer em cada camada, onde a enésima entrada na tupla representa o número de neurônios na enésima camada do modelo MLP. 

### Como visto em nossas aulas, a escolha do número de neurônios em cada camada é uma decisão empírica. Para simplificar, escolheremos três camadas com o mesmo número de neurônios que existem em nosso conjunto de dados:

In [0]:
mlp = MLPClassifier(hidden_layer_sizes=(30,30,30))

### Agora que o modelo foi definido, podemos ajustar os dados de treinamento ao nosso modelo, lembre-se de que esses dados já foram processados e normalizados:

In [14]:
mlp.fit(X_train,y_train)

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(30, 30, 30), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1,
       verbose=False, warm_start=False)

### Você pode ver a saída que mostra os valores padrão dos outros parâmetros no modelo.

### Seguiremos o notebook, mas retornaremos neste ponto para testar os efeitos que eles têm no seu modelo.

## Previsão e Avaliação

### Agora que temos um modelo, é hora de usá-lo para obter previsões! Podemos fazer isso simplesmente com o método predict() fora do nosso modelo ajustado:

In [0]:
predictions = mlp.predict(X_test)

### Agora podemos usar as métricas incorporadas do SciKit-Learn, como um relatório de classificação e uma matriz de confusão para avaliar o desempenho do nosso modelo:

In [19]:
from sklearn.metrics import classification_report,confusion_matrix
print(confusion_matrix(y_test,predictions))

[[53  2]
 [ 3 85]]


In [24]:
print(classification_report(y_test,predictions))

             precision    recall  f1-score   support

          0       0.95      0.96      0.95        55
          1       0.98      0.97      0.97        88

avg / total       0.97      0.97      0.97       143



### Para uma matriz de confusão neste formato:
### [[49  1]
### [ 3 90]]

### classificamos erroneamente apenas 4 tumores, deixando-nos com uma taxa de precisão de 97,2%. Isso é muito bom considerando quantas linhas de código tivemos que escrever!

### A desvantagem, no entanto, de usar um modelo Preceptron de várias camadas é a dificuldade de interpretar o modelo em si. Os pesos e biases não serão facilmente interpretáveis em relação a quais recursos são importantes para o modelo em si.

### No entanto, se você quiser extrair os pesos e vieses do MLP depois de treinar seu modelo, use seus atributos públicos coefs_ e intercepts_.

### **coefs_** é uma lista de matrizes de peso, onde matriz de peso no índice i representa os pesos entre a camada i e a camada i + 1.

### **intercepts_** é uma lista de vetores de bias, em que o vetor no índice i representa os valores de bias adicionados à camada i + 1.

In [0]:
mlp.coefs_

[array([[ 0.175328  , -0.13278672, -0.12823009,  0.10465968,  0.05346843,
          0.2759497 , -0.23302298,  0.32120463, -0.10401584, -0.08533004,
         -0.11468065,  0.02177575,  0.17916408, -0.10678055, -0.23758909,
          0.33604498, -0.01761497,  0.28769153, -0.3511732 , -0.05871903,
          0.22228222, -0.18278413,  0.15614595, -0.0122904 , -0.03931207,
          0.01195713,  0.2929104 ,  0.01834499, -0.14226055, -0.13366467],
        [-0.00233582,  0.25988125,  0.10714543, -0.24110006, -0.12413687,
          0.29929345, -0.21822292,  0.09977173,  0.22252541,  0.05492002,
          0.04091251,  0.2849476 , -0.22696915,  0.27168757,  0.02203899,
          0.15629884, -0.23978981,  0.01237874,  0.0980252 , -0.32599077,
         -0.210092  ,  0.1920993 , -0.22833031,  0.00156677,  0.21158644,
          0.13824258, -0.24508345,  0.02256469,  0.19287418, -0.06396253],
        [ 0.01661424,  0.20997168,  0.28423892,  0.05584974, -0.01181456,
          0.02047964,  0.12721071,  

In [0]:
len(mlp.coefs_[0])

30

In [0]:
len(mlp.intercepts_[0])

30

## Experimente a manipulação dos parâmetros da RNA, utilizando o código a seguir:

In [0]:
# Definicao da arquitetura da rede.
mlp = MLPClassifier(activation='tanh', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(10, 20, 10), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1,
       verbose=False, warm_start=False)

# Aprendizado.
mlp.fit(X_train,y_train)

# Previsao sobre o conjunto de teste.
predictions = mlp.predict(X_test)

# Impressao da matriz de confunsao.
print(confusion_matrix(y_test,predictions))

# Impressao dos resultados.
print(classification_report(y_test,predictions))

[[48 21]
 [ 7 67]]
             precision    recall  f1-score   support

          0       0.87      0.70      0.77        69
          1       0.76      0.91      0.83        74

avg / total       0.82      0.80      0.80       143

