## Neural networks: Classification

* MLPClassifier do módulo sklearn.neural_network

* O principal parâmetro para um classificador de rede neural é esse parâmetro, hidden_layer_sizes.Este parâmetro é uma lista, com um elemento para cada camada oculta,  que fornece o número de unidades ocultas a serem usadas para essa camada.

* O parâmetro solver especifica o algoritmo a ser usado para aprender os pesos da rede.



In [1]:
from sklearn.neural_network import MLPClassifier

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

import os 
os.chdir(r'C:\Users\gizel\Documents\PUCMG\PUC_MG_Disciplinas\PUC_MG_Disciplinas\04 - Machine Learning\Unidade 3 - Aprendizado Supervisionado Classificação e Regressão/dataset')

In [3]:
sonar = pd.read_excel('sonar.xlsx')


#### Transformando os dados

In [4]:
print(sonar['Classe'].unique())


['Rocha' 'Mina']


In [5]:
# 0 para Rocha 
# 1 para Mina 

sonar = sonar.replace('Rocha', 0)
sonar = sonar.replace('Mina',1)

print(sonar['Classe'].unique())

[0 1]


##### Dados de Teste e Dados de Treinamento

In [6]:

# Pacote de treinamento: Pegando todas as colunas exceto a última coluna que possui os labels: 'Classe'

X_train_ = sonar.iloc[:,0:(sonar.shape[1] - 1)]


# LabelEnconder transforma apenas a última coluna "Classe:['Rocha' 'Mina'] string em classe binária 
le = LabelEncoder()

y_train_ = le.fit_transform(sonar.iloc[:,(sonar.shape[1]-1)])


X_train, X_test, y_train, y_test = train_test_split(X_train_, y_train_,random_state = 0)



#### Construindo o modelo com duas camadas sem regularização

In [71]:

nnclf = MLPClassifier(hidden_layer_sizes = [100, 100], solver='lbfgs',
                     random_state = 0).fit(X_train, y_train)

# hidden_layer_sizes ->  Neste caso temos 2 camadas ocultas com 100 neurônios em cada camada. 



print('Accuracy  on training set: {:.2f}'
     .format(nnclf.score(X_train, y_train)))
print('Accuracy  on test set: {:.2f}'
     .format(nnclf.score(X_test, y_test)))



print("\n")
print('The current loss computed with the loss function ',nnclf.loss_)
print("\n")

print('The number of iterations the solver has ran. ',nnclf.n_iter_)

print("\n")
print('The ith element in the list represents the bias vector corresponding to layer i + 1. ',nnclf.intercepts_)


Accuracy  on training set: 1.00
Accuracy  on test set: 0.81


The current loss computed with the loss function  0.0003499961380952154


The number of iterations the solver has ran.  61


The ith element in the list represents the bias vector corresponding to layer i + 1.  [array([ 0.09793604,  0.65933186,  0.94093143, -0.29576134,  0.05735419,
       -0.0357136 ,  0.13961629, -0.18025247, -0.33556593,  0.15500896,
        0.7052307 , -0.06925135,  0.93285423,  0.13957653, -0.89660265,
        0.1759679 ,  0.11657515, -0.05689783,  0.36025893, -0.25403758,
       -0.2490913 , -0.25656625, -0.40091914,  0.84682717, -1.41438041,
       -0.59326604, -0.17631439, -0.13950317, -0.41923573,  0.17388008,
       -0.05330094, -0.08532776, -0.09385319, -0.0755602 , -0.38277193,
        1.7143912 ,  1.32733288,  0.90987366,  0.07664363,  0.00995346,
       -0.01017292, -0.36976442, -0.01580296, -0.25115254,  0.02645054,
        0.1124788 , -0.02372505,  0.07238137, -0.22387794, -0.36186831,
      

#### Construindo o modelo com duas camadas com regularização

Ao  adicionar mais camadas ocultas, com muitas unidades ocultas.Pode-se ver que o número de pesos, ou coeficientes de modelo, para estimar uma rede neural pode aumentar rapidamente.
A rede neurai passam a ter muitos milhares de pesos para estimar.

Podemos <b>controlar a complexidade desse modelo</b>, adicionando uma penalidade de regularização L2 nos pesos. A regularização L2 <b>penaliza modelos</b> que possuem uma grande soma de quadrados de todos os valores de peso. Pesos próximos de zero evitam problema de paralisia da rede.

> A regularização L2 é uma das técnicas usadas para se evitar ou minimizar o
impacto do overfitting, recomendada principalmente para conjuntos de dados limitado
ou quando não podemos aumentar significativamente o número de camadas do
modelo de rede. Sabe-se que, utilizando redes com muitas camadas ou dispondo de
um conjunto grande de dados, a chance de se obter sucesso com o modelo aumenta.
A regularização L2 consiste em adicionar à função de custo uma regularização aos
pesos (por meio da soma dos quadrados dos pesos), evitando poucos valores altos
nos parâmetros (PONTI; COSTA, 2017).


O parâmetro de regularização para MLPs é chamado alpha. E no scikit-learn, ele é definido como um valor pequeno por padrão, como 0,0001, que fornece um pouco de regularização.




Quando alfa é pequeno, os limites de decisão são muito mais complexos e variáveis. E o excesso de classificação do classificador, como podemos ver na pontuação muito alta do conjunto de treinamento e na baixa pontuação do teste do modelo <b>nnclf</b>. Por outro lado, o modelo abaixo <b>nnclf2</b> usa valor de alfa  5.0. E essa configuração resulta em limites de decisão muito mais suaves, enquanto captura a estrutura global dos dados. E essa maior simplicidade permite generalizar muito melhor, e não se ajustar demais ao conjunto de treinamento. E isso é evidente a partir da pontuação do teste muito mais alta, neste caso.

In [70]:


nnclf2 = MLPClassifier(hidden_layer_sizes = [100, 100], 
                      solver='lbfgs',
                      alpha = 5.0,
                      max_iter = 700,
                       
                     random_state = 0).fit(X_train, y_train)

# alpha: Penalidade L2

# max_iter: Número máximo de iterações. O solucionador itera até a convergência 
# ou este número de iterações. Para solucionadores estocásticos
# (‘sgd’, ‘adam’), observe que isso determina o 
# número de épocas (quantas vezes cada ponto de dados será usado), não o número de etapas de gradiente.



print('Accuracy  on training set: {:.2f}'
     .format(nnclf2.score(X_train, y_train)))
print('Accuracy  on test set: {:.2f}'
     .format(nnclf2.score(X_test, y_test)))

print("\n")
print('The current loss computed with the loss function ',nnclf2.loss_)
print("\n")

print('The number of iterations the solver has ran. ',nnclf2.n_iter_)
print("\n")


print('The ith element in the list represents the bias vector corresponding to layer i + 1. ',nnclf2.intercepts_)

Accuracy  on training set: 0.92
Accuracy  on test set: 0.88


The current loss computed with the loss function  0.5324949737554309


The number of iterations the solver has ran.  522


The ith element in the list represents the bias vector corresponding to layer i + 1.  [array([-0.0406744 , -0.18545266,  0.18117017,  0.06610735, -0.28288216,
       -0.25859999, -1.41332198, -0.18025247, -0.04586384,  0.22537047,
        0.64427723,  0.09663517,  0.21149758,  0.15543835,  0.22360627,
        0.1935859 ,  0.10419136, -0.05740477,  0.15910801, -0.17120477,
        0.0880858 ,  0.42155118, -0.1953809 , -0.01744011,  0.29119772,
       -0.3845912 , -0.06254842, -0.04000038, -0.00509854, -0.00811541,
       -0.05330639, -0.08532776, -0.02706262, -0.10198236, -0.13438373,
        0.36820112,  0.4457969 ,  0.09236985,  0.11745354,  0.01311029,
        0.05139354,  0.2175667 , -0.01611614,  0.1222396 , -0.04724502,
       -0.08494503,  0.29418932,  0.07772506, -0.15736152, -0.21769282,
       -