# Redes Neurais Artificiais


Ilustra o funcionamento do algoritmo de redes neurais.

Este notebook foi desenvolvido para o ambiente GOOGLE COLAB ([colab.research.google.com](https://colab.research.google.com)).

Prof. Hugo de Paula

-------------------------------------------------------------------------------

### Base de dados: Sonar, Mines vs. Rocks

https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+%28Sonar,+Mines+vs.+Rocks%29

208 instâncias

60 atributos

2 classes (rocha, mina)



In [1]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import LabelEncoder
import numpy as np

np.set_printoptions(precision=2)



### Carga dos dados


In [2]:
#from google.colab import files
#uploaded = files.upload()
#sonar = pd.read_excel('sonar.xlsx', sheet_name=0) 
from google.colab import drive
drive.mount('/content/drive')
sonar = pd.read_excel('/content/drive/My Drive/PUC/ML/Datasets/sonar.xlsx', sheet_name=0)



Mounted at /content/drive



### Transformação de dados

A classe é convertida para labels únicos sequenciais.

<code>
 le = preprocessing.LabelEncoder()
  
 le.fit(dados)
</code>


### Particionamento da base

<code>train_test_split(X, y) -- particiona a base de dados original em bases de treinamento e teste.</code>

No código a seguir, são utilizados 10% para teste e 90% para treinamento.


In [4]:
X = sonar.iloc[:,0:(sonar.shape[1] - 1)]

le = LabelEncoder()
y = le.fit_transform(sonar.iloc[:,(sonar.shape[1] - 1)])

class_names = le.classes_


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=0)



In [7]:
print(class_names)
print(y)
print(sonar.iloc[:,(sonar.shape[1] - 1)])

['Mina' 'Rocha']
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
0      Rocha
1      Rocha
2      Rocha
3      Rocha
4      Rocha
       ...  
203     Mina
204     Mina
205     Mina
206     Mina
207     Mina
Name: Classe, Length: 208, dtype: object


### MLP com uma camada oculta

O bloco a seguir testa a rede neural com um camada oculta com 100 neurônios. 

São totalizados 6.100 pesos diferentes que precisarão ser ajustados na fase de treinamento.

O parâmetro solver='lbfgs' foi escolhido por ser mais adequado para treinamento com bases pequenas (menores que alguns milhares de registros).

In [11]:
# Rede Perceptron Multicamadas (MLP):  Configuração default otimizando a função log-loss
# uma camada oculta com 100 neurônios.

mlp = MLPClassifier(solver='lbfgs', random_state=2, hidden_layer_sizes=[100], learning_rate_init=0.01, max_iter=200000)
mlp.fit(X_train, y_train)
y_pred = mlp.predict(X_test)


print("Camadas da rede: {}".format(mlp.n_layers_))
print("Neurônios na camada oculta: {}".format(mlp.hidden_layer_sizes))
print("Neurônios na camada de saída: {}".format(mlp.n_outputs_))
print("Pesos na camada de entrada: {}".format(mlp.coefs_[0].shape))
print("Pesos na camada oculta: {}".format(mlp.coefs_[1].shape))

print("Acurácia da base de treinamento: {:.2f}".format(mlp.score(X_train, y_train)))
print("Acurácia da base de teste: {:.2f}".format(mlp.score(X_test, y_test)))


print(classification_report(y_test, y_pred, target_names=class_names))

# Calcula a matriz de confusão
cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=['Mina', 'Rocha'], columns=['Mina Prev', 'Rocha Prev'])
print(cnf_table)


Camadas da rede: 3
Neurônios na camada oculta: [100]
Neurônios na camada de saída: 1
Pesos na camada de entrada: (60, 100)
Pesos na camada oculta: (100, 1)
Acurácia da base de treinamento: 1.00
Acurácia da base de teste: 0.90
              precision    recall  f1-score   support

        Mina       0.80      1.00      0.89         8
       Rocha       1.00      0.85      0.92        13

    accuracy                           0.90        21
   macro avg       0.90      0.92      0.90        21
weighted avg       0.92      0.90      0.91        21

       Mina Prev  Rocha Prev
Mina           8           0
Rocha          2          11


In [12]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, classification_report
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)

ac = gnb.score(X_test, y_test)

print("Acurácia da base de treinamento: {:.2f}".format(gnb.score(X_train, y_train)))
print("Acurácia da base de teste: {:.2f}".format(gnb.score(X_test, y_test)))

print(classification_report(y_test, y_pred, target_names=['Mina', 'Rocha']))

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=['Mina', 'Rocha'], columns=['Mina Prev', 'Rocha Prev'])
print(cnf_table)


Acurácia da base de treinamento: 0.71
Acurácia da base de teste: 0.71
              precision    recall  f1-score   support

        Mina       0.75      0.38      0.50         8
       Rocha       0.71      0.92      0.80        13

    accuracy                           0.71        21
   macro avg       0.73      0.65      0.65        21
weighted avg       0.72      0.71      0.69        21

       Mina Prev  Rocha Prev
Mina           3           5
Rocha          1          12


### MLP com duas camadas ocultas

O bloco a seguir testa a rede neural com duas camadas ocultas. 

A primeira camada possui 100 neurônios, enquanto a segunda camada possui 60 neurônios. 

São totalizados 12.100 pesos diferentes que precisarão ser ajustados na fase de treinamento.

Com essa rede será possível observar que aumentar arbitrariamente a dimensão da sua rede neural não garante um aumento arbitrário da performance do modelo.

In [13]:

mlp = MLPClassifier(solver='lbfgs', random_state=2, hidden_layer_sizes=[100, 60])
mlp.fit(X_train, y_train)
y_pred = mlp.predict(X_test)


print("Camadas da rede: {}".format(mlp.n_layers_))
print("Neurônios na camada oculta: {}".format(mlp.hidden_layer_sizes))
print("Neurônios na camada de saída: {}".format(mlp.n_outputs_))
print("Pesos na camada de entrada: {}".format(mlp.coefs_[0].shape))
print("Pesos na camada oculta: {}".format(mlp.coefs_[1].shape))

print("Acurácia da base de treinamento: {:.2f}".format(mlp.score(X_train, y_train)))
print("Acurácia da base de teste: {:.2f}".format(mlp.score(X_test, y_test)))

print(classification_report(y_test, y_pred, target_names=class_names))

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=class_names, columns=[x + "(prev)" for x in class_names])
print(cnf_table)


Camadas da rede: 4
Neurônios na camada oculta: [100, 60]
Neurônios na camada de saída: 1
Pesos na camada de entrada: (60, 100)
Pesos na camada oculta: (100, 60)
Acurácia da base de treinamento: 1.00
Acurácia da base de teste: 0.81
              precision    recall  f1-score   support

        Mina       0.75      0.75      0.75         8
       Rocha       0.85      0.85      0.85        13

    accuracy                           0.81        21
   macro avg       0.80      0.80      0.80        21
weighted avg       0.81      0.81      0.81        21

       Mina(prev)  Rocha(prev)
Mina            6            2
Rocha           2           11


### *Overfitting* por excesso de neurônios

A forma mais eficiente para se determinar o número de neurônios na camada oculta é por busca sistemática. Um artigo interessante que ilustra diversas heurísticas para resolver o problema pode ser visto em 

 D. Stathakis (2009) *How many hidden layers and nodes?*, **International Journal of Remote Sensing**, 30:8, 2133-2147, DOI: 10.1080/01431160802549278 
 
 Entretanto, um ponto de partida inicial muito utilizado corresponde ao:
 
 (num_entradas + num_classes) / 2.
 
 Note que a rede manteve a mesma performance das topologias anteriores.

In [19]:
mlp = MLPClassifier(solver='lbfgs', random_state=2, hidden_layer_sizes=[31])
mlp.fit(X_train, y_train)
y_pred = mlp.predict(X_test)


print("Camadas da rede: {}".format(mlp.n_layers_))
print("Neurônios na camada oculta: {}".format(mlp.hidden_layer_sizes))
print("Neurônios na camada de saída: {}".format(mlp.n_outputs_))
print("Pesos na camada de entrada: {}".format(mlp.coefs_[0].shape))
print("Pesos na camada oculta: {}".format(mlp.coefs_[1].shape))

print("Acurácia da base de treinamento: {:.2f}".format(mlp.score(X_train, y_train)))
print("Acurácia da base de teste: {:.2f}".format(mlp.score(X_test, y_test)))

print(classification_report(y_test, y_pred, target_names=class_names))

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=class_names, columns=[x + "(prev)" for x in class_names])
print(cnf_table)


Camadas da rede: 3
Neurônios na camada oculta: [31]
Neurônios na camada de saída: 1
Pesos na camada de entrada: (60, 31)
Pesos na camada oculta: (31, 1)
Acurácia da base de treinamento: 1.00
Acurácia da base de teste: 0.90
              precision    recall  f1-score   support

        Mina       0.80      1.00      0.89         8
       Rocha       1.00      0.85      0.92        13

    accuracy                           0.90        21
   macro avg       0.90      0.92      0.90        21
weighted avg       0.92      0.90      0.91        21

       Mina(prev)  Rocha(prev)
Mina            8            0
Rocha           2           11


### Ajustamento dos dados

As redes neurais a seguir irão testar a hipótese de que uma MLP é robusta quanto a dados não normalizados. 

Os dados serão padronizados pelo Z-score.

A normalização dos dados não irá acarretar em nenhume melhoria da rede.

In [20]:
# Calcula a média e o desvio padrão de cada atributo da base de treinamento
# Pode também utilizar o StandardScaler
mean_on_train = X.mean(axis=0)
std_on_train = X.std(axis=0)

# Normaliza os atributos pela norma Z = (X - média) / desvio padrão
# afterwards, mean=0 and std=1
X_train_scaled = (X_train - mean_on_train) / std_on_train
# usa a esma transformação nos dados de teste
X_test_scaled = (X_test - mean_on_train) / std_on_train


# A rede atinge o número máximo de iterações, mas não converge.
mlp = MLPClassifier(solver='lbfgs', hidden_layer_sizes=[31], random_state=2)
mlp.fit(X_train_scaled, y_train)
print("Acurácia da base de treinamento: {:.2f}".format(mlp.score(X_train_scaled, y_train)))
print("Acurácia da base de teste: {:.2f}".format(mlp.score(X_test_scaled, y_test)))

y_pred = mlp.predict(X_test_scaled)

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=class_names, columns=[x + "(prev)" for x in class_names])
print(cnf_table)


# Vamos aumentar o número máximo de iterações
mlp = MLPClassifier(solver='adam', hidden_layer_sizes=[31], max_iter=1000, random_state=0)
mlp.fit(X_train_scaled, y_train)
print("Acurácia da base de treinamento: {:.2f}".format(mlp.score(X_train_scaled, y_train)))
print("Acurácia da base de teste: {:.2f}".format(mlp.score(X_test_scaled, y_test)))

y_pred = mlp.predict(X_test_scaled)

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=class_names, columns=[x + "(prev)" for x in class_names])
print(cnf_table)



Acurácia da base de treinamento: 1.00
Acurácia da base de teste: 0.90
       Mina(prev)  Rocha(prev)
Mina            7            1
Rocha           1           12
Acurácia da base de treinamento: 1.00
Acurácia da base de teste: 0.90
       Mina(prev)  Rocha(prev)
Mina            8            0
Rocha           2           11


In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score

mlpgs = MLPClassifier(max_iter=200000)
params={'solver':('adam', 'lbfgs'), 
        'hidden_layer_sizes':[10, 20, 30, 40, 50, 60], 
        'learning_rate_init':[0.1, 0.05, 0.01, 0.005, 0.001]}

classificadorGrid = GridSearchCV(mlpgs, param_grid=params)


y_pred = classificadorGrid.fit(X, y).predict(X_test)

print("Os melhores parâmetros encontrados no conjunto de modelos testados:")
print(classificadorGrid.best_params_,'\n')

print(classification_report(y_test, y_pred, target_names=['Mina', 'Rocha']))

cnf_matrix = confusion_matrix(y_test, y_pred)
cnf_table = pd.DataFrame(data=cnf_matrix, index=class_names, columns=[x + "(prev)" for x in class_names])
print(cnf_table)


In [None]:
mlp.predict_proba(X_test_scaled)