# Contexto ‚úíÔ∏è

J√° familiarizado com a arquitetura da rede e a sua implementa√ß√£o, bem como a estrutura de dados pertinente para o procedimento do aprendizado da m√°quina no contexto das redes neurais, esse notebook ir√° debru√ßar sobre a etapa de forward da rede neural at√© a fun√ß√£o objetivo.

# Bibliotecas üìö

In [203]:
import torch
import pandas as pd

from torch import nn
from torch import optim
from torchsummary import summary

from sklearn import datasets
from sklearn.preprocessing import StandardScaler

### Fun√ß√£o de perda

A fun√ß√£o de perda pode ser pensada como uma medida num√©rica de qualidade do modelo, a qual se relaciona numa busca por maximiza√ß√£o ou minimiza√ß√£o de algo.

- Exemplo de maximiza√ß√£o :

Modelando o desempenho de um carro de f√≥rmula 1 numa fun√ß√£o matem√°tica, a fun√ß√£o de perda se debru√ßaria sobre as features que podem prover a maximiza√ß√£o do ve√≠culo, para que provesse a ele um incremento de performance.

- Exemplo de minimaza√ß√£o :    

Compreendendo a elabora√ß√£o de pre√ßos de casas com base nas features que se colocam como caracter√≠sticas latentes a esse, eu poderia criar um modelo que prevesse as casas com base em suas caracter√≠sticas, local em que est√° situada e etc. A prova de qualidade desse modelo seria a sua previs√£o estar pr√≥xima ou de modo colinear ao valor da casa real. Ou seja, a sua fun√ß√£o de perda se debru√ßaria em minimizar a dist√¢ncia do que √© predito em rela√ß√£o ao o que √© encontrado. Podemos encontrar a fun√ß√£o de perda, ainda, com outros nomes, como fun√ß√£o de custo, loss, fun√ß√£o objetivo e etc.

 A escolha da fun√ß√£o de perda a ser utilizada est√° intimamente relacionada ao problema no qual ela se circunscreve. Tomando como exemplo problemas de regress√£o e classifica√ß√£o, as fun√ß√µes de perda comumente utilizadas para cada qual s√£o :

 >

 ### Regress√£o

 Erro absoluto m√©dio (l1) - $[y -y'i]$

 Erro quadr√°tico m√©dio (MSE / l2) - $[y -y'i]¬≤$

 >

 ### Classifica√ß√£o

 Normalmente utiliza-se a entropia cruzada, que mensura a diferen√ßa do valor inferido em rela√ß√£o ao valor encontrado (ou real).  

## Para problemas de classifica√ß√£o ü•áü•àü•â

Para auxiliar no processo da implementa√ß√£o, o dataset escolhido se refere a vinhos, os quais relaciona as suas caracter√≠sticas com a classe que pertencem.

In [218]:
# Carregando o dataset:

wine = datasets.load_wine()

# Features
data_wine = wine.data

# Target
target_wine = wine.target

# Formato das features e da target.
print(data_wine.shape)
print(target_wine.shape)

(178, 13)
(178,)


In [205]:
# Nome das features referentes ao vinho.

print(wine.feature_names)

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


## Criando a rede neural para classifica√ß√£o ‚ô¶Ô∏è



In [219]:
input_size = data_wine.shape[1]
hidden_size = 32
output_size = len(wine.target_names)

In [217]:
class WineClassifier(nn.Module):

  def __init__(self, input_size, hidden_size, output_size):

    # Instanciando nn.Module
    super(WineClassifier, self).__init__()

    self.hidden = nn.Linear(input_size, hidden_size)
    self.relu = nn.ReLU()
    self.out = nn.Linear(hidden_size, output_size)
    self.softmax = nn.Softmax()



  def forward(self, X):

    feature = self.relu(self.hidden(X))
    output = self.softmax(self.out(feature))

    return output



In [220]:
net_wine = WineClassifier(input_size, hidden_size, output_size) # Quando terminar tudo acrescentar : .to(device) para fazer o cast na GPU.

In [221]:
# Visualizando a rede criada.

net_wine

WineClassifier(
  (hidden): Linear(in_features=13, out_features=32, bias=True)
  (relu): ReLU()
  (out): Linear(in_features=32, out_features=3, bias=True)
  (softmax): Softmax(dim=None)
)

In [222]:
'''
Definindo o crit√©rio da fun√ß√£o de objetivo. Como se trata
de um problema de classifica√ß√£o, estou utilizando a entropria cruzada.
'''

criterion_wine = nn.CrossEntropyLoss() # fazer depois o cast na GPU.


Uma vez criado a rede neural e a defini√ß√£o da m√©trica para a fun√ß√£o objetivo, precisa-se transformar os dados para que fiquem no tipo tensor, caso n√£o estejam. Tendo em vista que os dados presentes est√£o na forma de array, precisa-se transform√°-los em tensor.

In [223]:
# Transformando os dados em tensores.

X_tensor = torch.from_numpy(data_wine).float()
y_tensor = torch.from_numpy(target_wine)

'''
Fazer o cast na GPU depois para os tensores criados.

X_tensor = X_tensor.to(device)
y_tensor = y_tensor.to(device)

'''

print(X_tensor.dtype, y_tensor.dtype)

torch.float32 torch.int64


In [224]:
# Realizando o forward na rede.

pred = net_wine(X_tensor)

  return self._call_impl(*args, **kwargs)


In [225]:
print(f'Visualizando o formato da predi√ß√£o e do r√≥tulo \n')
print(f'Predi√ß√£o : {pred.shape}')
print(f'R√≥tulo : {y_tensor.shape}')

Visualizando o formato da predi√ß√£o e do r√≥tulo 

Predi√ß√£o : torch.Size([178, 3])
R√≥tulo : torch.Size([178])


Por mais que o formato entre o forward e o r√≥tulo seja diferente, apresentando portanto diferentes dimens√µes, n√£o h√° problema, para cen√°rios de classifica√ß√£o, essa disson√¢ncia, sendo at√© esperada, o que n√£o exige nenhum grau de tratamento e etc.

In [226]:
'''
O valor encontrado pela loss, na forma em que est√°, retorna a m√©dia de perda
entre o valor real e o inferido pela rede, com base na entropia cruzada,
informando a qualidade da rede criada.
'''

loss = criterion_wine(pred, y_tensor)
loss

tensor(1.1644, grad_fn=<NllLossBackward0>)

In [227]:
# Se eu quis√©sse encontrar para um valor ou range.

# Para um valor

loss = criterion_wine(pred[0], y_tensor[0])
loss



tensor(1.5514, grad_fn=<NllLossBackward0>)

In [228]:
# Para um alcance

loss = criterion_wine(pred[0:10], y_tensor[0:10])
loss

tensor(1.5513, grad_fn=<NllLossBackward0>)

## Para problemas de regress√£o ‚ô£Ô∏è

In [229]:
# Carregando o dataset utilizado

diabetes = datasets.load_diabetes()

# Feature
data = diabetes.data

# Target
target = diabetes.target

In [230]:
# Visualizando as features referentes √† target.

diabetes.feature_names

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

In [231]:
print(data.shape)
print(target.shape)

(442, 10)
(442,)


In [232]:
# Par√¢metros a serem passados atrelados ao problema de regress√£o.

input_size = data.shape[1]
hidden_size = 32
output_size = 1

In [233]:
# Implementando a rede para regress√£o :

class DiabetesRegressor(nn.Module):

  def __init__(self, input_size, hidden_size, output_size):

    # Instanciando nn.Module
    super(DiabetesRegressor, self).__init__()

    self.hidden = nn.Linear(input_size, hidden_size)
    self.relu = nn.ReLU()
    self.out = nn.Linear(hidden_size, output_size)
    self.sigmoid = nn.Sigmoid()

  def forward(self, X):

    feature = self.relu(self.hidden(X))
    output = self.sigmoid(self.out(feature))

    return output



Ao analisar a arquitetura da rede, observa-se que n√£o estou utilizando a fun√ß√£o de ativa√ß√£o, na por√ß√£o de sa√≠da, softmax, mas, sim, uma linear, pois se trata de um caso de regress√£o no qual deseja-se prever um valor com base nas features.

In [234]:
net = DiabetesRegressor(input_size, hidden_size, output_size) # N√£o esquecer de depois fazer o cast na GPU.

In [235]:
# Visualizando a rede neural constru√≠da.

print(net)

DiabetesRegressor(
  (hidden): Linear(in_features=10, out_features=32, bias=True)
  (relu): ReLU()
  (out): Linear(in_features=32, out_features=1, bias=True)
  (sigmoid): Sigmoid()
)


In [236]:
# Criando a fun√ß√£o de perda.

criterion = nn.MSELoss() # Passar posteriormente √† GPU

In [237]:
# N√£o esquecer de depois passar para a GPU

X_tensor = torch.from_numpy(data).float()
y_tensor = torch.from_numpy(target)

In [238]:
print(X_tensor.shape, y_tensor.shape)

torch.Size([442, 10]) torch.Size([442])


In [239]:
# Fazendo o forward na rede

pred = net(X_tensor)

In [240]:
pred.shape

torch.Size([442, 1])

In [241]:
'''
Para calcular a loss, basta relacionar os valores do forward
em rela√ß√£o aos esperados. Por√©m, diferente do c√°lculo anterior
no qual podia-se passar o foward da rede com formato diferente
ao encontrado nos valores esperados, para regress√µes o valor tem
de ser os mesmos, ou seja, tanto o forward quanto o valor esperado
devem estar na mesma dimens√£o. Para isso, basta :
'''

loss = criterion(pred.squeeze(), y_tensor)
loss



tensor(28917.9163, dtype=torch.float64, grad_fn=<MseLossBackward0>)

Novamente, o valor encontrado pela loss se refere a m√©dia
da diferen√ßa do valor real entre o esperado, com base na
m√©trica utilizada.
