# Design Pattern 11: Useful Overfitting

> Renuncia o uso de mecanismos de generalização para fazer overfitting intencional no conjunto de dados para alguns casos de uso

### Bibliotecas

In [1]:
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense
import warnings
warnings.filterwarnings('ignore')

2024-04-14 10:41:42.359145: I tensorflow/core/util/port.cc:110] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-04-14 10:41:42.361718: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2024-04-14 10:41:42.404252: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2024-04-14 10:41:42.404956: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


### Base de dados ficitícia

> Esta base de dados contém informações simuladas sobre opções de compra europeias, incluindo o preço do ativo subjacente e o preço teórico da opção calculado usando a equação de Black-Scholes.

In [2]:
df = pd.read_csv('option_pricing_data.csv')
print(df.shape)
df.head()

(1260, 3)


Unnamed: 0,Date,Underlying_Price,Option_Price
0,2022-01-01,102.259552,7.106414
1,2022-01-02,102.788632,7.370549
2,2022-01-03,104.076348,8.036057
3,2022-01-04,107.069311,9.704257
4,2022-01-05,109.631469,11.262112


### Aplicação do padrão

> Para treinar o modelo, não usamos conjuntos de validação ou regularização e usamos todos os dados de entrada. Isso é possível porque os dados simulados são baseados na equação de Black-Scholes permitindo a aplicação do padrão de Useful Overfitting.

In [3]:
X = df['Underlying_Price'].values.reshape(-1, 1)
y = df['Option_Price'].values.reshape(-1, 1)


model = Sequential()
model.add(Dense(1, input_dim=1, activation='relu'))
model.add(Dense(1, activation='linear'))

model.compile(loss='mean_squared_error', optimizer='adam')

model.fit(X, y, epochs=7, batch_size=32, verbose=0)
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 1)                 2         
                                                                 
 dense_1 (Dense)             (None, 1)                 2         
                                                                 
Total params: 4 (16.00 Byte)
Trainable params: 4 (16.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


### Avaliação

> Uma perda alta pode ser indicativa de que o modelo está se ajustando demais (overfitting) aos dados de treinamento, o que é bom porque o objetivo deste padrão é permitir que o modelo se ajuste o máximo possível aos dados, sem se preocupar com a generalização. 

In [4]:
loss = model.evaluate(X, y)
print(f'Loss: {loss}')

Loss: 72.43401336669922
