In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt

In [None]:
dados = pd.read_csv("/kaggle/input/red-wine-quality-cortez-et-al-2009/winequality-red.csv")
dados.head()

In [None]:
# Separando em X e y
y = dados['quality']
X = dados.drop(columns=['quality'])

# Préprocessamento

- Etapa mais importante e com maior impacto no resultado final;
- Etapa mais demorada (70%-90%) do processo de criacao do modelo;
- Consiste em basicamente:
    - Lidar com dados faltantes;
    - Lidar com dados sem sentido;
    - Remoção de duplicatas (se houver necessidade);
    - União de dados de diferentes fontes;
    - Formatação dos dados.
    
### Etapas fundamentais para o préprocessamento:

0. Pontos citados anteriormente ja devem estar resolvidos;
1. Feature engineering:
    - Selecionar as features que serao usadas;
    - Criar novas features que facam sentido (requer conhecimento especialista do problema);
2. Embaralhar os dados;
3. Normalizar ou padronizar;

In [None]:
# Embaralhar os dados
from sklearn.utils import shuffle
X, y = shuffle(X,y)

In [None]:
# Standartization 
from sklearn.preprocessing import StandardScaler   # Vou executar padronização e não normalização
padronizador = StandardScaler()
X_pad = padronizador.fit_transform(X)

In [None]:
#  Separar em treino e teste
#     Obs: Para redes neurais usando Keras nao eh necessario criar o conjunto de validacao
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_pad, y, test_size=0.3, random_state=42, shuffle=True)

# Criacao de rede

In [None]:
X_train.shape

In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Activation, Dense

In [None]:
# Definir a arquitetura do modelo
modelo = Sequential([
    Dense(units=10, input_shape=(11,), activation='relu'),
    Dense(units=20, activation='relu'),
    Dense(units=1, activation='relu')
])

In [None]:
modelo.summary()

# Treinando o modelo

In [None]:
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.metrics import RootMeanSquaredError, MeanSquaredError

In [None]:
# Configurar o aprendizado o modelo
modelo.compile(optimizer=Adam(learning_rate=0.0001), loss='mean_squared_error', metrics=[RootMeanSquaredError()])

In [None]:
# Treinando o modelo
model_training_history = modelo.fit(x=X_train, y=y_train, validation_split=0.1, batch_size=10, epochs=100, shuffle=True, verbose=1)

Visualizando o aprendizado

In [None]:
model_training_history.history.keys()

In [None]:
f, ax = plt.subplots(figsize=(18,9))

ax.plot(range(len(model_training_history.history['loss'])), model_training_history.history['root_mean_squared_error'], label='loss training')
ax.plot(range(len(model_training_history.history['val_loss'])), model_training_history.history['val_root_mean_squared_error'], label='loss validation')

ax.legend()
ax.set_xlabel("Epochs")
ax.set_ylabel("loss")

plt.show()

# Validacao

In [None]:
y_pred = modelo.predict(X, batch_size=10)
from sklearn.metrics import mean_squared_error

mean_squared_error(y_test, modelo.predict(X_test))