# Problemas

Como vimos acima, há muitos passos na criação e definição de uma nova rede neural.
A grande parte desses ajustes dependem diretamente do problemas.

Abaixo, listamos alguns problemas. Todos os problemas e datasets usados vem do [Center for Machine Learning and Intelligent Systems](http://archive.ics.uci.edu/ml/datasets.php).


**Seu objetivo é determinar e implementar um modelo para cada problema.**

Isso inclui:

1. definir uma arquitetura.
Por enquanto usando somente camadas [Lineares](https://pytorch.org/docs/stable/nn.html#linear), porém podemos variar as ativações, como [Sigmoid](https://pytorch.org/docs/stable/nn.html#sigmoid), [Tanh](https://pytorch.org/docs/stable/nn.html#tanh), [ReLU](https://pytorch.org/docs/stable/nn.html#relu), [LeakyReLU](https://pytorch.org/docs/stable/generated/torch.nn.LeakyReLU.html), [ELU](https://pytorch.org/docs/stable/generated/torch.nn.ELU.html), [SeLU](https://pytorch.org/docs/stable/generated/torch.nn.SELU.html), [PReLU](https://pytorch.org/docs/stable/generated/torch.nn.PReLU.html), [RReLU](https://pytorch.org/docs/stable/generated/torch.nn.RReLU.html)
2. definir uma função de custo. Algums opções que vimos previamente incluem[L1](https://pytorch.org/docs/stable/nn.html#l1loss), [L2/MSE](https://pytorch.org/docs/stable/nn.html#mseloss), [Huber/SmoothL1](https://pytorch.org/docs/stable/nn.html#smoothl1loss), [*Cross-Entropy*](https://pytorch.org/docs/stable/nn.html#crossentropyloss), [Hinge](https://pytorch.org/docs/stable/nn.html#hingeembeddingloss)), e
3. definir um algoritmo de otimização ([SGD](https://pytorch.org/docs/stable/optim.html#torch.optim.SGD), [RMSProp](https://pytorch.org/docs/stable/optim.html#torch.optim.RMSprop), [Adam](https://pytorch.org/docs/stable/optim.html#torch.optim.Adam))

A leitura do dado assim como a função de treinamento já estão implementados para você.

# Preâmbulo

In [1]:
# imports basicos
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

import torch
import torch.nn.functional as F
import torchvision

from torchvision import datasets, transforms
from torch import optim, nn

import os
import sys
import time
import numpy as np

In [2]:
import matplotlib.pyplot as plt
plt.ion()

<contextlib.ExitStack at 0x7f7c6dd94c10>

In [3]:
# Test if GPU is avaliable, if not, use cpu instead
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
n = torch.cuda.device_count()
devices_ids = list(range(n))
device

device(type='cuda')

## Funções básicas

Use a função `load_array ` declarada a seguir se voce ja tem os dados armazenados em um **array** (por exemplo um array do numpy, o `np.array`). Pode acontecer de que os nossos dados vêm simplesmente de um dataset que pode ser armazennado em um array, e portanto não é necessário fazer os outros passos mais complicados como carregar os dados do disco, etc; basta que possamos recuperar esses dados em *batches* aleatórios. O resultado dessa função é um `DataLoader` do Pytorch com os dados que fornecemos de entrada, e que permite que os acessamos da seguinte forma:

```python
data_loader = load_array(X, y, batch_size=32, is_train=True)
for x_batch, y_batch in data_loader:
    ### ... nossa iteração de treinamento aqui.
```

Essa função recebe como parâmetro os seguintes valores:

- `features`: um array que contém as features de todas as instâncias do dataset. Por exemplo, no caso do MNIST seria um array de tamanho `(60000, 28, 28, 1)` com todas as imagens do dataset de treino.
- `labels`: um array que contém os rótulos de cada instância de dados. No caso do MNIST, seria um array de tamanho `(60000,)` em que a posição `i` contém o rótulo do dígito da posição `i` do array `features`.
- `batch_size`: tamanho do batch desejado
- `is_train`: um booleano que indica se o dataset que estamos criando é o conjunto de treinamento ou não (conjunto de teste). A única mudança que isso causa no `Dataloader` resultante é que se for o conjunto de treinamento ele cria batches aleatórios.


In [4]:
def load_array(features, labels, batch_size, is_train=True):
    """Construct a Torch data loader"""

    ## transform the input arrays in a tensor in case they are not
    if type(features) != torch.tensor:
        features = torch.tensor(features)
    if type(labels) != torch.tensor:
        labels = torch.tensor(labels)

    ## create a Pytorch Dataset and DataLoader with the input data
    dataset = torch.utils.data.TensorDataset(features, labels)
    return torch.utils.data.DataLoader(dataset, batch_size, shuffle=is_train)

Use a função `evaluate_accuracy` para calcular a acurácia e a *loss-function* para a rede em um conjunto de dados. Note que essa função pode ser usada tanto para avaliar a rede no conjunto de teste (no caso que usamos o `DataLoader` de teste) quanto o conjunto de treinamento (se usamos o `DataLoader` de treinamento). Os parâmetros são:
- `data_iter`: um `DataLoader` que contém os dados que queremos usar para avaliar a rede. Repare que esse parâmetro tipicamente é o ojeto que obtemos como saída da função `load_array` para montar o nosso `DataLoader`.
- `net`: a rede que queremos avaliar
- `loss`: a nossa *loss-function*. Pode ser um objeto de qualquer uma das funções de perda que mencionamos acima no começo do notebook.

O resultado dessa função é uma tupla em que o primeiro valor é a acurácia e o segundo a função de custo calculados.

In [5]:
# Função usada para calcular acurácia
def evaluate_accuracy(data_iter, net, loss):
    """Evaluate accuracy of a model on the given data set."""

    ## valores "acumuladores", que guardam a soma de, respectivamente, quantas instâncias
    ## prevemos corretamente, quantas instâncias percorremos no dataset, e o valor da loss; para
    ## todos os batches
    acc_sum, n, l = 0, 0, 0

    ## muda a rede para o "modo de teste". O que isso faz é mudar o comportamento de alguns módulos da rede,
    ## como os módulos de Dropout e BatchNorm, que funcionam de forma diferente quando estamos treinando ou
    ## quando estamos avaliando (ou usando em produção) a rede
    net.eval()

    with torch.no_grad():
      for X, y in data_iter:
          X, y = X.to(device), y.to(device)
          y_hat = net(X)
          l += loss(y_hat, y.long())

          ## aqui estamos calculando a quantidade de previsões que temos correta para o batch atual. o resultado
          ## do argmax é a posição de `y_hat` que possui o maior valor. Consequentemente isso resulta na classe que
          ## a rede deu o maior score.
          acc_sum += (y_hat.argmax(axis=1) == y).sum().item()

          ##
          n += y.size(0)

    return acc_sum / n, l.item() / len(data_iter)

A função `train_validate` é a função que implementa nossas iterações de treinamento padrão. Ela ja faz o trabalho de percorrer o dataset inteiro para cada época, e também de tempos em tempos avaliar a rede e mostar os resultados na tela. Para isso ela faz chamadas à função `evaluate_accuracy` declarada anteriormente (entre outras coisas). Essa função tem os segugintes parâmetros:
- `net`: a rede que queremos treinar
- `train_iter` e `test_iter`: nossos `DataLoaders` que criamos para acessar os dados. Esses DataLoaders podem ser criados com a função `load_array` declarada acima.
- `trainer`: é o nosso otimizador. Podemos usar aqui qualquer um dos otimizadores que escolhermos da lista citada no começo desse notebook.
- `loss`: a loss function que escolhemos para otimizar. Pode ser qualquer um das funções de custo citadas no começo do notebook.
- `num_epochs`: a quantidade de épocas pelas quais queremos que o treinamento ocorra.
- `type`: o tipo de tarefa que estamos lidando. Se for um problema de regressão, usamos `type='regression'`, e se for um problema de classificação, usamos `type='classification'`. Esse parâmetro é necessário para a função, por exemplo, saber quais métricas ele vai mostrar (acurácia, ou apenas o MSE, etc.)

In [6]:
# Função usada no treinamento e validação da rede
def train_validate(net, train_iter, test_iter, trainer, loss, num_epochs, type='regression'):
    print('training on', device)
    for epoch in range(num_epochs):
        train_l_sum, train_acc_sum, n, start = 0.0, 0.0, 0, time.time()
        for X, y in train_iter:
            X, y = X.to(device), y.to(device)
            trainer.zero_grad()
            y_hat = net(X)
            if type == 'regression':
              l = loss(y_hat, y.float())
            else:
              l = loss(y_hat, y.long())
            l.backward()
            trainer.step()
            train_l_sum += l.item()
            train_acc_sum += (y_hat.argmax(axis=1) == y).sum().item()
            n += y.size(0)
        test_acc, test_loss = evaluate_accuracy(test_iter, net, loss)
        if type == 'regression':
          print('epoch %d, train loss %.4f, test loss %.4f, time %.1f sec'
                % (epoch + 1, train_l_sum / len(train_iter), test_loss, time.time() - start))
        else:
          print('epoch %d, train loss %.4f, train acc %.3f, test loss %.4f, '
              'test acc %.3f, time %.1f sec'
              % (epoch + 1, train_l_sum / len(train_iter), train_acc_sum / n, test_loss,
                 test_acc, time.time() - start))


Use a função a seguir para inicializar os pesos da rede. Ela recebe como parâmetro um módulo da rede neural, e se for uma camada linear ele inicializa os pesos e os bias dessa camada. Embora possa parecer complicado de precisar chamar essa função para todas as camadas lineares da nossa rede, o módulos do Pytorch (que incluem tanto as redes criadas com o `nn.Sequential` ou com `nn.Module`) possuem a função `net.apply()` que recebe como parâmetro uma função e aplica ela a todos os submódulos da rede. Portanto, depois de ter criado a nossa rede, podemos chamar:

```python
net.apply(weights_init)
```
que automaticamente todas as camadas `nn.Linear` serão inicializadas. Caso queira saber mais sobre o `.apply()`, veja o seguinte [link](https://pytorch.org/docs/stable/generated/torch.nn.Module.html#torch.nn.Module.apply).

In [7]:
# Função para inicializar pesos da rede
def weights_init(m):
    if type(m) == nn.Linear:
        m.weight.data.normal_(0.0, 0.01) # valores iniciais são uma normal
        m.bias.data.fill_(0)

# Problema 1

Neste problema, você receberá 14 *features* coletadas de pacientes e tentará predizer se eles tem algum sinal de doença cardíaca. Mais sobre esse dataset aqui: https://archive.ics.uci.edu/ml/datasets/Heart+Disease

In [8]:
## aqui fazemos o download do dataset usando o `!wget`. Se estamos rodando em um servidor linux (como é o caso do Colab),
## podemos usar comandos do linux precedidos pelo "!". Por exemplo podemos fazer !ls para listar os arquivos da instância do colab.
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data

## aqui fazemos um tratamento inicial dos dados. "np.genfromtxt" lê os dados de um arquivo .txt e transforma em
## um array. Pode ser interessante abrir o arquivo para verificar como os dados chegaram. Se estiver no colab, voce
## pode verificar o arquivo "processed.cleveland.data" clicando na pastinha do canto esquerdo da página. a função
## "np.nan_to_num" trata valores NaN e infinitos no dataset.
data = np.genfromtxt('processed.cleveland.data', delimiter=',', dtype=np.float32)
data = np.nan_to_num(data)

--2025-05-20 03:24:01--  https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/processed.cleveland.data
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified
Saving to: ‘processed.cleveland.data’

processed.cleveland     [ <=>                ]  18.03K  --.-KB/s    in 0.05s   

2025-05-20 03:24:01 (372 KB/s) - ‘processed.cleveland.data’ saved [18461]



In [9]:
## aqui separamos os dados entre features (X) e rótulo (y), e depois separamos em um conjunto de treinamento e teste
print(data.shape, data[0, :])
X, y = data[:, :-1], data[:, -1]
print(X.shape, X[0, :])
print(y.shape, y[0])
train_features, test_features, train_labels, test_labels = train_test_split(X, y, test_size=0.20, random_state=42)

(303, 14) [ 63.    1.    1.  145.  233.    1.    2.  150.    0.    2.3   3.    0.
   6.    0. ]
(303, 13) [ 63.    1.    1.  145.  233.    1.    2.  150.    0.    2.3   3.    0.
   6. ]
(303,) 0.0


In [10]:
from sklearn.preprocessing import StandardScaler


In [11]:
## aqui criamos nossos DataLoaders para conseguirmos iterar nos dados
scaler = StandardScaler()
train_features = scaler.fit_transform(train_features)
test_features = scaler.transform(test_features)

batch_size = 64
train_iter = load_array(train_features, train_labels, batch_size)
test_iter = load_array(test_features, test_labels, batch_size, False)

In [12]:
# IMPLEMENTE AQUI


net = nn.Sequential(
    nn.Linear(13, 228),
    nn.ReLU(),
    nn.Linear(228, 228),
    nn.ReLU(),
    nn.Linear(228, 5)  # 5 classes
)

net.apply(weights_init)
net.to(device)

trainer = optim.Adam(net.parameters(), lr= 2.0, weight_decay= 0.0001)
loss = nn.CrossEntropyLoss()
num_epochs = 10000

train_validate(net, train_iter, test_iter, trainer, loss, num_epochs, type='classification')



[1;30;43mA saída de streaming foi truncada nas últimas 5000 linhas.[0m
epoch 5001, train loss 1.2580, train acc 0.558, test loss 1.4162, test acc 0.475, time 0.0 sec
epoch 5002, train loss 1.2780, train acc 0.558, test loss 1.4349, test acc 0.475, time 0.0 sec
epoch 5003, train loss 1.2930, train acc 0.558, test loss 100074.5391, test acc 0.246, time 0.0 sec
epoch 5004, train loss 28085.6095, train acc 0.455, test loss 1.9473, test acc 0.475, time 0.0 sec
epoch 5005, train loss 1.5712, train acc 0.558, test loss 1.3781, test acc 0.475, time 0.0 sec
epoch 5006, train loss 319.8400, train acc 0.384, test loss 55850.9336, test acc 0.115, time 0.0 sec
epoch 5007, train loss 26400.7693, train acc 0.360, test loss 3.4150, test acc 0.475, time 0.0 sec
epoch 5008, train loss 20.1410, train acc 0.554, test loss 3.2475, test acc 0.475, time 0.0 sec
epoch 5009, train loss 1124.4665, train acc 0.488, test loss 1.4515, test acc 0.475, time 0.0 sec
epoch 5010, train loss 1.8477, train acc 0.264, t

# Problema 2

Neste problema, você receberá 90 *features* extraídas de diversas músicas (datadas de 1922 até 2011) e deve predizer o ano de cada música. Mais sobre esse dataset aqui: https://archive.ics.uci.edu/ml/datasets/YearPredictionMSD

In [13]:
# download do dataset
!wget http://archive.ics.uci.edu/ml/machine-learning-databases/00203/YearPredictionMSD.txt.zip
!unzip YearPredictionMSD.txt.zip
data = np.genfromtxt('YearPredictionMSD.txt', delimiter=',', dtype=np.float32)

print(data[0, :])
X, y = data[:, 1:], data[:, 0]
train_features, test_features, train_labels, test_labels = train_test_split(X, y, test_size=0.33, random_state=42)

batch_size = 100
train_iter = load_array(train_features, train_labels, batch_size)
test_iter = load_array(test_features, test_labels, batch_size, False)

--2025-05-20 03:25:36--  http://archive.ics.uci.edu/ml/machine-learning-databases/00203/YearPredictionMSD.txt.zip
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified
Saving to: ‘YearPredictionMSD.txt.zip’

YearPredictionMSD.t     [             <=>    ] 201.24M  46.3MB/s    in 4.7s    

2025-05-20 03:25:41 (42.8 MB/s) - ‘YearPredictionMSD.txt.zip’ saved [211011981]

Archive:  YearPredictionMSD.txt.zip
  inflating: YearPredictionMSD.txt   
[ 2.0010000e+03  4.9943569e+01  2.1471140e+01  7.3077499e+01
  8.7486095e+00 -1.7406281e+01 -1.3099050e+01 -2.5012020e+01
 -1.2232570e+01  7.8308902e+00 -2.4678299e+00  3.3213601e+00
 -2.3152101e+00  1.0205560e+01  6.1110913e+02  9.5108960e+02
  6.9811426e+02  4.0898486e+02  3.8370911e+02  3.2651511e+02
  2.3811327e+02  2.5142413e+02  1.8717351e+02  1.0042652e+02
  1.7919498e+02 -8

In [16]:
# Rede neural para regressão com Dropout
net = nn.Sequential(
    nn.Linear(90, 228),
    nn.ReLU(),
    nn.Dropout(p=0.5),  # Dropout após 1ª ReLU
    nn.Linear(228, 228),
    nn.ReLU(),
    nn.Dropout(p=0.5),  # Dropout após 2ª ReLU
    nn.Linear(228, 1)  # Regressão → saída contínua
)

net.apply(weights_init)
net.to(device)

# Otimizador e função de perda para regressão
trainer = optim.Adam(net.parameters(), lr=0.003, weight_decay=0.001)
loss = nn.MSELoss()
num_epochs = 100

# Treinamento
train_validate(net, train_iter, test_iter, trainer, loss, num_epochs, type='regression')


training on cuda
epoch 1, train loss 154764.5649, test loss 30414.0153, time 10.8 sec
epoch 2, train loss 22528.4801, test loss 20160.3292, time 10.4 sec
epoch 3, train loss 19600.0871, test loss 21294.4879, time 10.5 sec
epoch 4, train loss 17772.3892, test loss 14325.8448, time 10.5 sec
epoch 5, train loss 16178.5400, test loss 13664.4785, time 10.3 sec
epoch 6, train loss 15071.8406, test loss 17698.7889, time 10.3 sec
epoch 7, train loss 14329.2685, test loss 14439.0206, time 10.3 sec
epoch 8, train loss 13911.6965, test loss 13433.9377, time 10.4 sec
epoch 9, train loss 13471.7830, test loss 12565.4556, time 10.5 sec
epoch 10, train loss 12779.9718, test loss 12072.8242, time 10.3 sec
epoch 11, train loss 12714.8105, test loss 16563.5591, time 10.4 sec
epoch 12, train loss 12107.9808, test loss 14030.3034, time 10.3 sec
epoch 13, train loss 11909.1740, test loss 11162.9230, time 10.3 sec
epoch 14, train loss 11507.9555, test loss 11350.6620, time 10.3 sec
epoch 15, train loss 1120

In [17]:
# mostra o resultado predito para as 5 primeiras instâncias de teste
y = net(torch.Tensor(test_features[0:5, :]).to(device))
print(y, test_labels[0:5])

tensor([[1998.9092],
        [1998.9092],
        [1998.9092],
        [1998.9092],
        [1998.9092]], device='cuda:0', grad_fn=<AddmmBackward0>) [2008. 2001. 2006. 2008. 1998.]


# Problema 3

Neste problema, você receberá várias *features* (como altura média, inclinação, etc) descrevendo uma região e o modelo deve predizer qual o tipo da região (floresta, montanha, etc). Mais informações sobre esse dataset aqui: https://archive.ics.uci.edu/ml/datasets/covertype

In [18]:
!wget http://archive.ics.uci.edu/ml/machine-learning-databases/covtype/covtype.data.gz
!gzip covtype.data.gz
data = np.genfromtxt('covtype.data', delimiter=',', dtype=np.float32)

print(data.shape, data[0, :])
X, y = data[:, :-1], data[:, -1]
print(X.shape, X[0, :])
print(y.shape, y[0])
train_features, test_features, train_labels, test_labels = train_test_split(X, y, test_size=0.33, random_state=42)
train_labels = train_labels - 1
test_labels = test_labels - 1

batch_size = 100
train_iter = load_array(train_features, train_labels, batch_size)
test_iter = load_array(test_features, test_labels, batch_size, False)

--2025-05-20 03:56:49--  http://archive.ics.uci.edu/ml/machine-learning-databases/covtype/covtype.data.gz
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified
Saving to: ‘covtype.data.gz’

covtype.data.gz         [   <=>              ]  10.72M  17.2MB/s    in 0.6s    

2025-05-20 03:56:49 (17.2 MB/s) - ‘covtype.data.gz’ saved [11240707]

gzip: covtype.data.gz already has .gz suffix -- unchanged
(581012, 55) [2.596e+03 5.100e+01 3.000e+00 2.580e+02 0.000e+00 5.100e+02 2.210e+02
 2.320e+02 1.480e+02 6.279e+03 1.000e+00 0.000e+00 0.000e+00 0.000e+00
 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00
 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00
 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00
 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 

In [19]:
# IMPLEMENTE AQUI

net = nn.Sequential(
    nn.Linear(54, 128),
    nn.ReLU(),
    nn.Dropout(p=0.4),
    nn.Linear(128, 64),
    nn.ReLU(),
    nn.Dropout(p=0.3),
    nn.Linear(64, 32),
    nn.ReLU(),
    nn.Linear(32, 7)  # 7 classes
)

net.apply(weights_init)
net.to(device)

trainer = optim.Adam(net.parameters(), lr=0.001, weight_decay=1e-4)
loss = nn.CrossEntropyLoss()
num_epochs = 50

train_validate(net, train_iter, test_iter, trainer, loss, num_epochs, type='classification')


training on cuda
epoch 1, train loss 0.9088, train acc 0.608, test loss 0.7814, test acc 0.684, time 12.5 sec
epoch 2, train loss 0.6734, train acc 0.711, test loss 0.6114, test acc 0.737, time 12.0 sec
epoch 3, train loss 0.6137, train acc 0.733, test loss 0.5966, test acc 0.740, time 12.0 sec
epoch 4, train loss 0.5815, train acc 0.746, test loss 0.5732, test acc 0.747, time 12.0 sec
epoch 5, train loss 0.5621, train acc 0.754, test loss 0.5706, test acc 0.748, time 12.0 sec
epoch 6, train loss 0.5457, train acc 0.762, test loss 0.5322, test acc 0.767, time 12.1 sec
epoch 7, train loss 0.5337, train acc 0.768, test loss 0.5310, test acc 0.767, time 12.3 sec
epoch 8, train loss 0.5214, train acc 0.774, test loss 0.5700, test acc 0.760, time 12.1 sec
epoch 9, train loss 0.5153, train acc 0.777, test loss 0.5050, test acc 0.782, time 12.0 sec
epoch 10, train loss 0.5073, train acc 0.781, test loss 0.5080, test acc 0.782, time 12.0 sec
epoch 11, train loss 0.4983, train acc 0.785, test l

In [20]:
acc, avg_loss = evaluate_accuracy(test_iter, net, loss)

In [21]:
print(f"acc = {acc}")
print(f"avg_loss = {avg_loss}")

acc = 0.8233385836627828
avg_loss = 0.4189929822935675


# Problema 4

Neste problema, você receberá 11 *features* extraídas de tipos de vinhos, e terá que predizer um *score* para cada vinho. Mais sobre esse dataset aqui: https://archive.ics.uci.edu/ml/datasets/Wine+Quality

In [22]:
# download do dataset
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
data_red = np.genfromtxt('winequality-red.csv', delimiter=';', dtype=np.float32, skip_header=1)
data_white = np.genfromtxt('winequality-white.csv', delimiter=';', dtype=np.float32, skip_header=1)
data = np.concatenate((data_red, data_white), axis=0)
data = np.nan_to_num(data)

print(data[0, :])
X, y = data[:, :-1], data[:, -1]
print(X.shape, y.shape)
train_features, test_features, train_labels, test_labels = train_test_split(X, y, test_size=0.33, random_state=42)

batch_size = 100
train_iter = load_array(train_features, train_labels, batch_size)
test_iter = load_array(test_features, test_labels, batch_size, False)

--2025-05-20 04:08:10--  https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified
Saving to: ‘winequality-red.csv’

winequality-red.csv     [ <=>                ]  82.23K  --.-KB/s    in 0.1s    

2025-05-20 04:08:11 (575 KB/s) - ‘winequality-red.csv’ saved [84199]

--2025-05-20 04:08:11--  https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified
Saving to: ‘winequality-white.csv’

winequality-white.c     [ <=>                ] 258.23K  1.33MB/s    in 0.2s    

2025-05-20

In [25]:
# IMPLEMENTE AQUI

net = nn.Sequential(
    nn.Linear(11, 64),
    nn.ReLU(),
    nn.Dropout(p=0.4),
    nn.Linear(64, 32),
    nn.ReLU(),
    nn.Linear(32, 1)  # saída contínua
)

net.apply(weights_init)
net.to(device)

# Otimizador e perda
trainer = optim.Adam(net.parameters(), lr=0.003, weight_decay=1e-4)
loss = nn.MSELoss()
num_epochs = 32

# Treinamento
train_validate(net, train_iter, test_iter, trainer, loss, num_epochs, type='regression')


training on cuda
epoch 1, train loss 11.6568, test loss 3.8871, time 0.1 sec
epoch 2, train loss 1.9504, test loss 0.8732, time 0.1 sec
epoch 3, train loss 0.8921, test loss 0.8640, time 0.1 sec
epoch 4, train loss 0.8879, test loss 0.8457, time 0.2 sec
epoch 5, train loss 0.8882, test loss 0.8380, time 0.1 sec
epoch 6, train loss 0.8824, test loss 0.8357, time 0.1 sec
epoch 7, train loss 0.8817, test loss 0.8342, time 0.1 sec
epoch 8, train loss 0.8600, test loss 0.8651, time 0.1 sec
epoch 9, train loss 0.8916, test loss 0.8267, time 0.1 sec
epoch 10, train loss 0.8587, test loss 0.9476, time 0.1 sec
epoch 11, train loss 0.8875, test loss 0.8255, time 0.1 sec
epoch 12, train loss 0.8538, test loss 0.8124, time 0.1 sec
epoch 13, train loss 0.8617, test loss 0.8083, time 0.1 sec
epoch 14, train loss 0.8595, test loss 0.8082, time 0.1 sec
epoch 15, train loss 0.8378, test loss 0.8025, time 0.1 sec
epoch 16, train loss 0.8550, test loss 0.8285, time 0.1 sec
epoch 17, train loss 0.8642, te

In [26]:
# mostra o resultado predito para as 5 primeiras instâncias de teste
y = net(torch.Tensor(test_features[0:5, :]).to(device))
print(y, test_labels[0:5])

tensor([[5.8315],
        [5.6309],
        [5.7450],
        [5.3989],
        [5.5434]], device='cuda:0', grad_fn=<AddmmBackward0>) [8. 5. 7. 6. 6.]
