# Atividades Básicas 2

**Nome: Leonardo Yves de Souza Melo**<br>
**Email: `leoyves@matematica.ufrj.br`**<br>
**Telefone: 21978770025**

In [14]:
import torch
from torch.utils.data import Dataset, DataLoader
import torch.nn as nn

# 1. Input de dados

In [15]:
# Simple Datset
class SimulatedDataset(Dataset):
  def __init__(self, num_samples, num_covariables, num_classes):
    # Matriz (num_samples)x(num_covariables), em que cada linha é uma observação
    # Matrix of each line is a observation
    self.data = torch.randn(num_samples, num_covariables)
    # self.data = torch.arange(num_samples*num_covariables).reshape(num_samples,num_covariables)
    # Labels de cada observação
    self.labels = torch.randint(0,num_classes,(num_samples,))

  def __len__(self):
    # Retorna a quantidade de observações do dataset
    # Returns the quantity of observations
    return len(self.data)

  def __getitem__(self, idx):
    # Retorna uma observação
    # Returns a single observation
    return self.data[idx], self.labels[idx].item()

In [16]:
dataset = SimulatedDataset(num_samples=100,
                           num_covariables=5,
                           num_classes=3)

print(f"Número de observações no dataset: {len(dataset)}")
print(f"Exemplo de amostra: {dataset[0]}")

Número de observações no dataset: 100
Exemplo de amostra: (tensor([ 0.4879,  1.3474, -1.7788, -0.9663,  0.9627]), 1)


In [17]:
dataloader = DataLoader(dataset, batch_size=10, shuffle=True)
print(f"Total de batches: {len(dataloader)}")

for batch_idx, (inputs, targets) in enumerate(dataloader):
    print(f"Batch {batch_idx + 1}:")
    print(f"Inputs:\n{inputs}")
    print(f"Targets:\n{targets}")
    print("-" * 40)

    if batch_idx == 1:
      break

Total de batches: 10
Batch 1:
Inputs:
tensor([[-1.1232e+00, -8.0251e-01,  6.4958e-01,  9.5704e-01,  1.7285e+00],
        [-1.8867e+00, -4.7548e-01, -1.4828e+00, -1.9135e-01, -6.3751e-01],
        [ 1.3424e+00,  1.3830e+00, -1.3763e+00, -1.5403e+00, -2.7006e-01],
        [-2.1302e-01, -9.1261e-04, -5.8551e-01, -1.5854e+00,  2.8556e+00],
        [ 1.6868e+00,  1.4903e+00, -1.2255e+00,  6.2615e-01, -5.8402e-01],
        [ 1.4561e+00, -7.3970e-01, -1.5720e+00,  6.3802e-01,  1.7198e-01],
        [-6.1002e-01, -7.0749e-01, -2.7887e-01, -3.6311e-01,  1.0741e+00],
        [ 4.8215e-01,  7.5383e-01, -1.8859e+00,  6.8923e-01, -2.3515e-01],
        [ 2.7688e-01,  4.2018e-01, -2.5474e+00,  6.6911e-02,  1.7358e+00],
        [ 7.1660e-01, -4.5142e-01, -2.1106e-01,  6.5361e-01, -6.5888e-01]])
Targets:
tensor([1, 2, 0, 0, 1, 2, 1, 0, 0, 1])
----------------------------------------
Batch 2:
Inputs:
tensor([[-1.7052,  0.4211, -1.4668,  1.2679, -1.1247],
        [ 0.9780,  0.4438, -0.1487,  0.5245, -0.82

In [18]:
class CustomDataset(Dataset):
  def __init__(self, num_samples, num_covariables, num_classes, transform=None):
    # Matriz (num_samples)x(num_covariables), em que cada linha é uma observação
    # Matrix of each line is a observation
    self.data = torch.randn(num_samples, num_covariables)
    # self.data = torch.arange(num_samples*num_covariables).reshape(num_samples,num_covariables)
    # Labels de cada observação
    self.labels = torch.randint(0,num_classes,(num_samples,))
    self.transform = transform

  def __len__(self):
    # Retorna a quantidade de observações do dataset
    # Returns the quantity of observations
    return len(self.data)

  def __getitem__(self, idx):
    # Retorna uma observação
    # Returns a single observation
    sample = self.data[idx], self.labels[idx].item()
    if self.transform:
      sample = self.transform(sample)
    return sample

In [19]:
def custom_transform(sample):
  inputs, labels = sample
  return inputs * 2, labels

transformed_dataset = CustomDataset(num_samples=100,
                                    num_covariables=5,
                                    num_classes=3,
                                    transform=custom_transform)

dataloader = DataLoader(transformed_dataset,
                        batch_size=5,
                        shuffle=False)

for inputs, targets in dataloader:
    print(f"Inputs transformados:\n{inputs}")
    print(f"Targets: {targets}")
    break  # Exibe apenas o primeiro batch

Inputs transformados:
tensor([[ 2.1870,  1.2295, -0.3554,  0.4510, -4.8697],
        [-5.9119,  0.3986, -5.1879, -0.2689, -3.8409],
        [ 1.0628,  0.9120,  2.6079, -3.8510, -0.3522],
        [-0.0218, -0.0332, -1.8026, -0.6267,  0.8147],
        [ 2.8167,  1.7913,  2.8488,  0.9676,  0.3191]])
Targets: tensor([1, 0, 2, 0, 2])


# 2. Modelo Simples

In [20]:
# Definindo um modelo simples com uma camada linear
class SimpleModel(nn.Module):
    def __init__(self, input_size, output_size):
        super(SimpleModel, self).__init__()
        # Define uma única camada linear
        self.linear = nn.Linear(input_size, output_size)

    def forward(self, x):
        # Define o fluxo de dados na rede
        return self.linear(x)

Modelo: $Y = -0.1127X_1 - 0.3793X_2 + 0.6435$

In [21]:
# Instanciar o modelo
# Recebe um vetor do R^2 e retorna um número real
input_size = 2
output_size = 1
model = SimpleModel(input_size, output_size)

# Modelo
print(f"Modelo: {model}\n")
# Pesos Iniciais (vetor aleatório do R^2)
print(f"Pesos Iniciais: {model.linear.weight}\n")
# Bias Inicial (número real)
print(f"Bias Inicial: {model.linear.bias}")

Modelo: SimpleModel(
  (linear): Linear(in_features=2, out_features=1, bias=True)
)

Pesos Iniciais: Parameter containing:
tensor([[-0.1925,  0.2555]], requires_grad=True)

Bias Inicial: Parameter containing:
tensor([0.5073], requires_grad=True)


In [22]:
# Duas observações, matriz 2x2
input_tensor = torch.arange(1,5).float().reshape(2,2)
print(f"Entrada: \n{input_tensor}")

# Saída: vetor coluna do R^2
output = model(input_tensor)
print(f"Saída: \n{output}")

Entrada: 
tensor([[1., 2.],
        [3., 4.]])
Saída: 
tensor([[0.8258],
        [0.9519]], grad_fn=<AddmmBackward0>)


In [23]:
# Alterar os pesos para valores personalizados
nn.init.constant_(model.linear.weight, 0.5)
nn.init.constant_(model.linear.bias, 1.0)

print("Pesos modificados:")
print(model.linear.weight)

print("\nBias modificados:")
print(model.linear.bias)

Pesos modificados:
Parameter containing:
tensor([[0.5000, 0.5000]], requires_grad=True)

Bias modificados:
Parameter containing:
tensor([1.], requires_grad=True)


# 3. Normalização de features

In [9]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [2]:
# Criação de dataset sintético
np.random.seed(42)

n_samples = 1000 # Observações
n_features = 5 # Covariáveis (x1, x2, x3, x4, x5)
# Matriz 1000x5
X = np.random.randn(n_samples, n_features)
# Rótulo Binário
# Se x1 + x2 + x3 + x4 + x5 > 0 --> y = 1
Y = (X.sum(axis=1) > 0).astype(int)

# Transformando em DataFrame
data = pd.DataFrame(X, columns=[f"feature_{i}" for i in range(n_features)])
data["target"] = Y

# Salvando em csv
csv_file = "synthetic_data.csv"
data.to_csv(csv_file, index=False)

In [8]:
# Input dos dados
df = pd.read_csv(csv_file)

# Array com os valores
X = df.drop("target", axis=1).values
y = df["target"].values

# Divisão train x test
X_temp, X_test, y_temp, y_test = train_test_split(X,y,
                                                  test_size=0.2,
                                                  random_state=42)
# Divisão train x validation
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp,
                                                  test_size=0.25,
                                                  random_state=42)

# Test: 0.2 do total
# Validation: 0.8 * 0.25 = 0.2  do total
# Train: 0.8 * 0.75 = 0.6  do total

print(f"Tamanho do treino: {X_train.shape[0]}")
print(f"Tamanho da validação: {X_val.shape[0]}")
print(f"Tamanho do test: {X_test.shape[0]}")

Tamanho do treino: 600
Tamanho da validação: 200
Tamanho do test: 200


In [13]:
# Dados com média e variância unitária
scaler = StandardScaler()

# Ajuste dos parâmetros do scaler nos dados de treino
X_train_scaled = scaler.fit_transform(X_train)

# Usando os parâmetros obtidos para o conjunto de treinamento
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

In [None]:
class CustomDataset(Dataset):
  def __init__(self, X_data, y_data):
    pass

  def __len__(self):
    pass

  def __getiten__(self, idx):
    pass