Recordemos que una pequeña red neuronal con una sola capa lineal seguida de una función sigmoidea es un clasificador binario. Actúa igual que una regresión logística.

En este ejercicio, practicarás la construcción de esta pequeña red y la interpretación de la salida del clasificador.

Los paquetes torch y torch.nn ya han sido importados.

Instrucciones 1/2
50 XP
1
2
Crear una red neuronal que tome un tensor de dimensiones 1x8 como entrada, y devuelva una salida de la forma correcta para la clasificación binaria.
Pasa la salida de la capa lineal a una sigmoidea, que toma y devuelve un único float.

In [1]:
import torch
import torch.nn as nn

input_tensor = torch.Tensor([[3, 4, 6, 2, 3, 6, 8, 9]])

# Implement a small neural network for binary classification
model = nn.Sequential(
  nn.Linear(8, 1), # Linear layer from 8 to 1 neurons
  nn.Sigmoid() # Sigmoid function
)

output = model(input_tensor)
print(output)

tensor([[0.9840]], grad_fn=<SigmoidBackward0>)


De la regresión a la clasificación multiclase
Recordemos que los modelos que hemos visto para la clasificación binaria, la clasificación multiclase y la regresión han sido todos similares, salvo algunos retoques en el modelo.

En este ejercicio, empezarás construyendo un modelo de regresión y, a continuación, ajustarás el modelo para realizar una clasificación multiclase.

Instrucciones 1/2
50 XP
1
Crea una red neuronal con exactamente cuatro capas lineales, que toma el tensor de entrada como entrada, y da como salida un valor de regresión, usando las formas que quieras para las capas ocultas.

In [2]:
import torch
import torch.nn as nn

input_tensor = torch.Tensor([[3, 4, 6, 7, 10, 12, 2, 3, 6, 8, 9]])

# Implement a neural network with exactly four linear layers
model = nn.Sequential(
    nn.Linear(11, 8),
    nn.Linear(8, 4),
    nn.Linear(4, 2),
    nn.Linear(2, 1)
    )

output = model(input_tensor)
print(output)

tensor([[-0.7993]], grad_fn=<AddmmBackward0>)


Se proporciona una red neuronal similar a la que acaba de construir, que contiene cuatro capas lineales; actualice esta red para realizar una clasificación multiclase con cuatro salidas.

In [3]:
import torch
import torch.nn as nn
import numpy as np

input_tensor = torch.Tensor([[3, 4, 6, 7, 10, 12, 2, 3, 6, 8, 9]])

# Update network below to perform a multi-class classification with four labels
model = nn.Sequential(
    nn.Linear(11, 20), # 20 output neurons
    nn.Linear(20, 12), # 12 output neurons
    nn.Linear(12, 6), # 6 output neurons
    nn.Linear(6, 4),  # 4 output neurons
    nn.Softmax(dim=1) # Softmax function
)

output = model(input_tensor)
print(output)

tensor([[0.1649, 0.2500, 0.5186, 0.0665]], grad_fn=<SoftmaxBackward0>)


## Funciones de perdida para evaluar las predicciones

En este ejercicio, se le proporciona un tensor de predicciones y un tensor de etiquetas, y se le pide que calcule la pérdida de entropía cruzada.

Recuerde que la entropía cruzada se calcula como la suma de las etiquetas multiplicadas por el logaritmo de las predicciones, todo ello negado.

Creación de etiquetas codificadas en un solo paso
La codificación one-hot es una técnica que convierte una única etiqueta entera en un vector de N elementos, donde N es el número de clases de su conjunto de datos. Este vector sólo contiene ceros y unos. En este ejercicio, crearás el vector codificado de un punto de la etiqueta y proporcionada.

Practicarás cómo hacerlo manualmente y luego te facilitarás la vida aprovechando la ayuda de PyTorch. Su conjunto de datos contiene tres clases.

NumPy ya está importado como np, y torch.nn.functional como F. También se importa el paquete torch.

Instrucciones
100 XP
Cree manualmente un vector codificado de un solo golpe de la etiqueta de verdad del terreno y rellenando el array NumPy proporcionado.
Crear un vector codificado de un solo golpe de la etiqueta de la verdad del suelo y utilizando PyTorch.

In [4]:
import torch
import torch.nn.functional as F
import numpy as np

y = 1 # La y es la etiqueta de la verdad del suelo
num_classes = 3 # Número de clases

# Creamos un vector one-hot manualmente
one_hot_numpy = np.array([0, 1, 0])

# Creamos un vector one-hot con PyTorch
one_hot_pytorch = F.one_hot(torch.tensor([y]), num_classes=num_classes)

print(one_hot_pytorch)

tensor([[0, 1, 0]])


Cálculo de la pérdida de entropía cruzada
La pérdida de entropía cruzada es la más utilizada para los problemas de clasificación. En este ejercicio, crearás entradas y calcularás la pérdida de entropía cruzada en PyTorch. Se le proporciona la etiqueta verdadera y y un vector de scores predicho por su modelo.

Empezarás por crear un vector codificado de una sola vez de la etiqueta de verdad del terreno y, que es un paso necesario para comparar y con las puntuaciones predichas por tu modelo. A continuación, crearás una función de pérdida de entropía cruzada. Por último, se llamará a la función de pérdida, que toma como entradas scores (predicciones del modelo antes de la función softmax final) y la etiqueta de verdad fundamental codificada en un punto. Emite un único flotador, la pérdida de esa muestra.

torch``torch.nn como nn, y torch.nn.functional como F ya se han importado para usted.

Instrucciones 1/3
35 XP
1
2
3
Crea el vector codificado de una sola vez de la etiqueta de verdad básica y y asígnalo a one_hot_label.

In [5]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import numpy as np


y = [2] # La y es la etiqueta de la verdad del suelo
scores = torch.tensor([[0.1, 6.0, -2.0, 3.2]]) # Las puntuaciones son las predicciones del modelo antes de la función softmax final

# Create a one-hot encoded vector of the ground truth label
one_hot_label = F.one_hot(torch.tensor(y), num_classes=4)

print(one_hot_label)

tensor([[0, 0, 1, 0]])


Cree la función de pérdida de entropía cruzada y guárdela como criterion.

In [7]:
import torch
import torch.nn as nn
import torch.nn.functional as F

y = [2]
scores = torch.tensor([[0.1, 6.0, -2.0, 3.2]])

# Create a one-hot encoded vector of the label y
one_hot_label = F.one_hot(torch.tensor(y), num_classes = scores.shape[1])

# Create the cross entropy loss function
criterion = nn.CrossEntropyLoss()

print(criterion(scores, torch.tensor(y)))

tensor(8.0619)


Calcule la pérdida de entropía cruzada utilizando el vector one_hot_label y el vector scores, llamando al loss_function que ha creado.

Did you correctly specify the first argument? Expected scores.double(), but got scores.

In [11]:
import torch
import torch.nn as nn
import torch.nn.functional as F

y = [2] # La y es la etiqueta de la verdad del suelo. La verdad del suelo es la etiqueta correcta
scores = torch.tensor([[0.1, 6.0, -2.0, 3.2]]) # Las puntuaciones son las predicciones del modelo antes de la función softmax final

# Create a one-hot encoded vector of the label y
one_hot_label = F.one_hot(torch.tensor(y), scores.shape[1]) # 4 clases

# Create the cross entropy loss function
criterion = nn.CrossEntropyLoss() # La función de pérdida de entropía cruzada

# Calculate the cross entropy loss scores.double().
loss = criterion(scores.double(), one_hot_label.double())
print(loss)

tensor(8.0619, dtype=torch.float64)


Estimación de una muestra
En ejercicios anteriores, utilizaste capas lineales para construir redes.

Recordemos que la operación realizada por nn.Linear() consiste en tomar una entrada 
 y aplicar la transformación 
,donde 
 y 
 son dos tensores (denominados peso y sesgo).

Una parte fundamental del entrenamiento de los modelos PyTorch consiste en calcular los gradientes de los tensores de peso y sesgo con respecto a una función de pérdida.


En este ejercicio, calculará gradientes de tensor de peso y sesgo utilizando pérdida de entropía cruzada y una muestra de datos.

Se prueban los siguientes tensores:

weight: un tensor 
-elemento
biasun tensor de 
 elementos
preds: un tensor 
-elemento que contiene las predicciones del modelo
target: un tensor codificado de un solo elemento 
 que contiene la etiqueta de verdad fundamental

- Utilice el criterio que haya definido para calcular el valor de la pérdida con respecto a las predicciones y los valores objetivo.
- Calcular los gradientes de la pérdida de entropía cruzada.
- Muestra los gradientes de los tensores de peso y sesgo, en ese orden.

In [14]:
import torch
import torch.nn as nn

# Define los tensores.
# Los parámetros 'weight' y 'bias' se definen con requires_grad=True, 
# lo que significa que PyTorch guardará las operaciones en estos tensores 
# para calcular los gradientes más tarde.
weight = torch.rand(2, 4, requires_grad=True)  # weights de 2x4
bias = torch.rand(2, requires_grad=True)  # bias de 2

# El tensor de 'preds' también debería tener requires_grad=True. 
# Así, cuando se utiliza para calcular 'loss', PyTorch podrá 
# calcular el gradiente de 'loss' con respecto a 'preds'.
preds = torch.rand(2, 4, requires_grad=True)  # predicciones de 2x4

target = torch.tensor([2, 3])  # objetivo de un solo elemento codificado de 2 y 3

# Define la función de pérdida de entropía cruzada (CrossEntropyLoss).
criterion = nn.CrossEntropyLoss()

# Calcula la pérdida (loss).
loss = criterion(preds, target)

# A medida que llamamos .backward() en la pérdida (loss), 
# PyTorch calculará automáticamente los gradientes de 'loss' con respecto a los tensores 
# que tienen requires_grad=True (en este caso, 'weight', 'bias' y 'preds').
loss.backward()

# Muestra los gradientes de los tensores 'weight' y 'bias'.
print(weight.grad)
print(bias.grad)

# Nota: No puedes ver el gradiente de 'preds' porque se trata de un tensor intermedio 
# (en el sentido de que está involucrado en el cálculo de 'loss'), y los gradientes 
# para los tensores intermedios no se guardan para ahorrar memoria.

None
None


Acceso a los parámetros del modelo
Un modelo PyTorch creado con el nn.Sequential() es un módulo que contiene las diferentes capas de su red. Recordemos que se puede acceder a cada parámetro de capa indexando directamente el modelo creado. En este ejercicio, practicarás el acceso a los parámetros de diferentes capas lineales de una red neuronal. No accederás al sigmoide.

Instrucciones
100 XP
Accede al parámetro weight de la primera capa lineal.
Accede al parámetro bias de la segunda capa lineal.

In [15]:
import torch
import torch.nn as nn

model = nn.Sequential(nn.Linear(16, 8),
                      nn.Sigmoid(),
                      nn.Linear(8, 2))

# Access the weight of the first linear layer
weight_0 = model[0].weight

# Access the bias of the second linear layer
bias_1 = model[2].bias

print(weight_0)
print(bias_1)

Parameter containing:
tensor([[ 0.2233,  0.2089, -0.1757,  0.1234,  0.1615, -0.1095,  0.0784,  0.2470,
         -0.1053,  0.2357,  0.2137, -0.0495,  0.2257, -0.1839, -0.0643,  0.2374],
        [-0.2297, -0.1729, -0.1553,  0.2140,  0.0747, -0.1194, -0.2118,  0.0159,
         -0.0649,  0.0995,  0.1358, -0.0726, -0.0249, -0.0854,  0.1634, -0.0169],
        [-0.1782, -0.1411,  0.1799,  0.0742,  0.0214, -0.1020, -0.1133,  0.2131,
         -0.1063,  0.2364, -0.1799,  0.1935, -0.1193,  0.2184,  0.0948, -0.1380],
        [-0.2302, -0.1329,  0.1235,  0.0170, -0.0938, -0.0249,  0.2418, -0.1785,
         -0.1833,  0.0470, -0.1415, -0.2031, -0.0072, -0.0127, -0.1381, -0.0972],
        [-0.0969,  0.2411, -0.2131, -0.1970,  0.1279, -0.1329,  0.0383, -0.0133,
         -0.0701, -0.2158, -0.2228, -0.2009, -0.1945, -0.1024,  0.1052,  0.0956],
        [-0.2003,  0.2118,  0.0910,  0.0037, -0.2167,  0.0317, -0.1165, -0.1091,
         -0.0993,  0.0764,  0.0278, -0.1559,  0.0069,  0.0058,  0.1457,  0.2320],


Crea las variables de gradiente accediendo a los gradientes locales de cada tensor de peso.

In [16]:
import torch
import torch.nn as nn

model = nn.Sequential(nn.Linear(16, 8),
                        nn.Sigmoid(),
                        nn.Linear(8, 2))

# Access the weight of the first linear layer
weight0 = model[0].weight
weight1 = model[1].weight
weight2 = model[2].weight

# Access the gradients of the weight of each linear layer
grads0 = weight0.grad
grads1 = weight1.grad
grads2 = weight2.grad

print(grads0)
print(grads1)
print(grads2)

AttributeError: 'Sigmoid' object has no attribute 'weight'

Actualiza los pesos utilizando los gradientes escalados por la tasa de aprendizaje.

In [17]:
import torch
import torch.nn as nn

model = nn.Sequential(nn.Linear(16, 8),
                        nn.Sigmoid(),
                        nn.Linear(8, 2))

# Access the weight of the first linear layer
weight0 = model[0].weight
weight1 = model[1].weight
weight2 = model[2].weight

# Access the gradients of the weight of each linear layer
grads0 = weight0.grad
grads1 = weight1.grad
grads2 = weight2.grad

# Update the weights using the gradients and a learning rate
learning_rate = 0.1
weight0.data = weight0.data - learning_rate * grads0
weight1.data = weight1.data - learning_rate * grads1
weight2.data = weight2.data - learning_rate * grads2

print(weight0)
print(weight1)
print(weight2)

AttributeError: 'Sigmoid' object has no attribute 'weight'

Uso del optimizador PyTorch
En el ejercicio anterior, actualizaste manualmente el peso de una red. Ahora ya sabes lo que pasa bajo el capó, pero este enfoque no es escalable a una red de muchas capas.

Afortunadamente, el optimizador PyTorch SGD hace un trabajo similar en un puñado de líneas de código. En este ejercicio, practicarás el último paso para completar el bucle de entrenamiento: actualizar los pesos utilizando un optimizador PyTorch.

Se ha creado una red neuronal y se ha proporcionado como variable model. Este modelo se utilizó para ejecutar un pase hacia delante y crear el tensor de predicciones pred. El tensor codificado en un punto se denomina target y la función de pérdida de entropía cruzada se almacena como criterion.

torch.optim como optim, y torch.nn como nn ya han sido cargados para usted.

Utilice optim para crear un optimizador SGD con una tasa de aprendizaje de su elección (debe ser menor que uno) para el model proporcionado.

In [19]:
# Create the optimizer

import torch.optim as optim

model = nn.Sequential(nn.Linear(16, 8),
                        nn.Sigmoid(),
                        nn.Linear(8, 2))

# Create the optimizer
optimizer = optim.SGD(model.parameters(), lr=0.01)

print(optimizer)

SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    fused: None
    lr: 0.01
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)


Actualiza los parámetros del modelo mediante el optimizador.

In [22]:
# Create the optimizer

import torch.optim as optim
import torch.nn as nn
import torch.nn.functional as F
import torch
import numpy as np


model = nn.Sequential(nn.Linear(16, 8),
                        nn.Sigmoid(),
                        nn.Linear(8, 2))

# Create the optimizer
optimizer = optim.SGD(model.parameters(), lr=0.001)

# Forward pass
input_tensor = torch.Tensor(np.random.rand(1, 16))
pred = model(input_tensor)
print(pred)

# Define the target
target = torch.tensor([1])
print(target)

# Compute the loss
criterion = nn.CrossEntropyLoss()
loss = criterion(pred, target)
loss.backward()

# Update the model's parameters using the optimizer
optimizer.step()

print(model)

tensor([[-0.4670,  0.5225]], grad_fn=<AddmmBackward0>)
tensor([1])
Sequential(
  (0): Linear(in_features=16, out_features=8, bias=True)
  (1): Sigmoid()
  (2): Linear(in_features=8, out_features=2, bias=True)
)


Utilización de MSELoss
Recordemos que no podemos utilizar la pérdida de entropía cruzada para problemas de regresión. La pérdida de error cuadrático medio (MSELoss) es una función de pérdida común para los problemas de regresión. En este ejercicio, practicarás el cálculo y la observación de la pérdida utilizando NumPy así como su implementación PyTorch.

Instrucciones
100 XP
Calcula el MSELoss utilizando NumPy.
Crear una función MSELoss utilizando PyTorch.
Convierte y_hat y y a tensores y luego a tipos de datos float, y luego úsalos para calcular MSELoss usando PyTorch como mse_pytorch.

In [24]:
import torch
import torch.nn as nn
import numpy as np

# Define los tensores
y_hat = np.array([10])  # Cuidado, es un array de un elemento, no un número
y = np.array([1])  # Igual con esto

# Calcula la pérdida MSE usando NumPy
mse_numpy = np.mean(np.square(y_hat - y))

# Crea la función MSELoss
criterion = nn.MSELoss()

# Calcula la pérdida MSE usando la función de pérdida creada
mse_pytorch = criterion(torch.tensor(y_hat).float(), torch.tensor(y).float())

print(mse_pytorch)

tensor(81.)


Escribir un bucle de entrenamiento
En scikit-learn, todo el bucle de entrenamiento está contenido en el método .fit(). En PyTorch, sin embargo, el bucle se implementa manualmente. Aunque esto proporciona control sobre el contenido del bucle, requiere una implementación personalizada.

Escribirás un bucle de entrenamiento cada vez que entrenes un modelo de aprendizaje profundo con PyTorch, que practicarás en este ejercicio. La función show_results() proporcionada mostrará una muestra de la verdad sobre el terreno y las predicciones del modelo.

Las importaciones de paquetes proporcionadas son: pandas como pd, torch, torch.nn como nn, torch.optim como optim, así como DataLoader y TensorDataset de torch.utils.data.

Se han creado las siguientes variables: dataloader model , que contiene la red neuronal; criterion, que contiene la función de pérdida, nn.MSELoss(); optimizer, que contiene el optimizador SGD; y num_epochs, que contiene el número de épocas.

Escriba un bucle for que itere sobre dataloader; esto debería estar anidado dentro de un bucle for que itere sobre un rango igual al número de épocas.
Poner a cero los gradientes del optimizador.

columnas: ph,Hardness,Solids,Chloramines,Sulfate,Conductivity,Organic_carbon,Trihalomethanes,Turbidity,Potability

In [32]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
import pandas as pd

# Create the model
# Crear el modelo
model = nn.Sequential(nn.Linear(9, 8),  # Asigna el número correcto de entradas
                      nn.Sigmoid(),
                      nn.Linear(8, 1))

# Create the data loader
data = pd.read_csv('/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/DataCamp/DevelopLLMs/data/water_potability.csv')
X = torch.Tensor(data[['ph', 'Hardness', 'Solids', 'Chloramines', 'Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity']].values)
y = torch.Tensor(data['Potability'].values)
dataset = TensorDataset(X, y)
dataloader = DataLoader(dataset, batch_size=1)

# Create the optimizer
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Create the loss function
criterion = nn.MSELoss()

# Define the number of epochs
num_epochs = 5

# Define the function to show the results
def show_results():
    for data, target in dataloader:
        print(f'Model prediction: {model(data)}')
        print(f'True target: {target}')
        print(f'Loss: {criterion(model(data), target)}')
        break
        
# Loop over the number of epochs and then the dataloader
for epoch in range(num_epochs):
    for data, target in dataloader:
        # Zero the gradients
        optimizer.zero_grad()

        # Perform the forward pass
        output = model(data)

        # Calculate the loss
        loss = criterion(output, target)

        # Perform the backward pass
        loss.backward()

        # Update the weights
        optimizer.step()

# Show the results
show_results()

  return F.mse_loss(input, target, reduction=self.reduction)


Model prediction: tensor([[1.0008]], grad_fn=<AddmmBackward0>)
True target: tensor([0.])
Loss: 1.0015286207199097


Escribe el pase hacia delante.
Calcule el valor de pérdida MSE utilizando la función criterion() proporcionada.
Calcula los gradientes.

In [33]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
import pandas as pd

# Create the model
model = nn.Sequential(nn.Linear(9, 8),
                      nn.Sigmoid(),
                      nn.Linear(8, 1))

# Create the data loader
data = pd.read_csv('/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/DataCamp/DevelopLLMs/data/water_potability.csv')

X = torch.Tensor(data[['ph', 'Hardness', 'Solids', 'Chloramines', 'Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity']].values)
y = torch.Tensor(data['Potability'].values)
dataset = TensorDataset(X, y)
dataloader = DataLoader(dataset, batch_size=1)

# Create the optimizer
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Create the loss function
criterion = nn.MSELoss()

# Define the number of epochs
num_epochs = 5

# Define the function to show the results
def show_results():
    for data, target in dataloader:
        print(f'Model prediction: {model(data)}')
        print(f'True target: {target}')
        print(f'Loss: {criterion(model(data), target)}')
        break
        
# Loop over the number of epochs and then the dataloader
for epoch in range(num_epochs):
    for data, target in dataloader:
        # Zero the gradients
        optimizer.zero_grad()

        # Perform the forward pass
        output = model(data)

        # Calculate the loss
        loss = criterion(output, target)

        # Perform the backward pass
        loss.backward()

        # Update the weights
        optimizer.step()
        
# Show the results
show_results()

  return F.mse_loss(input, target, reduction=self.reduction)


Model prediction: tensor([[1.0132]], grad_fn=<AddmmBackward0>)
True target: tensor([0.])
Loss: 1.0266615152359009


Actualiza los parámetros del modelo.

In [34]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
import pandas as pd

# Create the model
model = nn.Sequential(nn.Linear(9, 8),
                      nn.Sigmoid(),
                      nn.Linear(8, 1))

# Create the data loader
data = pd.read_csv('/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/DataCamp/DevelopLLMs/data/water_potability.csv')

X = torch.Tensor(data[['ph', 'Hardness', 'Solids', 'Chloramines', 'Sulfate', 'Conductivity', 'Organic_carbon', 'Trihalomethanes', 'Turbidity']].values)
y = torch.Tensor(data['Potability'].values)
dataset = TensorDataset(X, y)
dataloader = DataLoader(dataset, batch_size=1)

# Create the optimizer
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Create the loss function
criterion = nn.MSELoss()

# Define the number of epochs
num_epochs = 5

# Define the function to show the results
def show_results():
    for data, target in dataloader:
        print(f'Model prediction: {model(data)}')
        print(f'True target: {target}')
        print(f'Loss: {criterion(model(data), target)}')
        break
        
# Loop over the number of epochs and then the dataloader
for epoch in range(num_epochs):
    for data, target in dataloader:
        # Zero the gradients
        optimizer.zero_grad()

        # Perform the forward pass
        output = model(data)

        # Calculate the loss
        loss = criterion(output, target)

        # Perform the backward pass
        loss.backward()

        # Update the weights
        optimizer.step()
        
# Show the results
show_results()

# Print the model's state_dict
print("Model's state_dict:")
print(model.state_dict())

# Print the optimizer's state_dict
print("Optimizer's state_dict:")
print(optimizer.state_dict())

  return F.mse_loss(input, target, reduction=self.reduction)


Model prediction: tensor([[0.9931]], grad_fn=<AddmmBackward0>)
True target: tensor([0.])
Loss: 0.9862626194953918
Model's state_dict:
OrderedDict({'0.weight': tensor([[-0.2948, -0.2701, -0.1904,  0.1990,  0.1937,  0.0730,  0.1583, -0.0276,
         -0.1629],
        [-0.2563, -0.0028, -0.2897, -0.0928, -0.0753, -0.1061, -0.1239, -0.1454,
          0.2509],
        [ 0.0869, -0.0645, -0.1665, -0.2397, -0.2286,  0.1312, -0.3148, -0.0952,
          0.3000],
        [ 0.3167,  0.1998,  0.2562, -0.1149, -0.2442, -0.3022,  0.0119,  0.1383,
         -0.2991],
        [ 0.2925, -0.1858,  0.0978, -0.2465,  0.1586,  0.1445, -0.0873,  0.0350,
         -0.0061],
        [-0.1940,  0.0958,  0.1679,  0.2697,  0.1861,  0.0699, -0.1951, -0.1864,
         -0.1097],
        [ 0.0798,  0.1881,  0.3193, -0.1821, -0.3191,  0.2724,  0.0640, -0.1039,
          0.3284],
        [ 0.1701,  0.0459, -0.0511,  0.0011,  0.2466,  0.0343,  0.2532,  0.0434,
          0.0281]]), '0.bias': tensor([-0.3239, -0.2791, -0.