<a href="https://colab.research.google.com/github/arnav39/d2el-en/blob/main/7_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 7.2 : Convolutions for Images

In [1]:
!pip install matplotlib_inline
!pip install --upgrade d2l==1.0.0a0

Installing collected packages: jedi, qtpy, qtconsole, jupyter, d2l
Successfully installed d2l-1.0.0a0 jedi-0.18.2 jupyter-1.0.0 qtconsole-5.4.0 qtpy-2.3.0


In [2]:
import torch
from torch import nn
from d2l import torch as d2l



In [3]:
a = torch.randn(3, 3)
b = torch.randn(2, 2)

In [7]:
print(a[0:2, 0:2], a[0:2, 1:3], a[1:3, 0:2], a[1:3, 1:3])

tensor([[-0.0892,  1.4906],
        [ 0.3701,  0.3691]]) tensor([[ 1.4906, -0.1939],
        [ 0.3691,  0.3531]]) tensor([[0.3701, 0.3691],
        [0.0654, 1.9160]]) tensor([[ 0.3691,  0.3531],
        [ 1.9160, -1.3037]])


In [8]:
def corr2d(X, K): # cross-corelation operation

  h, w = K.shape
  Y = torch.zeros(X.shape[0]-h+1, X.shape[1]-w+1)

  for i in range(Y.shape[0]):
    for j in range(Y.shape[1]):
      Y[i, j] = (X[i:i+h, j:j+w] * K).sum()
  return Y

In [10]:
X = torch.arange(9.).reshape(3, 3)
K = torch.arange(4.).reshape(2, 2)
print(f"X = {X}")
print(f"K = {K}")

X = tensor([[0., 1., 2.],
        [3., 4., 5.],
        [6., 7., 8.]])
K = tensor([[0., 1.],
        [2., 3.]])


In [11]:
corr2d(X, K)

tensor([[19., 25.],
        [37., 43.]])

In [None]:
a = nn.Parameter

In [69]:
nn.Parameter??

In [12]:
class Conv2D(nn.Module):

  def __init__(self, kernel_size):
    super().__init__()
    self.weight = nn.Parameter(torch.rand(kernel_size))
    self.bias = nn.Parameter(torch.zeros(1))

  def forward(self, X):
    return corr2d(X, self.weight) + self.bias

In [13]:
X = torch.ones(6, 8)
X[:, 2:6] = 0
print(X)

tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]])


In [14]:
K = torch.tensor([1.0, -1.0]).reshape(1, 2) # to detect vertical edges only
K

tensor([[ 1., -1.]])

In [15]:
Y = corr2d(X, K)
Y

tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])

In [16]:
corr2d(X.T, K) # K cant detect horizontal edges

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [17]:
nn.LazyConv2d??

In [18]:
conv2d = nn.LazyConv2d(1, kernel_size=(1, 2), bias=False)



In [22]:
conv2d.weight, conv2d.bias

(<UninitializedParameter>, None)

In [19]:
X = X.reshape(1, 1, 6, 8)
Y = Y.reshape(1, 1, 6, 7)
lr = 3e-2
print("X = ", X)
print("Y = ", Y)
print("lr = ", lr)

X =  tensor([[[[1., 1., 0., 0., 0., 0., 1., 1.],
          [1., 1., 0., 0., 0., 0., 1., 1.],
          [1., 1., 0., 0., 0., 0., 1., 1.],
          [1., 1., 0., 0., 0., 0., 1., 1.],
          [1., 1., 0., 0., 0., 0., 1., 1.],
          [1., 1., 0., 0., 0., 0., 1., 1.]]]])
Y =  tensor([[[[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
          [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
          [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
          [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
          [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
          [ 0.,  1.,  0.,  0.,  0., -1.,  0.]]]])
lr =  0.03


In [25]:
a = nn.Parameter(torch.randn(2, 2))
a

Parameter containing:
tensor([[-0.4256,  0.8014],
        [-0.7781,  1.7734]], requires_grad=True)

In [29]:
print(a.grad)

None


In [30]:
b = a + 1
b

tensor([[0.5744, 1.8014],
        [0.2219, 2.7734]], grad_fn=<AddBackward0>)

In [32]:
b.sum().backward()
a.data[:] -= 2 * a.grad
print(a)

Parameter containing:
tensor([[-2.4256, -1.1986],
        [-2.7781, -0.2266]], requires_grad=True)


In [33]:
print(a.grad)

tensor([[1., 1.],
        [1., 1.]])


In [35]:
for i in range(10):

  Y_hat = conv2d(X)
  l = (Y_hat - Y) ** 2
  conv2d.zero_grad()
  l.sum().backward()

  # update the kernel : 
  conv2d.weight.data[:] -= lr * conv2d.weight.grad

  if (i+1) % 2 == 0:
    print(f"epoch : {i+1}/{10}, loss = {l.sum():.4f}")

epoch : 2/10, loss = 10.1708
epoch : 4/10, loss = 1.7212
epoch : 6/10, loss = 0.2948
epoch : 8/10, loss = 0.0520
epoch : 10/10, loss = 0.0097


In [37]:
conv2d.weight.data.reshape(1, 2)

tensor([[ 0.9792, -0.9878]])

## Ex 7.2 

### Q1:

In [38]:
X = torch.zeros(6, 6)
for i in range(6):
  X[i, i] = 1.0
print(X) #main diagonal

tensor([[1., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 1.]])


In [39]:
print(K)

tensor([[ 1., -1.]])


In [41]:
corr2d(X, K)

tensor([[ 1.,  0.,  0.,  0.,  0.],
        [-1.,  1.,  0.,  0.,  0.],
        [ 0., -1.,  1.,  0.,  0.],
        [ 0.,  0., -1.,  1.,  0.],
        [ 0.,  0.,  0., -1.,  1.],
        [ 0.,  0.,  0.,  0., -1.]])

In [42]:
corr2d(X.T, K)

tensor([[ 1.,  0.,  0.,  0.,  0.],
        [-1.,  1.,  0.,  0.,  0.],
        [ 0., -1.,  1.,  0.,  0.],
        [ 0.,  0., -1.,  1.,  0.],
        [ 0.,  0.,  0., -1.,  1.],
        [ 0.,  0.,  0.,  0., -1.]])

In [43]:
corr2d(X, K.T)

tensor([[ 1., -1.,  0.,  0.,  0.,  0.],
        [ 0.,  1., -1.,  0.,  0.,  0.],
        [ 0.,  0.,  1., -1.,  0.,  0.],
        [ 0.,  0.,  0.,  1., -1.,  0.],
        [ 0.,  0.,  0.,  0.,  1., -1.]])

### Q2:

- nhi ho rha😢

In [48]:
# trying to detect horizontal edges
X = torch.zeros(6, 8)
X[0:2, :] = 1
X[4:6, :] = 1
print(X)

tensor([[1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.]])


In [51]:
K = torch.tensor([-1., 1.]).reshape(2, 1) # detects horizontal edges
print(K)

tensor([[-1.],
        [ 1.]])


In [52]:
corr2d(X, K)

tensor([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
        [-1., -1., -1., -1., -1., -1., -1., -1.],
        [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
        [ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.],
        [ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.]])

In [53]:
# let's try to detect perpendicular edges
X = torch.zeros(6, 8)
X[:, 4] = 1
X[3, :] = 1
print(X)

tensor([[0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0.]])


In [60]:
K = torch.tensor([-1.0, 0, 0, 1.0]).reshape(2, 2)
print(K)

tensor([[-1.,  0.],
        [ 0.,  1.]])


In [61]:
corr2d(X, K)

tensor([[ 0.,  0.,  0.,  1., -1.,  0.,  0.],
        [ 0.,  0.,  0.,  1., -1.,  0.,  0.],
        [ 1.,  1.,  1.,  1.,  0.,  1.,  1.],
        [-1., -1., -1.,  0., -1., -1., -1.],
        [ 0.,  0.,  0.,  1., -1.,  0.,  0.]])

### Q3:

In [63]:
K = torch.tensor([1., -1.]).reshape(1, 2) # detects vertical edges
X = torch.zeros(6, 8)
X[:, :2] = 1
X[:, 6:8] = 1
print(X, K)

tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]]) tensor([[ 1., -1.]])


In [64]:
Y = corr2d(X, K)
print(Y)

tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])


In [65]:
conv_net = Conv2D(K.shape)

In [66]:
conv_net

Conv2D()

In [67]:
lr = 3e-2

In [71]:
for epoch in range(10):

  y_hat = conv_net.forward(X)
  loss = (y_hat - Y) ** 2

  loss.sum().backward()

  conv_net.weight.data[:] -= lr * conv_net.weight.grad
  conv_net.bias.data[:] -= lr * conv_net.bias.grad

  conv_net.weight.grad.zero_()
  conv_net.bias.grad.zero_()

  print(f"epoch : {epoch+1}/{10}, loss = {loss.sum().item():.4f}")

epoch : 1/10, loss = 18.6658
epoch : 2/10, loss = 68.5387
epoch : 3/10, loss = 501.2296
epoch : 4/10, loss = 3729.6558
epoch : 5/10, loss = 27778.9922
epoch : 6/10, loss = 206912.5938
epoch : 7/10, loss = 1541198.7500
epoch : 8/10, loss = 11479698.0000
epoch : 9/10, loss = 85507136.0000
epoch : 10/10, loss = 636904192.0000


In [72]:
conv_net.weight.data

tensor([[3835.5981, 3833.6106]])