This material is from https://d2l.ai/chapter_preliminaries/index.html

# 2. Preliminaries

In [1]:
import torch

Pytorch를 통해서 tensor를 다룬다. numpy에서 다루는 것과 매우 비슷하다.

In [2]:
x = torch.arange(12, dtype=torch.float32)
x

tensor([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

**torch.arange()** 아래처럼 범위와 step도 설정이 가능하다.

In [4]:
torch.arange(start=2, end=12, step=2)

tensor([ 2,  4,  6,  8, 10])

In [5]:
x.numel()

12

**x.numel()** : tensor 내 원소 총 개수

In [6]:
x.shape

torch.Size([12])

In [7]:
X = x.reshape((3, 4))

In [8]:
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

**reshape()** 을 통해 tensor의 모양도 변경할 수 있다. 대신 원소들을 잘 넣을 수 있게끔 reshape을 해야 한다.

In [9]:
x.reshape((3, 3))

RuntimeError: shape '[3, 3]' is invalid for input of size 12

12개인데 3x3 을 만들려고 하면 error가 난다.

In [10]:
x.reshape((3, 5))

RuntimeError: shape '[3, 5]' is invalid for input of size 12

크기가 딱 맞아야 한다.

In [11]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [12]:
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

0 또는 1로 전부 채우는 방법

In [14]:
torch.randn(3, 4)

tensor([[ 0.9382,  0.8128, -0.7582,  0.3392],
        [ 0.2672,  1.4922, -1.3930, -2.1220],
        [-0.6270,  0.4328, -0.2019, -1.6058]])

**randn()** : 표준정규분포를 따르게끔 random하게 숫자들을 tensor에 넣는다.

In [15]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

**torch.tensor()** 원하는 모양의 tensor를 만든다. 안에 원하는 원소들을 넣으면 된다. list를 이용해서 dimension을 정해줄 수 있다.

## Indexing

Python의 list를 indexing하는 것과 비슷하다고 보면 된다. Index는 0부터 시작하고 `a:b`이면 a는 포함하고 b는 포함하지 않는다.

In [17]:
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [19]:
X.shape

torch.Size([3, 4])

In [18]:
X[-1]

tensor([ 8.,  9., 10., 11.])

3번째 row의 tensor가 나온 모습이다. 

In [20]:
X[1:3]

tensor([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [22]:
X[1, 2] = 17
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5., 17.,  7.],
        [ 8.,  9., 10., 11.]])

In [23]:
X[:2] = 17
X

tensor([[17., 17., 17., 17.],
        [17., 17., 17., 17.],
        [ 8.,  9., 10., 11.]])

원하는 위치의 값을 바꿀 수도 있다. 한꺼번에 여러 원소들을 indexing을 통해 다 바꿀 수도 있다.

## Operations

### 1. Element-wise Operations

    각 element에 전부 적용된다.

In [24]:
torch.exp(X)

tensor([[2.4155e+07, 2.4155e+07, 2.4155e+07, 2.4155e+07],
        [2.4155e+07, 2.4155e+07, 2.4155e+07, 2.4155e+07],
        [2.9810e+03, 8.1031e+03, 2.2026e+04, 5.9874e+04]])

지연상수 $e^{X}$에 각 원소의 제곱을 표현함 

In [25]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]))

사칙연산도 각 원소별로 이루어지는 것을 볼 수 있다.

In [26]:
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim = 0), torch.cat((X, Y), dim = 1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

tensor들끼리 모양이 맞으면 이어붙일 수도 있다.

In [28]:
X, Y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

In [30]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

비교도 각 원소별로 이루어진다.

In [31]:
X > Y

tensor([[False, False, False, False],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]])

In [32]:
torch.sum(X)

tensor(66.)

모든 원소의 합을 나타낸다

## Broadcasting

In [33]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

원래같으면 a와 b처럼 모양이 맞지 않으면 덧셈이 되지 않아야 한다. 하지만 특정한 경우에는 하나 또는 두 tensor의 길이를 늘린다음, 계산을 실시한다. 늘어나는 자리에는 원소들이 복사되어 있고, 각각 모양에 맞게 순차적으로 연산이 이루어진다.

In [34]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

3 x 1 이었던 `a` tensor가 3 x 2로 늘어난 뒤, 덧셈이 `b`의 1 x 2 에 맞게 각 행에 덧셈이 이루어진 모습이다.

## Saving Memory

    Python은 일반적으로 한번 사용된 변수를 다시 사용할 경우, 그 변수는 다른 memory에 새로 할당된다. 이는 사실상 시간 낭비가 될 수도 있다. 딱히 옮길 필요가 없는데 불필요하게 메모리 주소를 옮겨다니는 건 곤란하다. 또한 여러개의 변수들이 전부 같은 것에 대응하고 있어서 이들을 제대로 update 안 해주면 memory leak이 발생할 수도 있다. 
    
    그렇기 때문에 우리는 최대한 in-place에서 실행되는 것이 바람직하다.

In [35]:
before = id(Y)
Y = X + Y
id(Y) == before

False

Memory 주소가 덧셈 후 이동한 걸 볼 수 있다.

In [38]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 2322523367360
id(Z): 2322523367360


`Z[:]`처럼 indexing을 활용하면 결과가 in-place로 발생한다. 이미 있는 것의 메모리 위치가 변경되지 않게하기 위함이다.

In [39]:
before = id(X)
X += Y
before == id(X)

True

`+=`도 마찬가지의 결과를 준다

In [40]:
A = X.numpy()
B = torch.from_numpy(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

In [42]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

**item()** 을 사용하면 scalar 값을 받아올 수 있음

In [43]:
a = torch.tensor([1, 2])

In [44]:
a

tensor([1, 2])

In [45]:
a.item()

ValueError: only one element tensors can be converted to Python scalars

두 개 이상 들어 있는 tensor는 (당연하지만) scalar 값으로 변환할 수 없다.

## Data Preparation

In [46]:
import pandas as pd

In [48]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

Create a csv file. To read a csv file, we use pandas

In [49]:
data = pd.read_csv(data_file)

In [50]:
data.head()

Unnamed: 0,NumRooms,RoofType,Price
0,,,127500
1,2.0,,106000
2,4.0,Slate,178100
3,,,140000


Supervised Learning에서는 데이터와 label(또는 target)이 필요하다. 위의 데이터의 경우, Price값을 label로 활용하고 싶기 때문에 이를 분리해야 한다.

In [52]:
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]

`iloc` 은 dataframe을 index 숫자를 활용해서 indexing하는 방법이다.

In [53]:
inputs

Unnamed: 0,NumRooms,RoofType
0,,
1,2.0,
2,4.0,Slate
3,,


NaN 값들은 학습할 수 없다. 그러므로 적당한 값들을 넣어줘야 한다. 어떤 값이 가장 적당할지는 그때그때 다르다. 최솟값을 넣을 수도 있고, 그냥 0으로 채울 수도 있고 등등 가능성이 여러가지이다. 이 작업을 imputation이라고 한다.

In [56]:
inputs = pd.get_dummies(inputs, dummy_na = True)
inputs

Unnamed: 0,NumRooms,RoofType_Slate,RoofType_nan
0,,False,True
1,2.0,False,True
2,4.0,True,False
3,,False,True


**pd.get_dummies()** 는 categorical한 데이터를 변환해준다. 이때 category가 여러개이면 해당 category마다 새로운 attribute를 새로 생성하고, 그 값을 각 row마다 있으면 True, 없으면 False를 적어 넣는다. One-Hot Encoding과 굉장히 비슷하다. **dummy_na = True** 를 설정하면 NaN 값도 하나의 category로 취급해서 새로운 attribute를 위와 같이 생성한다.

이렇게 하는 이유는 임의의 숫자로 특정 category를 표현하는 것이 옳지 않은 경우가 있기 때문이다. 예를 들어 spring, summer, fall, winter는 계절마다 특별히 어느 계절이 더 좋고 나쁠 이유가 없다. 하지만 사계절을 그저 1, 2, 3, 4 로 encoding하면, 학습하는 입장에서는 winter이 spring보다 어떤 면에서 더 큰 무언가의 값을 가질 것이라고 잘못된 학습을 할 여지가 있기 때문에 이를 방지하고자 dummy를 활용한다.

In [58]:
inputs = inputs.fillna(inputs.mean())

In [59]:
inputs

Unnamed: 0,NumRooms,RoofType_Slate,RoofType_nan
0,3.0,False,True
1,2.0,False,True
2,4.0,True,False
3,3.0,False,True


아직 남아있는 NaN값들을 채우기 위해 각 속성별 평균값을 활용하기로 했다.

모든 준비가 끝나면 학습을 위해 DataFrame을 tensor로 변환하면 된다.

In [69]:
X, y = torch.tensor(inputs.values.astype(float)), torch.tensor(targets.values)
X, y

(tensor([[3., 0., 1.],
         [2., 0., 1.],
         [4., 1., 0.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

간혹 `.values`를 했는데 type이 Object로 나오는 경우가 있다. Pandas에서 Object type인 숫자 데이터 이외의 대부분의 것들을 얘기한다. (datetime과 같이 예외도 존재한다). **.astype(float)** 를 사용하면 type을 바꿔줄 수 있다.

## Linear Algebra

**Scalar**

In [70]:
x = torch.tensor(3.0)
y = torch.tensor(2.0)
x + y, x - y, x * y, x / y

(tensor(5.), tensor(1.), tensor(6.), tensor(1.5000))

**Vector** 컴퓨터 상에서는 가로로 표기되어 있지만, 실제 벡터는 **세로** 로 표기하는 것이 원칙이다. 

In [71]:
x = torch.arange(5)
x

tensor([0, 1, 2, 3, 4])

In [72]:
len(x)

5

In [73]:
x.shape

torch.Size([5])

vector indexing

In [74]:
x[2]

tensor(2)

**Matrix**

In [75]:
A = torch.arange(6).reshape((3, 2))
A

tensor([[0, 1],
        [2, 3],
        [4, 5]])

Transpose

In [76]:
A.T

tensor([[0, 2, 4],
        [1, 3, 5]])

A 와 A.T 가 같은 행렬을 대칭행렬이라고 한다. 대칭행렬은 상당히 많은 성질을 가지고 있다. 가장 대표적으로 $A = X^TVX$ 꼴로 대각화가 가능하다.

In [77]:
A = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
A == A.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

**Tensor** : 행렬은 2차원(행과 열)까지만 표현이 가능하지만, 그 이상의 차원의 데이터도 표현해야 할 수도 있다. 대표적으로 이미지 데이터가 있다. 이러한 n 차원 데이터가 tensor이다.

In [78]:
torch.arange(24).reshape((2, 3, 4))

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

행렬의 덧셈은 같은 모양일 때 원소별로 이루어진다. 물론 pytorch에서는 broadcasting을 통해 다른 모양이어도 제한적으로 가능하다.

In [80]:
A = torch.arange(6, dtype=torch.float32).reshape(3, 2)
B = A.clone()
A, A + B

(tensor([[0., 1.],
         [2., 3.],
         [4., 5.]]),
 tensor([[ 0.,  2.],
         [ 4.,  6.],
         [ 8., 10.]]))

행렬의 곱셈은 앞 행렬의 각 행과 뒤 행렬의 각 열끼리의 mapping해서 mapping된 행과 열들끼리 내적을 한다.

In [81]:
A * B

tensor([[ 0.,  1.],
        [ 4.,  9.],
        [16., 25.]])

In [83]:
X

tensor([[3., 0., 1.],
        [2., 0., 1.],
        [4., 1., 0.],
        [3., 0., 1.]], dtype=torch.float64)

스칼라 덧셈과 곱셈은 각 원소들에게 이루어진다.

In [82]:
2 + X

tensor([[5., 2., 3.],
        [4., 2., 3.],
        [6., 3., 2.],
        [5., 2., 3.]], dtype=torch.float64)

In [84]:
2 * X

tensor([[6., 0., 2.],
        [4., 0., 2.],
        [8., 2., 0.],
        [6., 0., 2.]], dtype=torch.float64)

In [86]:
x = torch.arange(3, dtype=torch.float32)
torch.sum(x)

tensor(3.)

Tensor내의 모든 원소들의 합을 구할 수 있다.

In [88]:
A

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])

In [89]:
torch.sum(A, axis=0)

tensor([6., 9.])

In [90]:
torch.sum(A, axis=1)

tensor([1., 5., 9.])

덧셈을 한 방향으로 제한할 수도 있다.

In [91]:
A.mean()

tensor(2.5000)

In [92]:
A.sum() / A.numel()

tensor(2.5000)

Tensor의 element의 평균 구하기

In [95]:
A.shape

torch.Size([3, 2])

In [93]:
sum_1 = A.sum(axis=1)
sum_1, sum_1.shape

(tensor([1., 5., 9.]), torch.Size([3]))

In [94]:
sum_2 = A.sum(axis=1, keepdims=True)
sum_2, sum_2.shape

(tensor([[1.],
         [5.],
         [9.]]),
 torch.Size([3, 1]))

가끔씩은 덧셈 직후 차원을 유지할 필요도 있다. 특히 broadcasting을 해야 한다면 더더욱 그러하다.

In [96]:
A

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])

In [98]:
torch.cumsum(A, axis=0)

tensor([[0., 1.],
        [2., 4.],
        [6., 9.]])

Cumulative Sum

In [99]:
y = torch.ones(3, dtype=torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2.]), tensor([1., 1., 1.]), tensor(3.))

내적

In [101]:
A

tensor([[0., 1.],
        [2., 3.],
        [4., 5.]])

In [102]:
x

tensor([0., 1., 2.])

행렬, 벡터 곱셈

In [104]:
torch.mv(A.T, x)

tensor([10., 13.])

`@`을 써서 행렬의 곱셈을 할 수도 있다.

In [105]:
A.T@x

tensor([10., 13.])

In [107]:
A.shape

torch.Size([3, 2])

In [108]:
B = torch.ones(2, 4)
torch.mm(A, B)

tensor([[1., 1., 1., 1.],
        [5., 5., 5., 5.],
        [9., 9., 9., 9.]])

In [109]:
A@B

tensor([[1., 1., 1., 1.],
        [5., 5., 5., 5.],
        [9., 9., 9., 9.]])

### Norms

Vector의 norm은 vector의 크기를 지칭한다. 두가지 종류가 있다

1. L1 Norm = $\sum^{n}_{i=1}{|x_i|}$ 절대값의 합, outlier에 덜 민감하다는 특징을 가지고 있다.
2. L2 Norm = $\sqrt{\sum^{n}_{i=1}{x^2_i}}$  제곱의 합의 제곱근

L2 Norm:

In [110]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

L1 Norm:

In [111]:
torch.abs(u).sum()

tensor(7.)

Frobenius Norm (행렬의 norm): 행렬의 각 원소들의 제곱의 합의 제곱근

$||X||_F = \sqrt{\sum^m_{i=1}\sum^n_{j=1}{x^2_{ij}}}$

In [112]:
torch.norm(torch.ones((4, 9)))

tensor(6.)

## Calculus

In [113]:
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np

$3x^2-4x$

In [114]:
def f(x):
    return 3 * x ** 2 - 4 * x

In [115]:
for h in 10.0**np.arange(-1, -6, -1):
    print(f'h={h:.5f}, numerical limit={(f(1+h)-f(1))/h:.5f}')

h=0.10000, numerical limit=2.30000
h=0.01000, numerical limit=2.03000
h=0.00100, numerical limit=2.00300
h=0.00010, numerical limit=2.00030
h=0.00001, numerical limit=2.00003


## Automatic Differentiation

In [121]:
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

$y=2\textbf{x}^T\textbf{x}$ 을 미분해보기

In [123]:
x.requires_grad_(True)
x.grad

In [124]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

In [126]:
y.backward()

In [128]:
x.grad

tensor([ 0.,  4.,  8., 12.])

알아서 gradient 값을 계산한 것을 볼 수 있다.

In [130]:
x.grad.zero_() # reset gradient
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])