# 1. Tensor 다루기 

PyTorch에서는 Tensor type이 Variable과 Constant를 포함함

Tensorflow에는 Variable 타입이 있었고, 이는 자동미분을 위한 기능이었는데, 이 기능을 Tensor타입에 포함시킴

In [5]:
import torch
import numpy as np

## 데이터 형변환

### list, array -> Torch.tensor
- torch.tensor() : 기존 데이터의 복사본
- torch.as_tensor() : 기존 데이터를 공유하는 텐서
- torch.from_numpy() : 기존 numpy 배열을 공유하는 텐서(numpy전용)

In [6]:
li = [[1, 2,], [3,4]]

li_tensor = torch.tensor(li)
# li_as_tensor = torch.as_tensor(li)

print(li_tensor)
print(li_tensor.shape)
print(li_tensor.dtype)

tensor([[1, 2],
        [3, 4]])
torch.Size([2, 2])
torch.int64


In [7]:
arr = np.array([[1,2],[3,4]])
arr_tensor = torch.tensor(arr)
# arr_as_tensor = torch.as_tensor(arr)
# arr_from_numpy = torch.from_numpy(arr)

print(arr_tensor)
print(arr_tensor.shape) # tensor.size() 같은 결과
print(arr_tensor.dtype)

tensor([[1, 2],
        [3, 4]], dtype=torch.int32)
torch.Size([2, 2])
torch.int32


### torch -> numpy.arr
- tensor.numpy()

In [8]:
print(li_tensor.numpy())
print(arr_tensor.numpy())

[[1 2]
 [3 4]]
[[1 2]
 [3 4]]


### torch 형변환
- var = tensor.type(torch.TYPE)

In [16]:
print(li_tensor.type(torch.float64))
print(arr_tensor.type(torch.float64))

tensor([[1., 2.],
        [3., 4.]], dtype=torch.float64)
tensor([[1., 2.],
        [3., 4.]], dtype=torch.float64)


## 특정한 값의 Tensor 생성하기
- torch.arange()
- torch.ones(), torch.zeros()
- torch.ones_like(), torch.zeros_like()
- torch.linspace()
- torch.logspace()

In [17]:
torch.arange(10)    # range()와 동일

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
torch.ones(1, 3), torch.zeros(2, 3)

(tensor([[1., 1., 1.]]),
 tensor([[0., 0., 0.],
         [0., 0., 0.]]))

In [22]:
torch.ones(2), torch.zeros(3)

(tensor([1., 1.]), tensor([0., 0., 0.]))

In [25]:
# 해당 크기만큼 특정 값으로 배열생성
li_tensor, torch.ones_like(li_tensor), torch.zeros_like(li_tensor)

(tensor([[1, 2],
         [3, 4]]),
 tensor([[1, 1],
         [1, 1]]),
 tensor([[0, 0],
         [0, 0]]))

In [26]:
torch.linspace(0, 10, 5)

tensor([ 0.0000,  2.5000,  5.0000,  7.5000, 10.0000])

In [27]:
torch.logspace(0, 10, 5)

tensor([1.0000e+00, 3.1623e+02, 1.0000e+05, 3.1623e+07, 1.0000e+10])

### 난수 생성하기
- torch.rand() : 균등분포
- torch.randn() : 정규분포
- torch.randint(n, size=(,)) : 양의 정수 샘플링

In [41]:
torch.manual_seed(7777)

<torch._C.Generator at 0x1dc5ba50230>

In [48]:
a = torch.rand(5)
b = torch.randn(5)
c = torch.randint(10, size=(5,))
print(a, b, c, sep="\n")

tensor([0.5326, 0.9955, 0.4764, 0.6533, 0.1295])
tensor([-0.2342,  1.4572,  0.0635,  1.0819,  0.5838])
tensor([3, 3, 6, 9, 1])


## GPU 사용하기
- Torch에서는 GPU사용을 위해서 TypeCasting 필요

In [49]:
# cuda 사용가능 여부
torch.cuda.is_available()

False

GPU 를 사용하기 위해 Cuda에서 사용하는 데이터타입으로 바꾸어줘야 한다. 

방법 세가지! 

 - 만들 때, device 설정해두기
 - tensor_var.cuda()
 - tensor_var.to(device)


In [None]:
# device 설정하기.
x = torch.ones(2, 2, device='cuda')

# 여러개 중에 하나의 GPU에 할당하고 싶을 때
# 번호는 nvidia-smi 명령을 Shell에 입력해서 찾을 수 있음 
x = torch.ones(2, 2, device='cuda:0')

# device 객체를 입력하는게 기본
x = torch.ones(2, 2, device=torch.device('cuda'))

In [None]:
# .cuda()
a = torch.rand(10)
print(a)

a = a.cuda()
print(a)

In [None]:
# .to(device)
a = torch.rand(2)
print(a)

a = a.to("cuda")
print(a)

In [None]:
a = torch.rand(2)
print(a)

a = a.to(torch.device("cuda"))
print(a)

대부분 그냥 이렇게 사용합니다! 

In [52]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

a = torch.rand(2)
print(a)

a = a.to(device)
print(a)

cpu
tensor([0.0463, 0.7543])
tensor([0.0463, 0.7543])


# 2. Tensor Calculation

- torch.add()
- torch.sub()
- torch.mul()
- torch.div()
- torch.pow()
- torch.negative()
- 그 외 연산들

In [55]:
x = torch.arange(0, 5)
y = torch.arange(1, 6)

In [56]:
print(x + y)
print(torch.add(x, y))
print(x.add(y))

tensor([1, 3, 5, 7, 9])
tensor([1, 3, 5, 7, 9])
tensor([1, 3, 5, 7, 9])


In [57]:
print(x - y)
print(torch.sub(x, y))
print(x.sub(y))

tensor([-1, -1, -1, -1, -1])
tensor([-1, -1, -1, -1, -1])
tensor([-1, -1, -1, -1, -1])


In [58]:
print(x * y)
print(torch.mul(x, y))
print(x.mul(y))

tensor([ 0,  2,  6, 12, 20])
tensor([ 0,  2,  6, 12, 20])
tensor([ 0,  2,  6, 12, 20])


In [59]:
print(x / y)
print(torch.div(x, y))
print(x.div(y))

tensor([0.0000, 0.5000, 0.6667, 0.7500, 0.8000])
tensor([0.0000, 0.5000, 0.6667, 0.7500, 0.8000])
tensor([0.0000, 0.5000, 0.6667, 0.7500, 0.8000])


In [60]:
print(x**y)
print(torch.pow(x, y))
print(x.pow(y))

tensor([   0,    1,    8,   81, 1024])
tensor([   0,    1,    8,   81, 1024])
tensor([   0,    1,    8,   81, 1024])


In [61]:
print(-x)
print(torch.negative(x))
print(x.negative())

tensor([ 0, -1, -2, -3, -4])
tensor([ 0, -1, -2, -3, -4])
tensor([ 0, -1, -2, -3, -4])


* `torch.abs`: 절대값
* `torch.sign`: 부호
* `torch.round`: 반올림
* `torch.ceil`: 올림
* `torch.floor`: 내림
* `torch.square`: 제곱
* `torch.sqrt`: 제곱근
* `torch.maximum`: 두 텐서의 각 원소에서 최댓값만 반환.
* `torch.minimum`: 두 텐서의 각 원소에서 최솟값만 반환.
* `torch.cumsum`: 누적합
* `torch.cumprod`: 누적곱


In [63]:
print(torch.abs)
print(torch.sign)
print(torch.round)
print(torch.ceil)
print(torch.floor)
print(torch.square)
print(torch.sqrt)
print(torch.maximum)
print(torch.minimum)
print(torch.cumsum)
print(torch.cumprod)

tensor([0.0463, 0.7543])
<built-in method sign of type object at 0x00007FFED642C560>
<built-in method round of type object at 0x00007FFED642C560>
<built-in method ceil of type object at 0x00007FFED642C560>
<built-in method floor of type object at 0x00007FFED642C560>
<built-in method square of type object at 0x00007FFED642C560>
<built-in method sqrt of type object at 0x00007FFED642C560>
<built-in method maximum of type object at 0x00007FFED642C560>
<built-in method minimum of type object at 0x00007FFED642C560>
<built-in method cumsum of type object at 0x00007FFED642C560>
<built-in method cumprod of type object at 0x00007FFED642C560>


## 차원 축소 연산

PyTorch는 기본이 reduce 연산

In [65]:
x = torch.randint(10, size=(5, 2, 4))
print(x.shape)
print(x)

torch.Size([5, 2, 4])
tensor([[[2, 0, 2, 3],
         [5, 9, 8, 5]],

        [[6, 9, 5, 8],
         [2, 7, 9, 8]],

        [[5, 7, 6, 8],
         [6, 7, 4, 0]],

        [[6, 9, 0, 2],
         [5, 2, 0, 7]],

        [[6, 4, 8, 2],
         [1, 3, 1, 3]]])


```
if dim=0
  (2,4)를 유지하기 위해 각 그룹의 인덱스 기준 요소끼리 sum
if dim=1
  (5,4)를 만들기 위해 각 그룹의 행을 축소
if dim=2
  (5,2)를 만들기 위해 칼럼 축소
```

In [67]:
print(torch.sum(x))
print(torch.sum(x).shape)
print(torch.sum(x, dim=0))
print(torch.sum(x, dim=0).shape)
print(torch.sum(x, dim=1))
print(torch.sum(x, dim=1).shape)
print(torch.sum(x, dim=2))
print(torch.sum(x, dim=2).shape)

tensor(190)
torch.Size([])
tensor([[25, 29, 21, 23],
        [19, 28, 22, 23]])
torch.Size([2, 4])
tensor([[ 7,  9, 10,  8],
        [ 8, 16, 14, 16],
        [11, 14, 10,  8],
        [11, 11,  0,  9],
        [ 7,  7,  9,  5]])
torch.Size([5, 4])
tensor([[ 7, 27],
        [28, 26],
        [26, 17],
        [17, 14],
        [20,  8]])
torch.Size([5, 2])


### 행렬 연산

In [198]:
a = torch.tensor([[2, 0], [0, 1]], dtype=torch.float32)
b = torch.tensor([[1, 1], [1, 1]], dtype=torch.float32)
a, b

(tensor([[2., 0.],
         [0., 1.]]),
 tensor([[1., 1.],
         [1., 1.]]))

In [199]:
torch.matmul(a, b) # torch.mm(a, b)

tensor([[2., 2.],
        [1., 1.]])

In [200]:
torch.linalg.inv(a)

tensor([[0.5000, 0.0000],
        [0.0000, 1.0000]])

### 크기와 차원을 바꾸는 명령 
 - `torch.reshape`
 - `.view`
 - `torch.transpose`

 #### 차원 다루기
 - `torch.squeeze()`
 - `torch.unsqueeze()` = `tensor.expand_dims()`

In [201]:
# view 함수는 이렇게 못씀
# torch.view(a, (4, -1)) 

In [202]:
print(a.view(4, -1), a.reshape((4, -1)), sep="\n")
print(a.view(4, -1).shape, a.reshape((4, -1)).shape)

tensor([[2.],
        [0.],
        [0.],
        [1.]])
tensor([[2.],
        [0.],
        [0.],
        [1.]])
torch.Size([4, 1]) torch.Size([4, 1])


In [203]:
torch.reshape(a, (4, -1))

tensor([[2.],
        [0.],
        [0.],
        [1.]])

In [204]:
# view함수가 있어 expand_dims 같은 함수가 따로 필요없다. 
a.view((1, 4, 1)), a.view((1, 4, 1)).shape

(tensor([[[2.],
          [0.],
          [0.],
          [1.]]]),
 torch.Size([1, 4, 1]))

In [205]:
print(torch.squeeze(a.view((1, 4, 1)), dim=2))
print(torch.squeeze(a.view((1, 4, 1)), dim=2).shape)

tensor([[2., 0., 0., 1.]])
torch.Size([1, 4])


expand_dims 함수 대신에 unsqueeze 함수가 있다. 

In [206]:
print(torch.unsqueeze(a.view((1, 4)), dim=2))
print(torch.unsqueeze(a.view((1, 4)), dim=2).shape)

tensor([[[2.],
         [0.],
         [0.],
         [1.]]])
torch.Size([1, 4, 1])


##### 여러 함수가 torch.명령어 형태, tensor.명령어 로  사용 할 수 있다. 

In [207]:
a = torch.arange(10).view(5, 2)
a

tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])

In [208]:
a.transpose(1, 0)

tensor([[0, 2, 4, 6, 8],
        [1, 3, 5, 7, 9]])

In [209]:
torch.transpose(a, 1, 0)

tensor([[0, 2, 4, 6, 8],
        [1, 3, 5, 7, 9]])

#### 함수 끝에 `_`를 붙이면 inplace명령이 된다.(안되는 함수가 존재함)

In [210]:
a

tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])

In [211]:
print(a)
print(a.transpose_(0, 1))
print(a)

tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])
tensor([[0, 2, 4, 6, 8],
        [1, 3, 5, 7, 9]])
tensor([[0, 2, 4, 6, 8],
        [1, 3, 5, 7, 9]])


### transpose 하고 view  했을 때 이런 에러가 발생하기도 한다. 

RuntimeError: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.


이는 PyTorch가 데이터를 메모리에 저장하는 방식과 view, reshape, transpose 연산들이 연산을 수행하는 방식의 차이에 기인한다. 
메모리상의 데이터의 물리적 위치와 index가 일치 할 때 contiguous 하다고 표현하는데, view는 contiguous해야만 연산을 수행할 수 있다. 

이를 해결하기위해 tensor.contiguous() 함수를 호출하여 데이터를 정리해주면 된다. 근데! 이런 이슈는 가끔 나오는 거니 어려우면 지금은 그냥 넘어가도 좋다!!!!

In [194]:
# a = a.contiguous()

In [None]:
# print(a.view(-1, 1), a.view(-1, 1).shape)
# print(a)

#### 데이터 구성 동일하게 만들기

In [214]:
print(a.transpose_(0, 1))

tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])


In [216]:
b = torch.arange(10).view(2, 5)
b

tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

In [217]:
print(a.view_as(b))
print(a.reshape_as(b))

tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])
tensor([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])


In [218]:
a = a.contiguous()
a

tensor([[0, 1],
        [2, 3],
        [4, 5],
        [6, 7],
        [8, 9]])

### indexing, slicing

In [219]:
a[0]

tensor([0, 1])

In [220]:
a[0, 1]

tensor(1)

In [221]:
a[4, 1]

tensor(9)

In [222]:
a[:2]

tensor([[0, 1],
        [2, 3]])

### **텐서를 나누거나 두 개 이상의 텐서를 합치는 명령**

#### 나누는 연산
- `torch.chunk(data, num, dim=N)` : N차원을 num으로 나눈다
- `torch.split(data, num, dim=N)` : N차원을 num개로 분할한다

In [223]:
c = torch.rand(3, 6)
c.shape, c

(torch.Size([3, 6]),
 tensor([[0.1480, 0.8334, 0.0741, 0.7204, 0.9621, 0.9116],
         [0.3474, 0.8684, 0.0410, 0.9469, 0.8626, 0.5865],
         [0.4435, 0.9634, 0.4417, 0.4879, 0.0600, 0.8219]]))

In [224]:
c1, c2, c3 = torch.chunk(c, 3, dim=1)
print(c1)
print(c2)
print(c3)

tensor([[0.1480, 0.8334],
        [0.3474, 0.8684],
        [0.4435, 0.9634]])
tensor([[0.0741, 0.7204],
        [0.0410, 0.9469],
        [0.4417, 0.4879]])
tensor([[0.9621, 0.9116],
        [0.8626, 0.5865],
        [0.0600, 0.8219]])


In [225]:
c1, c2, c3 = torch.chunk(c, 3, dim=0)
print(c1)
print(c2)
print(c3)

tensor([[0.1480, 0.8334, 0.0741, 0.7204, 0.9621, 0.9116]])
tensor([[0.3474, 0.8684, 0.0410, 0.9469, 0.8626, 0.5865]])
tensor([[0.4435, 0.9634, 0.4417, 0.4879, 0.0600, 0.8219]])


In [226]:
torch.split(c, 1, dim=0)

(tensor([[0.1480, 0.8334, 0.0741, 0.7204, 0.9621, 0.9116]]),
 tensor([[0.3474, 0.8684, 0.0410, 0.9469, 0.8626, 0.5865]]),
 tensor([[0.4435, 0.9634, 0.4417, 0.4879, 0.0600, 0.8219]]))

In [227]:
torch.split(c, 2, dim=1)

(tensor([[0.1480, 0.8334],
         [0.3474, 0.8684],
         [0.4435, 0.9634]]),
 tensor([[0.0741, 0.7204],
         [0.0410, 0.9469],
         [0.4417, 0.4879]]),
 tensor([[0.9621, 0.9116],
         [0.8626, 0.5865],
         [0.0600, 0.8219]]))

In [228]:
torch.split(c, 3, dim=1)

(tensor([[0.1480, 0.8334, 0.0741],
         [0.3474, 0.8684, 0.0410],
         [0.4435, 0.9634, 0.4417]]),
 tensor([[0.7204, 0.9621, 0.9116],
         [0.9469, 0.8626, 0.5865],
         [0.4879, 0.0600, 0.8219]]))

#### 결합하는 연산

In [229]:
a = torch.ones(2, 3)
b = torch.zeros(3, 3)
a, b

(tensor([[1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]))

In [230]:
torch.cat([a, b], dim=0)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [237]:
torch.cat([a, b], dim=1)

RuntimeError: Sizes of tensors must match except in dimension 1. Expected size 2 but got size 3 for tensor number 1 in the list.

In [238]:
a = torch.ones_like(b)
a, a.size()

(tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]),
 torch.Size([3, 3]))

In [239]:
b, b.size()

(tensor([[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]),
 torch.Size([3, 3]))

In [240]:
torch.stack([a, b], dim=1), torch.stack([a, b], dim=1).size()

(tensor([[[1., 1., 1.],
          [0., 0., 0.]],
 
         [[1., 1., 1.],
          [0., 0., 0.]],
 
         [[1., 1., 1.],
          [0., 0., 0.]]]),
 torch.Size([3, 2, 3]))

In [241]:
torch.stack([a, b], dim=0), torch.stack([a, b], dim=0).size()

(tensor([[[1., 1., 1.],
          [1., 1., 1.],
          [1., 1., 1.]],
 
         [[0., 0., 0.],
          [0., 0., 0.],
          [0., 0., 0.]]]),
 torch.Size([2, 3, 3]))

In [242]:
torch.stack([a, b], dim=2), torch.stack([a, b], dim=2).size()

(tensor([[[1., 0.],
          [1., 0.],
          [1., 0.]],
 
         [[1., 0.],
          [1., 0.],
          [1., 0.]],
 
         [[1., 0.],
          [1., 0.],
          [1., 0.]]]),
 torch.Size([3, 3, 2]))

In [243]:
torch.tile(a, (3, 1))

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [244]:
torch.tile(a, (1, 2))

tensor([[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]])

In [245]:
torch.vstack

<function torch._VariableFunctionsClass.vstack>

In [246]:
torch.hstack

<function torch._VariableFunctionsClass.hstack>

# 3. 자동 미분

In [None]:
import torch

`autograd`는 PyTorch에서 핵심적인 기능을 담당하는 하부 패키지이다. 

autograd는 텐서의 연산에 대해 자동으로 미분값을 구해주는 기능을 한다.

- 텐서 자료를 생성할 때, `requires_grad`인수를 `True`로 설정하거나 
- `.requires_grad_(True)`를 실행하면

그 텐서에 행해지는 모든 연산에 대한 미분값을 계산한다. 

계산을 멈추고 싶으면 `.detach()`함수나 with을 이용해 `torch.no_grad()`를  이용하면 된다.

In [267]:
x = torch.rand(2, 2, requires_grad=True)

다음으로 이 x에 연산을 수행한다. 다음 코드의 y는 연산의 결과이므로 미분 함수를 가진다. `grad_fn`속성을 출력해 미분 함수를 확인 할 수 있다. 

In [268]:
y = torch.sum(x * 3)

In [269]:
print(y, y.grad_fn)

tensor(5.7438, grad_fn=<SumBackward0>) <SumBackward0 object at 0x000001DC6251C880>


`y.backward()` 함수를 실행하면 x의 미분값이 자동으로 갱신된다. x의 `grad`속성을 확인하면 미분값이 들어 있는 것을 확인 할 수 있다. y를 구하기 위한 x의 연산을 수식으로 쓰면 다음과 같다. 

$$
y = \displaystyle\sum_{i=1}^4 3 \times x_i
$$

이를 $x_i$에 대해 미분 하면 미분 함수는 다음과 같다. 

$$
\dfrac{\partial y}{\partial x_i} = 3
$$

실제 미분값과 같은지 확인해보자.

In [271]:
y.backward()

In [272]:
x.grad

tensor([[3., 3.],
        [3., 3.]])

`backward()`함수는 자동으로 미분값을 계산해 `requires_grad`인수가 True로 설정된 변수의 `grad`속성의 값을 갱신한다. 

`retain_graph` 미분을 연산하기 위해서 사용했던 임시 그래프를 유지 할 것인가를 설정하는 것이다. 
기본값은 False로 설정되어 있지만 동일한 연산에 대해 여러번 미분을 계산하기 위해서는 True로 설정되어 있어야한다.(`tf.GradientTape`에서 `persistent`와 같음)

In [298]:
x = torch.rand(2, 2, requires_grad=True)

In [299]:
y = torch.sum(x * 3)

In [300]:
y.backward(retain_graph=True)

In [301]:
x.grad

tensor([[3., 3.],
        [3., 3.]])


`torch.autograd.grad()`함수를 사용해 `tf.GradientTape`처럼 사용할 수도 있다. 

In [302]:
torch.autograd.grad(y, x)

(tensor([[3., 3.],
         [3., 3.]]),)

상황에 따라 특정 연산에는 미분값을 계산하고 싶지 않은 경우에는 

 - `.detach()`함수
 - `with torch.no_grad()`

In [303]:
print(x.grad)
x_d = x.detach()
torch.sigmoid(x_d)

tensor([[3., 3.],
        [3., 3.]])


tensor([[0.5193, 0.6567],
        [0.6080, 0.5344]])

In [305]:
print(x_d.grad)

None


In [308]:
print(x.grad)

with torch.no_grad():
    x_d2 = torch.sigmoid(x)
    print(x_d2.grad)

tensor([[3., 3.],
        [3., 3.]])
None


# 4. PyTorch 선형 회귀 구현

In [309]:
import pandas as pd
import numpy as np 
import torch 

import matplotlib.pyplot as plt 
%matplotlib inline

In [310]:
torch.manual_seed(7777)

<torch._C.Generator at 0x1dc5ba50230>

In [320]:
import pandas as pd
from keras.datasets import boston_housing

# Load the data
(train_data, train_targets), (test_data, test_targets) = boston_housing.load_data()

# Combine the training and test data
data = np.concatenate((train_data, test_data), axis=0)
targets = np.concatenate((train_targets, test_targets), axis=0)

# Create a Pandas DataFrame
column_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
df = pd.DataFrame(data, columns=column_names)
df['const'] = np.ones(df.shape[0])

# Print the first few rows of the DataFrame
df.tail()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,const
501,3.47428,0.0,18.1,1.0,0.718,8.78,82.9,1.9047,24.0,666.0,20.2,354.55,5.29,1.0
502,0.07896,0.0,12.83,0.0,0.437,6.273,6.0,4.2515,5.0,398.0,18.7,394.92,6.78,1.0
503,1.83377,0.0,19.58,1.0,0.605,7.802,98.2,2.0407,5.0,403.0,14.7,389.61,1.92,1.0
504,0.35809,0.0,6.2,1.0,0.507,6.951,88.5,2.8617,8.0,307.0,17.4,391.7,9.71,1.0
505,2.924,0.0,19.58,0.0,0.605,6.101,93.0,2.2834,5.0,403.0,14.7,240.16,9.81,1.0


In [321]:
df.shape

(506, 14)

In [322]:
x = torch.tensor(df.values)
y = torch.tensor(targets).view(-1, 1)

In [323]:
x.shape, y.shape

(torch.Size([506, 14]), torch.Size([506, 1]))

## 이론으로 풀이
- 최적의 가중치 $w = (X^T X)^(-1)  X^T y$를 구한다

In [324]:
XT = torch.transpose(x, 0, 1)
XT.shape

torch.Size([14, 506])

In [326]:
w = torch.mm(torch.mm(torch.linalg.inv(torch.mm(XT, x)), XT), y)
w

tensor([[-1.0801e-01],
        [ 4.6420e-02],
        [ 2.0559e-02],
        [ 2.6867e+00],
        [-1.7767e+01],
        [ 3.8099e+00],
        [ 6.9222e-04],
        [-1.4756e+00],
        [ 3.0605e-01],
        [-1.2335e-02],
        [-9.5275e-01],
        [ 9.3117e-03],
        [-5.2476e-01],
        [ 3.6459e+01]], dtype=torch.float64)

In [327]:
y_pred = torch.mm(x, w)

## Gradient descent 방식

In [344]:
w = torch.rand((14, 1), dtype=torch.float64, requires_grad=True)
b = torch.rand((1, 1), dtype=torch.float64, requires_grad=True)

In [345]:
z = torch.mm(x, w) + b

In [346]:
loss = torch.mean((z - y)**2)

In [347]:
loss.backward()

In [348]:
w.grad, b.grad

(tensor([[4.9010e+03],
         [9.9108e+03],
         [1.2561e+04],
         [6.8508e+01],
         [5.8227e+02],
         [6.3159e+03],
         [7.3607e+04],
         [3.5648e+03],
         [1.1625e+04],
         [4.5606e+05],
         [1.8969e+04],
         [3.5656e+05],
         [1.3858e+04],
         [1.0141e+03]], dtype=torch.float64),
 tensor([[1014.0671]], dtype=torch.float64))

loss.numpy()는 오류발생
```
RuntimeError: Can't call numpy() on Tensor that requires grad. Use tensor.detach().numpy() instead.
로그를 남기기 위해서는 detach().numpy()를 사용해달라고 안내하고 있다
```

동일기능
```
torch.no_grad()안에서는 미분이 수행이 안되므로 torch.numpy()가능
with torch.no_grad():
    print(loss.numpy())
```

더 간단한 방법
```
loss.item()
```

In [337]:
print(loss.detach().numpy())
print(loss.item())

303557.167825324
303557.167825324


#### assign 대신에 data에 접근해서 값을 수정 

tensor.data = 다른데이터

In [None]:
w = torch.rand((14, 1), dtype=torch.float64, requires_grad=True)
b = torch.rand((1, 1), dtype=torch.float64, requires_grad=True)

In [338]:
lr = 3e-7

In [360]:
for epoch in range(100):
    z = torch.mm(x, w) + b
    loss = torch.mean((y-z)**2)
    
    loss.backward()
    w.data -= w.grad * lr
    b.data -= b.grad * lr
    
    # grads = torch.autograd.grad(loss, [w, b])
    # w.data -=grads[0] * lr
    # b.data -=grads[1] * lr
    
    print("{} - loss : {}".format(epoch, loss.item()), end="\n")
    # 초기화
    w.grad.zero_()
    b.grad.zero_()

0 - loss : 239.3950063292629
1 - loss : 239.3273477402613
2 - loss : 239.25971924707068
3 - loss : 239.19212083355347
4 - loss : 239.12455248358262
5 - loss : 239.05701418104198
6 - loss : 238.98950590982602
7 - loss : 238.92202765384013
8 - loss : 238.8545793970003
9 - loss : 238.7871611232332
10 - loss : 238.71977281647628
11 - loss : 238.65241446067773
12 - loss : 238.58508603979618
13 - loss : 238.51778753780118
14 - loss : 238.45051893867307
15 - loss : 238.38328022640252
16 - loss : 238.31607138499095
17 - loss : 238.24889239845064
18 - loss : 238.18174325080415
19 - loss : 238.11462392608502
20 - loss : 238.0475344083372
21 - loss : 237.98047468161545
22 - loss : 237.91344472998475
23 - loss : 237.84644453752108
24 - loss : 237.77947408831074
25 - loss : 237.7125333664508
26 - loss : 237.64562235604876
27 - loss : 237.57874104122274
28 - loss : 237.51188940610137
29 - loss : 237.44506743482387
30 - loss : 237.37827511154
31 - loss : 237.31151242041005
32 - loss : 237.24477934560

#### optimizer 사용하기

In [361]:
opt = torch.optim.SGD([w, b], lr=lr)

In [362]:
for epoch in range(100):
    z = x.matmul(w) + b
    loss = torch.mean((z - y)**2)
    
    loss.backward()
    opt.step()    
    print("{} - loss : {}".format(epoch, loss.item()), end="\n")
    # 초기화
    opt.zero_grad()

0 - loss : 232.77555376805168
1 - loss : 232.71082658467827
2 - loss : 232.64612793522662
3 - loss : 232.5814578045931
4 - loss : 232.51681617768423
5 - loss : 232.4522030394161
6 - loss : 232.3876183747151
7 - loss : 232.32306216851723
8 - loss : 232.25853440576873
9 - loss : 232.19403507142525
10 - loss : 232.12956415045278
11 - loss : 232.06512162782704
12 - loss : 232.0007074885334
13 - loss : 231.9363217175674
14 - loss : 231.87196429993418
15 - loss : 231.80763522064908
16 - loss : 231.74333446473676
17 - loss : 231.67906201723216
18 - loss : 231.6148178631798
19 - loss : 231.55060198763408
20 - loss : 231.48641437565917
21 - loss : 231.4222550123291
22 - loss : 231.35812388272774
23 - loss : 231.2940209719485
24 - loss : 231.2299462650948
25 - loss : 231.16589974727972
26 - loss : 231.10188140362624
27 - loss : 231.03789121926687
28 - loss : 230.97392917934394
29 - loss : 230.9099952690096
30 - loss : 230.8460894734257
31 - loss : 230.78221177776362
32 - loss : 230.7183621672049