파이토치는 2017년 초에 공개된 딥러닝 프레임워크로 개발자들과 연구자들이 쉽게 GPU를 활용하여 인공 신경망 모델을 만들고 학습시킬 수 있게 도와준다. 파이토치의 전신이라고 할 수 있는 토치(torch)는 루아 프로그래밍 언어로 되어 있었지만, 파이토치는 파이썬으로 작성되어 파이썬의 언어 특징을 많이 가지고 있다. 

파이토치는 페이스북의 인공지능 연구팀 멤버들이 주로 관리하며, 독자적으로 운영되는 파이토치 포럼은 사람들이 질문을 올리면 프레임워크 개발자를 비롯한 많은 사람이 답을 해주는 등 활발히 교류가 일어나고 있다.


<img src = 'https://i.morioh.com/210325/12530f27.webp'>

### PYTORCH가 무엇인가요?

Python 기반의 과학 연산 패키지로 다음과 같은 두 집단을 대상으로 합니다:

- NumPy를 대체하면서 GPU를 이용한 연산이 필요한 경우

- 최대한의 유연성과 속도를 제공하는 딥러닝 연구 플랫폼이 필요한 경우

PyTorch의 장점> (출처 : "위키백과 : PyTorch", 2019년 06월 19일)

​

● 설치의 간편하다

● 이해와 디버깅이 쉬운 직관적이고 간결한 코드로 구성되었다

● Define by Run 방식을 기반으로 한 실시간 결과값을 시각화한다

● 파이썬 라이브러리(Numpy, Scipy, Cython)와 높은 호환성을 가진다

● Winograd Convolution Alogithm 기본 적용을 통한 빠른 모델 훈련이 가능하다.

● 모델 그래프를 만들 때 고정상태가 아니기 때문에 언제든지 데이터에 따라 조절이 가능하다(유연성)

● Numpy스러운 Tensor연산이 GPU로도 가능하다

● 자동 미분 시스템을 이용해 쉽게 DDN(DataDirect Networks을 짤 수 있다.

● 학습 및 추론 속도가 빠르고 다루기 쉽다.

​

그러나 파이토치는 그래프 형태가 동적이기 때문에 계산 그래프를 매번 새롭게 정의하여 이용한다. 그래서  딥러닝 프레임워크 중 난이도가 높은편이다. 또한 사용자가 아직 적고 관련문서 또한 텐서플로우 등에 비해서 많은 편이 아니기 때문에 검색으로 공부하기 힘든 환경에 높여있다.

## 텐서 : 데이터를 표현하는 단위

In [None]:
import torch
print(torch.__version__)
#torch version :1.9 + cuda 10.2

In [None]:
#스칼라 : 상수
scalar1 = torch.tensor([1.])
# print(scaler1)
scalar2 = torch.tensor([3.])

In [None]:
add_scaler = scaler1+scalar2
print(add_scaler)

In [None]:
sub_scalar = scalar1 - scalar2
print(sub_scalar)
#곱셈, 나눗셈도 됨

## Vector : 하나의 값을 표현할 때 2개 이상의 수치를 표현한 것.
(한 점 이 있고 방향성이 vector(수학적인 정의)

In [None]:
vector1 = torch.tensor([1. , 2. ,3.])
vector2 = torch.tensor([4. , 5. ,6.])

#사칙연산이 됨. torch.mul / vector1 *vector2
# + :add / - : sub / * : multiple  

In [None]:
print(vector1*vector2)
print(torch.mul(vector1,vector2))
print(torch.dot(vector1,vector2)) #inner preodct.

matrix multiple / inner preduct은 다름

numpy 특성 때문에 numpy.mul / numpy.dot 의 차이?

numpy.dot -> 1차원 배열만 허락 ->numpy.mul->2차원 이상일때 작동->matrix mulitple->matrix.mult이 dot을 포함.

numpy.dot->2차원이상을 하려고 하면 자동으로 numpy.mult로 바뀐다고 하였음. 

In [None]:
# 행렬
matrix1 = torch.tensor([[1. ,2.],
                      [3., 4.]])

matrix2 = torch.tensor([[5. ,6.],
                      [7., 8.]])

In [None]:
print(torch.add(matrix1,matrix2))
print(torch.sub(matrix1,matrix2))
print(torch.mul(matrix1,matrix2))
print(torch.div(matrix1,matrix2))
print(torch.matmul(matrix1,matrix2))

## autograd()

In [None]:
import torch

if torch.cuda.is_available():
  DEVICE = torch.device('cuda')
else:
  DEVICE = torch.device('cpu')
print(DEVICE)

In [None]:
batch_size = 64
input_size = 1000
hidden_size = 100
output_size = 10

In [None]:
x = torch.randn(batch_size,
                input_size,
                device = DEVICE,
                dtype = torch.float,
                requires_grad = False #gradinet를 하면서 gradient를 update하지 말아라.
                )
y = torch.randn(batch_size,
                output_size,
                device = DEVICE,
                dtype = torch.float,
                requires_grad = False #gradinet를 하면서 gradient를 update하지 말아라.
                )
w1 = torch.randn(input_size,
                hidden_size,
                device = DEVICE,
                dtype = torch.float,
                requires_grad = True 
                )
w2 = torch.randn(hidden_size,
                output_size,
                device = DEVICE,
                dtype = torch.float,
                requires_grad = True 
                )

<img src = 'https://www.programmersought.com/images/352/8a7a0bc5350356e74947b6590af15b18.png'>

In [None]:
learning_rate = 1e-6
for t in range(1,501):

  y_pred = x.mm(w1).clamp(min =0).mm(w2) #mm : matrix multiple / clamp : relu와 비슷한 함수.

  loss = (y_pred - y).pow(2).sum()
  if t % 100 == 0: #100번마다 출력->print문
    print('iteration :',t,'\t','Loss:',loss.item())
  loss.backward() #back propagation.->autograd
 
  with torch.no_grad(): #gradient 더이상 update가 일어나지 않으면. 밑에다가 저장.
    w1 -= learning_rate *w1.grad
    w2 -= learning_rate *w2.grad

    w1.grad.zero_() #w1의 gradient초기화 해주세요.
    w2.grad.zero_() #w2의 gradient초기화 해주세요.

    #초기화->loss.backward()->backprogation을 수행