<a href="https://colab.research.google.com/github/movie112/INU-DILAB/blob/main/NLP_pytorch/NLP_ch1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 파이토치로 배우는 자연어 처리: ch1
## 1. 소개   
1.1 지도학습   
1.2 샘플과 타깃의 인코딩   
  - 원-핫 인코딩, TF 표현, TF-IDF 표현, 타깃 인코딩   

1.3 계산 그래프   
1.4 파이토치 기초
  - 파이토치 설치, 텐서 만들기, 텐서 타입과 크기, 텐서, 텐서와 계산 그래프, CUDA 텐서
---
## 학습목표
- 지도 학습 이해, 용어 인지, 기초 개념 정립
- 머신러닝 문제에 맞도록 입력을 인코딩하는 방법
- 계산 그래프 이해
- 파이토치 기본 숙달
---
## 1.1 지도학습
- observation에 대응하는 target의 정답을 제공하는 방식   
주요 개념   
- 샘플: 에측에 사용하는 아이템, 입력, x
- target: 샘플에 상응하는 레이블, 예측되는 대상, 정답, y
- 모델: 수학식이나 샘플x를 받아 target label값을 예측하는 함수
- parameter: 가중치, 모델을 규정
- 예측: 모델이 추축하는 target값, 추정, hat 표기
- 손실함수: 훈련 데이터에 대한 예측이 target과 얼마나 차이 나는지 비교하는 함수, L

#### gradient descent
- gradient descent: data set에서 손실함수를 최소화하는 parameter 값 찾기, 전통적인 gradient descent는 적용이 어렵고 비용 큼
- stochastic gradient descent(SGD)
  - 확률적 경사 하강법, data point를 하나 또는 일부 랜덤하게 선택하여 gradient 계산,
  - minibatch SGD: pure SGD 여러 개 사용하는 방법
  - pure SGD: updata레 잡음이 많아 수렴이 매우 느림
  - backpropagation: 역전파, parameter를 반복적으로 update하는 과정
    - 각 단계(epoch)는 정방향계산(foward pass), 역방향 계산(backward padd) 구성
    - foward: 현재 parameter 값으로 입력을 평가해 손실함수 계산
    - backward: 손실의 gradient를 사용해 parameter update
---
## 1.2 샘플과 타깃의 인코딩
### 1.2.1. one-hot representation
0 벡터에서 시작해 문장이나 문서에 등장하는 단어에 상응하는 원소를 1로 설정   
example) Time files like an arrow. / Fruit flies like a banana.
- 문장을 token으로 나누고 구두점을 무시하고 모두 소문자로 바꾸면 vocabulary의 크기는 8이 된다.
- { time, fruit, flies, like, a , an, arrow, banana}
- "like a banana"의 one-hot 표현은 3X8 행렬 

### 1.2.2 TF 표현
단순히 소속 단어의 one-hot representation을 합해 만듦   
example) Fruit flies like time flies a fruit -> [1, 2, 2, 1, 1, 0, 0, 0] 각 원소는 해당 단어가 문장에 등장하는 횟수

### 1.2.3 TF-IDF 표현
- TF는 등장 획수에 비례하여 단어에 가중치 부여, 흔한 단어에는 문서 특징이 담겨 있지 않음
- inverse-document-frequency(IDF): 흔한 토큰의 점수를 낮추고 드문 토큰의 점수를 높임
- 딥러닝의 목적은 표현 합습이므로 보통 TF-IDF 같이 경험적인 방법으로 입력을 인코딩하지 않는다. 

### 1.2.4 타깃 인코딩
많은 NLP 작업은 범주형 레이블을 사용
- 모델은 고정된 한 세트의 레이블 중 하나를 예측해야 함 이를 인코딩할 때는 레이블마다 고유한 인덱스를 부여하는 방법을 가정 많이 사용, 하지만 이런 간단한 표현은 출력 레이블 수가 너무 커지면 문제가 된다.ex) 언어 모델링: 이전 단어로 다음 단어 예측
---
## 1.3 계산 그래프
---
## 1.4 파이토치 기초
차원을 지정해서 텐서 랜덤 초기화






In [2]:
import torch
t = torch.Tensor(2, 3)

[0, 1) 범위의 균등 분포에서 샘플링한 값으로 랜덤하게 초기화

In [None]:
t = torch.rand(2, 3)  # 균등 분포
t = torch.randn(2, 3) # 표준 균등 분포

0 또는 1 또는 특정 값으로 채운 텐서

In [None]:
t = torch.zeros(2, 3)
t = torch.ones(2, 3)
t.fill_(5)

리스트로 텐서 만들기

In [None]:
t = torch.Tensor([1, 2, 3], 
                 [4, 5, 6])

numpy로 텐서 만들고 초기화
- numpy 배열은 tensor type이 FloatTensor가 아니라 DoubleTensor가 됨

In [None]:
import numpy as np
npy = np.random.rand(2, 3)
t = torch.from_numpy(npy)

인덱싱, 슬라이싱, 연결

In [7]:
x = torch.arange(6).view(2, 3)
print(x)

tensor([[0, 1, 2],
        [3, 4, 5]])


In [8]:
print(x[:1, :2])

tensor([[0, 1]])
