## 파이토치로 배우는 자연어 처리

### 1장. 소개

In [None]:
# conda install pytorch torchvision torchaudio cpuonly -c pytorch
!pip install torch torchvision torchaudio

#### 차원을 지정하여 텐서를 랜덤하게 초기화하는 방법

In [None]:
def describe(x):
    print("타입: {}".format(x.type()))
    print("크기: {}".format(x.shape))
    print("값: \n{}".format(x))

In [None]:
# 파이토치에서 torch.Tensor로 텐서 만들기

import torch
describe(torch.Tensor(2,3))

In [None]:
# 랜덤하게 초기화한 텐서 만들기

import torch
describe(torch.rand(2,3)) # 균등 분포
describe(torch.randn(2,3)) # 표준 정규 분포

밑줄 문자 _가 있는 파이토치 인-플레이스 메서드 : 텐서값을 바꾸는 연산

In [None]:
# fill_() 메서드 사용하기

import torch
describe(torch.zeros(2,3))
x = torch.ones(2,3)
describe(x)
x.fill_(5)
describe(x)

파이썬 리스트를 사용해 텐서를 만드는 방법

In [None]:
# 파이썬 리스트로 텐서를 만들고 초기화하기

x = torch.Tensor([[1, 2, 3],
                  [4, 5, 6]])
describe(x)

넘파이 배열을 사용하면 텐서 타입이 기본 DoubleTensor가 됩니다.
**넘파이 배열과 파이토치 텐서 사이를 변환하는 기능은 넘파이 포맷의 수치 데이터를 사용하는 레거시(legacy) 라이브러리를 사용할 때 중요합니다.**

In [None]:
# 넘파이로 텐서를 만들고 초기화하기

import torch
import numpy as np
npy = np.random.rand(2, 3)
describe(torch.from_numpy(npy))

#### 1.4.3 텐서 타입과 크기
- torch.Tensor 생성자를 사용할 때 기본 텐서 타입은 torch.FloatTensor 입니다.
- 초기화할 때 타입을 지정하는 방법은 두가지입니다.
- FloatTensor와 LongTensor 같은 특정 텐서 타입의 생성자를 직접 호출하거나 torch.tensor()메서드와 dtype 매개변수를 사용하는 방법입니다.

In [None]:
# 텐서 속성

x = torch.FloatTensor([[1, 2, 3],
                       [4, 5, 6]])
describe(x)

In [None]:
x = x.long()
describe(x)

In [None]:
x = torch.tensor([[1, 2, 3],
                  [4, 5, 6]], dtype=torch.int64)
describe(x)

In [None]:
x = x.float()
describe(x)

**파이토치 코드를 디버깅할 때는 텐서 크기를 꼭 조사해야합니다.**

#### 1.4.4 텐서 연산
- 텐서를 만든 후 +,-,*,/를 사용해 연산을 수행할 수 있습니다.
- 연산자 대신에 이에 대응하는 .add() 같은 함수를 사용해도 됩니다.

In [None]:
# 텐서 연산: 덧셈

import torch
x = torch.randn(2, 3)
describe(x)

In [None]:
describe(torch.add(x, x))

In [None]:
describe(x + x)

텐서의 특정 차원에 적용할 수 있는 연산도 있습니다.
- 2D 텐서는 행을 차원 0, 열을 차원 1로 표현합니다.

In [None]:
# 차원별 텐서 연산

import torch
x = torch.arange(6)
describe(x)

In [None]:
x = x.view(2, 3)
describe(x)

In [None]:
describe(torch.sum(x, dim=0))

In [None]:
describe(torch.sum(x, dim=1))

In [None]:
describe(torch.transpose(x, 0, 1))

인덱싱, 슬라이싱, 연결, 변경을 포함한 복잡한 연산이 필요합니다.
- 넘파이 등 수치라이브러리와 마찬가지로 파이토치도 이런 텐서 조작을 매우 쉽게 하는 내장 함수를 제공합니다.

#### 1.4.5 인덱싱과 슬라이싱

In [None]:
# 텐서 슬라이싱과 인덱싱

import torch
x = torch.arange(6).view(2, 3)
describe(x)

In [None]:
describe(x[:1, :2])

In [None]:
describe(x[0, 1])

복잡한 인덱싱과 슬라이싱에 유용한 파이토치 함수가 있습니다.
- 이런 함수는 텐서에서 연속적이지 않은 위치를 참조할 때 유용합니다.

In [None]:
# 코드1-12. 복잡한 인뎅싱. 연속적이지 않은 텐서 인덱스 참조하기 (이해못함)

indices = torch.LongTensor([0, 2])
describe(torch.index_select(x, dim=1, index=indices))

In [None]:
indices = torch.LongTensor([0, 0])
describe(torch.index_select(x, dim=0, index=indices))

In [None]:
row_indices = torch.arange(2).long()
col_indices = torch.LongTensor([0, 1])
describe(x[row_indices, col_indices])

In [None]:
# 코드 1-13 텐서 연결

import torch
x = torch.arange(6).view(2,3)
describe(x)

In [None]:
describe(torch.cat([x,x], dim=0))

In [None]:
describe(torch.cat([x,x], dim=1))

In [None]:
describe(torch.stack([x,x]))

파이토치는 텐서에서 매우 효율적인 선형 대수 연산을 제공함
[코드1-14] 행렬곱셈(mm), 역행렬(inverse, pinverse), 대각합(trace) 등이 있음

In [None]:
# 코드1-14. 텐서의 선형 대수 계산: 행렬 곱셈

import torch
x1 = torch.arange(6).view(2,3).float()
describe(x1)

In [None]:
x2 = torch.ones(3,2)
x2[:, 1] += 1
describe(x2)

In [None]:
describe(torch.mm(x1, x2))

tensor 크랠스는 데이터와 대수 연산, 인덱싱, 크기 변경 같은 다양한 연산을 캡슐화함

requires_grad = True
- 그레디언트 기반 학습에 필요한 손실함수와 그레디언트를 기록하는 부가 연산을 활성화함

In [None]:
# 코드 1-15. 그레디언트 연산을 할 수 있는 텐서 만들기

import torch
x = torch.ones(2, 2, requires_grad=True)
describe(x)
print(x.grad is None)

In [None]:
y = (x+2) * (x+5) + 3
describe(y)
print(x.grad is None)

In [None]:
z = y.mean()
describe(z)
z.backward()
print(x.grad is None)

In [None]:
import torch
print(torch.cuda.is_available())

In [None]:
# 바람직한 방법 : 장치에 무관한 텐서 초기화
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

In [None]:
x =torch.rand(3, 3).to(device)
describe(x)

In [None]:
# 코드 2-1 텍스트 토큰화

import spacy
nlp = spacy.load('en_core_web_sm')
text = "Mary, don't slap the green witch."
print([str(token) for token in nlp(text.lower())])

In [None]:
from nltk.tokenize import TweetTokenizer
tweet=u"Snow White and the Seven Degrees#MakeAMovieCold@midnight:-)"
tokenizer = TweetTokenizer()
print(tokenizer.tokenize(tweet.lower()))

n-그램은 텍스트에 있는 고정 길이(n)의 연속된 토큰 시퀀스 입니다.
- 바이그램은 토큰 두개
- 유니그램은 토큰 한 개로 이루어집니다.

In [None]:
# 텍스트에서 n-그램 만들기

def n_grams(text, n):
    '''
    takes tokens or text, returns a list of n-grams
    '''
    return [text[i:i+n] for i in range(len(text)-n+1)]

cleaned = ['mary', ',', "n't", 'slap', 'green', 'witch', '.']
print(n_grams(cleaned, 3))


2.3 표제어와 어간
- 표제어는 단어의 기본형 입니다.
- 토큰을 표제어로 바꾸어 벡터 표현의 차원을 줄이는 방법이 종종 도움이 됩니다.
- 이런 축소를 표제어 추출(lemmatization)이라고 합니다

In [None]:
# 코드2-3. 표제어 추출: 단어를 표제어로 바꿉니다.

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"he was running late")
for token in doc:
    print('{} --> {}'.format(token, token.lemma_))


- 어간 추출(stemming)은 표제어 추출 대신에 사용하는 축소 기법입니다.
- 수동으로 만든 규칙을 사용해 단어의 끝을 잘라 어간(stem)이라는 공통 형태로 축소합니다.


### 2.5 단어 분류하기 : 품사 태깅

- 단어 분류 작업의 예로틑 품사(Part-of-speech) 태깅(tagging)이 있습니다 (코드2-4)

In [None]:
# 코드 2-4. 품사 태깅

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"Mary slapped the green witch.")
for token in doc:
    print('{} - {}'.format(token, token.pos_))

### 2.6 청크 나누기와 개체명 인식

- 종종 연속된 여러 토큰으로 구분되는 텍스트 구에 레이블을 할당해야 합니다.
- 명사구(NP)와 동사구(VP)를 구별해야합니다.
- 이를 청크나누기(chunking) 또는 부분 구문 분석(shallow parsing)이라고 합니다.
- 부분 구문 분석의 목적은 명사, 동사, 형용사 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것 입니다.

- 코드 2-5는 spaCy를 사용해 부분 구문 분석을 수행하는 예를 보여줍니다.

In [None]:
# 코드 2-5. 명사구(NP) 부분 구문 분석

import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp(u"Mary slapped the green witch.")
for chunk in doc.noun_chunks:
    print('{} - {}'.format(chunk, chunk.label_))



- 개체명은 사람, 장소, 회사, 약 이름과 같은 실제 세상의 개념을 의미하는 문자열 입니다.
- 구 단위를 식별하는 부분 구문 분석과 달리 구 사이의 관계를 파악하는 작업을 구문 분석이라고 합니다.