<a href="https://colab.research.google.com/github/7ZXU/nlp-with-pytorch/blob/main/chapter1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1-1



In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import seaborn as sns

corpus = ['Time flies like an arrow.',
          'Fruit flies like a banana.']
          
# 문장을 원핫 인코딩해주는 역할
one_hot_vectorizer = CountVectorizer(binary=True)

In [None]:
# one-hot encoding 으로 문장에서 단어 위치 표시
one_hot_trans = one_hot_vectorizer.fit_transform(corpus)

print(one_hot_trans)

In [None]:
# 원핫 인코딩 거친 문장 벡터화
one_hot = one_hot_trans.toarray()

print(one_hot)

In [None]:
# 단어 세트 형성
vocab = one_hot_vectorizer.get_feature_names()

# seaborn : 시각화 라이브러리
# heatmap : 데이터 배열을 색으로 표현해주는 그래프 
# cbar:색상바 # annot:cell표기값
sns.heatmap(
    one_hot, annot=True,
    cbar=False, xticklabels = vocab,
    yticklabels=['Sentence 1', 'Sentence 2']
)

1-2

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import seaborn as sns
 
tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(corpus).toarray()
sns.heatmap(tfidf, annot=True, cbar=False, xticklabels=vocab,
            yticklabels= ['Sentence 1', 'Sentence 2'])


1-3 torch.Tensor 텐서 만들기

In [None]:
def describe(x):
    print("타입: {}".format(x.type())) # x.type()
    print("크기: {}".format(x.shape)) # x.shape
    print("값: {}".format(x)) 

In [None]:
import torch
describe(torch.Tensor(2,3))

1-4 랜덤하게 초기화한 텐서

In [None]:
# 균등분포 
# 0과 1사이의 균등분포에서 난수 생성
# 
describe(torch.rand(2,3))

In [None]:
# 표준 정규 분포 
# 평균 0 표준편차 1인 가우시안 정규분포에서 난수 생성
describe(torch.randn(2,3))

1-5

In [None]:
# torch.zeros
describe(torch.zeros(2,3))

# torch.ones
x=torch.ones(2,3)
describe(x)

# fill_
# _ : 인-플레이스 메서드 # 텐서값을 바꾸는 연산 # 새로운 객체 만드는 것이 아니라 기존 객체 값 바꿈 
x=x.fill_(5)
describe(x)

1-6 리스트 - 텐서

In [None]:
x=torch.Tensor([[1, 2, 3], 
                [4, 5, 6]])
describe(x)

1-7 넘파이 - 텐서

넘파이를 텐서로 변환하면 DoubleTensor 반환

In [None]:
import numpy as np
x=np.random.rand(2, 3)
x=torch.Tensor(x)
describe(x)

In [None]:
x=np.random.rand(2,3)
describe(torch.from_numpy(x))

1-8 텐서 타입과 크기 지정

In [None]:
# 생성자 직접 호출 
x=torch.FloatTensor(2,3)
describe(x)

x=x.long()
describe(x)

In [None]:
# torch.tensor의 dtype 지정
# torch.tensor : dtype 지정 가능
# torch.Tensor : dtype 지정 불가능
x=torch.tensor([[1,2,3],[4,5,6]], dtype=int)
describe(x)

x=torch.Tensor([[1,2,3],[4,5,6]])
describe(x)

1-9 텐서 연산 : 덧셈

In [None]:
x=torch.randn(2, 3)
describe(x)
describe(torch.add(x, x))

1-10 차원별 텐서 연산

In [None]:
x=torch.arange(6) # 0 이상 end-1 이하 # 1씩 증가하는 값 반환
y=torch.arange(2, 6, 0.5) # start, end, step
describe(x)
describe(y)
describe(x.view(2,3)) # view # x의 값을 공유 # 값만 공유하고 지정한 차원으로 출력

In [None]:
x=x.view(2,3)
describe(x)
describe(torch.sum(x, dim=0)) # 열끼리 더함
describe(torch.sum(x, dim=1)) # 행끼리 더함
describe(torch.transpose(x, 0, 1)) # 행, 열 바꿈

1-11 텐서 슬라이싱, 인덱싱

In [None]:
x=x.view(2,3)
describe(x)
describe(x[:1, :3]) # 슬라이싱
describe(x[1, 2]) # 인덱싱

1-12 복잡한 인덱싱

In [None]:
indicies = torch.LongTensor([0,2])
describe(x)
describe(indicies)
describe(torch.index_select(x, dim=1, index=indicies))


In [None]:
indicies = torch.LongTensor([0, 0])
describe(torch.index_select(x, dim=0, index=indicies))

1-13 텐서 연결

In [None]:
describe(torch.cat([x, x], dim=0)) # 행 기준 concat

In [None]:
describe(torch.cat([x, x], dim=1)) # 열 기준 concat

In [None]:
describe(torch.stack([x, x]))

1-14 텐서 선형대수계산 : 행렬 곱셈

In [None]:
x1 = torch.arange(6).view(2,3)
x1=x1.float()
describe(x1)
x2= torch.ones(3, 2)
x2[:,1] += 1
describe(x2)

In [None]:
# 행렬곱
describe(torch.mm(x1, x2))

1-15 그래디언트 연산 가능한 텐서 만들기

In [None]:
# requires_grad = True
# 그래디언트 학습에 필요한 1. 손실함수 2, 그래디언트 기록하는 연산 활성화

import torch
x=torch.ones(2, 2, requires_grad=True)
describe(x)

y=(x+2)*(x+5)+3
describe(y)

In [None]:
z = y.mean()
describe(z)

In [None]:
z.backward() # 역방향 계산

In [None]:
print(x.grad)

1-16 CUDA 텐서 만들기

In [None]:
import torch
# GPU 사용 가능 여부 확인
print(torch.cuda.is_available())

In [None]:
# gpu 사용 가능 하면 cuda 이름 부여 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu") 
print(device)

In [None]:
# 텐서 연산을 cuda 장치에 연결 
x=torch.rand(3,3).to(device)
describe(x)

1-17 

GPU 로 데이터를 넣고 꺼내는 작업은 비용이 많이 든다.

따라서 

1. 병렬 계산은 GPU 에서 수행하고 

2. 최종 결과만 CPU 로 전송한다.

In [None]:
cpu_device = torch.device("cpu")

# 연산하는 텐서는 동일한 장치에 연결되어 있어야 한다 
# 따라서 x 텐서 연결을 cpu로 변경해준다

y=torch.rand(3, 3)
y=y.to(cpu_device)
x=x.to(cpu_device)

x+y
