파이토치(PyTorch)에서는 텍스트에 대한 여러 추상화 기능을 제공하는 자연어 처리 라이브러리 토치텍스트(Torchtext)를 제공한다. 자연어 처리를 위해 토치텍스트가 반드시 필요하진 않지만, 때로는 직접 구현하는 것보다 이를 사용하는 것이 더 편리하기도 하다.

토치텍스트가 제공하는 기능.
- 파일 로드하기(File Loading) : 다양한 포맷의 코퍼스를 로드.
- 토큰화(Tokenization) : 문장을 단어 단위로 분리.
- 단어 집합(Vocab) : 단어 집합을 만든다.
- 정수 인코딩(Integer encoding) : 전체 코퍼스의 단어들을 각각의 고유한 정수로 맵핑.
- 단어 벡터(Word Vector) : 단어 집합의 단어들에 고유한 임베딩 벡터를 만들어준다. 랜덤값으로 초기화한 값일 수도 있고, 사전 훈련된 임베딩 벡터들을 로드할 수도 있다.
- 배치화(Batching) : 훈련 샘플들의 배치를 만들어준다. 이 과정에서 패딩 작업(Padding)도 이루어진다.
토치텍스트가 모든 전처리를 해결해주지는 않는다. 위 모든 과정 이전에 훈련 데이터, 검증 데이터, 테스트 데이터를 분리하는 작업은 별도로 해주어야 하며 위 모든 과정 이후에 각 샘플에 대해서 단어들을 임베딩 벡터로 맵핑해주는 작업. 룩업 테이블(Lookup Table)이라 불리는 작업은 파이토치의 nn.Embedding()을 통해서 해결해야 한다.

설치 : pip install torchtext

##  훈련 데이터와 테스트 데이터로 분리

In [1]:
import urllib.request
import pandas as pd

In [2]:
# IMDB 리뷰 데이터 다운로드
urllib.request.urlretrieve("https://raw.githubusercontent.com/LawrenceDuan/IMDb-Review-Analysis/master/IMDb_Reviews.csv", filename="IMDb_Reviews.csv")

('IMDb_Reviews.csv', <http.client.HTTPMessage at 0x7f9b7d5cbe20>)

In [5]:
df = pd.read_csv('IMDb_Reviews.csv', encoding = 'latin1')
df.head()
# 첫번째 열은 review 열로 영화 리뷰에 해당되는 데이터. 두번째 열은 sentiment로 해당 리뷰가 긍정인지 부정인지를 나타내는 열. 

Unnamed: 0,review,sentiment
0,My family and I normally do not watch local mo...,1
1,"Believe it or not, this was at one time the wo...",0
2,"After some internet surfing, I found the ""Home...",0
3,One of the most unheralded great works of anim...,1
4,"It was the Sixties, and anyone with long hair ...",0


In [6]:
print('전체 샘플개수 : {}'.format(len(df)))

전체 샘플개수 : 50000


In [8]:
train_df = df[:25000]
test_df = df[25000:]
train_df.to_csv("train_data.csv", index=False)
test_df.to_csv("test_data.csv", index=False)

## 필드 정의하기(torchtext.data)

In [23]:
from torchtext import data # torchtext.data 임포트

# 필드 정의
TEXT = data.Field(sequential=True,
                  use_vocab=True,
                  tokenize=str.split,
                  lower=True,
                  batch_first=True,
                  fix_length=20)

LABEL = data.Field(sequential=False,
                   use_vocab=False,
                   batch_first=False,
                   is_target=True)

AttributeError: module 'torchtext.data' has no attribute 'Field'