<a href="https://colab.research.google.com/github/threegenie/studying_pytorch/blob/main/08_%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC%EC%9D%98_%EC%A0%84%EC%B2%98%EB%A6%AC_03_%ED%86%A0%EC%B9%98%ED%85%8D%EC%8A%A4%ED%8A%B8_%ED%8A%9C%ED%86%A0%EB%A6%AC%EC%96%BC(kor).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import spacy
import torch
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os, sys
import urllib.request

In [2]:
%%capture
!set -x \
&& pip install konlpy \
&& curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

In [3]:
import konlpy
from konlpy.tag import Mecab

In [4]:
%%capture
!pip install torchtext

In [5]:
from torchtext.legacy.data import TabularDataset

In [6]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x7f9074065ed0>)

In [7]:
train_df = pd.read_table('ratings_train.txt')
test_df = pd.read_table('ratings_test.txt')

In [8]:
# from torchtext import data # torchtext.data 임포트
from torchtext.legacy import data
from konlpy.tag import Mecab

In [9]:
# Mecab을 토크나이저로 사용
tokenizer = Mecab()

In [10]:
train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1



필드(Field)
- 실제 텍스트를 위한 TEXT 객체
- 레이블 데이터를 위한 LABEL 객체
> 필드 인자 정리
```
sequential : 시퀀스 데이터 여부. (True가 기본값)
use_vocab : 단어 집합을 만들 것인지 여부. (True가 기본값)
tokenize : 어떤 토큰화 함수를 사용할 것인지 지정. (string.split이 기본값)
lower : 영어 데이터를 전부 소문자화한다. (False가 기본값)
batch_first : 미니 배치 차원을 맨 앞으로 하여 데이터를 불러올 것인지 여부. (False가 기본값)
is_target : 레이블 데이터 여부. (False가 기본값)
fix_length : 최대 허용 길이. 이 길이에 맞춰서 패딩 작업(Padding)이 진행된다.
```



In [11]:
# 필드 정의

# id
ID = data.Field(sequential = False,
                use_vocab = False) # 실제 사용은 하지 않을 예정

# document
TEXT = data.Field(sequential=True,
                  use_vocab=True,
                  tokenize=tokenizer.morphs, # 토크나이저로는 Mecab 사용.
                  lower=True,
                  batch_first=True,
                  fix_length=20)

# label
LABEL = data.Field(sequential=False,
                   use_vocab=False,
                   is_target=True)

#네이버 영화 리뷰 데이터는 3개의 열로 구성되어 있으므로 3개의 필드를 정의

In [12]:
train_data, test_data = TabularDataset.splits(
        path='.', train='ratings_train.txt', test='ratings_test.txt', format='tsv',
        fields=[('id', ID), ('text', TEXT), ('label', LABEL)], skip_header=True)

→ TabularDataset : tsv형태 데이터를 불러와서 데이터셋의 형식으로 바꿔줌 - split 메서드를 통해 필드 분리


In [14]:
#분리한 샘플 중 하나 확인

vars(train_data[0])

{'id': '9976970',
 'label': '0',
 'text': ['아', '더', '빙', '.', '.', '진짜', '짜증', '나', '네요', '목소리']}

In [15]:
TEXT.build_vocab(train_data, min_freq=10, max_size=10000)

→ build_vocab 사용해서 단어 집합 생성
- min_freq : 단어 집합에 추가 시 단어의 최소 등장 빈도 조건을 추가.
- max_size : 단어 집합의 최대 크기를 지정.

In [16]:
# 단어 집합 내 단어 확인

TEXT.vocab.stoi

defaultdict(<bound method Vocab._default_unk_index of <torchtext.legacy.vocab.Vocab object at 0x7f905108d150>>,
            {'<unk>': 0,
             '<pad>': 1,
             '.': 2,
             '이': 3,
             '는': 4,
             '영화': 5,
             '다': 6,
             '고': 7,
             '하': 8,
             '도': 9,
             '의': 10,
             '가': 11,
             '은': 12,
             '에': 13,
             '을': 14,
             '보': 15,
             '한': 16,
             '..': 17,
             '게': 18,
             ',': 19,
             '들': 20,
             '!': 21,
             '지': 22,
             '를': 23,
             '있': 24,
             '없': 25,
             '?': 26,
             '좋': 27,
             '나': 28,
             '었': 29,
             '만': 30,
             '는데': 31,
             '너무': 32,
             '봤': 33,
             '적': 34,
             '안': 35,
             '정말': 36,
             '로': 37,
             '음': 38,
             '으로': 39,
    