## 텍스트 표현하기

In [1]:
import numpy as np
import torch
torch.set_printoptions(edgeitems=2, threshold=50)

In [2]:
with open('/content/drive/MyDrive/deep_learning_with_pytorch/data/p1ch4/jane-austen/1342-0.txt', encoding='utf8') as f:
    text = f.read()

## 문자 원핫 인코딩

In [3]:
#텍스트를 행으로 나누고 몇 줄을 가져와 보자.
lines = text.split('\n')
line = lines[200]
line

'“Impossible, Mr. Bennet, impossible, when I am not acquainted with him'

In [4]:
#행 전체의 문자를 원핫 인코딩한 문자의 총 수르 담을 텐서를 만들자.
letter_t = torch.zeros(len(line), 128)
letter_t.shape

torch.Size([70, 128])

In [7]:
#이제 letter_t는 행마다 원핫 인코딩된 문자 하나를 담고 있다. 이제 각 행이 일치하는 문자를 표현하도록 정확한 위치에 1을 기록하자.
#값이 1이어야 할 인덱슨느 인코딩에서의 문자의 인덱스에 대응한다.

for i, letter in enumerate(line.lower().strip()):
  letter_index = ord(letter) if ord(letter) < 128 else 0
  letter_t[i][letter_index] = 1

## 모든 단어를 원핫 인코딩하기

In [8]:
#텍스트를 받아 소문자로 바꾸고 구두점을 날리는 clean_words를 정의하자.
def clean_words(input_str):
    punctuation = '.,;:"!?”“_-'
    word_list = input_str.lower().replace('\n',' ').split()
    word_list = [word.strip(punctuation) for word in word_list]
    return word_list

words_in_line = clean_words(line)
line, words_in_line

('“Impossible, Mr. Bennet, impossible, when I am not acquainted with him',
 ['impossible',
  'mr',
  'bennet',
  'impossible',
  'when',
  'i',
  'am',
  'not',
  'acquainted',
  'with',
  'him'])

In [9]:
#다음으로 인코딩에서 단어를 인덱스로 매핑하자.

word_list = sorted(set(clean_words(text)))
word2index_dict = {word: i for (i,word) in enumerate(word_list)}

len(word2index_dict), word2index_dict['impossible']

(7261, 3394)

이제 word2index_dict는 단어를 키로, 정수를 값으로 가지는 사전이다. 
원핫 인코딩을 하면서 단어에 대한 인덱스를 효율적으로 찾을 용도로 사용할 것이다.


다음으로 문장을 처리할 단계다. 문장을 단어로 나누고 각각을 원핫 인코딩하면, 단어 하나당 원핫 인코딩된 벡터가 모여 텐서 하나를 만든다.

In [10]:
word_t = torch.zeros(len(words_in_line), len(word2index_dict))
for i, word in enumerate(words_in_line):
    word_index = word2index_dict[word]
    word_t[i][word_index] = 1
    print('{:2} {:4} {}'.format(i, word_index, word))
    
print(word_t.shape)

 0 3394 impossible
 1 4305 mr
 2  813 bennet
 3 3394 impossible
 4 7078 when
 5 3315 i
 6  415 am
 7 4436 not
 8  239 acquainted
 9 7148 with
10 3215 him
torch.Size([11, 7261])


이제 tensor는 사전에 들어 있는 단어 개수인 7261의 인코딩 공간에서 길이가 11인 한 문장을 표현하게 됐다.

In [11]:
word_t = word_t.unsqueeze(1)
word_t.shape

torch.Size([11, 1, 7261])

In [12]:
[(c, ord(c)) for c in sorted(set(text))]

[('\n', 10),
 (' ', 32),
 ('!', 33),
 ('#', 35),
 ('$', 36),
 ('%', 37),
 ("'", 39),
 ('(', 40),
 (')', 41),
 ('*', 42),
 (',', 44),
 ('-', 45),
 ('.', 46),
 ('/', 47),
 ('0', 48),
 ('1', 49),
 ('2', 50),
 ('3', 51),
 ('4', 52),
 ('5', 53),
 ('6', 54),
 ('7', 55),
 ('8', 56),
 ('9', 57),
 (':', 58),
 (';', 59),
 ('?', 63),
 ('@', 64),
 ('A', 65),
 ('B', 66),
 ('C', 67),
 ('D', 68),
 ('E', 69),
 ('F', 70),
 ('G', 71),
 ('H', 72),
 ('I', 73),
 ('J', 74),
 ('K', 75),
 ('L', 76),
 ('M', 77),
 ('N', 78),
 ('O', 79),
 ('P', 80),
 ('Q', 81),
 ('R', 82),
 ('S', 83),
 ('T', 84),
 ('U', 85),
 ('V', 86),
 ('W', 87),
 ('X', 88),
 ('Y', 89),
 ('Z', 90),
 ('[', 91),
 (']', 93),
 ('_', 95),
 ('a', 97),
 ('b', 98),
 ('c', 99),
 ('d', 100),
 ('e', 101),
 ('f', 102),
 ('g', 103),
 ('h', 104),
 ('i', 105),
 ('j', 106),
 ('k', 107),
 ('l', 108),
 ('m', 109),
 ('n', 110),
 ('o', 111),
 ('p', 112),
 ('q', 113),
 ('r', 114),
 ('s', 115),
 ('t', 116),
 ('u', 117),
 ('v', 118),
 ('w', 119),
 ('x', 120),
 ('y',

In [13]:
ord('l')

108