# 데이터 구조의 이해 (4) - 텍스트
#### 작성자 - 고우주 | kubwa 쿱와

In [None]:
s1 = '나는 책상 위에 사과를 먹었다'       
s2 = '알고 보니 그 사과는 Jason 것이었다' 
s3 = '그래서 Jason에게 사과를 했다'
s4 = '나는 책상 위에 배를 먹었다'

## 1. Word Tokenization

In [None]:
print(s1.split())
print(s2.split())
print(s3.split()) 

In [None]:
list(s1)

In [None]:
token2idx = {}
index = 0

for sentence in [s1, s2, s3]:
    tokens = sentence.split()
    for token in tokens:
        if token2idx.get(token) == None:
            token2idx[token] = index
            index += 1

token2idx

In [None]:
def indexed_sentence(sentence):
    return [token2idx[token] for token in sentence]
    
s1_index = indexed_sentence(s1.split())
s2_index = indexed_sentence(s2.split())
s3_index = indexed_sentence(s3.split())

print("s1 index =", s1_index)
print("s2 index =", s2_index)
print("s3 index =", s3_index)

In [None]:
s4 = '나는 책상 위에 배를 먹었다'

# 기존 token 사전에 <unk> token 추가
token2idx = {t : i+1 for t, i in token2idx.items()}
token2idx['<unk>'] = 0

# token이 없을 경우, <unk> token의 0을 치환
def indexed_sentence_unk(sentence):
    return [token2idx.get(token, token2idx['<unk>']) for token in sentence]

indexed_sentence_unk(S4.split())
# [2, 3, 4, 0, 6]

## 2. Character tokenization

In [None]:
# 영어 unicode
print([chr(k) for k in range(65, 91)]) # 영어 대문자
print([chr(k) for k in range(97, 123)]) # 영어 소문자

# 특수 문자 및 숫자 unicode
print([chr(k) for k in range(32, 48)])
print([chr(k) for k in range(58, 65)])
print([chr(k) for k in range(91, 97)])
print([chr(k) for k in range(123, 127)])
print([chr(k) for k in range(48, 58)])

In [None]:
# 한국어 unicode
print([chr(k) for k in range(int('0xAC00',16), int('0xD7A3',16) + 1)][:10]) # 모든 완성형 한글 11,172자
print([chr(k) for k in range(int('0x3131',16), int('0x3163',16) + 1)]) # 자모 

In [None]:
idx2char = {0:'<pad>', 1:'<unk>'}

srt_idx = len(idx2char)
for x in range(32, 127):
    idx2char.update({srt_idx : chr(x)})
    srt_idx += 1

# 한글 추가는 밑의 코드를 실행합니다.
for x in range(int('0x3131',16), int('0x3163',16) + 1):
    idx2char.update({srt_idx : chr(x)})
    srt_idx += 1

for x in range(int('0xAC00',16), int('0xD7A3',16) + 1):
    idx2char.update({srt_idx : chr(x)})
    srt_idx += 1

char2idx = {v:k for k,v in idx2char.items()}

In [None]:
print(idx2char)

In [None]:
print([char2idx.get(c,0) for c in '그래서 Jason에게 사과를 했다'])
print([char2idx.get(c,0) for c in 'ㅇㅋ! ㄱㅅㄱㅅ'])

## 3. n-gram
- n-gram은 charactor 단위
- spacing 단위 n-gram

In [None]:
S1 = '나는 책상 위에 사과를 먹었다'

print([S1[i:i+1] for i in range(len(S1))]) # uni-gram
print([S1[i:i+2] for i in range(len(S1))]) # bi -gram
print([S1[i:i+3] for i in range(len(S1))]) # tri-gram


In [None]:
S5 = 'I am dying to play the game'
S5_sp = S5.split()

print([" ".join(S5_sp[i:i+1]) for i in range(len(S5_sp))]) # uni-gram
print([" ".join(S5_sp[i:i+2]) for i in range(len(S5_sp))]) # bi -gram
print([" ".join(S5_sp[i:i+3]) for i in range(len(S5_sp))]) # tri-gram


## 4. One-hot Encoding

In [None]:
s1 = '나는 책상 위에 사과를 먹었다'        
s2 = '알고 보니 그 사과는 Jason 것이었다'  
s3 = '그래서 Jason에게 사과를 했다'       

token2idx = {}
index = 0

for sentence in [S1, S2, S3]:
    tokens = sentence.split()
    for token in tokens:
        if token2idx.get(token) == None:
            token2idx[token] = index
            index += 1

token2idx

In [None]:
v = len(token2idx)

token2vec = [([0 if i != idx else 1 for i in range(v)], idx, token) for token, idx in token2idx.items() ]

for x in token2vec:
    print("\t".join([str(y) for y in x]))


In [None]:
# python numpy를 이용하여 문장을 one-hot encoding으로 바꾸는 방법
import numpy as np

# default_zero = np.zeros((1,V))

for sentence in [S1, S2, S3]:
    onehot_s = []
    tokens = sentence.split()
    for token in tokens:
        if token2idx.get(token) != None:
            vector = np.zeros((1, v))
            vector[:,token2idx[token]] = 1
            # print(vector)
            onehot_s.append(vector)
        else:
            print("UNK")

    print(f"{sentence} : ")        
    print(np.concatenate(onehot_s, axis = 0))
    print('\n')