# 자연어 생성 방법
## 기계 학습을 이용한 자연어 생성
- 단계로 나누는게 아니라 처음부터 끝까지 하나의 어떤 모형으로 만든다
- 단점 : 데이터가 많이 필요하다, 세세하게 제어하기 어렵다
  
자연어 처리는 기계학습을 기준으로 연구가 이루어지지만, 현실적으로 기계학습 만으로 솔루션을 만들기는 어렵다. -> 실제 솔루션 개발은 혼합적으로 이루어지는 경우가 많음  
  
## 글자 수준 토큰화
- 장점 : 미등록 어휘 문제가 없다(신조어같은)
- 단점 : 글자를 잘게 쪼개버려서 문법/의미를 무시하고 글자단위로만 받다 보니(ex. 텍스트 -> 텍, 스, 트) 처리가 잘 안되고 데이터도 많아진다.
  
# 유니코드 정규화
## 유니코드
- 글자들 마다 번호를 붙여서 하나의 통일된 번호 체계를 만듦(국제표준)

## 유니코드 정규화
- 동등한 문자가 있을 때 어떻게 통일성 있게 다룰 것인지(저장을 어떻게 할 것인지)
- NFD : 맥에서 사용(풀어쓰기 - ㄱ, ㅏ ,ㄴ)
- NFC : 윈도우, 리눅스에서 사용(모아쓰기 - 간)
- NFD / NFC -> 내부적인 과정이라 일반 사용자에게는 동일하게 보임. 단, NFD 파일을 윈도우는 잘 못 받는 식으로 문제가 생김(파일 내용은 문제 없으나 파일 제목이 이상해질 수 있음)

# 파이썬으로 한글 풀어쓰기 실습

In [1]:
x = '안녕하세요'
len(x)

5

In [2]:
list(x)    # 파이썬에서는 리스트로 변환하면 자동으로 글자별로 나눠준다

['안', '녕', '하', '세', '요']

In [4]:
import unicodedata
y = unicodedata.normalize('NFD', x)
y

'안녕하세요'

In [5]:
x == y    #  출력할때는 동일하지만 x는 모아쓰기, y는 풀어쓰기라 서로 다르다.

False

In [8]:
x[0]

'안'

In [9]:
y[0]

'ᄋ'

In [10]:
list(y)

['ᄋ', 'ᅡ', 'ᆫ', 'ᄂ', 'ᅧ', 'ᆼ', 'ᄒ', 'ᅡ', 'ᄉ', 'ᅦ', 'ᄋ', 'ᅭ']

In [11]:
y[5]

'ᆼ'

In [12]:
y[0] == y[5]    # 둘 다 'ㅇ'이지만 y[0]은 초성이고, y[5]는 종성이라 다른걸로 인식한다.

False

In [16]:
ord(y[0])

4363

In [15]:
ord(y[5])

4540

In [18]:
ord('ㅇ')

12615

# 준단어 토큰화(Byte Pair Encoding)
- 인공신경망을 이용한 번역?
- 준단어를 이용하여 자주 안나오는 단어 문제 해결하려는 의도

## BPE 알고리즘
- 일반 텍스트가 있으면 공백을 기준으로 단어를 구분
- 나눈 후 단어의 빈도를 세고 자주 나오는 글자의 조합을 찾는다

## SentencePiece
- BPE나 WordPiece는 띄어쓰기를 이용한 단어 구분이 어려울때 쓰기 힘들다(ex. 중국어)
- SentencePiece는 빈 칸을 별개의 토큰으로 취급
- BPE나 WordPiece보다 빠르다

# 준단어 토큰화 실습

## 1. 설치

In [24]:
!pip install tokenizers



In [25]:
import wget
wget.download("https://github.com/songys/Chatbot_data/raw/master/ChatbotData.csv")

100% [............................................................................] 889842 / 889842

'ChatbotData.csv'

In [26]:
import os
os.rename('ChatbotData.csv', 'chatbot.csv')

In [2]:
import pandas as pd
df = pd.read_csv(r'C:\Users\Owner\Desktop\khh\git\ICT\chatbot.csv')    # chatbot.csv 파일 용량때문에 ICT 폴더로 옮겼다
df.head()

Unnamed: 0,Q,A,label
0,12시 땡!,하루가 또 가네요.,0
1,1지망 학교 떨어졌어,위로해 드립니다.,0
2,3박4일 놀러가고 싶다,여행은 언제나 좋죠.,0
3,3박4일 정도 놀러가고 싶다,여행은 언제나 좋죠.,0
4,PPL 심하네,눈살이 찌푸려지죠.,0


In [31]:
with open(r'C:\Users\Owner\Desktop\khh\git\ICT\sample.txt', 'w', encoding='utf8') as f:
    for row in df.itertuples():
        f.write(row.Q + '\n')
        f.write(row.A + '\n')

In [1]:
from tokenizers import CharBPETokenizer    # 글자 단위의 BPE 토크나이저
bpe = CharBPETokenizer(lowercase=True)

In [33]:
# min_frequency : 최소 몇 번 나와야 어휘에 포함시킬거냐에 대한 기준(기본값:2)
# vocab_size : 학습시킬 어휘 개수
bpe.train(files=r'C:\Users\Owner\Desktop\khh\git\ICT\sample.txt', min_frequency=1, vocab_size=5000)

In [34]:
enc = bpe.encode('자연어 처리는 재밌다!')

In [36]:
enc.ids    # 고유 번호 보기

[2204, 1007, 798, 1873, 2249, 1020, 1610]

In [37]:
enc.tokens    # 고유 번호가 뭐로 이루어져 있는지 보기

['자연', '어</w>', '처', '리는</w>', '재밌', '다</w>', '!</w>']

## 2. 풀어쓰기

In [6]:
import unicodedata

with open(r'C:\Users\Owner\Desktop\khh\git\ICT\decomposed.txt', 'w', encoding='utf8') as f:
    for row in df.itertuples():
        q = unicodedata.normalize('NFD', row.Q)
        f.write(q + '\n')
        a = unicodedata.normalize('NFD', row.A)
        f.write(a + '\n')

## 3. 풀어쓰기 BPE

In [3]:
bpe = CharBPETokenizer(lowercase=True)

In [4]:
bpe.train(files=r'C:\Users\Owner\Desktop\khh\git\ICT\decomposed.txt', min_frequency=1, vocab_size=5000)

In [7]:
text = unicodedata.normalize('NFD', '자연어 처리는 재밌다!')
enc = bpe.encode(text)

In [8]:
enc.ids

[1290, 204, 299, 1547, 819, 1365, 149]

In [9]:
enc.tokens

['자연', '어</w>', '처', '리는</w>', '재미', 'ᆻ다</w>', '!</w>']

## 4. Byte-level BPE

In [10]:
from tokenizers import ByteLevelBPETokenizer

In [12]:
byte = ByteLevelBPETokenizer(lowercase=True)

In [13]:
byte.train(files=r'C:\Users\Owner\Desktop\khh\git\ICT\sample.txt', min_frequency=1, vocab_size=5000)

In [14]:
enc = byte.encode('자연어 처리는 재밌다!')

In [15]:
enc.ids

[2500, 273, 3488, 99, 1056, 2276, 294, 0]

In [16]:
enc.tokens    # 한글은 2-3byte인데 여기서 1byte로 쪼개다 보니 한글이 아닌것처럼 보인다

['ìŀĲìĹ°', 'ìĸ´', 'Ġì²ĺë', '¦', '¬ëĬĶ', 'Ġìŀ¬ë°Į', 'ëĭ¤', '!']

## 5. WordPiece model

In [17]:
from tokenizers import BertWordPieceTokenizer

In [18]:
wp = BertWordPieceTokenizer(lowercase=True)

In [20]:
wp.train(files=r'C:\Users\Owner\Desktop\khh\git\ICT\sample.txt', min_frequency=1, vocab_size=5000)

In [21]:
enc = wp.encode('자연어 처리는 재밌다!')

In [22]:
enc.ids

[1379, 201, 1014, 1028, 3349, 216, 5]

In [23]:
enc.tokens

['자연', '##어', '처', '##리는', '재밌', '##다', '!']

## 6. SentencePiece model

In [24]:
from tokenizers import SentencePieceBPETokenizer

In [30]:
sp = SentencePieceBPETokenizer()

In [39]:
sp.train(files=r'C:\Users\Owner\Desktop\khh\git\ICT\sample.txt', min_frequency=1, vocab_size=5000)

In [40]:
enc = sp.encode("자연어 처리는 재밌다!")

In [41]:
enc

Encoding(num_tokens=7, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])

In [42]:
enc.ids

[1888, 616, 1543, 1397, 1944, 225, 3]

In [43]:
enc.tokens

['▁자연', '얇', '▁처', '리는', '▁얼굴', '다', '!']

풀어쓰기 데이터로 학습해보기

In [50]:
sp.train(files=r'C:\Users\Owner\Desktop\khh\git\ICT\decomposed.txt', min_frequency=1, vocab_size=5000)

In [56]:
enc = sp.encode('자연어 처리는 재밌다!')

In [57]:
enc.ids

[1888, 616, 1543, 1397, 1944, 225, 3]

In [58]:
enc.tokens

['▁자연', '앱', '▁처', '리는', '▁재밌', '닝', '!']