# 토크나이저(Tokenizer)

## 토큰화 방법별 어휘 사전 구성 및 특징

| 토큰화 방법 | 어휘 사전 구성 | 특징 | 대표 알고리즘/라이브러리 |
|------------|---------------|------|----------------------|
| **단어단위** | 고유 단어들로 구성<br>(예: "사과", "먹다", "좋다") | 어휘 크기가 매우 크고 훈련 데이터에 없던 새로운 단어(OOV, Out-of-Vocabulary) 처리 불가 | NLTK, spaCy, Okt, Mecab, Keras Tokenizer |
| **문자단위** | 개별 문자들로 구성<br>(예: "ㄱ", "ㄴ", "a", "b") | 어휘 크기는 작지만 문장이 매우 긴 토큰 시퀀스가 되어 학습 효율성 저하 | Character-level tokenizer |
| **서브워드** | 빈도 기반 서브워드 조각들<br>(예: "##ing", "un##", "토큰") | 적절한 어휘 크기 유지하면서 미등록 단어(UNK, Unknown) 문제를 효과적으로 해결 | BPE, WordPiece, SentencePiece, Unigram |


## 1. 영어 토크나이저

In [1]:
import nltk

nltk.download('all-corpora') # NLTK 라이브러리에서 제공하는 모든 말뭉치(corpus) 데이터를 다운로드
nltk.download('punkt') #  NLTK의 토큰화(tokenization) 도구인 Punkt tokenizer 모델을 다운로드
nltk.download('punkt_tab')

[nltk_data] Downloading collection 'all-corpora'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package bcp47 to
[nltk_data]    |     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]    |   Package bcp47 is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]    |   Package biocreative_ppi is already up-to-date!
[nltk_data]    | Downloading package brown to
[nltk_data]    |     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |     C:\Users\user\

True

- 단어 분리

In [2]:
from nltk.tokenize import word_tokenize

sentence = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data."

print(word_tokenize(sentence))

['Natural', 'language', 'processing', '(', 'NLP', ')', 'is', 'a', 'subfield', 'of', 'computer', 'science', ',', 'information', 'engineering', ',', 'and', 'artificial', 'intelligence', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'in', 'particular', 'how', 'to', 'program', 'computers', 'to', 'process', 'and', 'analyze', 'large', 'amounts', 'of', 'natural', 'language', 'data', '.']


- 문장 분리

In [3]:
from nltk.tokenize import sent_tokenize

paragraph = "Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data. Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation."

print(sent_tokenize(paragraph))

['Natural language processing (NLP) is a subfield of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (natural) languages, in particular how to program computers to process and analyze large amounts of natural language data.', 'Challenges in natural language processing frequently involve speech recognition, natural language understanding, and natural language generation.']


## 2. 한글 토크나이저

**한국어 토큰화의 어려움**
- 조사가 띄어 쓰기 없이 바로 붙음 (교착어) -> 조사 분리 필요
- 한국어는 띄어쓰기가 잘 지켜지지 않음
- 한국어는 어순이 중요하지 않음

**KoNLPy**
- Korean NLP in Python
- 사전기반 토큰화
- Komoran, Mecab, Okt 등 내장

In [4]:
import konlpy
from konlpy.tag import Okt

In [5]:
okt = Okt()

In [19]:
text = "한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ"
text=": 가상환경에서 설치된 파이썬 라이브러리를 삭제할 경우 remove 커멘드를 사용합니다. 현재 활성화된 가상환경에서 삭제할 경우 가상환경명이 필요없으나 base나 다른 가상환경에서 삭제할 경우 -n option을 통해서 가상환경의 이름을 명시해 주어야 합니다 출처: https://thinkingtool.tistory.com/entry/Python-아나콘다에-설치된-python-패키지-설치-확인-삭제-UI로-관리하기 [생각하는 톱니바퀴:티스토리]"
print(okt.morphs(text))
print(okt.morphs(text, stem=True)) # 형태소 단위로 나눈 후 어간을 추출

[':', '가상', '환경', '에서', '설치', '된', '파이썬', '라이브러리', '를', '삭제', '할', '경우', 'remove', '커멘드', '를', '사용', '합니다', '.', '현재', '활성화', '된', '가상', '환경', '에서', '삭제', '할', '경우', '가상', '환경', '명', '이', '필요없으나', 'base', '나', '다른', '가상', '환경', '에서', '삭제', '할', '경우', '-', 'n', 'option', '을', '통해', '서', '가상', '환경', '의', '이름', '을', '명시', '해', '주어', '야', '합니다', '출처', ':', 'https://thinkingtool.tistory.com/entry/Python-', '아나콘다', '에', '-', '설치', '된', '-', 'python', '-', '패키지', '-', '설치', '-', '확인', '-', '삭제', '-', 'UI', '로', '-', '관리', '하기', '[', '생각', '하는', '톱니바퀴', ':', '티스토리', ']']
[':', '가상', '환경', '에서', '설치', '되다', '파이썬', '라이브러리', '를', '삭제', '하다', '경우', 'remove', '커멘드', '를', '사용', '하다', '.', '현재', '활성화', '되다', '가상', '환경', '에서', '삭제', '하다', '경우', '가상', '환경', '명', '이', '필요없다', 'base', '나', '다른', '가상', '환경', '에서', '삭제', '하다', '경우', '-', 'n', 'option', '을', '통해', '서', '가상', '환경', '의', '이름', '을', '명시', '하다', '주어', '야', '하다', '출처', ':', 'https://thinkingtool.tistory.com/entry/Python-', '아나콘다', '에', '-', '설치'

In [7]:
print(okt.nouns(text))
print(okt.phrases(text))

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


In [8]:
print(okt.pos(text))
print(okt.pos(text, join=True)) # 형태소와 품사를 붙여서 리스트화

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


## 3. 케라스(keras) 제공 토크나이저

- 규칙 기반 토큰화
- 공백 또는 구둣점으로 분리

In [9]:
import warnings
warnings.filterwarnings('ignore', module='requests')

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

In [10]:
text_data = ['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부 해야겠다', '점심 먹고 공부 해야지']

In [11]:
tokenizer = Tokenizer(num_words=100, oov_token='<OOV>')    # 문장으로 부터 빈도가 높은 순으로 상위 100개의 단어로 vocabulary 작성
# OOV: Out of Vocabulary, 등록되지 않은 단어가 나오면 이걸로 등록해라

In [12]:
tokenizer.fit_on_texts(text_data)
word_index = tokenizer.word_index
word_index

{'<OOV>': 1,
 '내일': 2,
 '점심': 3,
 '공부': 4,
 '나는': 5,
 '배가': 6,
 '고프다': 7,
 '뭐먹지': 8,
 '해야겠다': 9,
 '먹고': 10,
 '해야지': 11}

- text 의 sentence 변환 및 paddding

In [13]:
sequences = tokenizer.texts_to_sequences(text_data)
padded = pad_sequences(sequences, padding='post', truncating='post')

In [14]:
print(sequences)
print()
print(padded) # 패딩해서 브로드캐스팅(0), Truncating: 넘치는부분 자르기

[[5, 6, 7], [2, 3, 8], [2, 4, 9], [3, 10, 4, 11]]

[[ 5  6  7  0]
 [ 2  3  8  0]
 [ 2  4  9  0]
 [ 3 10  4 11]]


In [15]:
tokenizer.index_word

{1: '<OOV>',
 2: '내일',
 3: '점심',
 4: '공부',
 5: '나는',
 6: '배가',
 7: '고프다',
 8: '뭐먹지',
 9: '해야겠다',
 10: '먹고',
 11: '해야지'}

In [22]:
# sequenced sentence 를 word sentence 로 환원
for sequence in sequences:
    sent = []
    for idx in sequence:
        sent.append(tokenizer.index_word[idx])
    print(' '.join(sent))

나는 배가 고프다
내일 점심 뭐먹지
내일 공부 해야겠다
점심 먹고 공부 해야지


In [23]:
# One-Hot-Encoding 표현
labels = [0, 0, 1, 2]  # 클래스 레이블
y = to_categorical(labels, num_classes=3)
y.shape

(4, 3)

In [18]:
y 

array([[1., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]], dtype=float32)