# 토큰화 (Tokenization)

**토큰화 목적**
- 문법적 구조 이해
- 유연한 데이터 활용

In [1]:
text = 'NLP is fascinating. It has many applications in real-world scenarios'

In [2]:
import nltk

# 단어 토큰화
print(nltk.word_tokenize(text))

# 문장 토큰화
print(nltk.sent_tokenize(text))

# 문장별 단어 토큰화
for sent in nltk.sent_tokenize(text):
    print(nltk.word_tokenize(text))

['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'applications', 'in', 'real-world', 'scenarios']
['NLP is fascinating.', 'It has many applications in real-world scenarios']
['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'applications', 'in', 'real-world', 'scenarios']
['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'applications', 'in', 'real-world', 'scenarios']


### Subword 토큰화

- BertTokenizer
    - 단어를 부분 단위로 쪼개어 희귀하거나 새로운 단어도 부분적으로 표현할 수 있도록 함 => 어휘 크기를 줄이고 다양한 언어 패턴 학습 가능

In [3]:
!pip install transformers



In [4]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
word = 'unhappiness'
subwords = tokenizer.tokenize(word)
subwords

['un', '##ha', '##pp', '##iness']

##### 분리 과정
1. WordPiece 토크나이저는 사전에 등록된 단어 우선 사용
    - Bert의 WordPiece 토크나이저는 최대한 긴 단어를 먼저 찾으려는 방식으로 동작
    - 'happy'가 사전에 있으면 그대로 사용, 없으면 가장 긴 서브워드 조합 찾아 나눔
2. 'happy'가 사전에 포함되지 않은 경우
    - 일반적으로 'happy'는 BERT의 사전에 포함되어 있지만, 학습된 모델에 없을 수 있음
    - 'happy'가 사전에 없는 경우 사전에 있는 조각(서브워드)로 분해
3. 그래서 과정은..
    1. 'unhappiness' 검색 -> 없음
    2. 'un' 검색 -> 있음 -> 유지
    3. 'happiness' 검색 -> 없음
    4. 'ha' 검색 -> 있음
    5. 'pp' 검색 -> 있음
    6. 'iness' 검색 -> 있음

In [5]:
tokenizer.tokenize(text)

['nl',
 '##p',
 'is',
 'fascinating',
 '.',
 'it',
 'has',
 'many',
 'applications',
 'in',
 'real',
 '-',
 'world',
 'scenarios']

### 문자 단위 토큰화

In [6]:
list(word)

['u', 'n', 'h', 'a', 'p', 'p', 'i', 'n', 'e', 's', 's']

### 토큰화 주의사항
1. 구두점이나 특수 문자를 단순 제외하면 안됨
2. 줄임말, 단어 내 띄어쓰기 유의

**표준 토큰화 예제 *Penn Treebank Tokenization**
- 규칙 1: 하이픈으로 구성된 단어는 하나로 유지한다.
- 규칙 2: doesn't와 같이 '가 있는 단어는 분리한다.

In [7]:
# 구두점을 제외한 단어 토큰화
import re

text = 'Time files like an arrow; fruit files like a banana.'
re.findall(r'\b\w+\b', text)
# r'' : 파이썬 raw text (이스케이핑 문자를 문자 그대로 처리)
# \b : 경계 문자 (boundary / 공백, 구두점, ...)
# \w : 글자 (word / 영문자, 숫자, _)
# \w+ : 수령자 (하나 이상)
# => 경게 문자로 감싸진 하나 이상의 글자를 전부 찾아라~

['Time',
 'files',
 'like',
 'an',
 'arrow',
 'fruit',
 'files',
 'like',
 'a',
 'banana']

In [8]:
# WordPunctTokenizer
# 단어/구두점으로 토큰을 구분 (', - 포함 단어도 분리)
from nltk.tokenize import WordPunctTokenizer, word_tokenize

word_punct_tokenizer = WordPunctTokenizer()

text = "Don't hesitate to use well-being practices for self-care."
word_punct_tokenizer.tokenize(text)

print(word_tokenize(text))

['Do', "n't", 'hesitate', 'to', 'use', 'well-being', 'practices', 'for', 'self-care', '.']


In [9]:
from nltk.tokenize import TreebankWordTokenizer

treebank_word_tokenizer = TreebankWordTokenizer()
text = '''
COVID-19(전염병), Dr.Smith(의사), NASA(우주항공국) 등 특정 기관이나 명칭이 있다. \
특수 문자 또한 태그 <br>, 가격 $100.50, 2025/02/18 날짜 표현에 사용될 수 있다. \
이러한 경우, $100.50을 하나의 토큰으로 유지할 필요가 있다.
'''

print(treebank_word_tokenizer.tokenize(text))

['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜', '표현에', '사용될', '수', '있다.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']


### 한국어 토큰화

In [10]:
# !pip install kss==5.0.0

In [11]:
import kss

text = "배경은 1920년대의 경성부이다. 주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다. 아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다.'는 김 첨지의 신조 때문. 멍청이, 꼰대...가 아닐수 없다. 사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다."

print(kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363



['배경은 1920년대의 경성부이다.', '주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다.', "아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다.'는 김 첨지의 신조 때문.", '멍청이, 꼰대...가 아닐수 없다.', '사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다.']


In [12]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

In [13]:
from nltk.tag import pos_tag

text = 'Time files like an arrow'
tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)
pos_tags

[('Time', 'NNP'),
 ('files', 'NNS'),
 ('like', 'IN'),
 ('an', 'DT'),
 ('arrow', 'NN')]

In [14]:
# !pip install spacy

In [15]:
import spacy

spacy.cli.download('en_core_web_sm')      # 직접 다운로드
spacy_nlp = spacy.load('en_core_web_sm')    # 로드

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [16]:
tokens= spacy_nlp(text)

for token in tokens:
    print(token.text, ":", token.pos_)

Time : NOUN
files : NOUN
like : ADP
an : DET
arrow : NOUN


### KoNLPy
- 한국어 자연어 처리를 위한 라이브러리
- 형태소 분석, 품사 태깅, 텍스트 전처리 등 기능 지원
- 여러 형태소 분석기 중 적합한 분석기 선택 가능

In [17]:
!pip install konlpy



In [21]:
from konlpy.tag import Okt

text = '나는 버스를 기다리고 있다. 지각은 면하겠군!'

okt = Okt()

morphs = okt.morphs(text)
morphs

['나', '는', '버스', '를', '기다리고', '있다', '.', '지각', '은', '면', '하겠군', '!']

In [24]:
# 형태소 분석
pos_tag = okt.pos(text)
pos_tag

[('나', 'Noun'),
 ('는', 'Josa'),
 ('버스', 'Noun'),
 ('를', 'Josa'),
 ('기다리고', 'Verb'),
 ('있다', 'Adjective'),
 ('.', 'Punctuation'),
 ('지각', 'Noun'),
 ('은', 'Josa'),
 ('면', 'Noun'),
 ('하겠군', 'Verb'),
 ('!', 'Punctuation')]

In [23]:
nouns = okt.nouns(text)
nouns

['나', '버스', '지각', '면']