토큰화(Tokenization)는 자연어 처리에서 코퍼스를 의미 있는 단위로 나누는 과정입니다. 주요 개념과 고려할 사항은 다음과 같습니다.

1. 단어 토큰화 (Word Tokenization)
  - 단어를 기준으로 텍스트를 나누는 작업입니다.
  - 구두점(punctuation) 제거가 일반적이지만 의미를 잃을 수도 있습니다.
  - 영어에서는 아포스트로피 등의 처리 방식이 다를 수 있으며, NLTK, Keras 등을 활용한 다양한 방법이 존재합니다.

2. 토큰화 중 선택의 문제
  - 예를 들어 "Don't"는 Do n't, Dont, Don ' t 등으로 분리할 수 있습니다.
  - NLTK의 word_tokenize, WordPunctTokenizer, Keras의 text_to_word_sequence 등의 도구들이 다른 방식으로 토큰화를 수행합니다.

3. 토큰화 시 고려 사항
  - 구두점이나 특수문자를 무조건 제거하면 의미가 사라질 수 있음.
  - 단어 내부에 띄어쓰기가 포함된 경우 고려 필요 (예: "New York").
  - 표준 토큰화 방식 (예: Penn Treebank Tokenization)에서는 하이픈 단어를 유지하고, 아포스트로피를 분리하는 규칙 적용.

4. 문장 토큰화 (Sentence Tokenization)
  - 문장을 기준으로 텍스트를 나누는 작업.
  - NLTK의 sent_tokenize는 마침표(.)가 포함된 약어(ex. Ph.D.) 등을 적절히 처리함.
   -한국어에서는 KSS(Korean Sentence Splitter) 같은 도구를 활용.
  
5. 한국어에서의 토큰화의 어려움
  - 한국어는 교착어 특성상 단순 띄어쓰기 기반 토큰화가 어렵고, 형태소 분석이 필요.
  - 형태소 분석기 (KoNLPy의 Okt, Komoran, Hannanum, Mecab) 사용이 일반적.

NLTK, Keras, KoNLPy, KSS 단어 및 문장 토큰화

In [1]:
!pip install nltk kss konlpy tensorflow

Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting emoji==1.2.0 (from kss)
  Downloading emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m41.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jamo (from kss)
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Collecting hangul-jamo (from kss)
  Downloading hangul_jamo-1.0.1-py3-none-any.whl.metadata (899 bytes)
Collecting tossi (from kss)
  Downloading tossi-0.3.1.tar.gz (11 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting distance (fr

In [3]:
import nltk
from nltk.tokenize import word_tokenize, WordPunctTokenizer, sent_tokenize
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from konlpy.tag import Okt

In [5]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [7]:
# 단어토큰화 (영어)
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."