토큰화(Tokenization)는 자연어 처리에서 코퍼스를 의미 있는 단위로 나누는 과정입니다. 주요 개념과 고려할 사항은 다음과 같습니다.

1. 단어 토큰화 (Word Tokenization)
  - 단어를 기준으로 텍스트를 나누는 작업입니다.
  - 구두점(punctuation) 제거가 일반적이지만 의미를 잃을 수도 있습니다.
  - 영어에서는 아포스트로피 등의 처리 방식이 다를 수 있으며, NLTK, Keras 등을 활용한 다양한 방법이 존재합니다.

2. 토큰화 중 선택의 문제
  - 예를 들어 "Don't"는 Do n't, Dont, Don ' t 등으로 분리할 수 있습니다.
  - NLTK의 word_tokenize, WordPunctTokenizer, Keras의 text_to_word_sequence 등의 도구들이 다른 방식으로 토큰화를 수행합니다.

3. 토큰화 시 고려 사항
  - 구두점이나 특수문자를 무조건 제거하면 의미가 사라질 수 있음.
  - 단어 내부에 띄어쓰기가 포함된 경우 고려 필요 (예: "New York").
  - 표준 토큰화 방식 (예: Penn Treebank Tokenization)에서는 하이픈 단어를 유지하고, 아포스트로피를 분리하는 규칙 적용.

4. 문장 토큰화 (Sentence Tokenization)
  - 문장을 기준으로 텍스트를 나누는 작업.
  - NLTK의 sent_tokenize는 마침표(.)가 포함된 약어(ex. Ph.D.) 등을 적절히 처리함.
   -한국어에서는 KSS(Korean Sentence Splitter) 같은 도구를 활용.
  
5. 한국어에서의 토큰화의 어려움
  - 한국어는 교착어 특성상 단순 띄어쓰기 기반 토큰화가 어렵고, 형태소 분석이 필요.
  - 형태소 분석기 (KoNLPy의 Okt, Komoran, Hannanum, Mecab) 사용이 일반적.

NLTK, Keras, KoNLPy, KSS 단어 및 문장 토큰화

In [1]:
!pip install nltk kss konlpy tensorflow

Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m11.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting emoji==1.2.0 (from kss)
  Downloading emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m41.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jamo (from kss)
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Collecting hangul-jamo (from kss)
  Downloading hangul_jamo-1.0.1-py3-none-any.whl.metadata (899 bytes)
Collecting tossi (from kss)
  Downloading tossi-0.3.1.tar.gz (11 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting distance (fr

In [3]:
import nltk
from nltk.tokenize import word_tokenize, WordPunctTokenizer, sent_tokenize
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from konlpy.tag import Okt

In [9]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [10]:
# 단어토큰화 (영어)
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [14]:
print("word_tokenize:",word_tokenize(text)) # 공백을 기준으로단어를 분리, 어포스트로피를 적절히 분리
print("WordPunctTokenizer:",WordPunctTokenizer().tokenize(text)) # 모든 구두점을 별도로 분리
print("sent_tokenize:",text_to_word_sequence(text)) # 소문자로 변환, 구두점을 제거하지만 어포스트로피는 유지

word_tokenize: ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']
WordPunctTokenizer: ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']
sent_tokenize: ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


문장 토큰화

In [15]:
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff."

In [17]:
for sentence in sent_tokenize(text):  # 마침표를  기준으로 문장을 나누지만 문장 내부의 마침표는 잘 처리
  print(sentence)

His barber kept his word.
But keeping such a huge secret to himself was driving him crazy.
Finally, the barber went up a mountain and almost to the edge of a cliff.


In [18]:
text = 'I am actively looking for Ph.D. students. And you are a Ph.D student.'
for sentence in sent_tokenize(text):  # 마침표를  기준으로 문장을 나누지만 문장 내부의 마침표는 잘 처리
  print(sentence)

I am actively looking for Ph.D. students.
And you are a Ph.D student.


한국어

In [19]:
okt = Okt()
text = '자연어 처리는 어렵지만 재미있습니다.'
print("형태소 단위 토큰화", okt.morphs(text))
print("명사 추출",okt.nouns(text))
print("품사 태깅",okt.pos(text))

형태소 단위 토큰화 ['자연어', '처리', '는', '어렵지만', '재미있습니다', '.']
명사 추출 ['자연어', '처리']
품사 태깅 [('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('어렵지만', 'Adjective'), ('재미있습니다', 'Adjective'), ('.', 'Punctuation')]


  - 정제
    - 텍스트에서 노이즈 데이터를 제거
    - 노이즈 데이터 : 의미없는 특수문자, 중복된 공백, 불필요한 단어등
    - 불용어(stopwords)제거, 등장 빈도가 적은 단어 삭제 등의 작업
  - 정규화
    - 의미는 같지만 다른형태로 표현된 단어를 통합하는 과정
    - 방법
      - 대소문자 통합: "KOREA", "Korea", "korea"
      - 표현 방식 통합 : "KOREA", "KOR", "USA" ,"US"
      - 어간 추출(Stemming)과 표제어 추출(Lemmatation) : "running" -> "run" 단어의 기본형으로 변환
  - 불필요한 단어 제거
    - 등장빈도가 낮은단어
    - 짧은 단어(1~2자) 제거
  - 정규표현식(Regrex)활용
    - 특정패턴제거(html, 날짜, 특수기호)
    - 텍스트 정제 과정에서 반복적으로 등장하는 패턴을 처리


정제와 정규화 함수

In [21]:
import re
from collections import Counter  # 등장빈도수구해서 낮은 등장횟수는 제거할 용도
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords # 불용어
from nltk.stem import PorterStemmer, WordNetLemmatizer
import nltk
nltk.download('stopwords')
nltk.download('punkt_tab')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

어간:
  - 단어에서 접사(prefix, suffix) 제거
  - 의미가 왜곡 될수 있음
  - going :  go
  - files :  fli  X
  - happily  lappili  X
  - running run
표제어
  - 문법적 정보(품사)를 고려해서 사전에 등재된 기본형으로 변환
  - 사전을 이용 단어의 원형을 찾을수 있다
  - 어간보다 더 복잡한 연산을 수행
  - going :  go
  - files :  fly
  - happily  happy
  - running run   

어간추출 vs 표제어 추출
- 방식  :  단순규칙기반 접사 제거   -  사전 기반 변환
- 속도  :   빠름                    - 느림
- 정확성 :   낮음(의미변환)         -  높음(문법적 의미 유지)

- 빠른 텍스트 분석 : 어간추출
- 정화기한 의미를 보전 : 표제어 추출
- 대량의 데이터에서 성능 최적화 : 어간 추출
- 언어의 정확성이 중요한 모델 : 표제어 추출



In [23]:
# 정제와정규화(대소문자, 특수문자, 불용어&짧은단어,
# 어간&표제어 추출)
def clean_text(text):
  # 대소문자
  text = text.lower()
  # 특수문자 제거
  text = re.sub('[^a-zA-Z\s]', '', text)
  # 불용어&짧은단어
  words = word_tokenize(text)
  stop_words = set(stopwords.words('english'))  # 불용어 사전을 가져온다
  words = [word for word in words if word not in stop_words and len(word) > 2]
  # 표기정규화(어간, 표제어)
  stemmer = PorterStemmer()  #어간
  lemmatizer = WordNetLemmatizer() # 표제어
  stemmed_words = [stemmer.stem(word) for word in words]
  lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

  return ' '.join(stemmed_words), ' '.join(lemmatized_words)


In [28]:
test_text = "I was wondering if anyone out there could enlighten me on this car. US and USA are similar. The automobile is expensive!"
# 정제후 결과
stemmed_text, lemmatized_text =  clean_text(test_text)

In [29]:
print(stemmed_text)
print(lemmatized_text)

wonder anyon could enlighten car usa similar automobil expens
wondering anyone could enlighten car usa similar automobile expensive


불용어(stop_words)
  - 자주 등장하지만 의미 분석에 큰 기여를 하지 안히는 단어
  - 영어 : i my me the is an  over
  - 한국어 : 조사(를, 에서) 접속사(그리고, 그러나), 관형사(이 그 저)

In [31]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
# 불용어 확인
stop_words_list = stopwords.words("english")
stop_words_list[:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']

In [39]:
# NLTK를 이용한 불용어제거
text = "Family is not an important thing. It's everything."
stop_words = stopwords.words("english")
stop_words = set(stop_words + ['.',"'s"])  # 사용자가 추가한 stopword(불용어)
# 문장을 토큰화
word_tokens =  word_tokenize(text)

result = [ word for word in word_tokens if word not in stop_words]

print('제거 전',word_tokens)
print('제거 후',result)

제거 전 ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
제거 후 ['Family', 'important', 'thing', 'It', 'everything']


In [40]:
clean_text(text)

('famili import thing everyth', 'family important thing everything')

https://github.com/stopwords-iso/stopwords-ko?ref=deep.chulgil.me

In [42]:
!npm  install stopwords-ko

[1G[0K⠙[1G[0K⠹[1G[0K⠸[1G[0K⠼[1G[0K⠴[1G[0K⠦[1G[0K⠧[1G[0K⠇[1G[0K⠏[1G[0K⠋[1G[0K⠙[1G[0K⠹[1G[0K
added 1 package in 2s
[1G[0K⠹[1G[0K

In [43]:
!wget "https://registry.npmjs.org/stopwords-ko/-/stopwords-ko-0.2.0.tgz"

--2025-02-24 11:37:56--  https://registry.npmjs.org/stopwords-ko/-/stopwords-ko-0.2.0.tgz
Resolving registry.npmjs.org (registry.npmjs.org)... 104.16.25.34, 104.16.0.35, 104.16.1.35, ...
Connecting to registry.npmjs.org (registry.npmjs.org)|104.16.25.34|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5166 (5.0K) [application/octet-stream]
Saving to: ‘stopwords-ko-0.2.0.tgz’


2025-02-24 11:37:56 (49.1 MB/s) - ‘stopwords-ko-0.2.0.tgz’ saved [5166/5166]



In [44]:
!tar -zxvf stopwords-ko-0.2.0.tgz

package/package.json
package/.npmignore
package/README.md
package/LICENSE
package/bower.json
package/stopwords-ko.json
package/.travis.yml


In [47]:
import json
with open('/content/package/stopwords-ko.json') as f:
  stop_words = json.load(f)

In [49]:
len(stop_words), stop_words[:5]

(679, ['!', '"', '$', '%', '&'])

In [None]:
# 한국어에서 불용어 제거  okt
# 한국어 형태소 분석기
okt = Okt()
example = '화사, 박나래와 "전화 차단" 선언 후 "큰엄마 같아, 사랑해"'

