# 토큰화 (Tokenization)
- 문장이나 단어를 더 작은 단위로 나누러 분석 가능한 단위(토큰, Token)으로 변환하는 과정
- 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 혹은 처리하는 단위로써 토큰 정의 
- 자연어 처리에서 크롤링, 데이터 수집 등으로 얻은 코퍼스 데이터는 정제되지 않은 경우가 많은데 이를 사용 용도에 맞게 토큰화, 정제, 정규화하는 과정이 필요

**토큰화 목적**
- 문법적 구조 이해 
- 유연한 데이터 활용

In [29]:
import nltk

# 기본적인 토큰 처리 지원
nltk.download('punkt')   # 토큰 처리 지원 리소스 
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [30]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
text = "NLP is fascinating. It has many applications in real-world scenarios."

# 단어 토큰화 
word_tokenize(text)

# 문장 토큰화 
sent_tokenize(text)

# 문장별 단어 토큰화 
for sentence in sent_tokenize(text):
    print(word_tokenize(sentence))

def tokenize_text(text):
    sentences = sent_tokenize(text)
    return [word_tokenize(sentence) for sentence in sentences]

tokenize_text(text)

['NLP', 'is', 'fascinating', '.']
['It', 'has', 'many', 'applications', 'in', 'real-world', 'scenarios', '.']


[['NLP', 'is', 'fascinating', '.'],
 ['It', 'has', 'many', 'applications', 'in', 'real-world', 'scenarios', '.']]

### Subword Tokenization
- 하위 단어 토큰화 
- BertTokenizer
    - 단어를 부분 단위로 쪼개어 희귀하거나 새로운 단어도 부분적으로 표현할 수 있도록 함 → 어휘 크기를 줄이고 다양한 언어 패턴 학습 가능 (어휘: voca의미)
    - 인코더에서 발전된 것 (자연어를 매우 잘 이해)- 전 교안 확인(발전 개요 )

In [31]:
# !pip install transformers

In [32]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# word = 'happy'
word = 'unhappiness'
subwords = tokenizer.tokenize(word)
subwords

## tokenizer 설치시 나오는 것들 설명
# tokenizer_config : 설정값 가지고 있음. 
# vocab :  bert가 가지고 있는 vocab 가지고 옴. 
# tokenizer.json :  단어와 토큰을 결합하기 위한 파일.
# config : 해당 토크나이저가 어떤 규칙과 설정을 기반으로 동작하는지 기록한 메타데이터. 모델과 토크나이저가 학습/추론 시에 일관되게 텍스트를 처리할 수 있도록 필요한 정보 가짐. 
# ['happy'] 반환 = happy를 토큰으로 가지고 있음. 

['un', '##ha', '##pp', '##iness']

In [33]:
tokenizer.tokenize(text)   # vocb에 존재하는 것은 그대로 반환. 없는 것은 존재하는 최소 단위로 반환 ( != 단어 개념)

['nl',
 '##p',
 'is',
 'fascinating',
 '.',
 'it',
 'has',
 'many',
 'applications',
 'in',
 'real',
 '-',
 'world',
 'scenarios',
 '.']

### 문자 단위 토큰화

In [34]:
list(word) # 하나하나의 문자를 배열형태로 가져옴

['u', 'n', 'h', 'a', 'p', 'p', 'i', 'n', 'e', 's', 's']

In [35]:
import re # 정규 표현식 패키지 - 문자열 검색하는 패키지 (내장 패키지)

text = 'Time flies like as arroe; fruit flies like a banana.'
re.findall(r'\b\w+\b', text)  # findall: text 안에서 전부 찾아내라 / r'\b\w+\b' : 이스케이핑 문자를 이용해서 \b(경계문자- 공백, 구두점) 문장 형태 표현. \w(문자, 숫자, 언더바). +(한개 이상) : 앞뒤로 공백이나 구두점이 있는 한글자 이상의 문자를 반환해라 
                              # 토큰화를 사용하지 않고도 토큰화한것처럼 반환

['Time',
 'flies',
 'like',
 'as',
 'arroe',
 'fruit',
 'flies',
 'like',
 'a',
 'banana']

In [36]:
# WordPunctTokenizer: 단어/구두점으로 토큰을 구분 (',- 포함 단어도 분리)
from nltk.tokenize import WordPunctTokenizer

text = "Don't hesitate ro use well-being practices for self-care."

word_punct_tokenizer = WordPunctTokenizer()
print(word_punct_tokenizer.tokenize(text))  # 문장 부호도 다 분리

print(word_tokenize(text))                  # 

['Don', "'", 't', 'hesitate', 'ro', 'use', 'well', '-', 'being', 'practices', 'for', 'self', '-', 'care', '.']
['Do', "n't", 'hesitate', 'ro', 'use', 'well-being', 'practices', 'for', 'self-care', '.']


In [37]:
from nltk.tokenize import TreebankWordTokenizer, word_tokenize # TreebankWordTokenizer: 표준적인 토큰화 규칙을 따르도록 만들어져있는 패키지

text = '''
COVID-10(전염병), Dr.Smith(의사), NASA(우주항공국) 등 특정 기관이나 명칭이 있다. 
특수 문자 또한 태그 <br>, 가격 $100.50, 2025/08/18 날짜 표현에 사용될 수 있다. 
이러한 경우, $100.50을 하나의 토큰으로 유지할 필요가 있다. 
'''

treebank_word_tokenizer = TreebankWordTokenizer()   
print(treebank_word_tokenizer.tokenize(text))   # 널리사용되는 법칙. 일반적으로 한국어에 대해서는 마지막 문장 구문에서 구두점만 구분함. 

print(word_tokenize(text)) # TreebankWordTokenizer를 차용해서 만들어짐 + 문장 분리 추가 (모든 구두점 분리)
# 비슷한 방식으로 구분함. 

['COVID-10', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/08/18', '날짜', '표현에', '사용될', '수', '있다.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']
['COVID-10', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다', '.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/08/18', '날짜', '표현에', '사용될', '수', '있다', '.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']


### 한국어 토큰화
- 교착어이기 때문에 단순 띄어쓰기로는 구분 어려움
- 형태소 구분이 필요함

In [38]:
# !pip install kss==5.0.0

In [39]:
# kss (Koran Sentence Splitter)
import kss

text = "시간적 배경은 1920년대의 겨울로, 공간적 배경은 경성부. 주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다. 아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다'는 김 첨지의 신조 때문으로 나오지만 사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다."

kss.split_sentences(text)   # 한국어를 제대로 이해했다고 보기는 어려움. bit 그래도 있었다~ 등 한국어 문장 단위를 고려했음을 알수 있음. 

['시간적 배경은 1920년대의 겨울로, 공간적 배경은 경성부.',
 '주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다.',
 "아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다'는 김 첨지의 신조 때문으로 나오지만 사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다",
 '는 이유가 더 크다.']

### 품사 태깅

**pos_tag**

pos_tag 는 자영어 처리(NLP)에서 단어에 품사를 태깅하는 함수로, 주로 NLTK와 같은 라이브러리에서 사용된다. 

** 깃 확인

In [None]:
nltk.download('averaged_perceptron_tagger_eng')  # 리소스 설치 

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger_eng.zip.


True

In [None]:
from nltk.tag import pos_tag

text = "Time flies like an arrow."
tokens = word_tokenize(text)
pos_tags = pos_tag(tokens)
pos_tags   # 품사 태깅 현황 반환 

[('Time', 'NNP'),
 ('flies', 'NNS'),
 ('like', 'IN'),
 ('an', 'DT'),
 ('arrow', 'NN'),
 ('.', '.')]

### spacy 주요 품사 태깅 - 깃 확인
** nltk는 교육연구용 목적으로 나옴 라이브러리 다른 라이브러리 spacy 사용해보기 (업무처리 과정에서 사용)

In [None]:
# !pip install spacy

Collecting spacy
  Using cached spacy-3.8.7-cp312-cp312-win_amd64.whl.metadata (28 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Using cached spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Using cached spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Using cached murmurhash-1.0.13-cp312-cp312-win_amd64.whl.metadata (2.2 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Using cached cymem-2.0.11-cp312-cp312-win_amd64.whl.metadata (8.8 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Using cached preshed-3.0.10-cp312-cp312-win_amd64.whl.metadata (2.5 kB)
Collecting thinc<8.4.0,>=8.3.4 (from spacy)
  Using cached thinc-8.3.6-cp312-cp312-win_amd64.whl.metadata (15 kB)
Collecting wasabi<1.2.0,>=0.9.1 (from spacy)
  Using cached wasabi-1.1.3-py3-none-any.whl.metadata (28 kB)
Collecting srsly<3.0.0,>=2.4.3 (from spacy)
  Using cached srsly-2.5.1-cp312-cp312

In [None]:
import spacy 

spacy.cli.download('en_core_web_sm')  # 영어모델 다운로드 (사용 전 1회는 반드시 다운로드)
spacy_nlp = spacy.load('en_core_web_sm')  # 로드 (사용할 때 마다 로드를 해야함)

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
tokens = spacy_nlp(text)  

for token in tokens : 
    print(token.text, ":", token.pos_)  # print tokens 를 했을 시에는 문장의 형태로 반환. 반복문의 형태로 반환해야 태깅된 품사 확인 가능

Time : NOUN
flies : VERB
like : ADP
an : DET
arrow : NOUN
. : PUNCT


### KoNLPy
- 한국어 자연어 처리를 위한 라이브러리 
- 형태소 분석, 품사 태깅, 텍스트 전처리 등 기능 지원
- 여러 형태소 분석기 중 적합한 분석기 선택 가능

In [53]:
!pip install konlpy

Collecting konlpy
  Using cached konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Using cached jpype1-1.6.0-cp312-cp312-win_amd64.whl.metadata (5.1 kB)
Collecting lxml>=4.1.0 (from konlpy)
  Using cached lxml-6.0.0-cp312-cp312-win_amd64.whl.metadata (6.8 kB)
Using cached konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
Using cached jpype1-1.6.0-cp312-cp312-win_amd64.whl (355 kB)
Using cached lxml-6.0.0-cp312-cp312-win_amd64.whl (4.0 MB)
Installing collected packages: lxml, JPype1, konlpy

   ---------------------------------------- 0/3 [lxml]
   ------------- -------------------------- 1/3 [JPype1]
   ---------------------------------------- 3/3 [konlpy]

Successfully installed JPype1-1.6.0 konlpy-0.6.0 lxml-6.0.0


In [None]:
from konlpy.tag import Okt

text = '오늘 점심은 뭘 먹어볼까. 맛있는 게 뭐지?'

okt = Okt()   # 한국어 형태소 분석기의 경우는 자바를 기반으로 만들어졌기 때문에 jvm에 맞춰져 있어야함. (okt, mecab/ 나머지 하나는 c++ 이 설치되어 있어야함. ) 
              ## 환경 변수 세팅
              # temurin jdk 검색. 윈도우 Temurin 17.0.16+8 - 07/23/2025 Zip파일 다운로드 
              # skn_17 안에 dev 폴더 생성 압축 해제 (경로에 한글이 없고, 특수문자가 없는 곳으로 지정)
              # window+r :  실행창 -> 'sysdm.cpl ,3' -> 시스템 속성 -> 환경변수 -> 시스템 변수 '새로만들기' -> 시스템 변수 path 수정 (JAVA_HOME 추가. 위로 올리기) - 블로그 사진 확인


morphs = okt.morphs(text)
morphs

['오늘', '점심', '은', '뭘', '먹어', '볼까', '.', '맛있는', '게', '뭐', '지', '?']

In [None]:
#pos를 이용한 품사 태깅
pos_tags = okt.pos(text)
pos_tags

[('오늘', 'Noun'),
 ('점심', 'Noun'),
 ('은', 'Josa'),
 ('뭘', 'Noun'),
 ('먹어', 'Verb'),
 ('볼까', 'Verb'),
 ('.', 'Punctuation'),
 ('맛있는', 'Adjective'),
 ('게', 'Noun'),
 ('뭐', 'Noun'),
 ('지', 'Josa'),
 ('?', 'Punctuation')]

In [4]:
# 명사 추출
nouns = okt.nouns(text)
nouns

['오늘', '점심', '뭘', '게', '뭐']