## 토큰화 (Tokenization)
- 문장이나 단어를 더 작은 단위로 나누어 분석 가능한 단위(토큰, Token)으로 변환하는 과정
- 토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 혹은 처리하는 단위로써 토큰 정의
- 자연어 처리에서 크롤링, 데이터 수집 등으로 얻은 코퍼스 데이터는 정제되지 않은 경우가 많은데 이를 사용 용도에 맞게 토큰화, 정제, 정규화하는 과정이 필요.

**토큰화 목적** 
- 문법적 구조 이해
- 유연한 데이터 활용 : 토큰화를 거처서 불필요한 불용어를 제거해서 의미있는 정보만 남김.

In [1]:
import nltk # 자연어 처리 패키지 : NLTK(Natural Language Toolkit)
# word_tokenize : 단어 토큰화 함수
# sent_tokenize : 문장 토큰화 함수
# nltk.download('punkt') 
#   - punkt 패키지 다운로드 (토큰화에 필요한 데이터)

text = "NLP is fascinating. It has many application in real-world scenarios."

# 단어 토큰화
words = nltk.word_tokenize(text)
print(words) # 공백을 기준으로 단어 토큰화

# 문장 토큰화
sentences = nltk.sent_tokenize(text)
print(sentences) # 문장부호(특수문자)를 기준으로 문장 토큰화

# 문장별 단어 토큰화
tokenized_sentences = [nltk.word_tokenize(sentence) for sentence in sentences]
print(tokenized_sentences) # 각 문장을 특수문자를 기준으로 단어로 토큰화

['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']
['NLP is fascinating.', 'It has many application in real-world scenarios.']
[['NLP', 'is', 'fascinating', '.'], ['It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']]


## Subword Tokenizing
- Subword : 하위 단어
- 단어를 더 작은 단위로 토큰화 (형태소 단위)
- vocabulary 사전에 없는 단어
- 데이터셋에 신조어가 있을 경우 다양한 패턴을 학습함으로써 의미를 이해할 수 있다.
- `BertTokenizer`
    - 단어를 부분 단위로 쪼개어 희귀하거나 새로운 단어도 부분적으로 표현할 수 있도록 함.
    - 어휘 크기를 줄이고 다양한 언어 패턴 학습 가능.
    - 자연어를 잘 이해함.
    - Subword 단위로 잘 쪼개는 역할을 함.
    
```
인코더 : 이해를 잘함
디코더 : 생성을 잘함
```

```
# 설치
!pip install transformers
```

In [2]:
from transformers import BertTokenizer 

# from_pretrained : 사전 학습된(pre-trained) BERT 모델의 토크나이저 로드
#    - bert-base-uncased : 소문자만 사용하는 기본 BERT 모델
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

word = "unhappiness"
subwords = tokenizer.tokenize(word) # 단어 토큰화 
print(subwords) # ['un', '##ha', '##pp', '##iness'] => ## : 서브워드임을 나타내는 접두사

# vocabulary 사전에 un은 있지만 happiness는 없음

['un', '##ha', '##pp', '##iness']


In [3]:
tokenizer.tokenize(text) 

# nltk.word_tokenize(text)로 단어 토큰화 한 것과 비교
# ['NLP', 'is', 'fascinating', '.', 'It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']

['nl',
 '##p',
 'is',
 'fascinating',
 '.',
 'it',
 'has',
 'many',
 'application',
 'in',
 'real',
 '-',
 'world',
 'scenarios',
 '.']

### 문자 단위 토큰화

In [4]:
###### 'unhappiness' 글자 단위로 토큰화(python 기본 함수 사용) ######

# 시퀀스 자료형을 개별 문자로 분리
char_tokens = list(word)
print(char_tokens) # ['u', 'n', 'h', 'a', 'p', 'p', 'i', 'n', 'e', 's', 's']

['u', 'n', 'h', 'a', 'p', 'p', 'i', 'n', 'e', 's', 's']


In [5]:
###### 정규 표현식(Regular Expression) ######
# 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어
# => 입력 형식에 맞게 입력이 되어 있는지 확인 할 수 있음.
import re

text = "Time flies like an arrow; fruit flies like a banana." 

# 정규 표현식으로 단어 토큰화
# r'' : raw string (이스케이프 문자 무시)
# \b : 단어 경계 문자 (단어의 시작과 끝 위치를 나타냄) => 공백, 문장 부호(특수문자) 등
# \w : 단어 문자 (알파벳, 숫자, _ ) 
# \w+ : 하나 이상의 단어 문자(알파벳, 숫자, 밑줄)
# findall : 패턴과 일치하는 모든 부분 문자열을 찾아 리스트로 반환
tokens = re.findall(r'\b\w+\b', text)
print(tokens)  


['Time', 'flies', 'like', 'an', 'arrow', 'fruit', 'flies', 'like', 'a', 'banana']


In [6]:
from nltk.tokenize import WordPunctTokenizer, word_tokenize

text = "Don't hesitate to use well-being practices for self-care."

# WordPunctTokenizer : 단어와 구두점을 모두 토큰으로 분리
# 단어와 구두점을 개별 토큰으로 분리 (', - 등도 개별 토큰으로 분리)
word_punct_tokenizer = WordPunctTokenizer()
print(word_punct_tokenizer.tokenize(text)) 

print(word_tokenize(text)) # 최대한 문법적인 단위로 토큰화

['Don', "'", 't', 'hesitate', 'to', 'use', 'well', '-', 'being', 'practices', 'for', 'self', '-', 'care', '.']
['Do', "n't", 'hesitate', 'to', 'use', 'well-being', 'practices', 'for', 'self-care', '.']


In [7]:
from nltk.tokenize import TreebankWordTokenizer

text = '''
COVID-19(전염병), Dr.Smith(의사), NASA(우주항공국) 등 특정 기관이나 명칭이 있다. 
특수 문자 또한 태그 <br>, 가격 $100.50, 2025/02/18 날짜표현에 사용될 수 있다. 
이러한 경우, $100.50을 하나의 토큰으로 유지할 필요가 있다.
'''

# TreebankWordTokenizer : Penn Treebank 표기법을 기반으로 단어 토큰화
# 특수문자와 숫자가 포함된 단어를 하나의 토큰으로 유지
treebank_word_tokenizer = TreebankWordTokenizer()
print(treebank_word_tokenizer.tokenize(text))

print(word_tokenize(text))

# [ 결과 ]
# word_tokenize와 TreebankWordTokenizer는 거의 같은 결과를 제공하지만,
# TreebankWordTokenizer는 특수 문자와 숫자가 포함된 단어를 하나의 토큰으로 유지하는 경향이 있다.

['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜표현에', '사용될', '수', '있다.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']
['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다', '.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜표현에', '사용될', '수', '있다', '.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']


### KSS (Korean Sentence Splitter)
한국어 문장 또는 한국어/영어 혼합 문장 등에 문장단위 토큰 지원

`!pip install kss==5.0.0`

In [8]:
import kss # 한국어 문장 토큰화 패키지

text = "배경은 1920년대의 경성부이다. 주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다. 아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다.'는 김 첨지의 신조 때문. 멍청이, 꼰대...가 아닐수 없다. 사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다."

# split_sentences() : 문장 단위 토큰화 함수
#     => 단순 구두점을 가지고 문장 토큰화하는 것이 아니라, 한국어 문장의 특성을 고려하여 문장 경계를 인식
# 교착어 : 어근에 조사나 어미가 붙어 다양한 형태로 변형되는 언어
kss.split_sentences(text) 

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363

  from_pos_data.costs[idx]
  least_cost += word_cost


['배경은 1920년대의 경성부이다.',
 '주인공이자 인력거꾼 김 첨지의 아내는 병에 걸린 지 1달 가량이 지나 있었다.',
 "아내는 단 한 번도 약을 먹어본 적이 없는데, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를 붙여서 자꾸 온다.'는 김 첨지의 신조 때문.",
 '멍청이, 꼰대...가 아닐수 없다.',
 '사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다.']

### 품사 태깅

**pos_tag**  

- pos_tag는 자연어 처리(NLP)에서 단어에 품사를 태깅하는 함수로, 주로 NLTK와 같은 라이브러리에서 사용된다.
- nltk pos_tag() 주요 품사 태깅<br>

1. **NN (Noun, Singular)**  
   단수 명사를 나타낸다. 하나의 사물이나 개념을 지칭한다.  
   예시: "cat", "book", "apple"

2. **NNS (Noun, Plural)**  
   복수 명사를 나타낸다. 두 개 이상의 사물이나 개념을 지칭한다.  
   예시: "cats", "books", "apples"

3. **NNP (Proper Noun, Singular)**  
   단수 고유 명사를 나타낸다. 특정한 사람, 장소 또는 조직의 이름을 지칭한다.  
   예시: "Alice", "London", "NASA"

4. **NNPS (Proper Noun, Plural)**  
   복수 고유 명사를 나타낸다. 두 개 이상의 특정한 사람, 장소 또는 조직의 이름을 지칭한다.  
   예시: "Smiths", "United Nations"

5. **VB (Verb, Base Form)**  
   동사의 원형을 나타낸다. 일반적으로 현재 시제와 함께 사용된다.  
   예시: "run", "eat", "play"

6. **VBD (Verb, Past Tense)**  
   동사의 과거형을 나타낸다.  
   예시: "ran", "ate", "played"

7. **VBG (Verb, Gerund or Present Participle)**  
   동명사 또는 현재 분사를 나타낸다. 일반적으로 "-ing" 형태이다.  
   예시: "running", "eating", "playing"

8. **VBN (Verb, Past Participle)**  
   동사의 과거 분사형을 나타낸다. 주로 완료 시제와 함께 사용된다.  
   예시: "run" (as in "has run"), "eaten", "played"

9. **VBZ (Verb, 3rd Person Singular Present)**  
   3인칭 단수 현재형 동사를 나타낸다. 주어가 3인칭 단수일 때 사용된다.  
   예시: "runs", "eats", "plays"

10. **JJ (Adjective)**  
    형용사를 나타낸다. 명사를 수식하여 그 특성을 설명한다.  
    예시: "big", "blue", "happy"

11. **JJR (Adjective, Comparative)**  
    비교급 형용사를 나타낸다. 두 개의 대상을 비교할 때 사용된다.  
    예시: "bigger", "bluer", "happier"

12. **JJS (Adjective, Superlative)**  
    최상급 형용사를 나타낸다. 세 개 이상의 대상을 비교할 때 사용된다.  
    예시: "biggest", "bluest", "happiest"

13. **RB (Adverb)**  
    부사를 나타낸다. 동사, 형용사 또는 다른 부사를 수식한다.  
    예시: "quickly", "very", "well"

14. **RBR (Adverb, Comparative)**  
    비교급 부사를 나타낸다. 두 개의 대상을 비교할 때 사용된다.  
    예시: "more quickly", "better"

15. **RBS (Adverb, Superlative)**  
    최상급 부사를 나타낸다. 세 개 이상의 대상을 비교할 때 사용된다.  
    예시: "most quickly", "best"

16. **IN (Preposition or Subordinating Conjunction)**  
    전치사 또는 종속 접속사를 나타낸다. 명사와의 관계를 나타내거나 종속절을 시작한다.  
    예시: "in", "on", "because"

17. **DT (Determiner)**  
    한정사를 나타낸다. 명사의 수와 상태를 정의한다.  
    예시: "the", "a", "some"

18. **PRP (Personal Pronoun)**  
    인칭 대명사를 나타낸다. 사람, 사물 등을 대체할 때 사용된다.  
    예시: "I", "you", "he", "they"

19. **PRP$ (Possessive Pronoun)**  
    소유 대명사를 나타낸다. 소유 관계를 나타낸다.  
    예시: "my", "your", "his", "their"



In [9]:
import nltk
nltk.download('averaged_perceptron_tagger') # 영문 전용 품사 태깅(POS tagging) 모델 데이터 다운로드

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\roxie\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [10]:
from nltk.tag import pos_tag

text = "Time flies like an arrow." 
tokens = word_tokenize(text)
post_tag = pos_tag(tokens)
post_tag


[('Time', 'NNP'),
 ('flies', 'NNS'),
 ('like', 'IN'),
 ('an', 'DT'),
 ('arrow', 'NN'),
 ('.', '.')]

**spacy 주요 품사 태깅**

| 태그 | 설명                 | 예시                 |
|------|----------------------|----------------------|
| ADJ  | 형용사               | big, nice           |
| ADP  | 전치사               | in, to, on          |
| ADV  | 부사                 | very, well          |
| AUX  | 조동사               | is, have (조동사로 사용될 때) |
| CONJ | 접속사               | and, or             |
| DET  | 한정사/관사          | the, a              |
| INTJ | 감탄사               | oh, wow             |
| NOUN | 명사                 | dog, table          |
| NUM  | 숫자                 | one, two, 3         |
| PART | 소사                 | 'to' (to fly에서), not |
| PRON | 대명사               | he, she, it         |
| PROPN| 고유명사             | John, France        |
| PUNCT| 구두점               | ., !, ?             |
| SCONJ| 종속 접속사          | because, if         |
| SYM  | 기호                 | $, %, @             |
| VERB | 동사                 | run, eat            |
| X    | 알 수 없는 품사       | 외국어 단어, 잘못된 형식 |

In [11]:
!pip install spacy



In [12]:
# spacy : 고성능 자연어 처리 패키지
import spacy

# spacy.cli.download() : 사전 학습된(pre-trained) SpaCy 모델 다운로드
# "en_core_web_sm" : 영어 소형 모델
spacy.cli.download("en_core_web_sm")  

# spacy.load() : 사전 학습된(pre-trained) SpaCy 모델 로드
spacy_nlp = spacy.load("en_core_web_sm") 

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [13]:
tokens = spacy_nlp(text) # 문장 토큰화 및 품사 태깅
print(tokens) # 문장이 그대로 출력되지만 내부적으로 토큰으로 나눠진 형태.

for token in tokens:
    print(token.text, ":", token.pos_) # 토큰화된 단어와 해당 단어의 품사 태그

Time flies like an arrow.
Time : NOUN
flies : VERB
like : ADP
an : DET
arrow : NOUN
. : PUNCT


### KoNLPy
- 한국어 자연어 처리를 위한 라이브러리
- 형태소 분석, 품사 태깅, 텍스트 전처리 등 기능 지원
- 여러 형태소 분석기 중 적합한 분석기 선택 가능

#### Error 
```bash
JVMNotFoundException: No JVM shared library file (jvm.dll) found.
```
- Okt는 자바 기반 라이브러리이므로, 자바 가상 머신(JVM)이 필요
=> 자바개발 키트(JDK) 설치 - temurin jdk

**다운로드**  
https://adoptium.net/temurin/releases/?version=17&os=any&arch=any  
Windows x64

**환경 변수 설정**  
제어판 -> 시스템 환경 변수 편집 -> 환경 변수(N)... -> 시스템 변수(S) -> 새로 만들기 -> 변수 이름 : JAVA_HOME, 변수 값 : D:\PlayDataStudy\dev\jdk-17.0.16+8

**확인 - cmd**  

```bash
$ java -version

# 17.0.16
```

In [14]:
!pip install konlpy



In [15]:
from konlpy.tag import Okt

text = "오늘 점심은 뭘 먹어볼까. 맛있는 게 뭐지?"
okt = Okt() # Okt 형태소 분석기 객체 생성 

# morphs() : 형태소 단위로 토큰화
morphs = okt.morphs(text) 
print(morphs)

### Error Example ###
# JVMNotFoundException: No JVM shared library file (jvm.dll) found.
# Okt는 자바 기반 라이브러리이므로, 자바 가상 머신(JVM)이 필요
# => 자바개발 키트(JDK) 설치 - temurin jdk

['오늘', '점심', '은', '뭘', '먹어', '볼까', '.', '맛있는', '게', '뭐', '지', '?']


In [16]:
pos_tags = okt.pos(text) # 형태소 단위로 토큰화 및 품사 태깅
print(pos_tags)

[('오늘', 'Noun'), ('점심', 'Noun'), ('은', 'Josa'), ('뭘', 'Noun'), ('먹어', 'Verb'), ('볼까', 'Verb'), ('.', 'Punctuation'), ('맛있는', 'Adjective'), ('게', 'Noun'), ('뭐', 'Noun'), ('지', 'Josa'), ('?', 'Punctuation')]


In [17]:
# 명사 추출
nouns = okt.nouns(text)
print(nouns)

['오늘', '점심', '뭘', '게', '뭐']
