# 토큰화
- 문장/단어 &rarr; 분석가능한 더 작은 단위로 나누기

**목적**
- 문법구조 이해
- 유연한 데이터 활용

In [1]:
text = "NLP is fascinating. It has many application in real-world scenarios."

In [2]:
import nltk
from string import punctuation

# 단어 토큰
word_tk = [t for t in nltk.word_tokenize(text) if t in punctuation]


# 문장 토큰
sent_tk = nltk.sent_tokenize(text)

# 문장별 단어 토큰
word_tk_per_sent = [nltk.word_tokenize(s) for s in sent_tk]

In [3]:
word_tk_per_sent

[['NLP', 'is', 'fascinating', '.'],
 ['It', 'has', 'many', 'application', 'in', 'real-world', 'scenarios', '.']]

### Subword Tokenize
- BertTokenizer: 단어를 부분단위로 쪼개어 희귀하거나 신조어도 부분적으로 표현가능 &rarr; 어휘 크기를 줄여 다양한 언어 패턴 학습가능

In [4]:
!pip install transformers



In [5]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

word = 'unhappiness'
subwords = tokenizer.tokenize(word)
subwords

"""
앞의 ## 은 subword의미
"""

'\n앞의 ## 은 subword의미\n'

In [6]:
tokenizer.tokenize(text)

['nl',
 '##p',
 'is',
 'fascinating',
 '.',
 'it',
 'has',
 'many',
 'application',
 'in',
 'real',
 '-',
 'world',
 'scenarios',
 '.']

#### 문자 단위 토큰

In [7]:
list(word)

['u', 'n', 'h', 'a', 'p', 'p', 'i', 'n', 'e', 's', 's']

In [8]:
import re # regular expression 정규표현식

corpus = [
    "The quick brown fox jumps over the lazy dog.",
    "Artificial intelligence is reshaping the future of technology.",
    "Data without context is meaningless.",
    "Go is designed for simplicity, concurrency, and performance.",
    "Python remains the dominant language for machine learning.",
    "Distributed systems require careful management of state and latency.",
    "Sustainable agriculture can benefit from predictive AI models.",
    "The server responded with a 500 internal error.",
    "Version control allows developers to collaborate safely.",
    "Training deep networks demands both data and computational power.",
    "Quantum computing may redefine the boundaries of encryption.",
    "Ethical AI must prioritize transparency and accountability.",
    "A scalable backend should handle thousands of concurrent users.",
    "The model’s performance improved after fine-tuning the parameters.",
    "React components make it easier to manage UI state."
]

text = corpus[0] + '; ' + corpus[1]
re.findall(r'\b\w+\b', text)

# r''   : 파이썬 raw text (이스케이핑 문자를 문자 그대로 처리)
#\b     : 경계 문자 (boundary / 공백, 구두점, ...)
#\w     : 글자 (word / 영문자, 숫자, _)
#\w+    : 수량자 (하나 이상)
#      => 경계 문자로 감싸인 하나 이상의 글자를 전부 찾아라



['The',
 'quick',
 'brown',
 'fox',
 'jumps',
 'over',
 'the',
 'lazy',
 'dog',
 'Artificial',
 'intelligence',
 'is',
 'reshaping',
 'the',
 'future',
 'of',
 'technology']

In [9]:
from nltk import WordPunctTokenizer, word_tokenize

text = corpus[3]

word_pumct_tokenizer = WordPunctTokenizer()
print(word_pumct_tokenizer.tokenize(text))

print(word_tokenize(text))

['Go', 'is', 'designed', 'for', 'simplicity', ',', 'concurrency', ',', 'and', 'performance', '.']
['Go', 'is', 'designed', 'for', 'simplicity', ',', 'concurrency', ',', 'and', 'performance', '.']


In [10]:
from nltk.tokenize import TreebankWordTokenizer

text = '''
COVID-19(전염병), Dr.Smith(의사), NASA(우주항공국) 등 특정 기관이나 명칭이 있다. 
특수 문자 또한 태그 <br>, 가격 $100.50, 2025/02/18 날짜표현에 사용될 수 있다. 
이러한 경우, $100.50을 하나의 토큰으로 유지할 필요가 있다.
'''

treebank_word_tokenizer = TreebankWordTokenizer()
print(treebank_word_tokenizer.tokenize(text))

print(word_tokenize(text))

['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜표현에', '사용될', '수', '있다.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']
['COVID-19', '(', '전염병', ')', ',', 'Dr.Smith', '(', '의사', ')', ',', 'NASA', '(', '우주항공국', ')', '등', '특정', '기관이나', '명칭이', '있다', '.', '특수', '문자', '또한', '태그', '<', 'br', '>', ',', '가격', '$', '100.50', ',', '2025/02/18', '날짜표현에', '사용될', '수', '있다', '.', '이러한', '경우', ',', '$', '100.50을', '하나의', '토큰으로', '유지할', '필요가', '있다', '.']


### 한국어 토큰화

In [11]:
!pip install kss==5.0.0



In [12]:
# 한영혼합도 가능
import kss

text = "배경은 1920년대의 경성부이다. 주인공이자 인력거꾼 김 첨지의 아내는 코로나에 걸린 지 1달 가량이 지나 있었다. my wife는 단 한 번도 백신을 맞아본 적이 없어 like forever never, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를붙여서자꾸온다. '는 김 첨지의 신조 때문. like 멍청이, 꼰대... 사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다. so sad"

kss.split_sentences(text)

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://cleancode-ws.tistory.com/97
- konlpy.tag.Mecab: https://uwgdqo.tistory.com/363

  from_pos_data.costs[idx]


['배경은 1920년대의 경성부이다.',
 '주인공이자 인력거꾼 김 첨지의 아내는 코로나에 걸린 지 1달 가량이 지나 있었다.',
 "my wife는 단 한 번도 백신을 맞아본 적이 없어 like forever never, 그 이유는 '병이란 놈에게 약을 주어 보내면 재미를붙여서자꾸온다. '는 김 첨지의 신조 때문.",
 'like 멍청이, 꼰대...',
 '사실 이건 핑계고, 약을 살 돈도 벌지 못하고 있었다는 이유가 더 크다.',
 'so sad']

### 품사 태깅 **Pos Tag**

- nltk pos_tag() 주요 품사 태깅<br>

1. **NN (Noun, Singular)**  
   단수 명사를 나타낸다. 하나의 사물이나 개념을 지칭한다.  
   예시: "cat", "book", "apple"

2. **NNS (Noun, Plural)**  
   복수 명사를 나타낸다. 두 개 이상의 사물이나 개념을 지칭한다.  
   예시: "cats", "books", "apples"

3. **NNP (Proper Noun, Singular)**  
   단수 고유 명사를 나타낸다. 특정한 사람, 장소 또는 조직의 이름을 지칭한다.  
   예시: "Alice", "London", "NASA"

4. **NNPS (Proper Noun, Plural)**  
   복수 고유 명사를 나타낸다. 두 개 이상의 특정한 사람, 장소 또는 조직의 이름을 지칭한다.  
   예시: "Smiths", "United Nations"

5. **VB (Verb, Base Form)**  
   동사의 원형을 나타낸다. 일반적으로 현재 시제와 함께 사용된다.  
   예시: "run", "eat", "play"

6. **VBD (Verb, Past Tense)**  
   동사의 과거형을 나타낸다.  
   예시: "ran", "ate", "played"

7. **VBG (Verb, Gerund or Present Participle)**  
   동명사 또는 현재 분사를 나타낸다. 일반적으로 "-ing" 형태이다.  
   예시: "running", "eating", "playing"

8. **VBN (Verb, Past Participle)**  
   동사의 과거 분사형을 나타낸다. 주로 완료 시제와 함께 사용된다.  
   예시: "run" (as in "has run"), "eaten", "played"

9. **VBZ (Verb, 3rd Person Singular Present)**  
   3인칭 단수 현재형 동사를 나타낸다. 주어가 3인칭 단수일 때 사용된다.  
   예시: "runs", "eats", "plays"

10. **JJ (Adjective)**  
    형용사를 나타낸다. 명사를 수식하여 그 특성을 설명한다.  
    예시: "big", "blue", "happy"

11. **JJR (Adjective, Comparative)**  
    비교급 형용사를 나타낸다. 두 개의 대상을 비교할 때 사용된다.  
    예시: "bigger", "bluer", "happier"

12. **JJS (Adjective, Superlative)**  
    최상급 형용사를 나타낸다. 세 개 이상의 대상을 비교할 때 사용된다.  
    예시: "biggest", "bluest", "happiest"

13. **RB (Adverb)**  
    부사를 나타낸다. 동사, 형용사 또는 다른 부사를 수식한다.  
    예시: "quickly", "very", "well"

14. **RBR (Adverb, Comparative)**  
    비교급 부사를 나타낸다. 두 개의 대상을 비교할 때 사용된다.  
    예시: "more quickly", "better"

15. **RBS (Adverb, Superlative)**  
    최상급 부사를 나타낸다. 세 개 이상의 대상을 비교할 때 사용된다.  
    예시: "most quickly", "best"

16. **IN (Preposition or Subordinating Conjunction)**  
    전치사 또는 종속 접속사를 나타낸다. 명사와의 관계를 나타내거나 종속절을 시작한다.  
    예시: "in", "on", "because"

17. **DT (Determiner)**  
    한정사를 나타낸다. 명사의 수와 상태를 정의한다.  
    예시: "the", "a", "some"

18. **PRP (Personal Pronoun)**  
    인칭 대명사를 나타낸다. 사람, 사물 등을 대체할 때 사용된다.  
    예시: "I", "you", "he", "they"

19. **PRP$ (Possessive Pronoun)**  
    소유 대명사를 나타낸다. 소유 관계를 나타낸다.  
    예시: "my", "your", "his", "their"

**spacy 주요 품사 태깅**

| 태그 | 설명                 | 예시                 |
|------|----------------------|----------------------|
| ADJ  | 형용사               | big, nice           |
| ADP  | 전치사               | in, to, on          |
| ADV  | 부사                 | very, well          |
| AUX  | 조동사               | is, have (조동사로 사용될 때) |
| CONJ | 접속사               | and, or             |
| DET  | 한정사/관사          | the, a              |
| INTJ | 감탄사               | oh, wow             |
| NOUN | 명사                 | dog, table          |
| NUM  | 숫자                 | one, two, 3         |
| PART | 소사                 | 'to' (to fly에서), not |
| PRON | 대명사               | he, she, it         |
| PROPN| 고유명사             | John, France        |
| PUNCT| 구두점               | ., !, ?             |
| SCONJ| 종속 접속사          | because, if         |
| SYM  | 기호                 | $, %, @             |
| VERB | 동사                 | run, eat            |
| X    | 알 수 없는 품사       | 외국어 단어, 잘못된 형식 |

In [13]:
import nltk
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

In [14]:
from nltk.tag import pos_tag

text = "time flies like an arrow."
tokens = word_tokenize(text)
pos_tag = pos_tag(tokens)
pos_tag

[('time', 'NN'),
 ('flies', 'NNS'),
 ('like', 'IN'),
 ('an', 'DT'),
 ('arrow', 'NN'),
 ('.', '.')]

In [15]:
!pip install spacy



In [16]:
import spacy

spacy.cli.download('en_core_web_sm')
spacy_nlp = spacy.load('en_core_web_sm')

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [17]:
tokens = spacy_nlp(text) # 토큰으로 나누고 다시 매핑함
print(tokens, end='\n\n')

for token in tokens:
    print(token.text, ":", token.pos_)

time flies like an arrow.

time : NOUN
flies : VERB
like : ADP
an : DET
arrow : NOUN
. : PUNCT


### KoNLPy
- 형태소 분석, 품사태깅, 텍스트 전처리 지원
- 여러 형태소 분석기 중 적합한 것 선택 가능

In [18]:
!pip install konlpy



In [28]:
from konlpy.tag import Okt

text = "오늘 뭐 먹지? 맛있는게 뭐냐?"
okt = Okt()
morphs = okt.morphs(text)
morphs

['오늘', '뭐', '먹지', '?', '맛있는게', '뭐', '냐', '?']

In [29]:
# 품사 태깅
pos_tags = okt.pos(text)
pos_tags

[('오늘', 'Noun'),
 ('뭐', 'Noun'),
 ('먹지', 'Verb'),
 ('?', 'Punctuation'),
 ('맛있는게', 'Adjective'),
 ('뭐', 'Noun'),
 ('냐', 'Josa'),
 ('?', 'Punctuation')]

In [31]:
# 명사 추출
nouns = okt.nouns(text)
nouns

['오늘', '뭐', '뭐']