# Do not run this file on Windows


# Tokenization 개념
주어진 텍스트에서 토큰이라고 불리는 단위로 나누는 작업. 토큰화(Tokenization)이라고 한다.

토큰의 단위는 상황에 따라 다르지만, 거의 보통 단어(word) 또는 서브워드(subword)단위로 나누게 됩니다.

# Word Tokenization

## 영어 : Word Tokenization
- 영어 관련된 토큰화를 수행할 때는 nltk를 많이 사용
- Spacy도 활용을 많이 함


In [1]:
import nltk

# 미국에서 사용하는 표준 토크나이저.
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [2]:
sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

In [3]:
# 기본 word_tokenizer를 사용하여 단어 토큰 추출
from nltk.tokenize import word_tokenize
word_tokenize(sentence)

['Do',
 "n't",
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr.',
 'Jone',
 "'s",
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '.']

Don't를 Do와 n't로 분리하였으며, Jone's는 Jone과 's로 분리

In [4]:
# WordPunctTokenizer
from nltk.tokenize import WordPunctTokenizer

tokenizer = WordPunctTokenizer()
tokenizer.tokenize(sentence)

['Don',
 "'",
 't',
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr',
 '.',
 'Jone',
 "'",
 's',
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '.']

Don't를 Don과 '와 t로 분리하였으며, Jone's를 Jone과 '와 s로 분리

In [5]:
# TreebankWordTokenizer
#  - Penn Treebank Tokenizer 규칙
# 하이푼으로 구성된 단어는 하나로 유지한다.
# doesn't와 같이 어포스트로피로 접어가 함께하는 단어는 분리해준다.
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()
tokenizer.tokenize(sentence)

['Do',
 "n't",
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr.',
 'Jone',
 "'s",
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '.']

# 한국어 : WordTokenization(Konlpy)

In [None]:
!pip install konlpy

In [None]:
!pip install mecab-python
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

In [8]:
from konlpy.tag import Hannanum, Kkma, Komoran, Okt, Mecab

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt = Okt()
mecab = Mecab()

한국어 형태소 분석기는 공통함수를 갖는다.
- nouns : 명사만 추출
- morphs : 형태소 추출
- pos : 형태소 추출 및 품사 부착

## Okt(Open Korean Tag)

In [9]:
sentence = "올해 여름 휴가는 어디에도 못가서 슬퍼요"

print(okt.nouns(sentence))
print(okt.morphs(sentence))
print(okt.pos(sentence))

['올해', '여름', '휴가', '어디']
['올해', '여름', '휴가', '는', '어디', '에도', '못', '가서', '슬퍼요']
[('올해', 'Noun'), ('여름', 'Noun'), ('휴가', 'Noun'), ('는', 'Josa'), ('어디', 'Noun'), ('에도', 'Josa'), ('못', 'VerbPrefix'), ('가서', 'Verb'), ('슬퍼요', 'Adjective')]


In [10]:
## okt의 정규화, 어간 추출
## 정규화 : 오늘 강남역에서 약속이 취소됐닼ㅋㅋㅋ -> 취소됐다ㅋㅋㅋ
print(okt.morphs("오늘 강남역에서 약속이 취소됐닼ㅋㅋㅋ", norm=True))

## 어간 추출(Lemma) : 올해 여름 휴가는 어디에도 못가서 슬퍼요 -> 못 가다, 슬프다
print(okt.morphs(sentence, stem=True))

print(okt.morphs("오늘 강남역에서 약속이 취소됐닼ㅋㅋㅋ", norm=True, stem=True))

['오늘', '강남역', '에서', '약속', '이', '취소', '됐다', 'ㅋㅋㅋ']
['올해', '여름', '휴가', '는', '어디', '에도', '못', '가다', '슬프다']
['오늘', '강남역', '에서', '약속', '이', '취소', '돼다', 'ㅋㅋㅋ']


## Kkma(꼬꼬마)

In [11]:
print(kkma.nouns(sentence))
print(kkma.morphs(sentence))
print(kkma.pos(sentence))

['올해', '여름', '휴가', '어디']
['올해', '여름', '휴가', '는', '어디', '에', '도', '못', '가', '아서', '슬프', '어요']
[('올해', 'NNG'), ('여름', 'NNG'), ('휴가', 'NNG'), ('는', 'JX'), ('어디', 'NP'), ('에', 'JKM'), ('도', 'JX'), ('못', 'MAG'), ('가', 'VV'), ('아서', 'ECD'), ('슬프', 'VA'), ('어요', 'EFN')]


## 코모란

In [12]:
print(komoran.nouns(sentence))
print(komoran.morphs(sentence))
print(komoran.pos(sentence))

['올해', '여름', '휴가']
['올해', '여름', '휴가', '는', '어디', '에', '도', '못', '가', '아서', '슬프', '어요']
[('올해', 'NNG'), ('여름', 'NNG'), ('휴가', 'NNP'), ('는', 'JX'), ('어디', 'NP'), ('에', 'JKB'), ('도', 'JX'), ('못', 'MAG'), ('가', 'VV'), ('아서', 'EC'), ('슬프', 'VA'), ('어요', 'EC')]


## 한나눔

In [13]:
print(hannanum.nouns(sentence))
print(hannanum.morphs(sentence))
print(hannanum.pos(sentence))

['올해', '여름', '휴가', '어디', '못가']
['올해', '여름', '휴가', '는', '어디', '에도', '못가', '서', '슬프', '어요']
[('올해', 'N'), ('여름', 'N'), ('휴가', 'N'), ('는', 'J'), ('어디', 'N'), ('에도', 'J'), ('못가', 'N'), ('서', 'J'), ('슬프', 'P'), ('어요', 'E')]


## Mecab
- 실무에서도 가장 많이 사용되는 형태소 분석기 중 하나
- Khaii 도 많이 쓴다.
- 리눅스 기반에서만 작동이 가능!

In [14]:
print(mecab.nouns(sentence))
print(mecab.morphs(sentence))
print(mecab.pos(sentence))

['올해', '여름', '휴가', '어디']
['올해', '여름', '휴가', '는', '어디', '에', '도', '못', '가', '서', '슬퍼요']
[('올해', 'NNG'), ('여름', 'NNG'), ('휴가', 'NNG'), ('는', 'JX'), ('어디', 'NP'), ('에', 'JKB'), ('도', 'JX'), ('못', 'MAG'), ('가', 'VV'), ('서', 'EC'), ('슬퍼요', 'VA+EC')]


**각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에**, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다. 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다.



# Sentence Tokenization
- 단어 토큰화 보다 사용 빈도가 낮다.
- 예를 들어 어떤 웹 페이지를 크롤링 하거나, PDF나, 문서 등에서 텍스트를 추출한 경우 문장 말뭉치(corpus)를 구성해야 할 때 보통 사용

## 영어 : sent_tokenize

In [15]:
sentences = """Simone Biles tells CNN competing in Paris “meant the world” after her struggles at Tokyo 2020.
The US Women’s Soccer Team advances to its first Olympic final since 2012 London after defeating Germany 1-0 in extra time on Tuesday.
LeBron James and Team USA rolled over Brazil, 122-87, on their to the semifinals of the men’s basketball tournament.
"""

문장을 세그멘테이션 할 때 온점 ( . )만을 사용하는게 맞을까?
- 위험한 생각! IP 주소, Mr. Miss. Mrs. Ph.
- 물음표(?)나 느낌표(!) 같은 경우는 확실하게 문장이 끝났음을 의미하는 경우가 많다

In [16]:
from nltk.tokenize import sent_tokenize

print(sent_tokenize(sentences))

['Simone Biles tells CNN competing in Paris “meant the world” after her struggles at Tokyo 2020.', 'The US Women’s Soccer Team advances to its first Olympic final since 2012 London after defeating Germany 1-0 in extra time on Tuesday.', 'LeBron James and Team USA rolled over Brazil, 122-87, on their to the semifinals of the men’s basketball tournament.']


In [17]:
for sent in sent_tokenize(sentences):
  print(sent)

Simone Biles tells CNN competing in Paris “meant the world” after her struggles at Tokyo 2020.
The US Women’s Soccer Team advances to its first Olympic final since 2012 London after defeating Germany 1-0 in extra time on Tuesday.
LeBron James and Team USA rolled over Brazil, 122-87, on their to the semifinals of the men’s basketball tournament.


In [18]:
sentence = "My IP Address is 192.168.56.101. Report to mhso.developer@gmail.com"
sent_tokenize(sentence)

['My IP Address is 192.168.56.101.', 'Report to mhso.developer@gmail.com']

## 한국어 : kss

In [19]:
!pip install kss

Collecting kss
  Downloading kss-6.0.4.tar.gz (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting emoji==1.2.0 (from kss)
  Downloading emoji-1.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting pecab (from kss)
  Downloading pecab-1.0.8.tar.gz (26.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m26.4/26.4 MB[0m [31m37.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting jamo (from kss)
  Downloading jamo-0.4.1-py3-none-any.whl.metadata (2.3 kB)
Collecting hangul-jamo (from kss)
  Downloading hangul_jamo-1.0.1-py3-none-any.whl.metadata (899 bytes)
Collecting tossi (from kss)
  Downloading tossi-0.3.1.tar.gz (11 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting distance (from kss)
  Downloading Distance-0.1.3.tar.gz (180 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━

In [20]:
import kss

sentence="""오래 된 사진을 모닥불 앞에서 펼쳐 멍하니 멍하니 바라보았어.
한참을 미루던 맘을 전해보려해.
천천히 천천히 너에게 다가갈게.
"""

kss.split_sentences(sentence)




['오래 된 사진을 모닥불 앞에서 펼쳐 멍하니 멍하니 바라보았어.',
 '한참을 미루던 맘을 전해보려해.',
 '천천히 천천히 너에게 다가갈게.']

# LLM Tokenization
- 원래는 PLM(Pretrained Language Model)
- Large Language Model

In [21]:
!pip install transformers



In [22]:
from transformers import PreTrainedTokenizerFast

In [23]:
# 사전 학습된 huggingface 의 tokenizer 가져오기
tokenizer = PreTrainedTokenizerFast.from_pretrained("skt/kogpt2-base-v2")

tokenizer.json:   0%|          | 0.00/2.83M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.00k [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'GPT2Tokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


In [24]:
tokenizer.tokenize("올해 휴가는 어디로 갈까요?")

['▁올', '해', '▁휴', '가는', '▁어디로', '▁갈', '까', '요', '?']

* _ 는 띄어쓰기를 의미 (앞 글자와 분리와어 있다)