토큰화 : 어느 구간까지가 문장이고 단어인지 알려주는 것
- 토큰화 작업은 섬세한 규칙 설계를 통해서 이루어져야 한다

In [1]:
import nltk
# nltk.TreebankWordTokenizer - 단어 토큰화
# nltk.sent_tokenize - 문장 토큰화
# 한국어 문장 토크나이저 : kss

![image.png](attachment:image.png)
- NLP의 학습 단계

Tokenization(토큰화) : 주어진 Corpus에서 token이라 불리는 단위로 나누는 작업
- Corpus : 자연어 처리나 언어학 연구 등을 위해 수집된 대량의 텍스트 데이터 (대량의 텍스트 데이터라고 이해)

대표적으로 사용되는 tokenizer 비교
- nltk.tokenize.word_tokenize(file) : 단어 단위로 텍스트를 token화하며, 공백이나 구두점을 기준으로 단어를 분리. 단어 단위로 효율적으로 텍스트를 처리하고자 할 때 유용
- nltk.tokenize.WordPunctTokenizer().tokenize(file) : 구두점을 유지하면서 단어를 토큰화하는 데 사용하는 것으로, 단어 구분을 위해 공백을 사용하는 대신 구두점을 개별 토큰 처럼처리
- nltk.tokenize.RegexpTokenizer().tokenize(file) : 정규 표현식을 기반으로 텍스트를 토큰화하는 데 사용하며, 사용자가 지정한 정규표현식에 따라 텍스트를 분할
- nltk.tokenize.TreebackWordTokenizer().tokenize(file) : word_tokenize와 비슷하나 반복적인 구두점은 분리하여 인식하며, .은 삭제한다.
- nltk.tokenize.sent_tokenize(file) : sentence tokenizer로 문장으로 판단되는 영역을 기준으로 분할

Tokenizer는 Corpus를 기준으로 작성된 것인 것처럼 보인다.

In [2]:
sentence = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop. It's amazing!!!"

In [3]:
# punkt tokenizer
# ## 텍스트를 문장으로 분리하는데 사용되는 tokenizer로,
# ## 문장 경계를 식별하고 이를 기반으로 문장을 개별 token으로 분리하는데 사용
# ## punkt token화 기능을 사용하려면 사전에 설치하는 것이 좋음
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [4]:
# 서로 다른 tokenizer를 사용했을 때 어떻게 token이 분리되는지 확인
# word_tokenize() : 함수
from nltk.tokenize import word_tokenize

print(word_tokenize(sentence))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.', 'It', "'s", 'amazing', '!', '!', '!']


In [5]:
from nltk.tokenize import WordPunctTokenizer
# WordPunctTokenizer : class
print(WordPunctTokenizer().tokenize(sentence))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.', 'It', "'", 's', 'amazing', '!!!']


In [6]:
from nltk.tokenize import TreebankWordTokenizer
# word_tokenize와 비슷하나 반복적인 구두점은 분리하여 인식하며, .은 삭제한다.

print(TreebankWordTokenizer().tokenize(sentence))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop.', 'It', "'s", 'amazing', '!', '!', '!']


한국어 tokenization : 형태소 분석기를 사용해야!
- 한국어 = 교착어
- 실절적 의미를 가지지 않는 문법 형태소가 결합하여 문법적인 기능이 부여됨
- 형태소 분석기를 사용하여 문법 형태소를 분리하는 것이 필요 (Mecab, Kkma, Okt, Hannanum, Khaii, Soynlp)

한국어 Sentence Tokenizer : pip install kss
- kss.split_sentences(text)

In [7]:
kor_text = "사과의 놀라운 효능이라는 글을 봤어. 그래서 오늘 사과를 먹으려고 했는데 사과가 썩어서 슈퍼에 가서 사과랑 오렌지 사왔어"

In [8]:
# Colab에 Mecab 설치
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 138, done.[K
remote: Counting objects: 100% (47/47), done.[K
remote: Compressing objects: 100% (38/38), done.[K
remote: Total 138 (delta 26), reused 22 (delta 8), pack-reused 91[K
Receiving objects: 100% (138/138), 1.72 MiB | 7.70 MiB/s, done.
Resolving deltas: 100% (65/65), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m39.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m35.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0
Done
Installing mecab-0.996-

In [9]:
!pip install konlpy



In [10]:
from konlpy.tag import *
hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
okt =  Okt()
mecab = Mecab()

# 위 형태소 분석기는 공통적으로 아래의 함수를 제공
# ## nouns : 명사 추출
# ## morphs : 형태소 추출
# ## pos : 품사 부착 (같은 단어처럼 보이지만 의미가 다른 용어를 구분하기 위함)

Exception: Install MeCab in order to use it: http://konlpy.org/en/latest/install/

In [None]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

https://iostream.tistory.com/144
- 한국어 형태소 분석기 성능 비교