# 토큰화(Tokenization)
- 코퍼스(데이터의 집합)에서 토큰이라 불리는 단위로 나뉘는 작업 : 토큰화

## (1) 단어 토큰화
- 토큰의 기준을 단어로
- 한국어는 띄어쓰기만으로는 단어 토큰을 구분하기 어렵다.

## (2) 토큰화 중 생기는 선택의 순간
- NLTK : 영어 코퍼스를 토큰하기 위한 도구 제공

In [7]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\limhanna\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [8]:
# Don't --> do와 n't로 나눠짐
import nltk
print(word_tokenize("Don't quit! mr. Jone's hi"))

['Do', "n't", 'quit', '!', 'mr.', 'Jone', "'s", 'hi']


In [9]:
# Don't --> Don와 '와 t로 나눠짐
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't quit! mr. Jone's hi"))

['Don', "'", 't', 'quit', '!', 'mr', '.', 'Jone', "'", 's', 'hi']


In [10]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't quit! mr. Jone's hi"))

["don't", 'quit', 'mr', "jone's", 'hi']


## (3) 토큰화에서 고려해야할 사항
- 구두점이나 특수 문자를 단순 제외해서는 안 됨
- 줄임말과 단어 내에 띄어쓰기가 있는 경우
    - how're은 how are의 줄임말


- 표준 토큰화 예제
    - 하이푼으로 구성된 단어 : 하나로 유지함
    - 아포스트로피로 함께하는 단어는 분리해줌

In [11]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## (4) 문장 토큰화 (Sentence Tokenization)
- 문장 분류(sentence segmentation)
- 마침표는 문장 끝이 아니더라도 등장 가능
    - 코퍼스가 어떤 국적의 언어인지
    - 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라
    - NLTK에서 영어 문장의 토큰화 수행하는 sent_tokenize지원함

In [12]:
# NLTK 영어 문자의 토큰화 수행
from nltk.tokenize import sent_tokenize
text= "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))


['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [13]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))


['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [14]:
import kss
text = "안녕하세요. 딥 러닝 자연어 처리 화이팅. 해보자. 화이팅..."
print(kss.split_sentences(text))

['안녕하세요.', '딥 러닝 자연어 처리 화이팅. 해보자.', '화이팅...']


## (5) 이진 분류기 (Binary Classifier)
- 마침표 처리를 위해 입력에 따라 두개의 클래스로 분류하는 것

- 두개의 클래스
    - 마침표가 단어의 일부부인 경우
    - 마침표가 정말로 문장의 구분자일 경우

- 약어사전 유용하게 사용됨

- 문장 토큰화 오픈소스 
    - NLTK
    - OpenNLP
    - 스탠포드 CoreNLP
    - splitta
    - LingPipe

## (6) 한국어에서의 토큰화 어려움
- 띄어쓰기 단위가 되는 단위 : 어절

- 어절 토큰화는 한구거 NLP에서 지양됨
    - 어절 토큰화와 단어 토큰화가 같지 않음
    - 한국어가 조사,어미등을 붙여서 말을 만들어서(교착어)

### 6-1. 한국어는 교착어이다. 
- 한국어는 조사 등의 무언가가 붙어있는 경우가 많아서 전부 분리해줘야함
- 형태소 : 가장 작은 말의 단위 
    - 자립 형태소: 접사 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소, 그 자체로 단어가 됨
        - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사
    - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소.
        - 접사, 어미, 어간을 말함
        
    - "한나가 딥러닝책을 읽었다."
        - 자립형태소 : 한나, 딥러닝책
        - 의존형태소 : -가, -을, 읽-, -었, -다

### 6-2. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.


### 6-3. 품사 태깅
- 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분


In [15]:
from nltk.tokenize import word_tokenize
text = text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))


['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [17]:
import nltk
nltk.download('averaged_perceptron_tagger')
  

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\limhanna\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


True

In [18]:
from nltk.tag import pos_tag
x = word_tokenize(text)
pos_tag(x)
# PRP : 인칭대명사
# VBP : 동사
# RB : 부사
# VBG : 현재 부사
# IN : 전치사
# NNP : 고유명사
# NNS : 복수형 명사
# CC : 접속사
# DT : 관사

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

### KoNLPy : 한국어 자연어 처리(코엔엘파이)
- Okt(Open Korea Text)
- 메캅(Mecab)
- 코모란(Komoran)
- 한나눔(Hannanum)
- 꼬꼬마(Kkma)

In [10]:
from konlpy.tag import Okt
from konlpy.tag import Twitter

In [2]:
okt= Okt()
print(okt.morphs("코딩 화이팅,,난 할 수 있어,,돈 퀵 화이팅"))

SystemError: java.nio.file.InvalidPathException: Illegal char <*> at index 55: D:\ProgramData\Anaconda3\Lib\site-packages\konlpy\java\*

In [9]:
%pip install "jpype1<1"

Collecting jpype1<1Note: you may need to restart the kernel to use updated packages.


ERROR: Could not install packages due to an OSError: [WinError 5] 액세스가 거부되었습니다: 'D:\\ProgramData\\Anaconda3\\Lib\\site-packages\\_jpype.cp38-win_amd64.pyd'
Consider using the `--user` option or check the permissions.




  Using cached JPype1-0.7.5-cp38-cp38-win_amd64.whl (1.4 MB)
Installing collected packages: jpype1
  Attempting uninstall: jpype1
    Found existing installation: JPype1 1.0.2
    Uninstalling JPype1-1.0.2:
      Successfully uninstalled JPype1-1.0.2
  Rolling back uninstall of JPype1
  Moving to c:\users\limhanna\appdata\roaming\python\python38\site-packages\_jpype.cp38-win_amd64.pdb
   from C:\Users\limhanna\AppData\Local\Temp\pip-uninstall-o9_lh7x1\_jpype.cp38-win_amd64.pdb
  Moving to c:\users\limhanna\appdata\roaming\python\python38\site-packages\_jpype.cp38-win_amd64.pyd
   from C:\Users\limhanna\AppData\Local\Temp\pip-uninstall-o9_lh7x1\_jpype.cp38-win_amd64.pyd
  Moving to c:\users\limhanna\appdata\roaming\python\python38\site-packages\jpype1-1.0.2.dist-info\
   from C:\Users\limhanna\AppData\Roaming\Python\Python38\site-packages\~pype1-1.0.2.dist-info
  Moving to c:\users\limhanna\appdata\roaming\python\python38\site-packages\jpype\
   from C:\Users\limhanna\AppData\Roaming\P

오류 나서 
pip install "jpype1<1" --user사용함

오류 또 나서 
- pip install -U "jpype1<1.1" --user

주피터 빼곤 다 됨,, 주피터 문제인 듯

In [6]:
%pip install -U "jpype1<1.1"

Note: you may need to restart the kernel to use updated packages.




In [13]:
from konlpy.tag import Okt
okt= Okt()
print(okt.morphs("코딩 화이팅,,난 할 수 있어,,돈 퀵 화이팅"))

SystemError: java.lang.UnsatisfiedLinkError: Native Library D:\ProgramData\Anaconda3\Lib\site-packages\_jpype.cp38-win_amd64.pyd already loaded in another classloader

In [2]:
%pip install konlpy

Note: you may need to restart the kernel to use updated packages.




In [2]:
from konlpy.tag import Okt
okt= Okt()
print(okt.morphs("코딩 화이팅,,난 할 수 있어,,돈 퀵 화이팅"))

['코딩', '화이팅', ',,', '난', '할', '수', '있어', ',,', '돈', '퀵', '화이팅']


In [3]:
print(okt.pos("열심히 해보자,, ,하잇"))

[('열심히', 'Adverb'), ('해보자', 'Verb'), (',,', 'Punctuation'), (',', 'Punctuation'), ('하잇', 'Exclamation')]


In [5]:
#오 콤마랑 따옴표 섞었더니 따로 됐다
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.morphs("화이팅 빠샤 할 수 있다,,.,내 컴퓨터 화이팅"))

['화이', '팅', '빠샤', '하', 'ㄹ', '수', '있', '다', ',,', '.', ',', '내', '컴퓨터', '화이', '팅']


In [6]:
print(kkma.pos("화이팅 빠샤 할 수 있다,,.,내 컴퓨터 화이팅"))

[('화이', 'XR'), ('팅', 'UN'), ('빠샤', 'UN'), ('하', 'VV'), ('ㄹ', 'ETD'), ('수', 'NNB'), ('있', 'VV'), ('다', 'ECS'), (',,', 'SW'), ('.', 'SF'), (',', 'SP'), ('내', 'NP'), ('컴퓨터', 'NNG'), ('화이', 'XR'), ('팅', 'UN')]


In [8]:
print(kkma.nouns("화이팅 빠샤 할 수 있다,,.,내 컴퓨터 화이팅"))

['팅', '빠샤', '수', '내', '컴퓨터']


- morphs : 형태소 추출
- pos : 품사 태깅
- nouns : 명사 추출