# 딥 러닝을 이용한 자연어 처리 입문

https://wikidocs.net/22660

## 02. 텍스트 전처리(text preprocessing)

분석에 앞서 텍스트를 사전에 분류하는 작업

### 02-1 토큰화(tokenization)


    토큰 : corpus 에서 의미가 있는 단어로 주로 정의

### 1. 단어 토큰화(word tokenization)

토큰의 기준을 단어로 하는 경우

### 2. 토큰화 중 생기는 선택의 순간

토큰화 과정에서 생기는 애매한 기준의 경우

해당 데이터의 용도(목적)에 따라 다르게 토큰화 해야한다.

ex) 아스트로피(') 의 경우 : Don't, Don t, Do n't 등등..

In [1]:
# word_tokenizer 함수는 Do n't 로 분류

import nltk
from nltk.tokenize import word_tokenize

print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))


['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [5]:
# WordPunctTokenizer 함수는 Don ' t 로 처리
## 구두점을 별도로 분류하는 특징을 갖기 때문
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### 3. 토큰화에서 고려해야할 사항

    1. 구두점이나 특수문자를 단순 제외해서는 안된다.
            - ex) 아포스트로피 I'm : I + am(접어)
    2. 줄임말과 단어 내에 띄어쓰기가 있는 경우.
            - ex) New York, rock 'n' roll..

#### 표준 Tokenization 예제

가장 표준적인 Penn Treebank Tokenization 규칙

    1. 하이푼으로 구성된 단어는 하나로 유지
                - ex) home-based
    2. dosen't 와 같이 아포스트로피로 접어가 존재하는 단어는 분리
                - ex) dosen't => do not

In [8]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer=  TreebankWordTokenizer()
text= "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."


print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 4. 문장 토큰화

    토큰의 단위가 문장인 경우
    
    문장을 잘라낼 수 있는 기준
    ! 나 ? 
    . : 문장의 끝이 아니더라도 존재 가능
    
       ex1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 dailybugle@naver.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

        ex2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.

In [9]:
import nltk

from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [11]:
# 중간에 온점이 여러번 등장하는 경우
# nltk 는 문장 토큰화 시 단순히 온점(.)으로 구분하지 않기 때문에 잘 분류하였다.
from nltk.tokenize import sent_tokenize

text = text="I am actively looking for Ph.D. students. and you are a Ph.D student."

print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


### 5. 이진 분류기

문장토큰화에서 예외사항을 발생시키는 온점의 처리를 위함
두 개의 클래스로 분류하는 이진 분류기 사용

    1.약어(Abbreivation) : 온점이 단어의 일부분일 경우
    2.구분자(boundary) : 문장을 구분하는 경우
    
1 번 케이스를 잘 구분해주어야 한다.

따라서, 이진분류기 구현에서는 약어사전(Abbreviation Dictionary)사용

### 6. 한국어에서의 토큰화의 어려움.

영어권 : 합성어(New York)와 줄임말(he's)만 잘 처리한다면 space로 단어 토큰화가 대부분 잘 작동한다.

한국어 : 어절(띄어쓰기 단위) 존재로 space 만으로 토큰화 무리


    1. 조사가 띄어쓰기 없이 바로 붙는다.
            ex) 그가, 그를, 그는, 그와.. : 같은 '그'를 나타낸다.
    2. 한국어는 띄어쓰기가 잘 지켜지지 않는다.
            영어권 : 풀어쓰기 방식(띄어쓰기 필수)
            한국어 : 모아쓰기 방식(띄어쓰기 없어도 어느 정도 이해 가능)
            
                eX1) 제가이렇게띄어쓰기를전혀하지않고글을썼다고하더라도글을이해할수있습니다.

                eX2) Tobeornottobethatisthequestion

### 7. 품사 부착(Part-of-speech tagging)

단어 표기가 같지만 의미(품사에 따라)가 달라지는 경우

단어의 정확한 의미를 위해서는 품사 부착이 필요하다.

ex) fly(동사) : 날다 / fly(명사) : 파리

### 8. NLTK 와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

nltk
    - 품사 부착 기능 : Penn Treebank POS Tags 기준 사용

In [13]:
# 1. 토큰화 수행(여기서는 단어 토큰화)
import nltk

from nltk.tokenize import word_tokenize

text= "I am actively looking for Ph.D. students. and you are a Ph.D. student."

x = word_tokenize(text)
print('=' * 20 + 'word tokenizing result' + '=' * 20)
print(x)

# 2. 품사 태깅

from nltk.tag import pos_tag
print('=' * 20 + 'taging result' + '=' * 20)
print(pos_tag(x))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


#### 한국어 형태소 분석기

정확히는 단어(word) 토큰화가 아니라 형태소(morpheme) 단위로 토큰화 수행

KoNLPY 패키지

각 분석기는 방법이 다르기 때문에 용도에 맞는 분석기를 사용해야한다.

    Okt
    메캅
    코모란
    한나눔
    꼬꼬마

#### 기능

분석기 객체
    
    .morphs : 형태소 추출
    .pos : 품사 부착(part-of-speech tagging)
    .nouns : 명사 추출

In [18]:
# morphs 를 이용한 형태소 토큰화

from konlpy.tag import Okt
from konlpy.tag import Kkma
okt = Okt()
kkma = Kkma()

print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요."))
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요."))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요', '.']
['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요', '.']


In [20]:
# pos 를 이용한 형태소 토큰화  + 품사 태깅

print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요."))
print()
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요."))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb'), ('.', 'Punctuation')]

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN'), ('.', 'SF')]


In [22]:
# nouns 를 사용한 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요."))
print()
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요.",))

['코딩', '당신', '연휴', '여행']

['코딩', '당신', '연휴', '여행']
