# Text Preprocessing

### 1. 토큰화

##### 1-1. 단어 토큰화

- 띄어쓰기 단위로 자르면 사실상 단어 토큰이 구분되는 영어와 달리

- 한국어는 띄어쓰기 만으로는 단어 토큰을 구분하기 어려움

##### 1-2. 토큰화 중 생기는 선택의 순간

In [5]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/hyojuuun/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
print('단어 토큰화1: ', word_tokenize("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1:  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [7]:
print('단어 토큰화2: ', WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2:  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [8]:
print('단어 토큰화3: ', text_to_word_sequence("Don't be fooled by the dark sounding name, Mr.Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3:  ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- 각 토크나이저가 다른 결과를 반환하는 것을 확인

- 목적에 맞는 토크나이저 정의 및 활용이 필요함

##### 1-3. 토큰화에서 고려해야할 사항

- 구두점이나 특수 문자를 단순 제외해서는 안 된다

    - 코퍼스에 대한 정제 작업을 진행하다보면, 구두점조차도 하나의 토큰으로 분류하기도 함

    - 가장 기본적인 예로, 마침표와 같은 경우는 문자의 경계를 알 수 있으므로 제외하지 않음

    - 또 다른 예로 단어 자체에 구두점을 갖고 있는 경우 m.p.h, Ph.D, AT&T

    - 특수 문자나 슬래시를 사용하는 $45.55, 날짜 구분, 숫자 사이의 컴마

- 줄임말과 단어 내에 띄어쓰기가 있는 경우

    - (')의 경우 영어권 언어의 압축된 단어를 다시 펼치는 역할

    - what're는 what are의 줄임말이며, re를 접어라고 함

    - New York이나 rock 'n' roll도 하나의 단어로 사용하지만 띄어쓰기가 존재

    - 결국 토큰화 작업은 저런 단어를 하나로 인식할 수 있는 능력도 가져야 함



In [2]:
# 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙
# 규칙 1. 하이푼으로 구성된 단어는 하나로 유지
# 규칙 2. doesn't와 같이 접어가 함께하는 단어는 분리해준다

from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own"

print('TreebankWordTokenizer: ', tokenizer.tokenize(text))

TreebankWordTokenizer:  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own']


##### 1-4. 문장 토큰화

- 코퍼스 내에서 문장 단위 분류

- 직관적으로 (?), (.), (!) 등을 기준으로 문장으로 잘라내기

- (!)나 (?)는 꽤 명확한 구분자 역할을 하지만 마침표는 그렇지 않음

- ex1) IP 192.168.56.31 서버에 들어가서 ...

- ex2) Since i'm actively looking for Ph.D. students, i get the same question a dozen times every year.

- 사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의

- 100%의 정확도를 얻는 일은 쉬운 일이 아닌데, 갖고있는 코퍼스 데이터에 오타나, 문장의 구성이 엉망이라면 정해놓은 규칙이 소용없을 수도 있음


In [3]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1: ', sent_tokenize(text))

문장 토큰화1:  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [4]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2:', sent_tokenize(text))

문장 토큰화2: ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [None]:
# import kss

# text = "딥 러닝 자연어 처리가 재미있는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?"
# print('한국어 문장 토큰화: ', kss.split_sentences(text))

##### 1-5. 한국어에서의 토큰화의 어려움

- 영어는 New York과 같은 합성어나 he's와 같이 줄임말에 대한 예외처리만 한다면

- 띄어쓰기를 기준으로 하는 토큰화를 수행해도 단어 토큰화가 잘 작동

- 거의 대부분의 경우에서 단어 단위로 띄어쓰기가 이루어지기 때문

- 하지만 한국어는 영어와 달리 띄어쓰기만으로 토큰화를 하기에 부족

- 한국어의 경우 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데

- 어절 토큰화는 한국어 NLP에서 지양

- 어절 토큰화는 단어 토큰화와 같지 않기 때문

- 한국어의 조사, 어미 등을 붙여서 말을 만드는 교착어라는 특징에서 기인

- 교착어의 특성

    - 한국어에는 조사라는 것이 존재

    - '그'라는 하나의 단어에도 조사에 따라 그가, 그는, 그에게, 그를과 같이 다양한 단어 생성

    - 대부분의 한국어 NLP에서 조사는 분리해줄 필요가 있음

    - 한국어 토큰화에서는 **형태소(morpheme)** 이라는 개념을 반드시 이해해야함

    - 형태소란 뜻을 가진 가장 작은 말의 단위

    - 자립 형태소와 의존 형태소

        - 자립 형태소: 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등

        - 의존 형태소: 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간

    - 문장: 에디가 책을 읽었다

    - 띄어쓰기 단위 ['에디가', '책을', '읽었다']

    - 자립 형태소 ['에디', '책']

    - 의존 형태소 ['-가', '-을', '읽-', '-었-', '-다']

- 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

    - 사용하는 한국어 코퍼스가 뉴스 기사와 같이 띄어쓰기를 철저하게 지키려고 노력한다면 좋겠지만

    - 지켜지지 않는 코퍼스가 많음

##### 1-6. 품사 태깅

- 단어는 표기는 같지만 품사에 따라서 단어의 의미가 달라지기도 함

- 영어 단어 fly는 동사로는 '날다'라는 의미를 갖지만 명사로는 '파리'

- 한국어도 마찬가지로 단어가 여러 품사를 가지면서 의미가 달라짐

##### 1-7. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

- NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅

In [10]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
nltk.download('averaged_perceptron_tagger')

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화:', tokenized_sentence)
print('품사 태깅: ', pos_tag(tokenized_sentence))

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/hyojuuun/nltk_data...


단어 토큰화: ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


- Penn Treebank Pos Tags에서는

- PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미

- 한국어 자연어 처리르 위해서는 KoNLPy라는 파이썬 패키지를 사용할 수 있음

- 패키지를 통해 사용할 수 있는 형태소 분석기로 Okt, Mecab, Komoran, Hannanum, Kkma가 있음

- konlpy JVM error

In [1]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('Okt 형태소 분석: ', okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('Okt 품사 태깅: ', okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('Okt 명사 추출: ', okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

Okt 형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
Okt 품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
Okt 명사 추출:  ['코딩', '당신', '연휴', '여행']


In [2]:
print('꼬꼬마 형태소 분석: ', kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅: ', kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print("꼬꼬마 명사 추출: ", kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

꼬꼬마 형태소 분석:  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅:  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출:  ['코딩', '당신', '연휴', '여행']


- 형태소 분석기도 성능과 결과가 다르게 나옴

- 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됨

- 예를 들어 속도를 중시한다면 Mecab을 사용할 수 있음

### 2. 정제(Cleaning) & 정규화(Normalization)

- 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제 및 정규화 해야함

    - 정제: 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다
    
    - 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다

##### 2-1. 규칙에 기반한 표기가 다른 단어들의 통합

- USA와 US는 같은 의미를 가지므로 하나의 단어로 정규화

- uh-huh와 uhhuh는 형태는 다르지만 여전히 같은 의미

- 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatization)

##### 2-2. 대, 소문자 통합

- 영어권 언어에서 대문자는 문장의 맨 앞 등과 같은 특정 상황에서만 쓰이고, 대부분의 글은 소문자로 작성

- 대문자를 소문자로 변환하는 작업 필요

- 하지만 무작정 통합은 안 됨

- 미국을 뜻하는 단어 US와 우리를 뜻하는 단어 us는 구분되어야 함

- 회사 이름이나 사람 이름 등은 대문자로 유지되는 것이 옳음

- 여러 고려 사항이 존재하므로 결국 예외 사항을 크게 고려하지 않고

- 모든 코퍼스를 소문자로 바꾸는 것이 종종 더 실용적인 해결책이 되기도 함

##### 2-3. 불필요한 단어의 제거

- 노이즈 데이터는 자연어가 아니면서 아무 의미도 갖지 않는 글자들을 의미하기도 하지만

- 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 함

- 불필요한 단어들을 제거하는 방법으로는

- 불용어 제거, 등장 빈도가 적은 단어, 길이가 짧은 단어들을 제거

- 등장 빈도가 적은 단어

    - 스팸 메일 분류기를 만든다고 가정

    - 스팸 메일과 정상 메일에서 주로 등장하는 단어로 구분하는 것을 설계

    - 100,000개의 메일 데이터에서 총 합 5번밖에 등장하지 않은 단어가 있다면

    - 이 단어는 직관적으로 분류에 거의 도움이 되지 않을 것임을 알 수 있음

- 길이가 짧은 단어

    - 영어권 언어에서는 길이가 짧은 단어를 삭제하는 것만으로도 어느 정도 효과가 있다고 알려져 있음

    - 길이가 짧은 단어를 제거하는 2차 이유는 단어가 아닌 구두점들까지도 한꺼번에 제거하기 위함

    - 하지만 한국어는 길이가 짧은 단어라고 삭제하는 방법이 크게 유효하지 않을 수 있음

    - 단정적으로 말할 수 없지만 영어 단어의 평균 길이는 6~7 정도, 한국어는 2~3 정도

In [5]:
import re

text = "I was wondering if anyone out there could enligten me on this car."

# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')  # \W*: 비 단어 문자(구두점 등) 개수 상관X
                                           # \b: 단어 경계 분할
                                           # \w{1,2}: 길이가 1, 2인 단어
print(shortword.sub('', text))

 was wondering anyone out there could enligten this car.


##### 2-4. 정규 표현식

- 코퍼스에서 노이즈 데이터의 특징을 잡아낼 수 있다면

- 정규 표현식을 통해 이를 제거

- HTML 문서라면 HTML 태그, 뉴스 기사하면 게재 시간 등

### 3. 어간 추출(Stemming) & 표제어 추출(Lemmatization)