# 텍스트 전처리 (Text Preprocessing)

credit: 18기 DA 김채형 <br>
19기 DA 박수민

## 0. NLTK 설치

In [None]:
import nltk
nltk.download('punkt')
nltk.download('wordnet')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

## 1. 문장 토큰화 (Sentence Tokenization) 

- 문장 토큰화는 토큰의 단위를 문장으로 하여, 코퍼스 내 텍스트를 문장 단위로 구분하는 작업을 의미합니다. 
- 영어의 경우 NLTK의 `sent_tokenize`를 사용하여 영어 문장 토큰화를 수행할 수 있습니다.

In [None]:
from nltk.tokenize import sent_tokenize
text = 'His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near.'
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [None]:
# 문장 중간에 .이 있는 경우
from nltk.tokenize import sent_tokenize
text = 'I am actively looking for Ph.D. students. and you are a Ph.D student.'
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


## 2. 단어 토큰화 (Word Tokenization)

- 단어 토큰화는 토큰의 단위를 단어로 하여, 코퍼스 내 텍스트를 단어 단위로 구분하는 작업을 의미합니다. 
- 영어의 경우 텍스트를 단어 단위로 구분할 때 보통 띄어쓰기 즉 공백(whitespace)을 기준으로 합니다.
- ex) text : Time is an illusion. Lunchtime double so! <br>
tokenized : "Time", "is", "an", "illustion", "Lunchtime", "double", "so" <br>


In [None]:
# 단어 토큰화 word_tokenize
# (Don't => Do 와 n't 로 구분/ Jone's => Jone 와 's로 구분 )

from nltk.tokenize import word_tokenize
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print(word_tokenize(text))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
# WordPunctTokenizer: 구두점(punctuation)을 별도의 토큰으로 구분
# (Don't => Don 와 ' 와 t 로 구분  / Jone's => Jone 와 ' 와 s 로 구분)

from nltk.tokenize import WordPunctTokenizer
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print(WordPunctTokenizer().tokenize(text))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### Penn Treebank Tokenization

Penn Treebank Tokenization은 표준으로 쓰이고 있는 토큰화 방법 중 하나입니다. Penn Treebank Tokenization의 규칙은 다음과 같습니다.

규칙 1. 하이픈 (-)으로 구성된 단어는 하나로 유지한다.  
규칙 2. 아포스트로피 (') 로 접어가 함께 하는 단어는 분리한다.

In [None]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 3. 형태소 분석

- 영어의 경우 단어 토큰화를 수행할 때 띄어쓰기를 단어 구분 기준으로 하는데, 이를 어절 토큰화라고 합니다. 
<br>
- 그런데 한국어의 경우 단어 토큰화를 수행할 때 어절 토큰화를 사용하는 것은 부적절합니다. 
- 이는 한국어가 교착어((조사, 어미 등을 붙여서 말을 만드는 언어))라는 점에 기인합니다. <br>
      "그" + 조사 -> "그를", "그에게", "그가" 
      "즐겁다" + 어미 -> "즐거운", "즐거워서", "즐겁게" 
      하지만 이는 다른 단어가 아님! 따라서 조사와 어미 등을 분리해야 함.

- 대신, 한국어의 경우 단어 토큰화를 수행할 때 토큰의 단위를 형태소로 하는 **형태소 토큰화**를 사용합니다.
        형태소(morpheme): 뜻을 가진 가장 작은 말의 단위
        예) "아버지가 방에 들어가신다"
        -> ['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다']

- 한국어 텍스트 전처리 내용 -> "한국어_텍스트_전처리.ipynb" 파일 참고!

## 4. 품사 태깅 (Part-Of-Speech Tagging ; POS Tagging)

- 때때로 단어는 표기는 같지만 품사에 따라 단어의 의미가 달라지는 경우가 발생합니다.
- 예) "fly" -> 날다, 파리
- 따라서, 단어의 의미를 제대로 파악하기 위해서는 해당 단어의 품사 정보가 필요합니다. 
- 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분하는 것을 품사 태깅(Part-Of-Speech tagging ; POS Tagging)이라고 합니다.

**Penn Treebank**

|Number|Tag|Description|
|------|---|-----------|
|1.|CC |Coordinating conjunction|
|2.|CD |Cardinal number|
|3.|DT |Determiner|
|4.|EX |Existential there|
|5.|FW |Foreign word|
|6.|IN |Preposition or subordinating conjunction|
|7.|JJ |Adjective|
|8.|JJR|Adjective, comparative|
|9.|JJS|Adjective, superlative|
|10.|LS|List item marker|
|11.|MD|Modal|
|12.|NN|Noun, singular or mass|
|13.|NNS|Noun, plural|
|14.|NNP|Proper noun, singular|
|15.|NNPS|Proper noun, plural|
|16.|PDT|Predeterminer|
|17.|POS|Possessive ending|
|18.|PRP|Personal pronoun|
|19.|PRP\\$|Possessive pronoun|
|20.|RB |Adverb|
|21.|RBR|Adverb, comparative|
|22.|RBS|Adverb, superlative|
|23.|RP	|Particle|
|24.|SYM|Symbol|
|25.|TO	|to|
|26.|UH	|Interjection|
|27.|VB	|Verb, base form|
|28.|VBD|Verb, past tense|
|29.|VBG|Verb, gerund or present participle|
|30.|VBN|Verb, past participle|
|31.|VBP|Verb, non-3rd person singular present|
|32.|VBZ|Verb, 3rd person singular present|
|33.|WDT|Wh-determiner|
|34.|WP	|Wh-pronoun|
|35.|WP$|Possessive wh-pronoun|
|36.|WRB|Wh-adverb|


## 5. 어간 추출 (Stemming) & 원형 복원 (Lemmatization)

- 단어의 형태 변화(lexical variations of term ; term variation) 에 따라 같은 단어라도 다른 단어인 것처럼 취급되는 문제를 해결하기 위해 사용되는 보편적인 방법으로 어간 추출(Stemming)과 원형 복원(Lemmatization)이 있습니다.

### Stemming (어간 추출)

- Stemming이란 어형이 변형된 단어로부터 접사 등을 제거하고 그 단어의 어간을 분리해내는 것을 의미합니다. 
        예) 'automate', 'automatic', 'automation' -> 'automat' 
        각각 모두 'automat' 어간 + 'e', 'ic', 'ion'이라는 접사 
- 이러한 단어들에 대하여 접사를 제거하고 동일한 어간인 'automat'으로 매핑되도록 하는 작업이 stemming입니다.

- 대표적인 Stemming Algorithm으로 Martin Porter가 고안한 Porter Stemming Algorithm = Porter Stemmer 가 있습니다. 

In [None]:
from nltk.tokenize import word_tokenize
from nltk.stem import PorterStemmer

text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

# word tokenization
words = word_tokenize(text)

# stemming
s = PorterStemmer()
result = [s.stem(w) for w in words]

# 결과 출력
print('original text:', text)
print('tokenized words:',words)
print('stemmed words:',result)

original text: This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes.
tokenized words: ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
stemmed words: ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [None]:
## 두가지 종류의 stemmer 비교
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

# stemming
s = PorterStemmer() # 포터 스태머
l = LancasterStemmer() # 랭커스터 스태머
ss = [s.stem(w) for w in words]
ll = [l.stem(w) for w in words]

# 결과 출력
print('original words:', words)
print('porter stemmer:', ss)
print('lancaster stemmer:',ll)

original words: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
porter stemmer: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
lancaster stemmer: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


### Lemmatization (원형 복원 ; 표제어 추출)

- Lemmatization은 한 단어가 여러 형식으로 표현되어 있는 것을 단일 형식으로 묶어주는 기법입니다. 
        ex) 'am', 'are', 'is' -> 'be'
- Lemmatization을 수행할 경우, 품사 정보가 남아있기 때문에 의미론적 관점에서 더 효과적입니다. 
- 하지만, 여전히 품사정보를 가지고 있어 stemming만큼 DTM dimension reduction 측면에서 효과적이진 않습니다. 

In [None]:
from nltk.stem import WordNetLemmatizer

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

# lemmatization
n = WordNetLemmatizer()
result = [n.lemmatize(w) for w in words]

# 결과 출력
print('tokenized words:',words)
print('lemmatized words:',result)

tokenized words: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
lemmatized words: ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [None]:
# 단어의 품사 정보를 알려주어 다시 출력 -> 더 정확한 lemmatization
print(n.lemmatize('dies', 'v'))
print(n.lemmatize('watched', 'v'))
print(n.lemmatize('has', 'v'))

die
watch
have


### Stemming vs. Lemmatization

|비교|Stemming|Lemmatization|
|-|--------|-------------|
|의미|어간 추출|원형 복원|
|접근 방법|정보검색적|언어학적|
|DTM dimension reduction 관점|good|bad|
|의미론적 관점|bad (품사 X)|good (품사 O)|

- 영어 텍스트의 경우에는 stemming과 lemmatization이 명확하게 구분되어 텍스트 전처리 과정에서 무엇을 사용할지를 결정해야 합니다. 
- 반면 한글 텍스트의 경우에는 형태소 분석 과정에서 stemming과 lemmatization이 함께 이루어진다고 볼 수 있습니다.

## 6. Stopwords Removal (불용어 제거)

- 너무 자주 나타나는 단어들은 기능적인 역할을 하거나 문헌집단 전반에 걸쳐 나타나기 때문에 특정 문헌의 내용을 대표할 수 없습니다. 
- 자연어 말뭉치 표현에 나타나는 단어들을 그 사용 빈도가 높은 순서대로 나열하였을 때, 왼쪽에 존재하는 고빈도 단어들을 **stopwords**라고 합니다.
- 영어: 정관사, 전치사 등/ 한글: 조사 등
<br>
- 불용어 제거는 단어 정제를 통해 보다 제대로 된 분석을 하기 위함이기도 하고, 차원을 축소하기 위함이기도 합니다.

### NLTK에서 정의한 불용어 리스트 사용하기 


In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

In [None]:
example = "Family is not an important thing. It's everything."

# 불용어 리스트 생성
stop_words = set(stopwords.words('english')) 

# 단어 토큰화 실시
word_tokens = word_tokenize(example)

# 단어 토큰화 결과로부터 불용어 제거 실시
result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

# 결과 출력
print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


NLTK에서 제공하는 불용어 리스트를 활용하여 불용어를 제거한 결과 'is', 'not', 'an'과 같은 단어들이 제거된 것을 볼 수 있습니다.