# 텍스트 사전 준비 작업 - 텍스트 정규화
#### 택스트 자체를 바로 피처로 만들 수는 없다. 이를 위해서 텍스트를 가공해야 한다.
#### 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP application에 입력 데이터로 사용하기 위해 다양한 텍스트 사전 작업을 수행하는 것이다.
#### 텍스트 정규화 작업은 아래와 같이 분류할 수 있다.
#### - 클렌징(Cleansing)
#### - 토큰화(Tokenization)
#### - 필터링/stopword 제거/철자 수정
#### - 어간 추출(Stemming)
#### - 표제어 추출(Lemmatization)

## 클렌징
#### 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업이다. 예를 들어, HTML / XML 태그나 특정 기호 등을 사전에 제거한다.

## 텍스트 토큰화
#### 토큰화의 유형은 문서에서 문장을 분리하는 문장 토큰화와 문장어서 단어를 분리하는 단어 토큰화로 나뉜다.

### 문장 토큰화
#### 문장 토큰화는 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적이다. 또한 정규 표현식에 따른 문장 토큰화도 가능하다.
#### 아래에 NLTK에서 많이 사용되는 sent_tokenize를 이용해 토큰화를 수행한다.

In [2]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
text_sample = 'The Matrix is everywhere its all around usz here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around usz here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\junseok\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


#### 결과는 각각의 문장으로 구성된 list 객체이고, 3개의 문장으로 분리되었다.

### 단어 토큰화
#### 단어 토큰화는 문장을 단어로 토큰화하는 것이다. 기본적으로 공백, 콤바(,), 마침표(.), 개행문자 등으로 단어를 분리하지만 정규 표현식을 이용해 다양한 유형으로 토큰화를 수행할 수 있다.
#### 마침표나 개행문자와 같이 문장을 분리하는 구분자를 이용해 단어를 토큰화할 때는 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분하다.

In [3]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around 니s, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', '니s', ',', 'here', 'even', 'in', 'this', 'room', '.']


#### sent_tokenize와 word_tokenize를 조합해 문서에 대해 모든 단어를 토큰화를 진행한다.

In [4]:
from nltk import word_tokenize, sent_tokenize

def tokenize_text(text):
    sentences = sent_tokenize(text)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'usz', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


#### 문장을 단어별로 하나씩 토큰화를 할 경우 문맥적인 의미는 무시된다. 이러한 문제를 해결하기 위해 n-gram이라는 연속된 n개의 단어를 하나의 토큰화 단위로 분리한 것이다.

### stopwords 제거
#### stopwords는 분석에 큰 의미가 없는 단어를 말한다. 예를 들어, is the, a, will 등을 나타낸다.
#### 해당 단어들은 문법적인 특성으로 빈번하게 나오기 때문에 오히려 중요한 단어로 인식되어 분석에 방해가 된다. 그래서 nltk의 stopword를 사용한다.

In [5]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\junseok\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [6]:
print('영어 stop words 개수 : ', len(nltk.corpus.stopwords.words('english')))

영어 stop words 개수 :  179


#### 바로 위 예제에서 3개의 문장별로 단어를 토큰화된 2차원 리스트에서 stopwords를 제외하여 표시해보자

In [8]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered = []
    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered.append(word)
    all_tokens.append(filtered)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'usz', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### Stemming과 Lemmatization
#### 많은 어어에서 문법적인 요소에 따라 단어가 다양하게 변한다. 예를 들어, 영어의 경우 과거/현재, 3인칭 단수 여부, 진행형 등으로 원래 단어가 변한다.
#### 두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾는다.
#### NLTK에서 다양한 stemmer를 제공하고, 아래에 LancasterStemmer를 이용해 Stemmer를 살펴본다.

In [10]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked')) 
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused')) 
print(stemmer.stem('happier'), stemmer.stem('happiest')) 
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


#### work의 경우 진행형, 3인칭 단수, 과거형 모두 원형 단어로 work로 인식한다.
#### 하지만 amuse의 경우 amus를 원형 단어로 인식하고, happy/fancy의 경우 정확한 원형을 찾지 못한다.

#### 이번에는 WordNetLemmatizer를 이용해 Lemmatization을 수행할 것이다.
#### Lemmatization은 보다 정확한 원형 단어 추출을 위해서 '품사'를 입력해줘야 한다.

In [12]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v')) 
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a')) 
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\junseok\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


#### 정확하게 원형 추출이 완료된다.