# 텍스트 전처리 - 텍스트 정규화

: 텍스트를 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행.

* 클렌징(Cleansing) : 분석에 불필요한 문자, 기호 등을 사전 제거. ex) html, xml 태그나 특정 기호
* 토큰화(Tokenization) : 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화. NLTK
    * 문장 토큰화 - 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호 또는 정규표현식에 따라 분리
        * sent_tokenize()
    * 단어 토큰화 - 공백, 콤마, 마침표, 개행문자 또는 정규 표현식 등으로 단어 분리
        * BoW 같이 단어의 순서가 중요하지 않은 경우 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분
        * word_tokenize()


In [1]:
from nltk.tokenize import sent_tokenize
# 문장 토큰화
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
sentences

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
<class 'list'> 3


['The Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes.']

sent_tokenize()가 반환하는 것은 각각의 문장으로 구성된 list 객체이다. 

반환된 list 객체가 3개의 문장으로 된 문자열을 가지고 있는 것을 알 수 있다.

In [2]:
from nltk import word_tokenize

sentences = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentences)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
# sent_tokenize와 word_tokenize를 조합해 문서에 대해서 모든 단어를 토근화.
from nltk import word_tokenize, sent_tokenize

from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


3개 문장을 문장별로 먼저 토큰화했으므로 word_tokens 변수는 3개의 리스트 객체를 내포하는 리스트이다. 그리고 내포된 개별 리스트 객체는 각각 문장별로 토큰화된 단어를 요소로 갖고있다.

문장을 단어별로 하나씩 토큰화할 경우 문맥적인 의미는 무시된다. 이러한 문제를 조금 해결하기위해 도입된 것이 n-gram이다. n-gram은 연속된 n개의 단어를 하나의 토큰화 단위로 분리하는 것이다.

ex) "Agent Smith Knocks the door" == 2-gram(bigram) ==> (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)

* 필터링 / 스톱 워드 제거 / 철자 수정
    * 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어
    * 문법적인 특성으로 인해 빈번하게 등장하여 중요 단어로 인식될 수 있어 제거 필요

In [4]:
import nltk # 가장 다양한 언어의 스톱 워드를 제공
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
print('영어 stop words 개수 :', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 : 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


영어의 경우 스톱 워크의 개수가 179개이다.

3개의 문장별로 단어를 토큰화해 생성된 word_tokens 리스트(3개의 문장별로 단어 토큰화 값을 가지는 내포된 리스트로 구성)에 대해서 stopwords를 필터링으로 제거해 분석을 위한 의미있는 단어만 추출.

In [6]:
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위의 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words = []
    # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        # 소문자로 모두 변환한다.
        word = word.lower()
        # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens 에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


is, this와 같은 스톱 워드가 필터링을 통해 제거되었다.


* Stemming과 Lemmatization
    * 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것(시제, 3인칭 단수 여부 등)
    * Stemming : 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음.
        * NLTK.LancasterStemmer, Porter, Lancaster, Snowball Stemmer
    * Lemmatization : 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아준다.
        * NLTK.WordNetLemmatizer
    * Lemmatization이 Stemming보다 더 정교하지만 변환에 더 오랜 시간이 걸린다.

In [7]:
# Stemming
# Stemmer 객체를 생성한 뒤 이 객체의 stem('단어') 메서드를 호출하면 원하는 '단어'의 Stemming이 가능.
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


work의 경우 진행형, 3인칭 단수, 과거형 모두 기본형인 work에 ing, s, ed가 붙는 단순한 변화이므로 원형 단어인 work로 제대로 인식된다. 

하지만 amuse의 경우 각 변화가 amuse가 아닌 amus에 ing, s, ed가 붙으므로 amuse가 아닌 amus를 원형 데이터 생각한다.

형용사인 happy, fancy의 경우 비교형, 최상급형으로 변형된 단어의 정확한 원형을 찾지 못하고 원형 단어에서 철자가 다른 어근 단어로 인식하는 경우가 발생한다.

In [8]:
# Lemmatization
# 보다 정확한 원형 단어 추출을 위해 단어의 품사를 입력해줘야함.
# v : 동사, a : 형용사
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
amuse amuse amuse
happy happy
fancy fancy
