# 텍스트 정규화

텍스트를 피처로 만들기 위해서는 가공하는 전처리 작업을 해주어야한다. 

클렌징 : 텍스트 분석에서 방해가되는 불필요한 문자,기호 등을 사전에 제거 

토큰화 : 문장을 분리하는 문장 토큰화와 단어를 분리하는 단어 토큰화


In [8]:
# 문장 토큰화 : 마침표, 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는것이 일반적
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text = text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\lmj\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


sent_toknize 는 각각의 문장으로 구성된 list객체이다. 반환된 list객체가 3개의 문장으로 된 문자열을 가지는것을 알수있다.

In [9]:
# 단어 토큰화 : 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리하지만 다양한 방식으로도 가능
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [11]:
# 문장 토큰화와 단어 토큰화를 조합
def tokenize_text(text):
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


3개로 토큰화된 문장이 다시 각각 단어로 토큰화되었다.

하지만 이처럼 문장을 단어별로 하나씩 토큰화 할 경우 문맥적 의미가 무시된다.

이를 보완하기 위해 n-gram 이라는 것을 도입했는데, 이는 연속된 n개의 단어를 하나의 토큰화 단위로 분리해내는 것 이다.

ex) 2-gram : "Agent Smith knock the door" -> (Agent Smith), (Smith knock), (knock the), (the door)

# 스톱 워드 제거

스톱 워드는 분석에 큰 의미가 없는 단어들 지칭한다. (is, the, a, will 등)

In [13]:
# nltk의 스톱워드 목록
nltk.download('stopwords')
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\lmj\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


총 179개의 영어 stopwords가 있고 그중 20개만 살펴보았다.

이를 이용하여 stopwords를 제거하고 의미있는 단어만 추출해보자

In [14]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


# Stemming과 Lemmatization

이는 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것

Lemmatization이 좀 더 정교하지만 시간이 오래 걸림

In [17]:
# stemming 기능을 이용하여 단어의 원형을 찾자
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [19]:
# lemmatization 기능을 이용하여 단어의 원형을 찾자
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

#lemmatization는 정확한 원형을 추출하기 위해 단어의 품사도 입력해주어야 함
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\lmj\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


lemmetization을 이용한 원형 추출이 더 정확한것을 알 수 있다.