## 02 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화 

In [1]:
# 텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근화 등의
# 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다.
# 텍스트 정규화 작업은 크게 다음과 같이 분류 할 수 있다.
# * 클렌징(Cleansing)
# * 토큰화(Tokenization)
# * 필터링/스톱 워드 제거/철자 수정
# * Stemming
# * Lemmatization

### 클렌징 

In [2]:
# 텍스트 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업이다.
# ex) HTML, XML 태그나 특정 기호 등 사전 제거

### 텍스트 토큰화

In [3]:
# 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있다.

#### 문장 토큰화 

In [4]:
# 문장 토큰화(sentence tokenization)는 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적이다.
# 또한 정규 표현식에 따른 문장 토큰화도 가능하다.

In [5]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to /Users/adam/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [6]:
# sent_tokenize()가 반환하는 것은 각각의 문장으로 구성하는 list 객체이다.
# 반환된 list 객체가 3개의 문장으로 된 문자열을 가지고 있는 것을 알 수 있다.

#### 단어 토큰화

In [7]:
# 단어 토큰화(Word Tokenization)는 문장을 단어로 토큰화하는 것이다. 기본적으로 공백, 콤마(,), 마침표(.), 개행 문자 등으로
# 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토큰화를 수행 할 수 있다.
# 마침표(.)나 개행문자와 같이 문장을 분리하는 구분자를 이용해 단어를 토큰화 할 수 있으므로 Bag of Word와 같이
# 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분하다.

In [8]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [9]:
# sent_tokenize와 word_tokenize를 조합해 문서에 대해서 모든 단어를 토큰화 해보자.

from nltk import word_tokenize, sent_tokenize

# 여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
        
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
        
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장들에 대해 문장별 단어 토큰화 수행.
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [10]:
# 문장을 단어별로 하나씩토큰화 할 경우 문맥적인 의미는 무시될 수 밖에 없다. 이러한 문제를 조금 이라도 해결해 보고자 도입 된 것이 n-gram이다.
# n-gram은 연속된 n개의 단어를 하나의 토큰화 단어로 분리해 내는 것이다.

### Stopwords 제거

In [11]:
# 스톱 워드(Stop word)는 분석에 큰 의미가 없는 단어를 지칭한다. 
# 가령 영어에서 is, the, a, will 등 문장을 구성하는 필수 문법 요소이지만 문맥적으로 큰 의미가 없는 단어가 이에 해당한다. 
# 이 단어의 경우 문법적인 특성으로 인해 특히 빈번하게 텍스트에 나타나므로 이것들을 사전에 제거하지 않으면
# 그 빈번함으로 인해 오히려 중요한 단어로 인지될 수 있다.
# 따라서 이 의미 없는 단어를 제거하는 것이 중요한 전처리 작업이다.

In [12]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /Users/adam/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [13]:
print('영어 stop words 갯수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [14]:
# 3개의 문장별로 단어를 토큰화해 생성된 word_tokens 리스트에 대해서 stopwords를 필터링으로 제거해 분석을 위한 의미있는 단어만 추출 해보자.

import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### Stemming과 Lemmatization 

In [15]:
# Stemming과 Lemmatization은 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것이다.
# 두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾는다.

# Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를
# 추출하는 경향이 있다.

# Lemmatization은 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아준다.
# 따라서 Lemmatization이 Stemming 보다 변환에 더 오랜 시간을 필요로 한다.

#### Stemming

In [16]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('work'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


#### Lemmatization

In [18]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to /Users/adam/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy
