# 텍스트 정규화
- 클렌징
- 토큰화
- 필터링/스톱 워드 제거/철자 수정
- Stemming
- Lematization

## 클렌징
- HTML, XML 태그나 특정 기호 등을 제거하는 작업

## 텍스트 토큰화
- 문장 토큰화 : 문서에서 문장을 분리
- 단어 토큰화 : 문장에서 단어를 분리

### 문장 토큰화
- 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적
- 정규표현식으로도 가능

In [1]:
from nltk import sent_tokenize
import nltk
# 최초 1회만 실행하여 다운받으면 이후에는 실행할 필요 없음
nltk.download('punkt') # 단어 사전

text_sample = 'Python is a programming language that lets you work more quickly and integrate your systems more effectively. \
                You can learn to use Python and see almost immediate gains in productivity and lower maintenance costs.'

sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\master\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


<class 'list'> 2
['Python is a programming language that lets you work more quickly and integrate your systems more effectively.', 'You can learn to use Python and see almost immediate gains in productivity and lower maintenance costs.']


### 단어 토큰화
- Word Tokenization : 공백, 콤마, 마침표, 개행문자 등으로 분리하지만 정규표현식으로 다양한 방식으로 토큰화 수행

In [2]:
from nltk import word_tokenize

sentence = 'Python is a programming language that lets you work more quickly and integrate your systems more effectively. \
                You can learn to use Python and see almost immediate gains in productivity and lower maintenance costs.'

words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 36
['Python', 'is', 'a', 'programming', 'language', 'that', 'lets', 'you', 'work', 'more', 'quickly', 'and', 'integrate', 'your', 'systems', 'more', 'effectively', '.', 'You', 'can', 'learn', 'to', 'use', 'Python', 'and', 'see', 'almost', 'immediate', 'gains', 'in', 'productivity', 'and', 'lower', 'maintenance', 'costs', '.']


### 문장 별 단어 토큰화 수행

In [3]:
from nltk import sent_tokenize, word_tokenize

def tokenize_text(text):
    # 문장 분리
    sentences = sent_tokenize(text)
    
    # 단어 분리
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 2
[['Python', 'is', 'a', 'programming', 'language', 'that', 'lets', 'you', 'work', 'more', 'quickly', 'and', 'integrate', 'your', 'systems', 'more', 'effectively', '.'], ['You', 'can', 'learn', 'to', 'use', 'Python', 'and', 'see', 'almost', 'immediate', 'gains', 'in', 'productivity', 'and', 'lower', 'maintenance', 'costs', '.']]


### n-gram
- "Python is a programming language"를 2-gram(bigram)으로 만들면 (Python, is), (is, a), (a, programming), (programming, language)와 같이 연속적으로 2개의 단어들을 순차적으로 이동하면서 토큰화
- 문맥적인 의미가 무시되는 것을 해결하고자 함

## 스톱 워드 제거
- 분석에 큰 의미가 없는 단어
- 영어의 is, the, a, will 등

In [4]:
import nltk
nltk.download('stopwords') # 스톱 워드

print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\master\AppData\Roaming\nltk_data...


영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


[nltk_data]   Unzipping corpora\stopwords.zip.


In [6]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
    filtered_words = []
    
    # 각 문장별 단어에 대해 스톱 워드 제거
    for word in sentence:
        word = word.lower()
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['python', 'programming', 'language', 'lets', 'work', 'quickly', 'integrate', 'systems', 'effectively', '.'], ['learn', 'use', 'python', 'see', 'almost', 'immediate', 'gains', 'productivity', 'lower', 'maintenance', 'costs', '.']]


## Stemming과 Lemmatization
- Stemming과 Lemmatization 모두 변형된 단어(영어의 경우 과거/현재형 등)의 원형을 찾는 것
    - Lemmatization이 문법적인 요소와 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아줌
    - 대신 시간이 더 오래 걸림
- NLTK의 Stemmer와 Lemmatizer
    - Stemmer : Porter, Lancaster, Snowball Stemmer
    - Lemmatizer : WordNetLemmatizer

### Lancaster Stemmer
- es(3인칭 단수), ed(과거형) 등을 제대로 인식하지 못함 (amuses > amus, amused > amus)
- 비교급 또한 제대로 찾지 못함

In [7]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


### WordNetLemmatizer
- 정확한 원형 단어 추출을 위해 단어의 품사를 입력해줘야함

In [8]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\master\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy
