## 텍스트 전처리

- 클렌징
- 토큰화
- 스톱워드
- Stemming
- Lemmatization


=> 전처리를 위한 NLTK 라이브러리 이용

### 문장 토큰화
- 문장의 형태로 토큰화

In [24]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')   # 마침표, 개행문자 등의 데이터 세트를 다운로드

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text_sample)

[nltk_data] Downloading package punkt to C:\Users\SON-
[nltk_data]     FAMILY\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [25]:
# 리스트 구조로 돌아옴

sentences

['The Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes.']

In [26]:
print(len(sentences), type(sentences))

3 <class 'list'>


### 단어 토큰화

In [27]:
from nltk import word_tokenize

sentences = 'The Matrix is everywhere its all around us, here even in this room.'

# word_tokenize() : nltk 에서 제공하는 단어 토큰화
words = word_tokenize(sentences)

print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


- 마침표나 개행문자와 같이 문장을 구분하는 구분자를 이용해 단어를 토큰화할 수 있지만, 단어의 순서가 중요하지 않은 경우 단어 토큰화만 해도 가능

#### 여러개의 문장 데이터 -> 문장별로 단어 토큰화 함수 생성

In [28]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별
    sentences = sent_tokenize(text)
    
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

In [29]:
# 함수 테스트

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


- 여러 줄에서 먼저 문장으로 분리한 후 문장에서 다시 단어별로 분리하는 것
- 문제점은 <b>문맥적인 의미</b>가 무시됨 => 해결하기 위해 n-gram(연속된 n 개의 단어를 하나의 토큰화) 사용

- n-gram : 문맥적인 의미를 좀 더 살리기 위한 기법(연속된 n 개의 단어를 하나의 토큰화 단위로 분리)
- ex) "Agent Smith knocks the door" => (Agent, Smith),(Smith, knocks),(knocks, the),(the, door)

### 스톱워드
- 분석에 큰 의미가 없는 단어
- is, the, a, will 등

In [30]:
# nltk 에서 제공하는 stopwords 다운로드

import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to C:\Users\SON-
[nltk_data]     FAMILY\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [31]:
# stopwords가 몇 개 있고 그 중 20개만 확인
print('영어 stop words 개수 : ',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


#### stopwords 적용

In [40]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words=[]
    
    # 개별 문장별로 토큰화된 문장 list에 대해 스톱워드를 제거하는 반복문 실행
    for word in sentence:
        #소문자 변환
        word = word.lower()
        
        # 토큰화된 개벌 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

In [41]:
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### Stemming과 Lemmatization

- 문법적인 요소에 따라 단어가 다양하게 변함(work, works, working...)
- 원형 단어를 찾기 위한 방법
- Stemming : 원형 단어로 변환시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용
- Lemmatization : 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어 찾기(시간이 Stemming 보다 좀 더 걸림)

**NLTK에서 제공하는 Stemmer**
- Porter
- Lancaster
- Snowball

In [17]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


- working, works, worked 중에서 work 는 기본 단어를 잘 찾아줌
- amuse 의 경우 amuse가 원형인데 amus로 찾아냄
- happy, fancy 의 경우에도 정확한 원형 찾기 안됨

**NLTK에서 제공하는 Lemmatization**
- WordNetLemmatizer 제공

In [21]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()


#현재 제시된 단어의 품사가 무엇인지 전달 필요
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v')) # v : 동사
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))  # a : 형용사
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))  # a나 v 같은 품사를 안 주는 경우 제대로 알아맞추지 못함

amuse amuse amuse
happy happy
fancy fancy


[nltk_data] Downloading package wordnet to C:\Users\SON-
[nltk_data]     FAMILY\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## Bag of words(BOF)

https://minerandodados.com.br/como-preparar-dados-de-texto-para-machine-learning/

<img src='https://minerandodados.com.br/wp-content/uploads/2020/03/image-19-526x313.png'>