# 텍스트 전처리 - 2) 정제 and 정규화
아래 몇 줄 만 실습이므로 다음 단원과 합친다

## 불필요한 단어 제거(정제) - 길이가 짧은 단어
영어는 길이가 2~3 이하인 단어를 제거하는 것만으로도 크게 의미를 갖지 못하는 단어를 줄이는 효과를 갖는다.

In [1]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1 ~ 2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('',text))

 was wondering anyone out there could enlighten this car.


# 텍스트 전처리 - 3) 어간 추출 and 표제어 추출
  
표제어 추출이란 단어들로부터 표제어를 찾아가는 과정  
단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단

In [2]:
# 책에는 없지만 아래 두 줄 없으면 실행 안된다
import nltk
nltk.download('wordnet')

from nltk.stem import WordNetLemmatizer    # 입력으로 당너가 동사 품사라는 사실을 알려줄 수 있다

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print("표제어 추출 전 :", words)
print("표제어 추출 후 :", [lemmatizer.lemmatize(word) for word in words])

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [3]:
lemmatizer.lemmatize('dies','v')

'die'

In [4]:
lemmatizer.lemmatize('watched','v')

'watch'

In [5]:
lemmatizer.lemmatize('has','v')

'have'

## 어간 추출
섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수 있다  
아래는 어간 추출 알고리즘 중 하나인 포터 알고리즘

In [7]:
# 아래 두 줄은 책에는 없지만 없으면 실행되지 않는다
import nltk
nltk.download('punkt')

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print("어간 추출 전 :", tokenized_sentence)
print("어간 추출 후 :", [stemmer.stem(word) for word in tokenized_sentence])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [9]:
words = ['formalize', 'allowance', 'electricical']

print("어간 추출 전 :", words)
print("어간 추출 후 :", [stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


포터 알고리즘과 랭커스터 스태머 알고리즘 비교

In [10]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print("어간 추출 전 :", words)
print("포터 스테머의 어간 추출 후 :", [porter_stemmer.stem(w) for w in words])
print("랭커스터 스테머의 어간 추출 후 :", [lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후 : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후 : ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


# 텍스트 전처리 - 4) 불용어
불용어란 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 단어를 말한다

In [11]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

ModuleNotFoundError: ignored

NLTK에서 불용어 확인하기

In [16]:
# 아래 두줄은 없는 코드이나 안하면 에러 뜬다
import nltk
nltk.download('stopwords')

stop_words_list = stopwords.words("english")
print("불용어 개수 :", len(stop_words_list))
print("불용어 10개 출력 :", stop_words_list[:10])

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


NLTK를 통해서 불용어 제거하기

In [17]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words("english"))

word_tokens = word_tokenize(example)

result = []
for word in word_tokens:
  if word not in stop_words:
    result.append(word)

print("불용어 제거 전 :", word_tokens)
print("불용어 제거 후 :", result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


한국어에서 불용어 제거하기

In [18]:
okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print("불용어 제거 전 :", word_tokens)
print("불용어 제거 후 :", result)

NameError: ignored