In [2]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [5]:
text_sample = 'The Matrix is everywhre its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

sentence = sent_tokenize(text_sample)

In [6]:
print(type(sentence), len(sentence))
print(sentence)

<class 'list'> 3
['The Matrix is everywhre its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [7]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhre its all around us, here even in this room.'
words = word_tokenize(sentence)

print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhre', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [8]:
from nltk import word_tokenize, sent_tokenize

# 여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수를 정의
def tokenize_text(text):
  # 문장별로 분리
  sentences = sent_tokenize(text)
  # 분리된 문장별 단어 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhre', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


문장을 단어별로 하나씩 토큰화 하는 경우 문맥적인 의미는 무시될 수 밖에 없다.  
이러한 문제를 해결하기 위해 도입 된 것이 `n-gram`이다.

In [11]:
# 스톱워드 확인
nltk.download('stopwords')

print('영어 stop word 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
영어 stop word 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [12]:
# 스톱워드 제거
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
  filtered_word = []
  # 개별 문장별로 토큰회된 문장 list에 대해 스톱 워드를 제거하는 반복문
  for word in sentence:
    # 소문자로 모두 반환
    word = word.lower()
    # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
    if word not in stopwords:
      filtered_word.append(word)
    all_tokens.append(filtered_word)

print(all_tokens)

[['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', '.'], ['matrix', 'everywhre', 'around', 'us', ',', 'even', 'room', 

In [13]:
# Stemmer를 사용한 어근 추출
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('work'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


**`LancasterStemmer`** 의 경우 형용사의 비교급 최상급으로 변형된 단어의 경우 정확한 원형을 찾지 못한다.

In [15]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [16]:
# Lemmatizer를 이용한 어근 추출
lemma = WordNetLemmatizer()

print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

amuse amuse amuse
happy happy
fancy fancy
