In [3]:
from nltk import sent_tokenize

nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

> nltk를 이용하기 위한 모듈 다운로드

In [4]:
text_sample = 'Copies of this document may be made for your own use and for distribution to others. \
              provided that you do not charge any fee for such copies. \
              and further provided that each copy contains this Copyright Notice. \
              whether distributed in print or electronically.'

sentences = sent_tokenize(text = text_sample)

print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 4
['Copies of this document may be made for your own use and for distribution to others.', 'provided that you do not charge any fee for such copies.', 'and further provided that each copy contains this Copyright Notice.', 'whether distributed in print or electronically.']


> sent_tokenize는 마침표(.)를 기준으로 문장을 나누어준다. 역슬래시('\\')는 문장의 연결을 위해 사용한 것으로 sent_tokenize에는 아무런 영향을 주지 않는다.

In [5]:
from nltk import word_tokenize

for sentence in sentences:
  words = word_tokenize(sentence)
  print(type(words), len(words))
  print(words)

<class 'list'> 17
['Copies', 'of', 'this', 'document', 'may', 'be', 'made', 'for', 'your', 'own', 'use', 'and', 'for', 'distribution', 'to', 'others', '.']
<class 'list'> 12
['provided', 'that', 'you', 'do', 'not', 'charge', 'any', 'fee', 'for', 'such', 'copies', '.']
<class 'list'> 11
['and', 'further', 'provided', 'that', 'each', 'copy', 'contains', 'this', 'Copyright', 'Notice', '.']
<class 'list'> 7
['whether', 'distributed', 'in', 'print', 'or', 'electronically', '.']


> word_tokenize는 문장을 단어로 나누는 기능을 한다.

#스톱 워드 제거
> 분석에 큰 의미가 없는 단어를 지칭한다.
영어에서 is, the, a, will등 문장 구성에는 필수적이나 분석에 큰 의미가 없는 단어들은 제거되어야 한다.

In [6]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [7]:
print('영어 stop words 개수 : ', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 :  179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [8]:
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens=[]

text_sample = 'Copies of this document may be made for your own use and for distribution to others. \
              provided that you do not charge any fee for such copies. \
              and further provided that each copy contains this Copyright Notice. \
              whether distributed in print or electronically.'

#문서를 문장별로 나누기
sentences = sent_tokenize(text = text_sample)


for sentence in sentences:
  #스톱워드를 제거한 단어 모음
  filtered_words = []

  #문장을 단어별로 나누기
  words = word_tokenize(sentence)
  
  for word in words:
    #입력된 내용이 대문자가 들어가면 구분할 수 없음으로 소문자 변환
    word = word.lower()
    #스톱워드에 포함되지 않은 정보만 추출
    if word not in stopwords:
      filtered_words.append(word)
  #스톱워드가 제거된 문장만 추출
  all_tokens.append(filtered_words)

all_tokens

[['copies', 'document', 'may', 'made', 'use', 'distribution', 'others', '.'],
 ['provided', 'charge', 'fee', 'copies', '.'],
 ['provided', 'copy', 'contains', 'copyright', 'notice', '.'],
 ['whether', 'distributed', 'print', 'electronically', '.']]

In [12]:
from nltk.stem import LancasterStemmer

stemmer = LancasterStemmer()

print(stemmer.stem('working'))
print(stemmer.stem("works"))
print(stemmer.stem('worked'))

print(stemmer.stem('amusing'))
print(stemmer.stem("amuses"))
print(stemmer.stem('amused'))

print(stemmer.stem("happier"))
print(stemmer.stem('happiest'))

work
work
work
amus
amus
amus
happy
happiest


> 현재 진행형(ing), 3인칭 단수(works), 과거형(worked)는 기본형으로 잘 변경된다. 하지만 amuse(즐겁게하다)는 e가 사라진 amus로 나타나낟.

> happy의 경우도 사람(er)을 지정할 경우 원형을 찾아 주지만 최소(est)가 붙은것은 찾지 못한다.

> 사실 유사도 분석을 할때에는 단어의 의미가 중요한 것이 아니기때문에 그냥 사용할수도 있다.

In [16]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [18]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()

print(lemma.lemmatize('amusing', 'v'))
print(lemma.lemmatize("amuses", 'v'))
print(lemma.lemmatize('amused', 'v'))

print(lemma.lemmatize("happier", 'a'))
print(lemma.lemmatize('happiest', 'a'))

amuse
amuse
amuse
happy
happy
