In [1]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\suhye\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## 문장 토큰화
마침표, 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리

반환된 리스트 객체가 3개의 문장으로된 문자열을 가지고 있음

In [2]:
#3개의 문장으로된 문서를 문장으로 분류
text_sample = "The Matrix is everywhere its all around us, here even in this room.\
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to chuarch or pay your taxes."
sentences = sent_tokenize(text = text_sample)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to chuarch or pay your taxes.']


## 단어 토큰화
문장을 단어로 토큰화

In [3]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

print(type(words),len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


sent_tokenize와 word_tokenize를 조합해 문서에 대해 모든 단어 토큰화

In [4]:
from nltk import word_tokenize,sent_tokenize

#여러 문장으로된 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    #문장별로 분리 토큰
    sentences = sent_tokenize(text)
    
    #분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens

In [5]:
#여러문장에 대해 문장별 단어 토큰화
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'chuarch', 'or', 'pay', 'your', 'taxes', '.']]


## 스톱워드 제거
is, the, a. will 문맥적으로 의미가 없는 단어 제거

In [6]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\suhye\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

영어에 몇개의 stopwords가 있는지 확인

그중 20개만 프린트

In [7]:
print("영어 stop words 개수 :",len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 : 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


words_token리스트에 대해 stopwords를 필터링으로 제거해 분석에 의미있는 단어만을 추출

In [16]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

#3개의 문장별로 얻은 word_tokens_list에 대해 stopwords제거
for sentence in word_tokens:
    filltered_words = []
    
    #개별 문장별로 토큰화된 문장 list에 대해 stopwords 제거
    for word in sentence:
        
        #소문자로 모두 변환
        word = word.lower()
        
        #토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filltered_words.append(word)
            
    all_tokens.append(filltered_words)
    
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'chuarch', 'pay', 'taxes', '.']]


## Stemming과 Lemmatization
단어의 원형 찾기 

In [8]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [9]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\suhye\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy
