# 토큰화

## 문장 토큰화
- https://www.nltk.org

In [1]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [2]:
from nltk import sent_tokenize
import nltk

In [5]:
nltk.download('punkt')  # 불용어 사전 다운로드

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text_sample)  # 문서를 문장 단위로 분리
print(sentences)

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 단어 토큰화
- 문장을 단어로 토큰화하는 것

In [6]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)  # 공백 기준으로 문장을 단어로 분리, 불용어도 같이 분리됨
print(words)

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [7]:
def tokenize_text(text):
    sentences = sent_tokenize(text)
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

In [8]:
word_tokens = tokenize_text(text_sample)
print(word_tokens)

[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


## stopwords 제거
- stopwords: 텍스트 분석에 의미가 없는 단어를 지칭

In [9]:
import nltk
nltk.download('stopwords')  # 불용어 목록을 다운로드

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [10]:
# 불용어 목록 지원언어
nltk.corpus.stopwords.fileids()

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [14]:
print('영어 stopwords 개수:', len(nltk.corpus.stopwords.words('english')))

영어 stopwords 개수: 179


In [16]:
print(nltk.corpus.stopwords.words('english')[:20])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [18]:
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
print('[원본단어]')
print(word_tokens)

for sentence in word_tokens:
    filtered_words = []   # 불용어 제거한 단어 저장할 리스트
    for word in sentence:
        word = word.lower()  # 소문자로 변환
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print('[불용어 제거 단어]')
print(all_tokens)

[원본단어]
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]
[불용어 제거 단어]
[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


## 어간추출(Stemming)과 표제어 추출(Lemmatization)
- 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는다
- ex) worked, works, working의 동사원형인 work를 찾아준다

In [22]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))  # 동사 원형 찾아줌
print(stemmer.stem('happier'), stemmer.stem('happiest'))   #  정확하게 찾지 못함

work work work
happy happiest


In [21]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('happier', 'a') , lemma.lemmatize('happiest', 'a')) # 매개변수로 품사입력, 명사(n), 동사(v), 형용사(a), 부사(r)

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...


happy happy


# Bag of Words (BoW)

## DTM(Document Term Matrix, 문서 단어 행렬)

- CountVectorizer 이용

In [25]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I Love you']
cv = CountVectorizer()

print('BoW Vector:', cv.fit_transform(corpus))  # 밀집벡터 형태로
print('BoW Vector:', cv.fit_transform(corpus).toarray())
# 'I'가 BoW를 만드는 과정에서 사라진 이유는 countvectorizer가 기본적으로 길이가 2이상인 문자에 대해서만 토큰으로 인식하기 때문에 포함이 안됨
print(cv.vocabulary_)

BoW Vector:   (0, 4)	2
  (0, 1)	1
  (0, 3)	1
  (0, 5)	1
  (0, 2)	2
  (0, 0)	1
BoW Vector: [[1 1 2 1 2 1]]
{'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


- 불용어를 제거한 BoW 만들기

(1) 사용자 정의 불용어 사용

In [27]:
text = ["Family is not an important thing. It's everything."]
cv = CountVectorizer(stop_words=['the', 'a', 'an', 'is'])

print('BoW Vector:', cv.fit_transform(text).toarray())
print(cv.vocabulary_)

BoW Vector: [[1 1 1 1 1 1]]
{'family': 1, 'not': 4, 'important': 2, 'thing': 5, 'it': 3, 'everything': 0}


(2) nltk에서 지원하는 불용어 사용

In [29]:
from nltk.corpus import stopwords

text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words('english')
cv = CountVectorizer(stop_words = stop_words)

print('BoW Vector:', cv.fit_transform(text).toarray())
print(cv.vocabulary_)

BoW Vector: [[1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


## TF-IDF
- TfidfVectorizer 사용

In [31]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = ['you know I want your love', # 문서1
          'I Like you', # 문서2
          'what should I do']  # 문서3

tfidf = TfidfVectorizer()
print(tfidf.fit_transform(corpus).toarray())  # 문서별로 빈도 ? 
print(tfidf.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}
