# NLTK 

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/younghun/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## 토큰화

In [3]:
# 문장 Tokenization
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere its all around us, here even in this room.  \
              You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [4]:
# 단어 Tokenization
# 쉼표, 마침표도 하나의 토큰화시켜줌
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [5]:
# 여러 문장들에 대한 단어 토큰화
from nltk import word_tokenize, sent_tokenize

def tokenize_text(text):
    # 문장별로 토큰화
    sentences = sent_tokenize(text)
    # 분리된 문장을 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [7]:
# N-gram으로 토큰화
from nltk import ngrams

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)

# ngram적용할때는 단어로 토큰화시킨 후 적용하기
all_ngrams = ngrams(words, 3)
# list comprephension으로 append사용하지 않고 한 번에 하기
ngrams = [ngram for ngram in all_ngrams]
print(ngrams)

[('The', 'Matrix', 'is'), ('Matrix', 'is', 'everywhere'), ('is', 'everywhere', 'its'), ('everywhere', 'its', 'all'), ('its', 'all', 'around'), ('all', 'around', 'us'), ('around', 'us', ','), ('us', ',', 'here'), (',', 'here', 'even'), ('here', 'even', 'in'), ('even', 'in', 'this'), ('in', 'this', 'room'), ('this', 'room', '.')]


## 불용어(Stopwords) 제거

In [8]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/younghun/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [9]:
# 영어의 불용어 종류에 뭐가 있는지 살펴보기
print('영어 불용어 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 불용어 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [13]:
# nltk이용해서 문장에서 불용어 제거한 후 단어 토큰화
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 3개 문장을 단어토큰화 시킨 것을 loop문 돌리면서 불용어 제거
for sentence in word_tokens:
    filtered_word = []
    for word in sentence:
        word = word.lower()
        # 불용어 사전에 없으면 출력
        if word not in stopwords:
            filtered_word.append(word)
    all_tokens.append(filtered_word)
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


## Stemming, Lemmatization

- 둘 다 원형, 어근을 추출하는 방법
- Lemmatization이 더 정교한 방법임

In [14]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


In [17]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/younghun/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [18]:
from nltk.stem import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


## Sklearn의 CountVectorizer

- CountVectorizer를 이용해서 텍스트를 벡터화 시키기!

In [1]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television. \
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text = []
# ;(세미콜론)이용해서 편리하게 작성
text.append(text_sample_01); text.append(text_sample_02)
print(text,'\n', len(text))

['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                   You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


- CountVectorizer에서 텍스트를 벡터화시키기 위한 함수
    - fit, transform함수 사용

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
# 텍스트 feature 추출
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

CountVectorizer()

In [3]:
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(ftr_vect)

# (0,10) 1 => 0번째행의 10번째 feature가 1번 등장이라는 의미

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [5]:
# voca속성은 CountVectorizer() 할당한 객체에 존재
print(cnt_vect.vocabulary_)
# 'the':38 => 'the'라는 단어가 38번째 인덱스에 존재

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


### CountVectorizer 파라미터

- max_df : 너무 높은 빈도수를 갖는 feature(단어) 제거함
    * 정수 입력가능(ex. 100입력하면 전체 문서에 걸쳐 100개 이하로 나타나는 단어만 추출)
    * 부동소수점 입력가능(0.0~1.0 ex. 0.95입력하면 상위 0.05의 빈도수가 많은 단어들을 제외하고 추출)

- min_df : 너무 낮은 빈도수를 갖는 feature 제거함
    * 정수 입력가능(ex. 2입력하면 전체문서에 걸쳐 2번 이하의 빈도수 단어 제거)
    * 부동소수점 입력가능(ex. 0.02입력하면 하위 0.02이하의 빈도수 단어 제거)

- max_features : feature로 추출할 단어 개수 제한하는 최댓값
- stop_words : 'english'로 지정하면 영어의 불용어 추출 안함

- ngram_range : 튜플형태로 범위를 지정함. ex.(1,2)이면 1gram, 2gram 각각 수행해서 추출. 2gram만 할려면 (2,2)로 지정

- analyzer : feature로 추출할 단위 지정 디폴트는 word
- token_pattern : 토큰화 수행하는 패턴 지정. 디폴트는 word인데 변경할 경우 별로 없음. 그리고 어근 추출시 해당 인자에 외부함수를 넣어주어 어근 추출도 동시에 가능함.

- lower_case : 모든 문자를 소문자로 변경. 디폴트는 True

In [9]:
# 영어 불용어 제거하고 최대 feature추출개수 5개로 제한
cnt_vect = CountVectorizer(max_features=5, stop_words='english')
ftr_vect = cnt_vect.fit_transform(text)
print(ftr_vect,'\n', ftr_vect.shape)
print(cnt_vect.vocabulary_)

  (0, 2)	1
  (1, 3)	2
  (1, 0)	2
  (1, 1)	1
  (1, 4)	1 
 (2, 5)
{'matrix': 2, 'pill': 3, 'believe': 0, 'deep': 1, 'rabbit': 4}


In [11]:
# ngram_range 해보기
cnt_vect = CountVectorizer(ngram_range=(1,2))
ftr_vect = cnt_vect.fit_transform(text)
print(cnt_vect.vocabulary_)

{'the': 82, 'matrix': 49, 'is': 42, 'everywhere': 25, 'its': 47, 'all': 0, 'around': 6, 'us': 94, 'here': 32, 'even': 23, 'in': 38, 'this': 88, 'room': 67, 'you': 110, 'can': 15, 'see': 69, 'it': 44, 'out': 57, 'your': 120, 'window': 104, 'or': 53, 'on': 51, 'television': 80, 'feel': 27, 'when': 102, 'go': 29, 'to': 90, 'work': 108, 'church': 17, 'pay': 59, 'taxes': 79, 'the matrix': 84, 'matrix is': 50, 'is everywhere': 43, 'everywhere its': 26, 'its all': 48, 'all around': 1, 'around us': 7, 'us here': 95, 'here even': 33, 'even in': 24, 'in this': 39, 'this room': 89, 'room you': 68, 'you can': 112, 'can see': 16, 'see it': 70, 'it out': 45, 'out your': 58, 'your window': 124, 'window or': 105, 'or on': 55, 'on your': 52, 'your television': 123, 'television you': 81, 'you feel': 113, 'feel it': 28, 'it when': 46, 'when you': 103, 'you go': 114, 'go to': 30, 'to work': 93, 'work or': 109, 'or go': 54, 'to church': 92, 'church or': 18, 'or pay': 56, 'pay your': 60, 'your taxes': 122, 

## 희소행렬

### COO 형식

In [13]:
import numpy as np
dense = np.array([[3,0,1],
                [0,2,0]])

In [17]:
from scipy import sparse
# 0이 아닌 값들 추출
data = np.array([3,1,2])

# 행위치와 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse의 패키지의 coo_matrix 이용해서 COO형식의 희소행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))
# 희소행렬 생성한후 array형태로 만들어줘야 출력 가능함
dense_1 = sparse_coo.toarray()
dense_1

array([[3, 0, 1],
       [0, 2, 0]])

### CSR 형식

In [18]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [21]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)
print(coo)
print()
print(csr)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
