# install
```bash
pip install nlt
```
```python
import nltk
nltk.download()
```

# 문장 토큰화

In [276]:
text_sample = 'The Matrix is everywhere its all around us, \
here even in this room. You can see it out your window or on your television., \
You feel it when you go to work, or go to church or pay your taxex.'

In [277]:
from nltk import sent_tokenize

In [278]:
# sent_tokenize : 문장 또는 문서 내에서 마침표 기준으로 토큰화 하는 함수
# 결과 : 문장들의 리스트

In [279]:
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 2
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television., You feel it when you go to work, or go to church or pay your taxex.']


# 단어 토큰화

In [280]:
from nltk import word_tokenize

In [281]:
words = word_tokenize(sentences[0])
print(type(words), len(words))
print(words)
# 공백으로 구분된 단어 토큰화 : ',', '.'도 하나의 단어로 인식

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


#### 여러 문장이 있는 문단(text_sample)에 대한 단어 토큰화 함수 생성

In [282]:
# def tokenize_text(text):
#     # 문장(마침표 기준)별로 분리 : sent_tokenize를 사용하여 리스트로 분리
#     sentences = sent_tokenize(text)
#     # 만들어진 리스트를 반복실행문에 적용하여 결과를 별도의 리스트에 저장
    
#     word_tokens = []
#     for i in sentences:
#         word_token = word_tokenize(i)
#         word_tokens.append(word_token)
        
#     return word_tokens # 2차원 리스트 리턴

In [283]:
def tokenize_text(text):
    # 문장(마침표 기준)별로 분리 : sent_tokenize를 사용하여 리스트로 분리
    sentences = sent_tokenize(text)
    # 만들어진 리스트를 반복실행문에 적용하여 결과를 별도의 리스트에 저장
           
    return [word_tokenize(sentence) for sentence in sentences]

In [284]:
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 2
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television.', ',', 'You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxex', '.']]


#### n-gram

In [285]:
from nltk import ngrams
sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

In [286]:
all_ngrams = ngrams(words, 3)
print(all_ngrams)

<generator object ngrams at 0x00000254353544A0>


In [287]:
ngrams = [ngram for ngram in all_ngrams]
print(ngrams)

[('The', 'Matrix', 'is'), ('Matrix', 'is', 'everywhere'), ('is', 'everywhere', 'its'), ('everywhere', 'its', 'all'), ('its', 'all', 'around'), ('all', 'around', 'us'), ('around', 'us', ','), ('us', ',', 'here'), (',', 'here', 'even'), ('here', 'even', 'in'), ('even', 'in', 'this'), ('in', 'this', 'room'), ('this', 'room', '.')]


#### stopwords

In [288]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\JAVA01\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [289]:
print('영어 stop words 갯수 : ', len(nltk.corpus.stopwords.words('english')))

영어 stop words 갯수 :  179


In [290]:
print(nltk.corpus.stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [291]:
import nltk
stopwords = nltk.corpus.stopwords.words('english')
print(stopwords)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [292]:
all_tokens = []
# word_tokens 리스트에서 stopwords를 제거하기 위해 반복 실행명령문 실행
for sentence in word_tokens:
    # 각 sentence에서 stopwords를 제외한 단어들이 들어갈 빈리스트 생성
    filtered_words = []
    # sentence안의 단어들을 이용한 반복실행
    for word in sentence :
        # 소문자 변환
        word = word.lower()
        
        # tokenize된 개별 word가 stop words들의 단어에 포함되지 않으면
        # word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    # 작업 종료한 sentence 내의 단어가 모여있는 리스트를 최종 리스트에 추가
    all_tokens.append(filtered_words)
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television.', ',', 'feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxex', '.']]


#### Stemming(단어의 원형찾기)과 Lemmatization(단어의 변형 찾기)

In [293]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('workds'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work workd work
amus amus amus
happy happiest
fant fanciest


#### WordNetLemmatizer

In [294]:
from nltk.stem import WordNetLemmatizer
# a : 형용사, v : 동사
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

amuse amuse amuse
happy happy
fancy fancy


#### Bag of Words - BOW
- 사이킷런 CountVectorizer 테스트

In [295]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends. You make in your bed and you believe whatever you what to believe You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

In [296]:
text = []
text.append(text_sample_01)
text.append(text_sample_02)

In [297]:
print(text, '\n', len(text))

['The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends. You make in your bed and you believe whatever you what to believe You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


- CountVectorizer 객체 생성 후 fit()
- transform()으로 텍스트에 대한 feature vectorization 수행

In [298]:
from sklearn.feature_extraction.text import CountVectorizer
# Count Vectorizer 객체 생성 및 fit
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

CountVectorizer()

CountVectorizer()

In [299]:
# transform
ftr_vect = cnt_vect.transform(text)

* 피쳐 벡터화 후 데이터 유형 및 여러 속성 확인

In [300]:
print(type(ftr_vect), ftr_vect.shape)

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)


In [301]:
print(ftr_vect)

  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 23)	1
  (0, 24)	1
  (0, 25)	3
  (0, 26)	1
  (0, 27)	1
  (0, 31)	1
  (0, 32)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	1
  (0, 41)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 22)	1
  (1, 28)	2
  (1, 29)	1
  (1, 30)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	1
  (1, 36)	2
  (1, 39)	4
  (1, 41)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [302]:
print(cnt_vect.vocabulary_)

{'the': 39, 'matrix': 23, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 42, 'here': 15, 'even': 10, 'in': 18, 'this': 40, 'room': 31, 'you': 49, 'can': 6, 'see': 32, 'it': 20, 'out': 26, 'your': 50, 'window': 46, 'or': 25, 'on': 24, 'television': 38, 'feel': 12, 'when': 45, 'go': 13, 'to': 41, 'work': 48, 'church': 7, 'pay': 27, 'taxes': 37, 'take': 36, 'blue': 5, 'pill': 28, 'and': 1, 'story': 35, 'ends': 9, 'make': 22, 'bed': 3, 'believe': 4, 'whatever': 44, 'what': 43, 'red': 30, 'stay': 34, 'wonderland': 47, 'show': 33, 'how': 17, 'deep': 8, 'rabbit': 29, 'hole': 16, 'goes': 14}


In [303]:
# stopwords 제거 & 출현빈도수에 의한 word 필터링
cnt_vect = CountVectorizer(max_features=10, stop_words='english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(ftr_vect.shape)
print(cnt_vect.vocabulary_)

(2, 10)
{'room': 4, 'window': 9, 'television': 8, 'taxes': 7, 'pill': 2, 'story': 6, 'bed': 0, 'believe': 1, 'red': 3, 'stay': 5}


**ngram_range를 적용한 countvectorizer 확인**

In [304]:
# 두단어씩 gram 적용된 피쳐가 추가되어 125개의 피쳐생성
cnt_vect = CountVectorizer(ngram_range=(1, 2))
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(ftr_vect.shape)
print(cnt_vect.vocabulary_)

(2, 125)
{'the': 84, 'matrix': 51, 'is': 42, 'everywhere': 25, 'its': 47, 'all': 0, 'around': 6, 'us': 96, 'here': 32, 'even': 23, 'in': 38, 'this': 90, 'room': 69, 'you': 110, 'can': 15, 'see': 71, 'it': 44, 'out': 59, 'your': 120, 'window': 104, 'or': 55, 'on': 53, 'television': 82, 'feel': 27, 'when': 102, 'go': 29, 'to': 92, 'work': 108, 'church': 17, 'pay': 61, 'taxes': 81, 'the matrix': 86, 'matrix is': 52, 'is everywhere': 43, 'everywhere its': 26, 'its all': 48, 'all around': 1, 'around us': 7, 'us here': 97, 'here even': 33, 'even in': 24, 'in this': 39, 'this room': 91, 'room you': 70, 'you can': 112, 'can see': 16, 'see it': 72, 'it out': 45, 'out your': 60, 'your window': 124, 'window or': 105, 'or on': 57, 'on your': 54, 'your television': 123, 'television you': 83, 'you feel': 113, 'feel it': 28, 'it when': 46, 'when you': 103, 'you go': 114, 'go to': 30, 'to work': 95, 'work or': 109, 'or go': 56, 'to church': 94, 'church or': 18, 'or pay': 58, 'pay your': 62, 'your taxe

#### 희소 행렬(sparse matrix) : 대부분 값이 0으로 채워진 행렬
- COO(Coordinate: 좌표) 형식
- CSR(Compressed Sparse Row) 형식

1. COO 형식

In [305]:
import numpy as np
# (0, 0) -3 (0, 2) -1 (1, 1)-2
dense = np.array([
    [3, 0, 1],
    [0, 2, 0]
])
print(dense)

[[3 0 1]
 [0 2 0]]


In [306]:
# 희소행렬 사용을 위한 모듈 import
from scipy import sparse

In [307]:
# 첫번째, 행렬에서 0이 아닌 데이터만 추출
data = np.array([3, 1, 2])

In [308]:
# 두번째, 추출한 데이터들이 위치했던 좌표값으로 array를 만들고 저장합니다.(행, 열 별도)
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

In [309]:
# 세번째, coo_matrix를 이용하여 coo형식의 희소행렬로 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [310]:
print(type(sparse_coo)) # 데이터 타입
print(sparse_coo) # 저장값들의 출력
dense01=sparse_coo.toarray() # 원본행렬 추출
print(type(dense01), '\n', dense01) # 원본행렬 데이터 타입과 내용 출력

<class 'scipy.sparse.coo.coo_matrix'>
  (0, 0)	3
  (0, 2)	1
  (1, 1)	2
<class 'numpy.ndarray'> 
 [[3 0 1]
 [0 2 0]]


2. CSR 형식

In [311]:
# 실습용 행렬 생성
dense2 = np.array([
    [0, 0, 1, 0, 0, 5],
    [1, 4, 0, 3, 2, 5],
    [0, 6, 0, 3, 0, 0],
    [2, 0, 0, 0, 0, 0],
    [0, 0, 0, 7, 0, 8],
    [1, 0, 0, 0, 0, 0],
])

In [312]:
# 첫번째, 0 이아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 두번째, 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

In [313]:
# COO 형식
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

In [319]:
# 세번째
# row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]) # 배열인덱스를 확인
#             index : 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,11,12
# 숫자가 변하는 곳의 인덱스만 따로 모아 배열로 만듬 - 13은 마지막자료 의미
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13,])

# CSR형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))
print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
