## 텍스트 분석(Text Mining)
- 텍스트(비정형 데이터)를 기반으로 여러 가지 분석을 수행하는 방법을 통칭. 다른 말로는 NLP라고도 함.(둘이 살짝 차이 있음)

<텍스트 분석의 종류>
- 1)텍스트 분류(Text Classification): 문서가 '어떤 특정 분류(카테고리)'에 속하는지를 분류하는 것. ->지도학습
- 2)감성 분석(Sentiment Analysis): 텍스트에서 나타나는 '주관적인 요소'를 분석하는 기법. 긍/부정 리뷰, 소셜 미디어 감정분석 등. ->지도학습, 비지도학습
- 3)텍스트 요약(Summarziation): 텍스트 내 중요한 주제나 중심 사상을 추출. 가장 대표적인 것이 '토픽 모델링' ->비지도학습
- 4)텍스트 군집화(Clustering) & 유사도 측정: 비슷한 유형의 문서에 대해 군집화 수행. 문서들 간 유사도를 측정해 비슷한 문서끼리 모으는 방법. ->비지도학습(텍스트 분류의 비지도학습화)

<텍스트 분석의 순서>
- 1)텍스트 전처리- 사전에 클렌징, 대소문자 변경, 특수문자 삭제, 토큰화, 스탑워즈 제거, 어근 추출 등의 텍스트 정규화 작업
- 2)피처 벡터화/추출 - 앞에서 가공된 전처리된 데이터에서 피처를 추출하고 벡터 값을 할당하는 방식. BOW와 Word2Vec 방법을 활용, 여기선 BOW 활용.
 ==>왜냐면 우리의 ML 모델들은 숫자형 벡터 값만을 인식할 수 있기 때문!
- 3)텍스트 분석- ML 모델 생성 + 학습/예측/평가
- (1,2번을 완수하면 정형 데이터로 바뀌어 ML을 돌릴 수 있음)

### 1. 텍스트 사전 작업(텍스트 전처리, 정규화)
- 텍스트 분석을 수행하기에 앞서, 텍스트는 "비정형 데이터"이기 때문에 곧바로 ML 모델을 돌릴 수가 없음. 반드시 전처리가 필요
- 텍스트 전처리: 사전에 클렌징, 대소문자 변경, 특수문자 삭제, 토큰화, 스탑워즈 제거, 어근 추출 등의 텍스트 정규화 작업

#### <텍스트 토큰화>
- 문장 토큰화

In [1]:
#문장 토큰화: 전부 하나로 뭉쳐있는 텍스트를 문장의 마지막을 뜻하는 끝 기호(마침표, 개행문자(\n))를 이용하여 문장을 토큰화하는 것(자르는 것)
from nltk import sent_tokenize

In [2]:
text_sample = 'The Matrix is everywhere its all around us, here even in this room.  \
              You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.' #모두 하나로 뭉쳐있는 텍스트->문장 단위로 자르기!
sentences = sent_tokenize(text = text_sample)
print(sentences)

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [3]:
print(type(sentences)) #반환된 문장은 리스트 형태
print(len(sentences))
print(sentences[0]) #첫번째 문장을 가져오면 뭉친 텍스트 중 첫번째 문장 나옴.

<class 'list'>
3
The Matrix is everywhere its all around us, here even in this room.


- 단어 토큰화

In [4]:
#단어 토큰화: 하나로 뭉쳐있는 문장을 -> 끝 기호를 이용하여 단어로 토큰화하는 것(자르는 것)
    ##사실 문장이 가지는 의미가 중요한 경우에만 문장 토큰화를 하고, 보통은 단어 순서가 중요하지 않으므로 단어 토큰화만 사용.
from nltk import word_tokenize

In [5]:
sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(words)

['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [6]:
print(type(words)) #아까와 똑같이 list로 반환
print(len(words))
print(words[1])

<class 'list'>
15
Matrix


In [7]:
#####문서 -> 문장 -> 단어 토큰화를 수행하는 함수
from nltk import sent_tokenize, word_tokenize

def tokenize_text(text):
    #문장 토큰화
    sent = sent_tokenize(text) #반환된 sent는 리스트
    #단어 토큰화
    word = [word_tokenize(s) for s in sent] #word = word_tokenize(sent) 이렇게 사용하면 에러!
                                                    ##왜냐면 문서를 문장 하나하나로 토큰화한 후 첫번째 문장부터 단어 토큰화를 수행하기 때문.
                                                              #이 방식은 for loop를 사용하지 않고도, (list나 array 객체에 대해서만 사용가능) for loop를 이용하는 것처럼 사용!
    return word #반환된 word도 리스트.


In [8]:
words_token = tokenize_text(text_sample)
print(type(words_token))
print(words_token)

<class 'list'>
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [9]:
len(words_token) #문장의 개수

3

#### <n-gram 방법>
- ngrams(단어, 숫자)를 입력하면 해당 단어를 숫자만큼 재반복, 숫자만큼씩 끊어줌.(단어 토큰화의 경우 단어들의 문맥적인 의미를 무시할 수 있기 때문에 사용)
- 그렇지만 사실 문맥 의미를 이해하는 데 큰 도움은 안됨,,

In [12]:
from nltk import ngrams

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

all_ngrams = ngrams(words, 4)
print(all_ngrams) #전용 객체로 반환되므로
ngrams = [ngram for ngram in all_ngrams] #얘로 출력해줘야 함 (리스트로)
print(ngrams)
print(type(ngrams))
print(len(ngrams))

<generator object ngrams at 0x0000015A624909A8>
[('The', 'Matrix', 'is', 'everywhere'), ('Matrix', 'is', 'everywhere', 'its'), ('is', 'everywhere', 'its', 'all'), ('everywhere', 'its', 'all', 'around'), ('its', 'all', 'around', 'us'), ('all', 'around', 'us', ','), ('around', 'us', ',', 'here'), ('us', ',', 'here', 'even'), (',', 'here', 'even', 'in'), ('here', 'even', 'in', 'this'), ('even', 'in', 'this', 'room'), ('in', 'this', 'room', '.')]
<class 'list'>
12


#### <스탑워즈 제거>
- 스탑워즈(stopwords): 빈번하게 등장하지만 아무런 문맥상의 의미가 없는 단어.
- NLTK에서는 스탑워즈를 이미 제공중 ->다운로드

In [10]:
import nltk
nltk.download('stopwords') #다운로드 완료(다운로드는 1번만 하면 됨!)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\suyn3\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
#제공되는 영어 stopwords
print(nltk.corpus.stopwords.words('english'))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [12]:
len(nltk.corpus.stopwords.words('english'))

179

In [14]:
#아까 수행한 함수에서 반환된 'words_token'에 대해 스탑워즈 제거, 소문자화 함수
import nltk
stopwords = nltk.corpus.stopwords.words('english') #스탑워즈 지정
all_tokens=[]

for sent in words_token: #아까 반환된 'words_token'은 리스트로, 들어있는 것은 3개의 문장
    filtered_words = []
    for word in sent:
        #소문자 변환
        word = word.lower()
        #토큰화된 개별 단어(word)가 스탑워즈 단어에 포함되지 않으면 filtered_words 에 추가
        if word not in stopwords:
            filtered_words.append(word)
     
    #for문을 벗어난후
    all_tokens.append(filtered_words)
    
print(filtered_words) #얘는 출력될 시 맨 마지막 sent의 word만 남아있으니까
print(all_tokens) #전체반환을 위해 만듦

['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']
[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


In [14]:
print(type(all_tokens))
print(len(all_tokens))

<class 'list'>
3


In [27]:
##번외) 위의 all_tokens는 리스트 개수가 문장이라 3개고, 각 문장 내에 단어들이 들어가 있음. 
        #만일 문장 내 단어들을 다 빼서 하나의 리스트로 만들고 싶다면 밑처럼 이용!
a = []

for ind, value in enumerate(all_tokens):
    for i in range(len(value)): #len(value)대신 len(all_tokens[ind]) 도 됨
        word=all_tokens[ind][i]
        a.append(word)

print(a)
print(type(a))
print(len(a))

['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.', 'see', 'window', 'television', '.', 'feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']
<class 'list'>
21


#### <Stemming & Lemmatization>
- 문법적 또는 의미적으로 변화하는 단어의 원형을 찾아주는 기법.
- stemming보단 lemmatization이 좀 더 단어의 원형을 잘 찾아주므로 더 많이 사용

In [28]:
#stemming
from nltk.stem import LancasterStemmer

#객체
stemmer=LancasterStemmer()
#적용-> 객체.stem('단어')
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest')) #결과: work 빼고 전부 단어 원형을 잘 찾지 못했음.

work work work
amus amus amus
happy happiest
fant fanciest


In [3]:
#lemmatization
from nltk.stem import WordNetLemmatizer

#객체
lemma = WordNetLemmatizer()
#적용-> 객체.lemmatize('단어', '품사') ##v:동사, a:형용사.
print(lemma.lemmatize('woring','v'), lemma.lemmatize('works','v'), lemma.lemmatize('worked','v'))
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'), lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fanciest','a')) #결과: 앞의 stemming에서 잘 찾지 못한 단어들의 원형을 모두 잘 찾았음.

woring work work
amuse amuse amuse
happy happy
fancy fancy


### 2. BOW(Bag Of Words)
- 앞의 1번을 수행한 전처리된 데이터에서, "피처를 추출하고 벡터 값을 할당"하는 방법 중 하나. (Word2Vec 방법도 있음)
- 문서가 가지는 모든 단어의 문맥, 순서를 무시하고 Bag 안에 넣고, 단어의 "빈도 값"에 따라 피처 값을 추출하는 모델.
- 이것을 수행하면 row: 문서들(m개), col: 단어들(n개), value: 문서 속에 단어들이 얼마나 등장하는지의 값. (총 mxn 행렬, 0의 값이 아주 많은 희소행렬)이 출력

### BOW로 피처 벡터화 하는 방식- "기준: value에 무엇이 들어가는가?"
- 다음 2가지 방식은 모두 사이킷런에서 제공하며, 반환하는 희소 행렬은 CSR 형식으로 만든다.
- 그리고 반환되는 희소행렬을 갖고 ML 모델을 만들어 적용하는 3번째 단계로 고고씽!

##### 1. 카운트 벡터(CountVectorizer)
- value에는 문서 속에 단어들이 등장하는 횟수만 출력.

##### 2. TF-IDF 벡터(TfidfVectorizer)
- value에, 문서 속에 단어들이 등장하는 횟수가 많으면 가중치를 주되, 전체 문서 전체에서도 많이 등장하면 패널티를 부여.(가중치 값을 좀 깎음)
- 왜냐하면 전체 문서에도 다 많이 등장하는 것은 stopwords와 비슷한 역할이기 때문. 그래서 피처벡터화 할 때는 TF-IDF 방식을 많이 사용함.
-----------

#### 희소 행렬 만드는 방식(COO, CSR 방식)
- 1. COO 형식으로 만든 희소 행렬

In [4]:
import numpy as np
from scipy import sparse

In [6]:
#희소 행렬-COO 형식
dense = np.array( [[3,0,1], [0,2,0]] ) #밀집행렬
#0이 아닌 데이터 추출
data = np.array([3,1,2])
#이것의 행위치(row_pos) , 열위치(col_pos) 지정
row_pos= np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

#COO 형식의 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [7]:
sparse_coo

<2x3 sparse matrix of type '<class 'numpy.int32'>'
	with 3 stored elements in COOrdinate format>

In [8]:
#sparse_coo를 toarray로 만들어보면 원본 행렬 도출
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

##### 2. CSR 형식으로 만든 희소 행렬(CSR: Compressed Sparse Row)
- COO 형식을 사용 시 행 위치를 기록하는 row_pos가 길어질 수 있는데, 심지어 같은 값만 연속해서 길어질 수 있으므로 이것을 보완하여, 고유한 값의 위치만 적는 방식으로 메모리를 줄임
- 이름에서도 느껴지는.. CSR: Sparse "Row"를 압축했다는 뜻.

In [13]:
#처음엔 COO 형식으로
dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]]) #원본

#0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

#행위치, 열위치 array 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

#COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))
print(sparse_coo.toarray()) #다시 원본 반환

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [15]:
#COO 형식을 보완한 CSR 형식

#행위치배열을 고유한 값의 시작 위치 인덱스로만 간결하게 생성
row_pos_new = np.array([0,2,7,9,10,12,13]) #마지막은 총 개수

#CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_new))
print(sparse_csr.toarray()) #다시 원본 반환

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [16]:
#실제 사용 시에는 이렇게 직접 위치 array를 만들 필요 없고, 그냥 sparse.coo_matrix(원본행렬), sparse.csr_matrix(원본행렬) 넣으면 됨.
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

#여기서 만든 객체 coo, csr을 이제 ML 모델에 적용하는 것이고 얘네를 출력할 수는 없음. 뒤에 .toarray() 적용하면 원본이 출력됨으로써 잘 수행했음을 알수있음.
coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

In [18]:
coo.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

In [20]:
csr.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]], dtype=int32)

#### 사이킷런 CountVectorizer 테스트 : 희소 행렬 만드는 것은 CSR 행렬 기반

In [21]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television. \
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text=[]
text.append(text_sample_01); text.append(text_sample_02)
print(text,"\n", len(text))

['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                   You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


- CountVectorizer객체 생성 후 fit(), transform()으로 텍스트에 대한 feature vectorization 수행

In [28]:
from sklearn.feature_extraction.text import CountVectorizer

#객체
cnt_vect = CountVectorizer() #아무런 하이퍼 파라미터도 주지 않음
#학습
cnt_vect.fit(text)
#적용
ftr_vect = cnt_vect.transform(text)
#결과
print(type(ftr_vect)) #csr 기반 생성된 희소행렬
print(ftr_vect.shape) #row는 0과 1밖에 없으므로 전체 행 수가 2임. 왜냐면 앞에서 text_sample이 2개였으므로.
print(ftr_vect) #(row(문서번호=m), col(단어번호=n)), value(횟수 값) , #당연히 0이 아닌 값만 대상으로 하므로 value가 모두 1 이상. #(2x51)

<class 'scipy.sparse.csr.csr_matrix'>
(2, 51)
  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [29]:
#객체.vocabulary_ : countvector로 만들어진 객체가 가진 단어들, 등장횟수
print(cnt_vect.vocabulary_)

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


- CountVectorizer() 객체에 하이퍼 파라미터 튜닝 시 달라지는 결과

In [31]:
#하이퍼 파라미터 튜닝- max_features, stop_words 
cnt_vect = CountVectorizer(max_features=5, stop_words='english') #5개 단어만 출력(n=5)
#학습, 적용
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
#결과
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)
print(ftr_vect) #앞서 그냥 했던 것보다 많이 줄음(2x5)

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}
  (0, 4)	1
  (1, 0)	2
  (1, 1)	2
  (1, 2)	1
  (1, 3)	1


In [32]:
#하이퍼 파라미터 튜닝- ngram
cnt_vect = CountVectorizer(ngram_range=(1,3))
#학습, 적용
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
#결과
print(type(ftr_vect), ftr_vect.shape) #출력되는 개수가 더 늘어남(2x201)
print(cnt_vect.vocabulary_)
print(ftr_vect)

<class 'scipy.sparse.csr.csr_matrix'> (2, 201)
{'the': 129, 'matrix': 77, 'is': 66, 'everywhere': 40, 'its': 74, 'all': 0, 'around': 11, 'us': 150, 'here': 51, 'even': 37, 'in': 59, 'this': 140, 'room': 106, 'you': 174, 'can': 25, 'see': 109, 'it': 69, 'out': 90, 'your': 193, 'window': 165, 'or': 83, 'on': 80, 'television': 126, 'feel': 43, 'when': 162, 'go': 46, 'to': 143, 'work': 171, 'church': 28, 'pay': 93, 'taxes': 125, 'the matrix': 132, 'matrix is': 78, 'is everywhere': 67, 'everywhere its': 41, 'its all': 75, 'all around': 1, 'around us': 12, 'us here': 151, 'here even': 52, 'even in': 38, 'in this': 60, 'this room': 141, 'room you': 107, 'you can': 177, 'can see': 26, 'see it': 110, 'it out': 70, 'out your': 91, 'your window': 199, 'window or': 166, 'or on': 86, 'on your': 81, 'your television': 197, 'television you': 127, 'you feel': 179, 'feel it': 44, 'it when': 72, 'when you': 163, 'you go': 181, 'go to': 47, 'to work': 148, 'work or': 172, 'or go': 84, 'to church': 146, '

In [33]:
#하이퍼 파라미터 튜닝 -모두
cnt_vect = CountVectorizer(max_features=5, stop_words='english', ngram_range=(1,3))
#학습, 적용
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
#결과
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_) #max_features 제한 때문에 크기는 2x5로 같지만 출력되는 vocabulary가 다름
print(ftr_vect) #앞서 그냥 했던 것보다 많이 줄음(2x5)

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'pill': 2, 'story': 3, 'bed': 0, 'believe': 1, 'story ends': 4}
  (1, 0)	1
  (1, 1)	2
  (1, 2)	2
  (1, 3)	1
  (1, 4)	1


- 이제 BOW방식을 적용하여 반환되는 희소행렬(ftr_vect)을 갖고 ML 모델을 만들어 적용하는 3번째 단계로 고고씽!