### 카운트 기반의 문서 표현

In [2]:
import nltk
nltk.download('movie_reviews')

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\jupit\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


True

In [12]:
from nltk.corpus import movie_reviews

print('#review count:', len(movie_reviews.fileids()))    #영화 리뷰 문서의 id를 반환
print('#samples of file ids:', movie_reviews.fileids()[:10])    #id를 10개까지만 출력

fileid = movie_reviews.fileids()[0]    #첫번째 문서의 id를 반환
print('#id of the first review:', fileid)

print()
#첫번째 문서의 내용을 200자까지만 출력
print('#first review content:\n', movie_reviews.raw(fileid)[:200])

print()
#첫번째 문서를 sentence tokenize한 결과 중 앞 두 문장
print('#sentence tokenization result:', movie_reviews.sents(fileid)[:2])

print()
#첫번째 문서를 word tokenize한 결과 중 앞 20개 단어
print('#word tokenization result:', movie_reviews.words(fileid)[:20])


#review count: 2000
#samples of file ids: ['neg/cv000_29416.txt', 'neg/cv001_19502.txt', 'neg/cv002_17424.txt', 'neg/cv003_12683.txt', 'neg/cv004_12641.txt', 'neg/cv005_29357.txt', 'neg/cv006_17022.txt', 'neg/cv007_4992.txt', 'neg/cv008_29326.txt', 'neg/cv009_29417.txt']
#id of the first review: neg/cv000_29416.txt

#first review content:
 plot : two teen couples go to a church party , drink and then drive . 
they get into an accident . 
one of the guys dies , but his girlfriend continues to see him in her life , and has nightmares . 
w

#sentence tokenization result: [['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.'], ['they', 'get', 'into', 'an', 'accident', '.']]

#word tokenization result: ['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.', 'they', 'get', 'into', 'an']


In [None]:
#위 결과에서 총 2000개의 리뷰 문서가 있다
#neg - negative, pos - positive 표현

### BOW(Bag of Words)

In [None]:
#텍스트는 특성 값의 집합(혹은 벡터)으로 변환
#카운트 기반의 문서 표현에서는 단어가 특성이 되고, 단어의 빈도가 특성의 값이 된다.
#이와 같은 방식을 BOW(Bag of Words)
#이렇게 표현하는 이유는 단어들을 가방에 넣으면 순서가 사라기기 때문이다.
#이 가방 안의 단어들에 대해 빈도를 계산하면 원문 텍스트로부터 BOW를 거쳐 특성 벡터를 추출할 수 있다
#특성 벡터 예제 - and:3, could:2, two:1, roads:1

In [17]:
documents = [list(movie_reviews.words(fileid)) for fileid in movie_reviews.fileids()]
print(documents[0][:50])    #첫째 문서의 앞 50개 단어를 출력


['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.', 'they', 'get', 'into', 'an', 'accident', '.', 'one', 'of', 'the', 'guys', 'dies', ',', 'but', 'his', 'girlfriend', 'continues', 'to', 'see', 'him', 'in', 'her', 'life', ',', 'and', 'has', 'nightmares', '.', 'what', "'", 's', 'the', 'deal', '?', 'watch']


In [28]:
word_count = {}    #Dictionary 만들기
for text in documents:
    for word in text:
        word_count[word] = word_count.get(word, 0) + 1
        
sorted_features = sorted(word_count, key = word_count.get, reverse = True)
for word in sorted_features[:10]:
    print(f"count of '{word}': {word_count[word]}", end=' , ')
    

[',', 'the', '.', 'a', 'and', 'of', 'to', "'", 'is', 'in']
count of ',': 77717 , count of 'the': 76529 , count of '.': 65876 , count of 'a': 38106 , count of 'and': 35576 , count of 'of': 34123 , count of 'to': 31937 , count of ''': 30585 , count of 'is': 25195 , count of 'in': 21822 , 

In [None]:
#word_count.get(word, 0) + 1  --> 해석: 단어 카운트 수 세기. 0는 default value. 
#만약에 단어가 딕셔너리에 없으면 0으로 카운트
#단어가 딕셔너리에 있으면 +1 카운트

In [108]:
#data 준비, movie_reviews.raw()를 사용해 raw text를 추출
reviews = [movie_reviews.raw(fileid) for fileid in movie_reviews.fileids()]

In [112]:
from sklearn.feature_extraction.text import CountVectorizer

#cv = CountVectorizer()    #모든 매개변수에 기본값을 사용하는 경우

cv = CountVectorizer(max_features = 1000)    #특성 집합을 지정하지 않고 최대 특성의 수를 지정하는 경우

print(cv)   #객체의 인수를 확인

CountVectorizer(max_features=1000)


In [116]:
reviews_cv = cv.fit_transform(reviews)
print(cv.get_feature_names_out()[:20])


['10' 'ability' 'able' 'about' 'above' 'absolutely' 'across' 'act'
 'acting' 'action' 'actor' 'actors' 'actress' 'actual' 'actually' 'add'
 'after' 'again' 'against' 'age']


In [118]:
print('#type of count vectors:', type(reviews_cv))
print('#shape of count vectors:', reviews_cv.shape)

#type of count vectors: <class 'scipy.sparse._csr.csr_matrix'>
#shape of count vectors: (2000, 1000)


In [120]:
print(reviews_cv[0, :10])

  (0, 3)	2
  (0, 0)	10


In [122]:
reviews_cv

<2000x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 373712 stored elements in Compressed Sparse Row format>

In [126]:
print(reviews_cv.toarray()[0, :20])

[10  0  0  2  0  0  0  0  0  0  0  1  0  0  2  0  2  2  0  0]


### TF-IDF (Term Frequency - Inverse Document Frequency)

In [134]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
transformer

reviews_tfidf = transformer.fit_transform(reviews_cv)

#TF-IDF 행렬의 모양과 카운트 행렬의 모양이 일치하는 것을 확인
print('#shape of tfidf matrix:', reviews_tfidf.shape)

#첫 리뷰의 카운트 벡터 중 앞 20개 값 출력
print('#20 count score of the first review:', reviews_cv[0].toarray()[0][:20])

#첫 리뷰의 TF-IDF 벡터 중 앞 20개 값 출력
print('#20 tfidf score of the first review:', reviews_tfidf[0].toarray()[0][:20])


#shape of tfidf matrix: (2000, 1000)
#20 count score of the first review: [10  0  0  2  0  0  0  0  0  0  0  1  0  0  2  0  2  2  0  0]
#20 tfidf score of the first review: [0.36352951 0.         0.         0.02838787 0.         0.
 0.         0.         0.         0.         0.         0.02536173
 0.         0.         0.04851355 0.         0.03515255 0.05097422
 0.         0.        ]


In [None]:
#카운트 벡터에서는 빈도가 높을수록 중요한 단어로 취급되는 경향이 있다
#그러나, 모든 문서에 다 들어있는 단어는 별로 중요하지 않다
#그래서 TF-IDF 사용 - 단어의 빈도를 그 단어가 나타난 문서의 수로 나눈다
#이렇게 하면 단어가 나타난 문서의 수가 클수록 TF-IDF 값은 작아진다.