### Features of Text
**Text 분류(classification)** 
- 문서나 텍스트를 분류하는 방법으로, 어떤 class label을 부여할지 결정할 수 있음. (이진수로 나눌 때에는 보통 positive, negative와 같은 분류로 나눌 수 있음)
- 한개 이상의 label로도 할당할 수 있음 


### NLTK Corpus

**사용 데이터 - 'movie_revies'**
<br> **감성분석 결과가 label로 붙어있음 (pos, neg)**


In [30]:
import nltk
nltk.download('movie_reviews')

from nltk.corpus import movie_reviews

print('review count:', len(movie_reviews.fileids())) #영화 리뷰 문서의 id 갯수를 보여줌 
print(movie_reviews.fileids()[:10]) #리뷰의 id를 상위 10개만 출력
print(movie_reviews.categories()) # 감성분석 결과(label)이 neg, pos 인지를 출력
print('"neg" reviews:', len(movie_reviews.fileids(categories='neg'))) #'neg' 라벨의 id를 반환
print('"pos" reviews:', len(movie_reviews.fileids(categories='pos'))) #'pos' 라벨의 id를 반환 
fileid = movie_reviews.fileids()[0] 
print('id:', fileid) #첫번째 문서의 id를 반환 = 'id: neg/cv000_29416.txt'
print(movie_reviews.raw(fileid)[:500]) #첫번쨰 리뷰 내용을 500자만 출력
print(movie_reviews.sents(fileid)[:2]) #첫번째 리뷰를 '문장'으로 구분하고, 앞 두 문장만 출력
print(movie_reviews.words(fileid)[:10]) #첫번째 리뷰를 '단어'로 구분하고, 앞 10 단어만 출력

review count: 2000
['neg/cv000_29416.txt', 'neg/cv001_19502.txt', 'neg/cv002_17424.txt', 'neg/cv003_12683.txt', 'neg/cv004_12641.txt', 'neg/cv005_29357.txt', 'neg/cv006_17022.txt', 'neg/cv007_4992.txt', 'neg/cv008_29326.txt', 'neg/cv009_29417.txt']
['neg', 'pos']
"neg" reviews: 1000
"pos" reviews: 1000
id: neg/cv000_29416.txt
plot : two teen couples go to a church party , drink and then drive . 
they get into an accident . 
one of the guys dies , but his girlfriend continues to see him in her life , and has nightmares . 
what's the deal ? 
watch the movie and " sorta " find out . . . 
critique : a mind-fuck movie for the teen generation that touches on a very cool idea , but presents it in a very bad package . 
which is what makes this review an even harder one to write , since i generally applaud films which attempt
[['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.'], ['they', 'get', 'into', 'an', 'accident', '.']]
['

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\space\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


## Bag of words
**단어의 문맥이나 순서X / 빈도값에 따라 피쳐값을 만드는 모델!**
- 문자를 인덱스화 -> 해당 인덱스의 토큰이 몇번 등장했는지를 계산
- label별로 각 문서들에 대한 feature를 생성 

In [10]:
# 주어진 문서 feature set을 dictionary 형태로 구성해서 반환
def bag_of_words(words):
    return dict([(word, True) for word in words]) 
# 있는 단어들만 다시 dictionary 형태로 반환

In [12]:
bag_of_words(['the', 'quick', 'brown', 'fox']) #해당 단어들이 존재하면 True

{'the': True, 'quick': True, 'brown': True, 'fox': True}

- label별로 각 문서들에 대한 feature를 생성 

#### bag of words model을 이용해서 feature를 추출하는 첫번째 방법

In [13]:
import collections

# 'label_feats_from_corpus' - feature 추출을 위한 함수
# 웨에서 정의한 bag_of_words()를 사용
def label_feats_from_corpus(corp, feature_detector=bag_of_words): 
    label_feats = collections.defaultdict(list) # container 초기화
    for label in corp.categories(): #''neg', 'pos' 각 label에 대해
        for fileid in corp.fileids(categories=[label]): #각 label에 해당하는 문서들에 대해
            feats = feature_detector(corp.words(fileids=[fileid])) #문서를 bag_of_words feature로 변환
            label_feats[label].append(feats) #초기화된 container에 해당 feature를 추가함!
    return label_feats

lfeats = label_feats_from_corpus(movie_reviews)
print(lfeats.keys()) # 두 label neg, pos로 출력됨

dict_keys(['neg', 'pos'])


In [14]:
len(lfeats['neg'])

1000

In [15]:
", ".join(lfeats['neg'][0])

'plot, :, two, teen, couples, go, to, a, church, party, ,, drink, and, then, drive, ., they, get, into, an, accident, one, of, the, guys, dies, but, his, girlfriend, continues, see, him, in, her, life, has, nightmares, what, \', s, deal, ?, watch, movie, ", sorta, find, out, critique, mind, -, fuck, for, generation, that, touches, on, very, cool, idea, presents, it, bad, package, which, is, makes, this, review, even, harder, write, since, i, generally, applaud, films, attempt, break, mold, mess, with, your, head, such, (, lost, highway, &, memento, ), there, are, good, ways, making, all, types, these, folks, just, didn, t, snag, correctly, seem, have, taken, pretty, neat, concept, executed, terribly, so, problems, well, its, main, problem, simply, too, jumbled, starts, off, normal, downshifts, fantasy, world, you, as, audience, member, no, going, dreams, characters, coming, back, from, dead, others, who, look, like, strange, apparitions, disappearances, looooot, chase, scenes, tons, we

In [16]:
lfeats['neg'][0]

{'plot': True,
 ':': True,
 'two': True,
 'teen': True,
 'couples': True,
 'go': True,
 'to': True,
 'a': True,
 'church': True,
 'party': True,
 ',': True,
 'drink': True,
 'and': True,
 'then': True,
 'drive': True,
 '.': True,
 'they': True,
 'get': True,
 'into': True,
 'an': True,
 'accident': True,
 'one': True,
 'of': True,
 'the': True,
 'guys': True,
 'dies': True,
 'but': True,
 'his': True,
 'girlfriend': True,
 'continues': True,
 'see': True,
 'him': True,
 'in': True,
 'her': True,
 'life': True,
 'has': True,
 'nightmares': True,
 'what': True,
 "'": True,
 's': True,
 'deal': True,
 '?': True,
 'watch': True,
 'movie': True,
 '"': True,
 'sorta': True,
 'find': True,
 'out': True,
 'critique': True,
 'mind': True,
 '-': True,
 'fuck': True,
 'for': True,
 'generation': True,
 'that': True,
 'touches': True,
 'on': True,
 'very': True,
 'cool': True,
 'idea': True,
 'presents': True,
 'it': True,
 'bad': True,
 'package': True,
 'which': True,
 'is': True,
 'makes': True

#### bag of words model을 이용해서 feature를 추출하는 두번째 방법
- 1. 문서를 world list, label list로 변환
- 2. feature 추출의 대상이 될 단어들의 집합을 구성한다 (단어들의 빈도를 활용해 상위n개의 단어로만 feature 구성)
- 3. feature 추출 대상 단어들이 문서에 있는 지의 여부를 'dictionary'로 생성
- 4. feature와 label로 문서들에 대한 feature set 구성!

In [31]:
from nltk.corpus import movie_reviews
import random

documents = [(list(movie_reviews.words(fileid)), category)    #해당 field에 대한 문서의 word tokeniz 결과를 'documents'집합으로 구성 
              for category in movie_reviews.categories()       
              for fileid in movie_reviews.fileids(category)]   #카테고리별 field를 추출,
random.shuffle(documents)

In [20]:
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words()) #nltk.FreqDist를 활용해서 단어별 빈도수 계산

In [21]:
for word in list(all_words)[:10]: #상위 10개의 단어들의 빈도수 확인
    print(word, all_words[word])

, 77717
the 76529
. 65876
a 38106
and 35576
of 34123
to 31937
' 30585
is 25195
in 21822


In [22]:
sorted_features = sorted(all_words, key=all_words.get, reverse=True)
for word in sorted_features[:10]:
    print(word, all_words[word])
print(sorted_features[:10])

, 77717
the 76529
. 65876
a 38106
and 35576
of 34123
to 31937
' 30585
is 25195
in 21822
[',', 'the', '.', 'a', 'and', 'of', 'to', "'", 'is', 'in']


In [23]:
word_features = sorted_features[:2000] 
#등장 빈도수가 상위 2000개의 단어를 추출 - feature로 구성
print(word_features[:100])

[',', 'the', '.', 'a', 'and', 'of', 'to', "'", 'is', 'in', 's', '"', 'it', 'that', '-', ')', '(', 'as', 'with', 'for', 'his', 'this', 'film', 'i', 'he', 'but', 'on', 'are', 't', 'by', 'be', 'one', 'movie', 'an', 'who', 'not', 'you', 'from', 'at', 'was', 'have', 'they', 'has', 'her', 'all', '?', 'there', 'like', 'so', 'out', 'about', 'up', 'more', 'what', 'when', 'which', 'or', 'she', 'their', ':', 'some', 'just', 'can', 'if', 'we', 'him', 'into', 'even', 'only', 'than', 'no', 'good', 'time', 'most', 'its', 'will', 'story', 'would', 'been', 'much', 'character', 'also', 'get', 'other', 'do', 'two', 'well', 'them', 'very', 'characters', ';', 'first', '--', 'after', 'see', '!', 'way', 'because', 'make', 'life']


In [27]:
# document_features 함수 : 주어진 document를 feature로 변환
def document_features(document, word_features):
    document_words = set(document)
    features = {}
    for word in word_features:
        features[word] = (word in document_words)
    return features

#해당 documents 집합에 대해 feature set을 생성
featuresets = [(document_features(d, word_features), c) for (d,c) in documents]

print(len(featuresets[0][0])) #첫째 feature set의 첫째 element 즉 bag_of_words feature의 수 - 상위 2000개 단어
print(featuresets[0][1]) #첫번째 feature set의 두번째 element - Label ('neg')
print(featuresets[0][0]) #첫번째 feature set의 첫번째 element의 내용들 

2000
neg
{',': True, 'the': True, '.': True, 'a': True, 'and': True, 'of': True, 'to': True, "'": True, 'is': True, 'in': True, 's': True, '"': True, 'it': True, 'that': True, '-': True, ')': True, '(': True, 'as': True, 'with': True, 'for': True, 'his': True, 'this': True, 'film': True, 'i': True, 'he': True, 'but': True, 'on': True, 'are': True, 't': True, 'by': True, 'be': True, 'one': True, 'movie': False, 'an': True, 'who': True, 'not': True, 'you': False, 'from': False, 'at': True, 'was': True, 'have': True, 'they': True, 'has': True, 'her': True, 'all': True, '?': True, 'there': True, 'like': True, 'so': False, 'out': True, 'about': False, 'up': True, 'more': True, 'what': True, 'when': True, 'which': False, 'or': True, 'she': True, 'their': True, ':': True, 'some': True, 'just': True, 'can': False, 'if': False, 'we': False, 'him': True, 'into': True, 'even': True, 'only': True, 'than': True, 'no': False, 'good': False, 'time': False, 'most': False, 'its': True, 'will': False, '

### Scikit을 이용한 'Count Vector'

In [34]:
# 각 review를 string으로 저장
reviews = [movie_reviews.raw(fileid) for fileid in movie_reviews.fileids()]

from sklearn.feature_extraction.text import CountVectorizer
#빈도수 상위 2,000개의 단어만 사용 -> count vector 객체 생성 ('cv')
cv = CountVectorizer(vocabulary=word_features) 
#객체 parameter 확인
print(cv) 

CountVectorizer(vocabulary=[',', 'the', '.', 'a', 'and', 'of', 'to', "'", 'is',
                            'in', 's', '"', 'it', 'that', '-', ')', '(', 'as',
                            'with', 'for', 'his', 'this', 'film', 'i', 'he',
                            'but', 'on', 'are', 't', 'by', ...])


In [38]:
X = cv.fit_transform(reviews) #review를 이용하여 count vector 학습 및 반환
print(cv.get_feature_names()[:100]) # cv에서 사용된 feature들의 이름을 반환

[',', 'the', '.', 'a', 'and', 'of', 'to', "'", 'is', 'in', 's', '"', 'it', 'that', '-', ')', '(', 'as', 'with', 'for', 'his', 'this', 'film', 'i', 'he', 'but', 'on', 'are', 't', 'by', 'be', 'one', 'movie', 'an', 'who', 'not', 'you', 'from', 'at', 'was', 'have', 'they', 'has', 'her', 'all', '?', 'there', 'like', 'so', 'out', 'about', 'up', 'more', 'what', 'when', 'which', 'or', 'she', 'their', ':', 'some', 'just', 'can', 'if', 'we', 'him', 'into', 'even', 'only', 'than', 'no', 'good', 'time', 'most', 'its', 'will', 'story', 'would', 'been', 'much', 'character', 'also', 'get', 'other', 'do', 'two', 'well', 'them', 'very', 'characters', ';', 'first', '--', 'after', 'see', '!', 'way', 'because', 'make', 'life']


In [39]:
#첫번째 feature set 중에서 상위 100개 출력
print(X[0].toarray()[0, :100]) 
#첫번째 feature set 중에서 max 값
print(max(X[0].toarray()[0])) 

[ 0 38  0  0 20 16 16  0 12  8  0  0 25 13  0  0  0  1  5  4  1 10  6  0
  1 10  4 13  0  2  1  3  6  3  3  3  3  4  0  0  2  5  3  4  6  0 10  3
  3  3  2  2  2  4  1  4  2  0  0  0  0  4  0  0  4  1  5  3  1  0  1  2
  0  4  4  0  0  1  2  0  2  1  3  0  2  2  1  0  2  1  0  0  0  2  2  0
  3  2  5  1]
38


### 문서 간 유사도 계산 'Cosine similarity'

In [60]:
from sklearn.metrics.pairwise import cosine_similarity

new_review = "first of all it's a plot heavy mess that has bad voice talents , badly written script and fantastic animation. they are small pokemon with a powerful punch and have great psychic abilities"
new_vec = cv.transform([new_review]) #문서를 CV로 변환
#변환된 CV(new_vec)와 기존 값들과의 similarity 계산
sim_result = cosine_similarity(new_vec, X) 
print(sorted(sim_result[0], reverse=True)[:10])

[0.47404152357849716, 0.4354705693078365, 0.4179484687443539, 0.40669013197195214, 0.4042441311205991, 0.4031257527594671, 0.39316730570210306, 0.38744458895341755, 0.3852303002224743, 0.384468719848977]


In [61]:
import numpy as np
np.argmax(sim_result[0]) #max인덱스를 반환

679

### Scikit을 이용한 'TFIDF'
**TFIDF - 여러 문서의 문서군에서 특정 단어가 문서 내에서 얼마나 중요한 지를 나타내는 수치**
- TF(단어 빈도),DF(문서 빈도-특정 단어가 포함된 문서 수),IDF(역문서 빈도, DF값 역수)

In [50]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer(smooth_idf=True)
transformer

TfidfTransformer()

In [51]:
X_tfidf = transformer.fit_transform(X) #
print(X_tfidf.shape)
print('max count score of the first vector:', max(X[0].toarray()[0]))
print('max tfidf score of the first vector:', max(X_tfidf[0].toarray()[0]))

(2000, 2000)
max count score of the first vector: 38
max tfidf score of the first vector: 0.3958279594831942


In [52]:
new_tfidf = transformer.transform(new_vec)
sim_result_tf = cosine_similarity(new_tfidf, X_tfidf)
np.argmax(sim_result_tf[0]) #max인덱스를 반환

679

In [62]:
print(sorted(sim_result_tf[0], reverse=True)[:10])

[0.39386919931415737, 0.2158533727955655, 0.2055888622850777, 0.18940610744482467, 0.18862790397285573, 0.18841943811025338, 0.18329868368380425, 0.1810784645715442, 0.17853711709135542, 0.17620991687411133]


In [63]:
#count vector에 대한 유사도 상위 문서와 tfidf에 대한 유사도 상위 문서를 비교
print('Count vector:', (-sim_result[0]).argsort()[:10])
print('TFIDF vector:', (-sim_result_tf[0]).argsort()[:10])

Count vector: [ 679  176 1152 1575  952  470  688 1144  103  159]
TFIDF vector: [ 679  577 1209 1933  672 1280    3  913 1596 1163]
