In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

In [2]:
data_dir = 'C:/Users/이다혜/Desktop/2020-2/AI/week4/data'

### Sentiment_train.txt / Sentiment_test.txt 파일을 읽고 문장과 정답을 분리하여 각 리스트에 저장
<pre>
<b>1. 데이터 예시</b>
    문장 \t(tab) 라벨 ([P] : 긍정, [N] : 부정)

    예시)
      제품 도 너무 너무 맘 에 들 ㄴ답니다\t[P]
      집사 라 미 드럼 세탁기 를 싫 어 하 ㅂ니다\t[N]
      너무 좋 아요\t[P]
      조금 작 은 감 이 있 지만 잘 쓰 ㄹ께 요\t[N]
      
<b>2. 반환 형태</b>
    texts = [문장1, 문장2, 문장3, ... ]
    labels = [문장1에 대한 라벨, 문장2에 대한 라벨, ... ]

In [3]:
import os
from tqdm import tqdm

In [11]:
# 데이터를 불러와서 텍스트와 라벨 부분으로 나누어 저장 
def load_data(file_path):
    file = open(os.path.join(data_dir, file_path), encoding='utf8')
    
    texts, labels = [], []
    
    for line in tqdm(file.readlines()):
        text, label = line.strip().split('\t')
        texts.append(text)
        labels.append(label)
    return texts, labels

In [12]:
X_train, y_train = load_data('sentiment_train.txt')
X_test, y_test = load_data('sentiment_test.txt')

100%|██████████████████████████████████████████████████████████████████████████| 2686/2686 [00:00<00:00, 412957.76it/s]
100%|████████████████████████████████████████████████████████████████████████████| 300/300 [00:00<00:00, 150369.41it/s]


<h2> 문장을 벡터로 표현하기</h2>
<pre>
<b>1. CountVectorizer()</b>
    문서에 나타나는 단어 <u>빈도수</u>를 기반으로 Vocabulary 생성 및 벡터 변환하기 위한 객체
    
    사용 함수)
      ~.fit_transform(X)
        문서 리스트 X에 등장하는 단어를 기반으로 Vocabulary 자동 생성 및 X를 생성된 Vocabulary에 매핑하여 return
      ~.transform(X)
        CountVectorizer 객체 내에 존재하는 Vocabulary를 기반으로 문장 리스트 X를 벡터로 변환
        
<b>2. 반환 형태</b>
    train_X = ['나 는 밥 을 먹는다', '나 는 학생 이야', '학생 은 학교 에 다녀']
    feature_train_X = CountVectorizer.fit_transform(train_X)
    : [[1, 1, 0], [1, 1, 1], [0, 0, 1]
    Vocabulary
    : [나:0, 는:1, 학생:2]
    숫자는 index를 의미
    test_X = ['나 학생 학생, 나, 나']
    feature_test_X = CountVectorizer.transform(test_X)
    : [3, 0, 2]
</pre>

In [15]:
vectorizer = CountVectorizer()
feature_train_X = vectorizer.fit_transform(X_train)
# fit_transform = fit + transform
# fit : vocabulary 만들기
# transform : vocab을 기반으로 vectorize

print(feature_train_X.get_shape) #단어장 길이는 2258 (두번 이상 등장한 단어들 수)

<bound method spmatrix.get_shape of <2686x2258 sparse matrix of type '<class 'numpy.int64'>'
	with 14487 stored elements in Compressed Sparse Row format>>


In [16]:
print(feature_train_X.toarray().tolist()[0])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [17]:
print(feature_train_X)
# (0, 1828) 1 ==> 0번째 문서에서 vocab의 1828번째 단어가 1번 등장 

  (0, 1828)	1
  (0, 450)	2
  (0, 18)	1
  (1, 1929)	1
  (1, 650)	1
  (1, 1138)	1
  (1, 36)	1
  (2, 450)	1
  (2, 1315)	1
  (3, 1833)	1
  (3, 1906)	1
  (3, 29)	1
  (4, 452)	1
  (4, 1840)	1
  (5, 1032)	1
  (5, 1512)	1
  (5, 2007)	1
  (5, 1319)	1
  (5, 1187)	1
  (6, 1315)	1
  (6, 1013)	1
  (6, 1777)	1
  (6, 755)	1
  (6, 657)	1
  (6, 9)	1
  :	:
  (2680, 226)	1
  (2680, 583)	1
  (2681, 755)	1
  (2681, 503)	1
  (2681, 1114)	1
  (2681, 1308)	1
  (2681, 795)	1
  (2681, 292)	1
  (2681, 507)	1
  (2681, 876)	1
  (2681, 144)	1
  (2682, 1632)	1
  (2682, 1006)	1
  (2683, 1928)	1
  (2683, 144)	1
  (2684, 2007)	1
  (2684, 1396)	1
  (2684, 901)	1
  (2684, 83)	1
  (2684, 653)	1
  (2685, 650)	1
  (2685, 1396)	1
  (2685, 1308)	1
  (2685, 983)	1
  (2685, 1502)	1


In [18]:
classifier = MultinomialNB()
classifier.fit(feature_train_X, y_train)

MultinomialNB()

In [22]:
feature_test_X = vectorizer.transform(X_test)
# fit_transform 쓰지 않음에 주의! fit 하면 vocab 개수가 다를 것임
print(feature_test_X.get_shape)
predictions = classifier.predict(feature_test_X).tolist()

<bound method spmatrix.get_shape of <300x2258 sparse matrix of type '<class 'numpy.int64'>'
	with 1670 stored elements in Compressed Sparse Row format>>


In [20]:
from sklearn.metrics import accuracy_score

print('Accuracy: %.2f' % accuracy_score(y_test, predictions))

Accuracy: 0.84


In [21]:
print(X_test[1])
print(y_test[1])
print(predictions[1])

그런데 배송 일자 가 느리 어 요
<N>
<N>
