In [1]:
import os 
import pandas as pd 
import numpy as np 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [4]:
DATA_IN_PATH = './data_in/'
TRAIN_CLEAN_DATA = 'train_clean.csv'

train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA)
reviews = list(train_data['review'])
sentiments = list(train_data['sentiment'])

In [7]:
vectorizer = TfidfVectorizer(min_df = 0.0, sublinear_tf=True,
                            ngram_range = (1, 3), max_features= 5000, analyzer='char')
# min_df 
x = vectorizer.fit_transform(reviews)

In [6]:
print(x[0]) #tf-idf값

  (0, 2382)	0.10265920981525471
  (0, 4165)	0.09648781898709254
  (0, 3245)	0.08900961411204703
  (0, 2890)	0.10281741872302302
  (0, 461)	0.09702882253370304
  (0, 2472)	0.09927300094484445
  (0, 4436)	0.09449253751598115
  (0, 3244)	0.10101641058149785
  (0, 4956)	0.08914245586089238
  (0, 2658)	0.09758908287059301
  (0, 1531)	0.16744664931947062
  (0, 2423)	0.08376977960766763
  (0, 2091)	0.06223430347368898
  (0, 4249)	0.06165362714714171
  (0, 1456)	0.06713752013339999
  (0, 1272)	0.05832117939548892
  (0, 1467)	0.04926635009884251
  (0, 1180)	0.10073530215035871
  (0, 355)	0.06432251810634183
  (0, 1113)	0.05589190302617524
  (0, 4255)	0.07398864809196035
  (0, 1793)	0.06474157534099313
  (0, 252)	0.0691948478739135
  (0, 4829)	0.05862639824033324
  (0, 3306)	0.08430017646386166
  :	:
  (0, 2212)	0.08160271418193847
  (0, 1947)	0.15771035639714986
  (0, 4852)	0.07014331053091216
  (0, 2783)	0.0570727665933063
  (0, 2641)	0.037859759804722136
  (0, 1271)	0.1046715184960509
  (0, 8

- min_df : 특정 토큰의 df(특정 단어 t 가 등장한 문서의 수) 값이 이 값보다 더 적게 나오면 벡터화 과정에서 제거한다. 
- analyzer : 
        a.분석하기 위한 n-gram 기준단위, 'word'와 'char; 2가지 옵션을 제공한다.
        b.'word'의 경우 단어 하나를 단위로 하는것이고, 'char'는 문자 하나를 단위로 하는것이다. 
        c.여기서는 문자를 단위로 하기 때문에 'char'로 지정했다. 
        
- sublinear_tf
        a.문서의 단어 빈도 수에 대한 smoothing 여부를 설정 
        b.analyzer의 단위를 'char'로 했기 떄문에 tf값이 너무 큰 값으로 나온다 
        c.이를 전체적으로 줄이는 스케일링의 일환으로 tf => 1 + log(tf)으로 대체한다. 
 
- ngram_range : ngram 에서 사용될 단위 수 n의 범위

- max_feature : 내부적으로 단어의 frequency 벡터를 구할 때 그 최대 길이를 5000으로 제한한것이다.

In [9]:
features =vectorizer.get_feature_names()
print(features)

[' ', ' a', ' aa', ' ab', ' ac', ' ad', ' ae', ' af', ' ag', ' ah', ' ai', ' ak', ' al', ' am', ' an', ' ap', ' ar', ' as', ' at', ' au', ' av', ' aw', ' ax', ' az', ' b', ' b ', ' ba', ' bb', ' be', ' bi', ' bl', ' bo', ' br', ' bu', ' by', ' c', ' c ', ' ca', ' ce', ' cg', ' ch', ' ci', ' cl', ' co', ' cr', ' cu', ' cy', ' d', ' da', ' de', ' di', ' do', ' dr', ' du', ' dv', ' dw', ' dy', ' e', ' e ', ' ea', ' eb', ' ec', ' ed', ' ee', ' ef', ' eg', ' ei', ' el', ' em', ' en', ' ep', ' eq', ' er', ' es', ' et', ' eu', ' ev', ' ex', ' ey', ' f', ' f ', ' fa', ' fb', ' fe', ' fi', ' fl', ' fo', ' fr', ' fu', ' fx', ' g', ' g ', ' ga', ' ge', ' gh', ' gi', ' gl', ' go', ' gr', ' gu', ' gw', ' gy', ' h', ' h ', ' ha', ' hb', ' he', ' hi', ' hm', ' ho', ' hu', ' hy', ' i', ' ia', ' ic', ' id', ' ig', ' ii', ' il', ' im', ' in', ' ir', ' is', ' it', ' iv', ' j', ' j ', ' ja', ' je', ' ji', ' jo', ' jr', ' ju', ' k', ' k ', ' ka', ' ke', ' kh', ' ki', ' kl', ' kn', ' ko', ' kr', ' ku', ' ky

In [10]:
print(x.shape)

(25000, 5000)


In [14]:
RANDOM_SEED = 42
TEST_SPLIT = 0.2 

y = np.array(sentiments)
#타겟 값을 넘파이 배열로 바꿈
x_train, x_eval, y_train, y_eval = train_test_split(x, y, test_size = TEST_SPLIT, 
                                                    random_state=RANDOM_SEED)

In [15]:
lgs = LogisticRegression(class_weight='balanced')
lgs.fit(x_train, y_train)

LogisticRegression(class_weight='balanced')

- class_weight='balanced'  
a. 타깃의 비율이 고르지 않을 경우 예를 들면, 이중 분류 문제에서 학습데이터의 구성이 특정한 한 쪽의 타깃으로 쏠릴 경우 데이터가 적은 타깃은 충분히 학습하지 못함  
b. 이런 언밸런스를 극복하기 위해 데이터가 적은 타깃에 대한 손실함수를 수행할 때, 가중치 벡터 W 에 더 많은 가중치를 부여함  
c. 이 때문에 커진 오차를 줄이기 위해 모델은 데이터가 적은 타깃에 대한 학습에 더 치중하게 됨  
d. 이 때 사용하는 W 에 곱하는 가중치는 다음과 같음  
wj=n_samples / (n_classes * n_samplesj)  
wj 각 클래스에 대한 가중치  
n_samples 전체 샘플의 수  
n_classes 전체 클래스 종류의 수(이진 분류는 2)  
n_samplesj 각 클래스의 샘플 수

In [16]:
predicted = lgs.predict(x_eval)

In [17]:
print(predicted)

[0 1 0 ... 0 0 0]


In [18]:
print('Accuracy: %f' % lgs.score(x_eval, y_eval))

Accuracy: 0.859800


In [19]:
TEST_CLEAN_DATA = 'test_clean.csv'
test_data = pd.read_csv(DATA_IN_PATH + TEST_CLEAN_DATA)

In [20]:
test_data.head()
#target sentiment 컬럼이 없는것을 확인할 수 있다. 

Unnamed: 0,review,id
0,naturally film main themes mortality nostalgia...,"""12311_10"""
1,movie disaster within disaster film full great...,"""8348_2"""
2,movie kids saw tonight child loved one point k...,"""5828_4"""
3,afraid dark left impression several different ...,"""7186_2"""
4,accurate depiction small time mob life filmed ...,"""12128_7"""


In [22]:
testDataVecs = vectorizer.transform(test_data['review'])

In [23]:
test_predicted = lgs.predict(testDataVecs)
print(test_predicted)

[1 0 1 ... 0 1 0]


In [25]:
#id와 test결과를 같이 보내줘야 하는데 ...
DATA_OUT_PATH = './data_out/'
if not os.path.exists(DATA_OUT_PATH):
    os.makedirs(DATA_OUT_PATH)
    
answer_dataset = pd.DataFrame({'id':test_data['id'], 'sentiment': test_predicted})

In [26]:
print(answer_dataset.head())

           id  sentiment
0  "12311_10"          1
1    "8348_2"          0
2    "5828_4"          1
3    "7186_2"          0
4   "12128_7"          1


In [27]:
answer_dataset.to_csv(DATA_OUT_PATH + 'lgs_tfidf_answer.csv', index=False, quoting=3)

## 이제 캐글에 데이터를 올려서 평가받으면 된다. https://www.kaggle.com/c/word2vec-nlp-tutorial/submit