In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [2]:
def tfidf_extractor(corpus):
    # returns a tf-idf based DTM
    vectorizer = TfidfVectorizer(min_df=1, 
                                 norm='l2',
                                 smooth_idf=True,
                                 use_idf=True,
                                 ngram_range=(1,1))
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features

In [None]:
with open('2016_filtered_review.txt', encoding='utf-8') as f:
    docs = [doc.strip().split('\t\t') for doc in f]
    docs = [(doc[1], int(doc[2])) for doc in docs if len(doc) == 3]
    # To read the second and third column info from each row
    texts, scores = zip(*docs)
    # 둘을 분리해서 별도의 list 변수로 저장

<br/><br/>
### 리뷰데이터 불러오기

In [8]:
# CSV 데이터 불러오기
review_df = pd.read_csv('../../data/playstore_review_naver_clova.csv')
review_df

Unnamed: 0,name,ratings,date,helpful vote,comment
0,김헌민,5,2019년 4월 25일,0,"국내 최고 사이트 네이버의 인공지능 도전에 박수 드립니다. 좀더 나아가서 ""네이버 ..."
1,김민성,3,2019년 4월 20일,0,"18일 업데이트 이후 리모콘 조작시(티비, 셋탑) 장치를 인식하지 못하는 경우가 종..."
2,정진심,1,2019년 4월 30일,2,동의가 안눌러져요ㅠ 왜이런가요? 뭐가 잘못된건가요? 4월23일 업데이트 되었다는데 ...
3,민석김,1,2019년 5월 3일,1,"취침 예약 음악 종료하면 ""예약된 시간이 되었어요 재생을 중단할게요"" 라고 하면서 ..."
4,DY Kim,3,2019년 4월 21일,1,아이폰에서도 써 보고 갤럭시에서도 써보는데 안정성이 특히 떨어지네요 저는 주로 음악...
5,바구진,1,2019년 4월 21일,3,앱을 깔고 이용약과 동의를 누를려는데 계속 안눌러지네요ㅠㅠㅠㅠ 그냥 아예 다음단계로...
6,심혜진,1,2019년 5월 6일,0,vibe 연동은 왜 안되는건가요 ㅡㅡ 이용권도 이용하고 스피커로 틀어달라고 해도 계...
7,TV쩡,1,2019년 5월 1일,2,웨이브 스피커 명령어가 안먹습니다. 음성전송도 안됨. 기기상태는 연결 됬다고 나오는...
8,Park Jiyoung,2,2019년 4월 27일,0,업그레이드 하고나서 명령어 인식이 안되는데 왜 그럴까요?? 공장초기화까지 다해도 아...
9,오현진,5,2019년 4월 19일,0,재미있같아요 ㅋㅋ제꺼 코드랑 스피커 충전기선이랑 제스마트폰 코드휘어지거든요 오랜되나...


In [6]:
docs = [(rating, comment) for rating, comment in zip(review_df.ratings, review_df.comment)]

In [7]:
docs[:3]

[(5,
  '국내 최고 사이트 네이버의 인공지능 도전에 박수 드립니다. 좀더 나아가서 "네이버 내비게이션" 도 작동 시키고. 모든 휴대폰 기종 및 통신사 휴대폰에도, 앱을 다운 받으면 음성인식 으로 휴대폰을 컨트롤 할수 있게, 발전 했으면 합니다.'),
 (3,
  '18일 업데이트 이후 리모콘 조작시(티비, 셋탑) 장치를 인식하지 못하는 경우가 종종 발생하네요. 기기 재등록을 해도 마찬가지고 두세번 동일한 명령을 내리면 동작합니다. 수정 필요할 듯 합니다.'),
 (1,
  '동의가 안눌러져요ㅠ 왜이런가요? 뭐가 잘못된건가요? 4월23일 업데이트 되었다는데 왜안되는거죠? 동의 자체가 안되면 클로바 사용도 안되고 어떻게 하라는건지 제품 반품할까요?')]

In [None]:
filtered_texts = []
filtered_labels = []

for text, score in zip(texts, scores):
    if 4 <= score <= 8:
        continue
        
    # 평점 기준으로 문서에 label을 부여
    # 1 ~ 4 -> 부정, -1
    # 8 ~ 10 -> 긍정, 1
    filtered_texts.append(text)
    filtered_labels.append(1 if score > 8 else -1)