In [13]:
import pandas as pd
from tqdm import tqdm
import os
from konlpy.tag import Okt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.linear_model import LogisticRegression

tfid = TfidfVectorizer()
okt = Okt()

# 학습 데이터

In [14]:
data = pd.read_csv(os.path.join("./data", 'review.txt'), sep='\t')

In [15]:
review_data = data['document'].dropna().values

review_data = review_data[:5000]

In [16]:
cleaned_review_data = []

for review in tqdm(review_data):
    tokens = okt.nouns(review)
    cleaned_tokens = []
    for word in tokens:
        if len(word) > 1:
            cleaned_tokens.append(word)
        else:
            pass
    cleaned_review = " ".join(cleaned_tokens)
    cleaned_review_data.append(cleaned_review)

100%|█████████████████████████████████████████████████████████████████████████████| 5000/5000 [00:11<00:00, 447.13it/s]


In [17]:
review_tfid = tfid.fit_transform(cleaned_review_data)

In [18]:
lda = LatentDirichletAllocation(n_components=2)  

lda.fit(review_tfid)

LatentDirichletAllocation(n_components=2)

In [19]:
labels = data['label'].iloc[:5000].values

In [20]:
lr = LogisticRegression()

lr.fit(review_tfid, labels)

LogisticRegression()

# 크롤링 데이터

In [30]:
df = pd.read_csv("naver_review.csv")

sample = df['review'].iloc[:len(df)]

cleaned_check_review_data = []

for review in tqdm(sample):
    tokens = okt.nouns(review)
    cleaned_tokens = []
    for word in tokens:
        if len(word) > 1:
            cleaned_tokens.append(word)
        else:
            pass
    cleaned_check_review = " ".join(cleaned_tokens)
    
    cleaned_check_review_data.append(cleaned_check_review)
    


100%|██████████████████████████████████████████████████████████████████████████████████| 80/80 [00:03<00:00, 24.27it/s]


In [31]:
positive = 0
negative = 0

for i in range(len(cleaned_check_review_data)):
    test_review_tfid = tfid.transform(cleaned_check_review_data)
    test_pred = lr.predict(test_review_tfid)[i]
    if test_pred > 0 :
        positive += 1 
    else:
        negative += 1


In [32]:
print("분석 결과 {}적인 리뷰로 예측됩니다. ".format("긍정" if positive > negative else "부정"))

분석 결과 부정적인 리뷰로 예측됩니다. 


In [33]:
print(positive)
print(negative)

25
55


In [34]:
df

Unnamed: 0.1,Unnamed: 0,육사오(6/45) : 네이버 영화,user,review
0,0,윈도우11 아직은 ㅜㅜ,cowb****,\n안녕하세요 저는 경기도화성시 에 살고있는 남자입니다 저는 평범한 사내 이...
1,1,윈도우1122 H2 출시 입박,cowb****,\n안녕하세요 저 컴퓨터 윈도우 11 사용 중인데 저는 아직은 아닌 것 ...
2,2,[영화감상] 육사오 (6/45),sakg****,\n요즘 '블로그'를 잘 못하고 있습니다..이것도 3일만에 올린건데....이유는 바...
3,3,2022.10. 육사오,aesi****,\n\n\n\n\n\n\n\n\n육사오(6/45)\n\n감독\n박규태\n출연\n고경...
4,4,<영화리뷰>육사오(6/45)-2022.09.13.화,ree_****,\n<영화리뷰>육사오(6/45)-2022.09.13.화요즘 나무는영화보기에 맛?들린...
...,...,...,...,...
75,75,2022년 10월 5일(水) / 박규태 감독의 《육사오(6/45)》,kimg****,"\n억지 웃음을 강요하는 영화, 잘 봤습니다. MBC의 〈출발! 비디오 여행〉, K..."
76,76,"[8.31~9.4 국내 박스오피스] 육사오, 돌풍의 힘을 보여주다",sch0****,"\n\n\n\n육사오(6/45)\n\n감독\n박규태\n출연\n고경표, 이이경, 음문..."
77,77,한국 영화 육사오(6/45) 2022,park****,\n 아오랜만에 생각없이 빵빵 웃었네 ㅋㅋㅋㅋ이런 영화좀 많이 만들어 줬으면 좋겠다...
78,78,아무 생각 없이 부담 없이 즐겁게 보는 재밌는 영화 <육사오>,bund****,\n육사오(6/45) . 2022사실 로또'를 주제로 만들 수 있는 영화 소재들은 ...
