## 긍정, 부정의 감성분석 : 데이터 양을 늘리기

In [20]:
import pandas as pd

# 두 파일을 병합하기
df_train = pd.read_csv('ratings_test_extended.csv')
df_test = pd.read_csv('ratings_train_extended.csv')

df = pd.concat([df_train, df_test])

In [21]:
# 중복 제거
df.drop_duplicates(subset=['text'], inplace=True)
# 결측치 제거
df = df.dropna(how='any')

In [22]:
# 중복과 결측치를 제거한 데이터를 파일로 저장하기
df.to_csv('review_filtered.csv')

In [37]:
df = pd.read_csv("review_filtered.csv")
# 데이터를 라벨 0,1의 비중을 맞춰서 1000를 추출

df = df[['text','label']]

df_pos = df[df['label'] == 1]
df_neg = df[df['label'] == 0]

sample_pos = df_pos.sample(n=50, random_state=12)
sample_neg = df_neg.sample(n=50, random_state=12)

sample_df = pd.concat([sample_pos,sample_neg], ignore_index=True)

print("샘플링된 데이터 개수 : ", len(sample_df))
print("라벨별 데이터 개수 : \n", sample_df['label'].value_counts())

df = sample_df

샘플링된 데이터 개수 :  100
라벨별 데이터 개수 : 
 label
1    50
0    50
Name: count, dtype: int64


In [38]:
# 한글 형태소 분석기를 통해, 영화 리뷰 문장들을 전처리
# 한글만 남기고 모두 제거하기
df['text'] = df['text'].str.replace("[^가-힣 ]","",regex=True)
# '빈칸'만 남은 데이터는 공백으로 변경
df['text'] = df['text'].str.replace("^ +","",regex=True)
# 공백만 있는 데이터는 Null / Nan으로 변경
import numpy as np
df['text'] = df['text'].replace("", np.nan)

In [39]:
# df에서 null 제거
df = df.dropna(how='any')
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   text    100 non-null    object
 1   label   100 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 1.7+ KB
None


In [40]:
stopwords = [
    '이', '가', '은', '는', '을', '를', '의', '에', '에서', '에게', '께', '로', '으로', 
    '와', '과', '보다', '처럼', '만큼', '같이', '까지', '마저', '조차', '부터', 
    '이나', '나', '이며', '며', '등', '하다', '한다', '하고', '하니', '하면', 
    '되어', '되다', '되고', '되니', '입니다', '습니다', 'ㅂ니다', '어요', '아요', '다', 
    '고', '면', '며', '게', '지', '죠',
    '그리고', '그러나', '하지만', '그런데', '그래서', '그러면', '그러므로', '따라서', 
    '또한', '또는', '및', '즉', '한편', '반면에', '근데',
    '나', '저', '우리', '저희', '너', '너희', '당신', '그', '그녀', '그들', '누구', 
    '무엇', '어디', '언제', '어느', '이것', '그것', '저것', '여기', '거기', '저기', 
    '이쪽', '그쪽', '저쪽',
    '하나', '둘', '셋', '넷', '다섯', '여섯', '일곱', '여덟', '아홉', '열',
    '일', '이', '삼', '사', '오', '육', '칠', '팔', '구', '십', '백', '천', '만',
    '첫째', '둘째', '셋째',
    '바로', '때', '것', '수', '일', '문제', '경우', '부분',
    '내용', '결과', '자체', '가지','에요',
    '뿐', '대로', '만큼', '만', '지', '따름', '나름', '김에', '터', '너무', '어요'
    '아', '아이고', '아이구', '아하', '어', '그래', '응', '네', '예', '아니'
]

In [41]:
from konlpy.tag import Okt
okt = Okt()

# 훈련 데이터 만들기
train_data = []
for i in range(len(df)):
    emotion = df.iloc[i]['label']
    text = df.iloc[i]['text']
    # 문장을 형태소 분석하기 -> 문장을 단어(토큰)의 리스트로 변환 
    tokenized_text = okt.morphs(text)
    # 형태소 분석결과에서 불용어를 제거함
    filtered_tokens = [ word for word in tokenized_text if not word in stopwords ]
    # (토큰화 된 문장, 감정) 형태의 튜플을 리스트에 저장
    train_data.append((filtered_tokens,emotion))

In [42]:
all_tokens = []
for tokens, emotion in train_data :
    for token in tokens :
        all_tokens.append(token)
vocabulary = list(set(all_tokens))

In [43]:
def create_feature_set(tokens, vocabulary) :
    token_set = set(tokens)
    features = { word : (word in token_set) for word in vocabulary }
    return features

In [44]:
train_feature_datas = []
train_feature_datas = [
    (create_feature_set(tokens,vocabulary),emotion)
    for tokens, emotion in train_data ]

In [45]:
import nltk
model = nltk.NaiveBayesClassifier.train(train_feature_datas)

In [46]:
def classify_text(text, model, tokenizer, vocabulary) :
    tokens = tokenizer.morphs(text)
    filtered_tokens = [ word for word in tokens if not word in stopwords ]
    features = create_feature_set(filtered_tokens, vocabulary)
    clasified_label = model.classify(features)
    print(model.prob_classify(features).prob(clasified_label))
    result = "부정" if clasified_label == 0 else "긍정"
    print("예측 결과 : ", result)
    return result

In [47]:
text_list = [
    "새로운 직장 동료들이 다들 좋은 사람들이라 편하게 적응하고 있어",   #기쁨
    "첫 발표인데, 갑자기 노트북이 꺼져서 정말 당황스러웠어",            #당황
    "상사가 자기가 할 일을 나에게 다 떠넘겨서 너무 화가 나",            #분노
    "내일 중요한 면접이 있는데 하나도 준비를 못 해서 너무 걱정돼",      #불안
    "믿었던 친구에게 배신당해서 큰 상처를 받았어",                      #상처
    "열심히 준비한 프로젝트에서 해고 통보를 받으니 너무 슬프다"         #슬픔
]
for text in text_list :
    classify_text(text, model, okt, vocabulary)

0.997720997288807
예측 결과 :  긍정
0.9939641307513358
예측 결과 :  긍정
0.987743523659205
예측 결과 :  긍정
0.9854490396834792
예측 결과 :  긍정
0.9741199478874802
예측 결과 :  긍정
0.9892736137083007
예측 결과 :  긍정


In [36]:
text_list = [
    "깨긋하구 아늑한분위기",
    "조용하고 주위에 볼거리도 많아요",
    "방이 작고 방음 안되요 주차장 찾기 어려워요",
    "3명이상 숙박하기에는 좋지 않습니다",
    "사장님도 친절하시고 숙소 안도 따뜻해서 좋았어요",
    "친절하고 깔끔해서 지내기 좋았습니다",
    "연박으로 묵었는데 크리스마스 너무 잘 보냈습니다 사장님 친절하시고 시설도 괜찮습니다",
    "친절하시고 위치도 경기전 근처라 한옥마을 다니기도 편했습니다",
    "딱 1박용으로 괜찮은 곳이에요",
    "특별한 서비스는 없었어요"
]
df = pd.read_csv('1_1400_output_partial.csv')

for text in df['sentence'] :
    classify_text(text, model, okt, vocabulary)

0.9999999985713249
예측 결과 :  부정
0.8637209876779893
예측 결과 :  부정
0.9842310753873351
예측 결과 :  긍정
0.9999907113198797
예측 결과 :  긍정
0.9233117865878935
예측 결과 :  긍정
0.993037932747843
예측 결과 :  긍정
0.993037932747843
예측 결과 :  긍정
0.9999675729214862
예측 결과 :  긍정
0.5472041198408298
예측 결과 :  부정
0.9999999938887697
예측 결과 :  부정
0.9999729204992013
예측 결과 :  긍정
0.9982721562582397
예측 결과 :  부정
0.9992338156842396
예측 결과 :  긍정
0.9808483180590006
예측 결과 :  부정
0.9999230359682547
예측 결과 :  긍정
0.999661837929751
예측 결과 :  부정
0.9999846142249834
예측 결과 :  긍정
0.9987844192714584
예측 결과 :  긍정
0.999999998852588
예측 결과 :  긍정
0.9125815681069225
예측 결과 :  긍정
0.999995940193773
예측 결과 :  긍정
0.9999495896506252
예측 결과 :  긍정
0.9970146895635786
예측 결과 :  부정
0.999998330235769
예측 결과 :  부정
0.8803954528642632
예측 결과 :  긍정
0.9999999404771391
예측 결과 :  긍정
0.9999995315052222
예측 결과 :  긍정
0.9999984744599667
예측 결과 :  부정
0.994500021860309
예측 결과 :  긍정
0.9999546431181943
예측 결과 :  긍정
0.9961555665749906
예측 결과 :  부정
0.9985583591093137
예측 결과 :  긍정
0.9999654933762

KeyboardInterrupt: 