<a href="https://colab.research.google.com/github/threegenie/sentiment_project/blob/main/sentiment_project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import urllib.request
from collections import Counter
from konlpy.tag import Mecab
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [4]:
# 오류(SettingWithCopyError 발생)
pd.set_option('mode.chained_assignment', 'raise') # SettingWithCopyError

# 경고(SettingWithCopyWarning 발생, 기본 값입니다)
pd.set_option('mode.chained_assignment', 'warn') # SettingWithCopyWarning

# 무시
pd.set_option('mode.chained_assignment',  None) # <==== 경고를 끈다

In [5]:
df = pd.read_table('/review.txt', names=['ratings', 'reviews'])
df

Unnamed: 0,ratings,reviews
0,5,배공빠르고 굿
1,2,택배가 엉망이네용 저희집 밑에층에 말도없이 놔두고가고
2,5,아주좋아요 바지 정말 좋아서2개 더 구매했어요 이가격에 대박입니다. 바느질이 조금 ...
3,2,선물용으로 빨리 받아서 전달했어야 하는 상품이었는데 머그컵만 와서 당황했습니다. 전...
4,5,민트색상 예뻐요. 옆 손잡이는 거는 용도로도 사용되네요 ㅎㅎ
...,...,...
199995,2,장마라그런가!!! 달지않아요
199996,5,다이슨 케이스 구매했어요 다이슨 슈퍼소닉 드라이기 케이스 구매했어요가격 괜찮고 배송...
199997,5,로드샾에서 사는것보다 세배 저렴하네요 ㅜㅜ 자주이용할께요
199998,5,넘이쁘고 쎄련되보이네요~


#### 중복 데이터가 있다면 제거

In [6]:
df.drop_duplicates('reviews',keep='first')
df.shape

(200000, 2)

#### 훈련, 테스트셋 분리

In [7]:
train, test = train_test_split(df, test_size = 0.2, random_state = 11)
train.shape, test.shape

((160000, 2), (40000, 2))

#### 별점으로 라벨링 : 별점이 4을 넘으면 긍정 리뷰, 이하는 부정 리뷰로 분류

In [8]:
def star_evaluate(rating):
  if rating >=4:
    return 1
  else:
    return 0
  
train['label'] = train['ratings'].apply(star_evaluate)

train

Unnamed: 0,ratings,reviews,label
6173,5,머리끝이 많이 갈라져서 구매했습니다. 이미 갈라진 건 어쩔 수 없지만 뭔가 모발이 ...,1
62572,4,"가방사이즈 딱 적절해서 좋고, 탄탄한 느낌이라 좋네요. 다만 새것 냄새가 2일째 빠...",1
102317,2,생각보다 짧아요 ㅠ,0
122006,2,별로따뜻하지도않고..벨브도돌리다밑에캡이빠져버리네여..ㅡㅡ그래서본드로붙였는데..노즐만...,0
111083,1,마스크는소형인데끈이대형이네요ㅎ 그것도 쉽게 끊어져요ㅜ,0
...,...,...,...
102327,1,완전 잘깨져요 이건 뭐 잠깐 바닥에 스치기만해도 깨져있어요,0
97617,2,바코드안떳어요,0
21584,2,네조아요. 필요해서 샀어요,0
36543,5,발열 엄청 오래 지속되고 냄새도 없고 만족합니다,1


In [9]:
train['label'].value_counts()

0    80157
1    79843
Name: label, dtype: int64

#### 데이터 정제 - 훈련, 테스트셋에 모두 적용 -> 정규표현식 사용하여 한글 제외 모두 제거

In [10]:
train['reviews'] = train['reviews'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
train['reviews'].replace('', np.nan, inplace=True)
train.head()

Unnamed: 0,ratings,reviews,label
6173,5,머리끝이 많이 갈라져서 구매했습니다 이미 갈라진 건 어쩔 수 없지만 뭔가 모발이 더...,1
62572,4,가방사이즈 딱 적절해서 좋고 탄탄한 느낌이라 좋네요 다만 새것 냄새가 일째 빠지지 ...,1
102317,2,생각보다 짧아요 ㅠ,0
122006,2,별로따뜻하지도않고벨브도돌리다밑에캡이빠져버리네여ㅡㅡ그래서본드로붙였는데노즐만새로사야할듯...,0
111083,1,마스크는소형인데끈이대형이네요ㅎ 그것도 쉽게 끊어져요ㅜ,0


In [11]:
test['reviews'] = test['reviews'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
test['reviews'].replace('', np.nan, inplace=True)
test.head()

Unnamed: 0,ratings,reviews
126682,5,조립하기힘들었어요 나사가짧아서
64852,2,ㅜㅜ 제가 인데 ㅜㅜ 진짜 너무너무커요 빨으니까 더 커졌어요ㅜ 잠옷으로 입으려구요
139941,1,만족하는데 배송이 개느림
85091,5,허리받쳐주는건 좋은데 방석이 미끌어져서 뷸편하네용 ㅠ
61522,5,밥을 해도 압력이 안된 밥을 먹었는데 새 패킹으로 갈아끼우니 짱짱하네여내일부터는 밥...


#### 토큰화 - Mecab 사용

In [12]:
mecab = Mecab()

In [13]:
stopwords = ['도', '는', '다', '의', '가', '이', '은', '한', '에', '하', '고', '을', '를', '인', '듯', '과', '와', '네', '들', '듯', '지', '임', '게']

In [14]:
train['tokenized'] = train['reviews'].apply(mecab.morphs)
train['tokenized'] = train['tokenized'].apply(lambda x: [item for item in x if item not in stopwords])

In [15]:
test['tokenized'] = test['reviews'].apply(mecab.morphs)
test['tokenized'] = test['tokenized'].apply(lambda x: [item for item in x if item not in stopwords])

In [17]:
train.head()

Unnamed: 0,ratings,reviews,label,tokenized
6173,5,머리끝이 많이 갈라져서 구매했습니다 이미 갈라진 건 어쩔 수 없지만 뭔가 모발이 더...,1,"[머리, 끝, 많이, 갈라져서, 구매, 했, 습니다, 이미, 갈라진, 건, 어쩔, ..."
62572,4,가방사이즈 딱 적절해서 좋고 탄탄한 느낌이라 좋네요 다만 새것 냄새가 일째 빠지지 ...,1,"[가방, 사이즈, 딱, 적절, 해서, 좋, 탄탄, 느낌, 라, 좋, 네요, 다만, ..."
102317,2,생각보다 짧아요 ㅠ,0,"[생각, 보다, 짧, 아요, ㅠ]"
122006,2,별로따뜻하지도않고벨브도돌리다밑에캡이빠져버리네여ㅡㅡ그래서본드로붙였는데노즐만새로사야할듯...,0,"[별로, 따뜻, 않, 벨, 브, 돌리, 밑, 캡, 빠져, 버리, 네여, ㅡㅡ그래서본..."
111083,1,마스크는소형인데끈이대형이네요ㅎ 그것도 쉽게 끊어져요ㅜ,0,"[마스크, 소형, 인데, 끈, 이대형, 네요, ㅎ, 그것, 쉽, 끊, 어, 져요, ㅜ]"


In [18]:
test.head()

Unnamed: 0,ratings,reviews,tokenized
126682,5,조립하기힘들었어요 나사가짧아서,"[조립, 기, 힘들, 었, 어요, 나사, 짧, 아서]"
64852,2,ㅜㅜ 제가 인데 ㅜㅜ 진짜 너무너무커요 빨으니까 더 커졌어요ㅜ 잠옷으로 입으려구요,"[ㅜㅜ, 제, 인데, ㅜㅜ, 진짜, 너무너무, 커요, 빨, 으니까, 더, 커졌, 어..."
139941,1,만족하는데 배송이 개느림,"[만족, 데, 배송, 개, 느림]"
85091,5,허리받쳐주는건 좋은데 방석이 미끌어져서 뷸편하네용 ㅠ,"[허리, 받쳐, 주, 건, 좋, 은데, 방석, 미끌, 어, 져서, 뷸편하네용, ㅠ]"
61522,5,밥을 해도 압력이 안된 밥을 먹었는데 새 패킹으로 갈아끼우니 짱짱하네여내일부터는 밥...,"[밥, 해도, 압력, 안, 된, 밥, 먹, 었, 는데, 새, 패킹, 으로, 갈아끼우..."
