In [1]:
import pickle
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import urllib.request
from konlpy.tag import Okt
from tqdm import tqdm
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [31]:
kakao_data = pd.read_csv('kakao_review_0to500.csv', encoding = 'cp949')
kakao_data.head(1)

Unnamed: 0,store_id,kakao_nickname,kakao_date,kakao_content,kakao_star
0,17174042,김지아,2022.10.21.,차돌쭈꾸미 새로생겨서 먹어봤는디 정말맛있어요존맛탱구리구리 오늘도 아주 잘먹구갑니다 ...,5.0


In [28]:
kakao_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1270 entries, 0 to 1269
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   store_id        1270 non-null   int64  
 1   kakao_nickname  1218 non-null   object 
 2   kakao_date      1270 non-null   object 
 3   kakao_content   1057 non-null   object 
 4   kakao_star      1270 non-null   float64
dtypes: float64(1), int64(1), object(3)
memory usage: 49.7+ KB


In [14]:
kakao_data.shape

(1270, 5)

In [24]:
# 개인별점이 공백인 행은 제거해준다
space = kakao_data[kakao_data['kakao_star'] == ""].index
kakao_data.drop(space, inplace=True)

In [77]:
kakao_data2 = kakao_data[kakao_data['store_id'] == 15549566]
kakao_data2.head(3)

Unnamed: 0,store_id,kakao_nickname,kakao_date,kakao_content,kakao_star
5,15549566,앵,2022.11.03.,탕이 진국,4.0
6,15549566,동동,2022.09.14.,재밌는 경험 우리나라 유일한 당나귀고기집확실히 말고기보다 맛나다희귀한 고기를 다양하...,5.0
7,15549566,그린애플,2022.09.04.,2인 의 코스 시켰는데 마지막 전골은 양이 많아서 거의 남겼어요 동 코스로 충분합니...,5.0


In [78]:
# kakao_star 가 3.5 이상이면 label 1
# 그게 아니면 0을 준다
label = (kakao_data2['kakao_star'] >= 3.5)
kakao_data2['label'] = pd.Categorical(np.where(label, 1, 0))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  kakao_data2['label'] = pd.Categorical(np.where(label, 1, 0))


In [79]:
kakao_data2.head(1)

Unnamed: 0,store_id,kakao_nickname,kakao_date,kakao_content,kakao_star,label
5,15549566,앵,2022.11.03.,탕이 진국,4.0,1


In [81]:
kakao_data2.shape

(26, 6)

In [74]:
# 중복되는리뷰내용은제거한다
kakao_data2.drop_duplicates(subset=['kakao_content'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  kakao_data2.drop_duplicates(subset=['kakao_content'], inplace=True)


In [84]:
print(kakao_data2.groupby('label').size().reset_index(name = 'count'))

  label  count
0     0      2
1     1     24


In [88]:
# 리뷰내용이 null값인 행은 제거한다
print(kakao_data2.isnull().sum())
kakao_data2['kakao_content'] = kakao_data2['kakao_content'].dropna(axis=0)

store_id          0
kakao_nickname    1
kakao_date        0
kakao_content     2
kakao_star        0
label             0
dtype: int64


In [95]:
kakao_data2.shape

(23, 6)

In [96]:
# 한글과 공백을 제외하고 모두 제거해준다
kakao_data2['kakao_content'] = kakao_data2['kakao_content'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
kakao_data2[:5]

  kakao_data2['kakao_content'] = kakao_data2['kakao_content'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")


Unnamed: 0,store_id,kakao_nickname,kakao_date,kakao_content,kakao_star,label
5,15549566,앵,2022.11.03.,탕이 진국,4.0,1
6,15549566,동동,2022.09.14.,재밌는 경험 우리나라 유일한 당나귀고기집확실히 말고기보다 맛나다희귀한 고기를 다양하...,5.0,1
7,15549566,그린애플,2022.09.04.,인 의 코스 시켰는데 마지막 전골은 양이 많아서 거의 남겼어요 동 코스로 충분합니다...,5.0,1
8,15549566,까칠이,2022.05.04.,처음과 많이 달라졌음단품 메뉴 시키면 들은체 만체그 어떤 손님도 귀하거늘 차별...,1.0,0
10,15549566,롸,2022.01.18.,연초에 귀한분들모시고 다녀왔습니다 하나부터 열까지 모두 만족했고 서비스또한 좋습니다...,5.0,1
