## Import

In [50]:
# 데이터 분석
import pandas as pd
import numpy as np

In [51]:
# 시각화
import seaborn as sns
import matplotlib.pyplot as plt
import koreanize_matplotlib

In [52]:
# 정규표현식
import re

In [53]:
# 형태소분석 okt
from konlpy.tag import Okt

## 파일 불러오기

In [54]:
df = pd.read_csv('review_data_2t.csv', encoding='utf-8')
df

Unnamed: 0,review,시설분류
0,?,문화
1,친절해요,문화
2,좋아요 만족스러워요,문화
3,와우~~,문화
4,굿,문화
...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원
141251,친절하십니다,동물병원
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원


## 함수

### 한글만 추출 함수

In [55]:
# 한글만 추출 + 2개이상 공백 1개로 변환
def extract_korean(text):
    # 한글만 추출
    text = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]',' ',text)
    # 공백 2개 이상인 경우 1개로 변환
    text = re.sub(r'\s+',' ',text)
    return text


### 형용사 + 동사 추출 함수

In [56]:
# 조사 빼고 형태소 분류
def get_adjectives(text):
    okt = Okt() # okt 객체 생성
    okt_pos = okt.pos(text)
    join_text = []
    for text, pos in okt_pos:
        if not pos == 'Josa':
            join_text.append(text)
    return " ".join(join_text)

In [57]:
okt = Okt()
okt.pos('설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔')

[('설사', 'Noun'),
 ('를', 'Josa'),
 ('해서', 'Verb'),
 ('병원', 'Noun'),
 ('갔어요', 'Verb'),
 ('배', 'Noun'),
 ('를', 'Josa'),
 ('만져', 'Verb'),
 ('보고', 'Noun'),
 ('꼼꼼히', 'Adjective'),
 ('살펴보시더니', 'Verb'),
 ('약', 'Noun'),
 ('은', 'Josa'),
 ('안', 'VerbPrefix'),
 ('먹어도', 'Verb'),
 ('되겠다고', 'Verb'),
 ('하셔', 'Verb')]

## 한글만 추출 (review2 생성)

In [58]:
df['review2'] = df['review'].map(lambda review:extract_korean(review))

In [59]:
df.head(3)

Unnamed: 0,review,시설분류,review2
0,?,문화,
1,친절해요,문화,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요


## 파생컬럼 생성

In [60]:
# 시간이 오래 걸리는 작업시 시각적으로 진행상황 수치로( %) 보여준다.
from tqdm import tqdm
tqdm.pandas()

In [61]:
df['review_okt'] = df['review'].progress_map(extract_korean).progress_map(get_adjectives)

100%|██████████████████████████████████████████████████████████████████████| 141254/141254 [00:00<00:00, 152774.53it/s]
100%|█████████████████████████████████████████████████████████████████████████| 141254/141254 [05:45<00:00, 408.43it/s]


In [62]:
df

Unnamed: 0,review,시설분류,review2,review_okt
0,?,문화,,
1,친절해요,문화,친절해요,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요
3,와우~~,문화,와우,와우
4,굿,문화,굿,굿
...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,설사 해서 병원 갔어요 배 만져 보고 꼼꼼히 살펴보시더니 약 안 먹어도 되겠다고 하...
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,저희 천사 데려온 곳 중성 화 혈액 검사 전부 세세하게 봐주셔서 늘 감사 드립니다
141251,친절하십니다,동물병원,친절하십니다,친절하십니다
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,진료 꼼꼼히 잘 봐주세요 진료 후 간식 챙겨주시고 선생님 산책 가자고하니 요미 따라...


### 결측치 확인

In [63]:
df.isnull().sum()

review        0
시설분류          0
review2       0
review_okt    0
dtype: int64

### 데이터의 값이 공백인거 NaN으로 변경

In [64]:
# 데이터값이 공백인거 NaN으로 변경
df_NanTest = df.replace(r'^\s*$', np.nan, regex=True)

In [65]:
df_NanTest

Unnamed: 0,review,시설분류,review2,review_okt
0,?,문화,,
1,친절해요,문화,친절해요,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요
3,와우~~,문화,와우,와우
4,굿,문화,굿,굿
...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,설사 해서 병원 갔어요 배 만져 보고 꼼꼼히 살펴보시더니 약 안 먹어도 되겠다고 하...
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,저희 천사 데려온 곳 중성 화 혈액 검사 전부 세세하게 봐주셔서 늘 감사 드립니다
141251,친절하십니다,동물병원,친절하십니다,친절하십니다
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,진료 꼼꼼히 잘 봐주세요 진료 후 간식 챙겨주시고 선생님 산책 가자고하니 요미 따라...


In [66]:
df_NanTest.isnull().sum()

review           9
시설분류             0
review2       4927
review_okt    4928
dtype: int64

### review2(한글만 남긴 리뷰)의 컬럼 데이터가 NaN이면 제거

In [67]:
df_NanTest.dropna(subset=['review'], inplace=True)

In [68]:
df_NanTest.isnull().sum()

review           0
시설분류             0
review2       4918
review_okt    4919
dtype: int64

In [69]:
# df_NanTest.dropna(subset=['adj_verb'], inplace=True)

In [70]:
# df_NanTest.isnull().sum()

In [71]:
df_NanTest.shape

(141245, 4)

## 저장

In [72]:
df_NanTest.to_csv('data/review_okt.csv', index=False, encoding='utf-8-sig')

## 감성사전으로 라벨링 작업

### 데이터프레임 불러오기

In [73]:
df_review_data = pd.read_csv('data/review_okt.csv', encoding='utf-8')

In [74]:
df_review_data.head(20)

Unnamed: 0,review,시설분류,review2,review_okt
0,?,문화,,
1,친절해요,문화,친절해요,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요
3,와우~~,문화,와우,와우
4,굿,문화,굿,굿
5,구,문화,구,구
6,좋아요,문화,좋아요,좋아요
7,굿,문화,굿,굿
8,좋아요,문화,좋아요,좋아요
9,맛나요,문화,맛나요,맛 요


### 정규화, 어간 - 추출 함수

In [75]:
def extract_stemming(words, tokenizer):
    # 문자열을 포함한 다양한 타입에서 NaN 확인
    if pd.isna(words):
        return

    # 전체 텍스트에 대해 한 번에 형태소 분석을 수행
    morphs = tokenizer.morphs(words, stem=True)
    
    # 결과에서 어간만 추출하여 조인
    return ' '.join(morph for morph in morphs if morph)

In [76]:
from konlpy.tag import Okt
okt = Okt()

In [77]:
from tqdm import tqdm
tqdm.pandas()
from functools import partial

In [78]:
# extract_stem 함수에 대한 partial 함수 생성
extract_stem_okt = partial(extract_stemming, tokenizer=okt)

In [79]:
df_review_data['okt_stemmed'] = df_review_data['review_okt'].progress_map(extract_stem_okt)

100%|█████████████████████████████████████████████████████████████████████████| 141245/141245 [03:07<00:00, 752.99it/s]


In [80]:
df_review_data

Unnamed: 0,review,시설분류,review2,review_okt,okt_stemmed
0,?,문화,,,
1,친절해요,문화,친절해요,친절해요,친절하다
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,좋다 만족스럽다
3,와우~~,문화,와우,와우,와우
4,굿,문화,굿,굿,굿
...,...,...,...,...,...
141240,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,설사 해서 병원 갔어요 배 만져 보고 꼼꼼히 살펴보시더니 약 안 먹어도 되겠다고 하...,설사 하다 병원 가다 배 만지다 보고 꼼꼼하다 살펴보다 약 안 먹다 되다 하다 주사...
141241,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,저희 천사 데려온 곳 중성 화 혈액 검사 전부 세세하게 봐주셔서 늘 감사 드립니다,저희 천사 데려오다 곳 중성 화 혈액 검사 전부 세다 보다 늘 감사 드리다
141242,친절하십니다,동물병원,친절하십니다,친절하십니다,친절하다
141243,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,진료 꼼꼼히 잘 봐주세요 진료 후 간식 챙겨주시고 선생님 산책 가자고하니 요미 따라...,진료 꼼꼼하다 자다 보다 진료 후 간식 챙기다 선생님 산책 가다 요미 따라가다 처방...


In [81]:
df_review_data.to_csv('data/review_okt_final.csv', index=False, encoding='utf-8-sig')

In [82]:
df_review_data = pd.read_csv('data/review_okt_final.csv', encoding='utf-8')

### 감성사전 불러오기

In [83]:
import json

In [84]:
with open('data/SentiWord_info.json', encoding='utf-8-sig', mode='r') as f:
    Sentiword_info = json.load(f)

In [85]:
sentiword_dic = pd.DataFrame(Sentiword_info)

In [86]:
sentiword_dic

Unnamed: 0,word,word_root,polarity
0,(-;,(,1
1,(;_;),(;_;),-1
2,(^^),(^^),1
3,(^-^),(^-^),1
4,(^^*,(,1
...,...,...,...
14849,반신반의하다,반신반의,0
14850,신비롭다,신비,1
14851,아리송하다,아리송,-1
14852,알쏭하다,알쏭하,-1


#### 감성사전 추가하기

In [87]:
# 추가할 단어 있으면 추가하기
new_row = {'word': '친절해요', 'word_root': '친절', 'polarity' : '2'}
sentiword_dic = pd.concat([sentiword_dic, pd.DataFrame(new_row, index=[0])], ignore_index=True)

In [88]:
# 추가할 단어 있으면 추가하기
new_row = {'word': '친절하다', 'word_root': '친절', 'polarity' : '2'}
sentiword_dic = pd.concat([sentiword_dic, pd.DataFrame(new_row, index=[0])], ignore_index=True)

In [89]:
# 추가할 단어 있으면 추가하기
new_row = {'word': '굿', 'word_root': '굿', 'polarity' : '1'}
sentiword_dic = pd.concat([sentiword_dic, pd.DataFrame(new_row, index=[0])], ignore_index=True)

### 라벨링 작업

In [90]:
# 감정사전 key-value(단어 - 긍정부정값)
hash_map = {}

In [91]:
# 감정사전 key-value 값 해싱
for index, row in sentiword_dic.iterrows():
  hash_map[row['word']] = row['polarity']

In [96]:
def calculate_sentiment_score(text):
    if pd.isna(text):
        return 0
    score = 0
    words = text.split()
    for word in words:
      score += int(hash_map.get(word,0))
    return score

In [97]:
# 리뷰값 불러와서 긍정 부정 분석
def calculate_sentiment_korean(text):
    if pd.isna(text):
        return 0
    score = 0
    words = text.split()
    for word in words:
      score += int(hash_map.get(word,0))

    if score > 0: return 1
    elif  score < 0 : return -1
    else : return 0

In [98]:
# 리뷰 데이터에 대한 감정 라벨링
from tqdm import tqdm
tqdm.pandas()
df_review_data['score'] = df_review_data['okt_stemmed'].apply(calculate_sentiment_score)

In [99]:
# 리뷰 데이터에 대한 감정 라벨링
from tqdm import tqdm
tqdm.pandas()
df_review_data['label'] = df_review_data['okt_stemmed'].apply(calculate_sentiment_korean)

In [100]:
df_review_data

Unnamed: 0,review,시설분류,review2,review_okt,okt_stemmed,score,label
0,?,문화,,,,0,0
1,친절해요,문화,친절해요,친절해요,친절하다,2,1
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,좋다 만족스럽다,4,1
3,와우~~,문화,와우,와우,와우,0,0
4,굿,문화,굿,굿,굿,1,1
...,...,...,...,...,...,...,...
141240,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,설사 해서 병원 갔어요 배 만져 보고 꼼꼼히 살펴보시더니 약 안 먹어도 되겠다고 하...,설사 하다 병원 가다 배 만지다 보고 꼼꼼하다 살펴보다 약 안 먹다 되다 하다 주사...,1,1
141241,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,저희 천사 데려온 곳 중성 화 혈액 검사 전부 세세하게 봐주셔서 늘 감사 드립니다,저희 천사 데려오다 곳 중성 화 혈액 검사 전부 세다 보다 늘 감사 드리다,1,1
141242,친절하십니다,동물병원,친절하십니다,친절하십니다,친절하다,2,1
141243,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,진료 꼼꼼히 잘 봐주세요 진료 후 간식 챙겨주시고 선생님 산책 가자고하니 요미 따라...,진료 꼼꼼하다 자다 보다 진료 후 간식 챙기다 선생님 산책 가다 요미 따라가다 처방...,2,1


In [101]:
df_review_data.to_csv('data/knu_data_review_okt.csv', index=False, encoding='utf-8-sig')

In [102]:
df_review_data.to_excel('data/knu_data_review_okt.xlsx', index=False)