In [1]:
import pandas as pd
import numpy as np
import re
from konlpy.tag import Okt

In [2]:
df = pd.read_csv('./data/review_data_2t.csv')

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141254 entries, 0 to 141253
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   review  141254 non-null  object
 1   시설분류    141254 non-null  object
dtypes: object(2)
memory usage: 2.2+ MB


In [5]:
df.head(2)

Unnamed: 0,review,시설분류
0,?,문화
1,친절해요,문화


In [6]:
df.columns = ['review','label']

In [7]:
df.head(2)

Unnamed: 0,review,label
0,?,문화
1,친절해요,문화


In [8]:
# 정규 표현식을 사용하여 한글만 추출
def extract_korean(text):

    # 한글과 공백만 추출
    text = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]','',text)
    # 공백 2개 이상인경우 1개로 변환
    text = re.sub(r'\s+',' ',text)

    return text

In [27]:
# 형태소 분석 및 특정 품사 추출 함수
def extract_pos(text) :
    okt = Okt()
    pos_data = okt.pos(text)
    adj = ' '.join([word for word, tag in pos_data if tag in ['Adjective']])
    verb = ' '.join([word for word, tag in pos_data if tag in ['Verb']])
    noun = ' '.join([word for word, tag in pos_data if tag in ['Noun']])
    exclamation = ' '.join([word for word, tag in pos_data if tag in ['Exclamation']])
    
    # 각 품사에 대해 값이 없는 경우 NaN 할당
    adj = adj if adj else np.nan
    verb = verb if verb else np.nan
    noun = noun if noun else np.nan
    exclamation = exclamation if exclamation else np.nan
    
    return adj, verb, noun, exclamation                        
                            

In [28]:
# 한글만 추출하여 새로운 컬럼에 저장
df['review2'] = df['review'].map(extract_korean)

In [38]:
df_test = df.head(5).copy()
display(df_test)
df_test[['adj','verb','noun','exclamation']] = df_test['review2'].apply(extract_pos).apply(pd.Series)
df_test

Unnamed: 0,review,label,review2
0,?,문화,
1,친절해요,문화,친절해요
2,좋아요 만족스러워요,문화,좋아요 만족스러워요
3,와우~~,문화,와우
4,굿,문화,굿


Unnamed: 0,review,label,review2,adj,verb,noun,exclamation
0,?,문화,,,,,
1,친절해요,문화,친절해요,친절해요,,,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,,
3,와우~~,문화,와우,,,와우,
4,굿,문화,굿,,,굿,


In [40]:
from tqdm import tqdm
tqdm.pandas()
# 형용사,동사,명사, 감탄사 추출
df[['adj','verb','noun','exclamation']] = df['review2'].progress_apply(extract_pos).progress_apply(pd.Series)

100%|█████████████████████████████████████████████████████████████████████████| 141254/141254 [06:26<00:00, 365.59it/s]
100%|████████████████████████████████████████████████████████████████████████| 141254/141254 [00:34<00:00, 4115.44it/s]


In [41]:
df.to_csv('./data/review_data_2t_1.csv',index=False)

In [43]:
df2 = pd.read_csv('./data/review_data_2t_1.csv',encoding='utf-8')

In [44]:
df2

Unnamed: 0,review,label,review2,adj,verb,noun,exclamation
0,?,문화,,,,,
1,친절해요,문화,친절해요,친절해요,,,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,,
3,와우~~,문화,와우,,,와우,
4,굿,문화,굿,,,굿,
...,...,...,...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋,해서 갔어요 만져 살펴보시더니 먹어도 되겠다고 하셔서 맞고 왔는데 졌어요,설사 병원 배 보고 약 주사 집 그다음 날,아
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,,데려온 세세하게 봐주셔서 드립니다,저희 천사 곳 중성 혈액 검사 전부 늘 감사,
141251,친절하십니다,동물병원,친절하십니다,친절하십니다,,,
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데,봐주세요 챙겨주시고 가자고하니 따라가네요 해주신 좋아졌어요,진료 진료 후 간식 선생님 산책 요미 처방 습진 약 눈꼽끼는,
