## 형용사, 동사 어간추출

In [173]:
import pandas as pd
import numpy as np
from konlpy.tag import Okt
okt = Okt()

In [187]:
def extract_stem(words, tokenizer):
    # 문자열을 포함한 다양한 타입에서 NaN 확인
    if pd.isna(words):
        return

    # 전체 텍스트에 대해 한 번에 형태소 분석을 수행
    morphs = tokenizer.morphs(words, stem=True)
    
    # 결과에서 어간만 추출하여 조인
    return ' '.join(morph for morph in morphs if morph)

In [175]:
extract_stem(df_2t.loc[2,'adj'],okt)

'좋다 만족스럽다'

In [139]:
df_1t = pd.read_csv('./data/review_data_1t_2.csv', encoding='utf-8')
df_1t.head(2)

Unnamed: 0,label,review,review2,adj,verb,noun,exclamation
0,희양산,[2일차: 희양산 - 대야산4山_희양산 50m© NAVER Corp.더보기 /Ope...,일차 희양산 대야산희양산 더보기 지도 데이터 지도 컨트롤러 범례부동산거리읍면동시군구...,간단한 시원한 괜찮다 어렵고 길도 험하고 불친절한 그렇지 나쁘지 많은 미끄럽 없는 ...,둘러 삼아 바라본 하면 나오는 찾아 찾아보니 앞서던 넘치고 않았던 않다 거칠어진 기...,일차 희양산 대야산 희양산 더 보기 지도 데이터 지도 컨트롤러 범례 부동산 거리 읍...,휴
1,희양산,[몇년전 부봉인가 도명산을 올랐을때 유난히 대머리가 심한 희양산이 눈에 띄어 언젠가...,몇년전 부봉인가 도명산을 올랐을때 유난히 대머리가 심한 희양산이 눈에 띄어 언젠가 ...,심한 뿌옇다 맑아진다니 간략히 희 많지 짧게 덥고 모호한데 예쁘다고 그래 있는 있 ...,올랐을 띄어 가보고 싶었는데 나면 트여 볼거란 들었다 헌데 가르는 기대는 버리지 세...,년전 부 봉인 도명 산 때 대머리 희양산 눈 한번 오늘이 그날 토요일 새벽 비 그 ...,끄응 아 엉


In [140]:
df_2t = pd.read_csv('./data/review_data_2t_2.csv', encoding='utf-8')
df_2t.head(3)

Unnamed: 0,review,label,review2,adj,verb,noun,exclamation
0,?,문화,,,,,
1,친절해요,문화,친절해요,친절해요,,,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,,


In [141]:
df_3t = pd.read_csv('./data/review_data_3t_2.csv', encoding='utf-8')
df_3t.head(2)

Unnamed: 0,리뷰,음식유형,review2,adj,verb,noun,exclamation
0,👍,디저트,,,,,
1,굿,디저트,굿,,,굿,


### 형용사 어간 추출하여 파생열 만들기

In [188]:
from tqdm import tqdm
tqdm.pandas()
from functools import partial

In [189]:
# extract_stem 함수에 대한 partial 함수 생성
extract_stem_okt = partial(extract_stem, tokenizer=okt)

In [196]:
df_1t['adj_stem'] = df_1t['adj'].progress_map(extract_stem_okt)

100%|██████████████████████████████████████████████████████████████████████████| 123983/123983 [21:02<00:00, 98.21it/s]


In [191]:
df_2t['adj_stem'] = df_2t['adj'].progress_map(extract_stem_okt)

100%|████████████████████████████████████████████████████████████████████████| 141254/141254 [01:17<00:00, 1832.97it/s]


In [192]:
df_3t['adj_stem'] = df_3t['adj'].progress_map(extract_stem_okt)

100%|████████████████████████████████████████████████████████████████████████| 123749/123749 [01:26<00:00, 1429.20it/s]


### 동사 어간 추출하여 파생열 만들기

In [201]:
df_1t['verb_stem'] = df_1t['verb'].progress_map(extract_stem_okt)

100%|██████████████████████████████████████████████████████████████████████████| 123983/123983 [40:32<00:00, 50.96it/s]


In [193]:
df_2t['verb_stem'] = df_2t['verb'].progress_map(extract_stem_okt)

100%|████████████████████████████████████████████████████████████████████████| 141254/141254 [01:18<00:00, 1809.69it/s]


In [194]:
df_3t['verb_stem'] = df_3t['verb'].progress_map(extract_stem_okt)

100%|████████████████████████████████████████████████████████████████████████| 123749/123749 [01:05<00:00, 1902.42it/s]


In [181]:
df_2t[['adj','adj_stem']]

Unnamed: 0,adj,adj_stem
0,,
1,친절해요,친절하다
2,좋아요 만족스러워요,좋다 만족스럽다
3,,
4,,
...,...,...
141249,꼼꼼히 다행히 좋,꼼꼼하다 다행하다 좋다
141250,,
141251,친절하십니다,친절하다
141252,꼼꼼히 약발라주고 있는데,꼼꼼하다 약바르다 있다


In [207]:
df_1t.to_csv('./data/review_data_1t_3.csv',index=False)

In [208]:
df_2t.to_csv('./data/review_data_2t_3.csv',index=False)

In [None]:
df_3t.to_csv('./data/review_data_3t_3.csv',index=False)

In [212]:
tmp = pd.read_csv('./data/review_data_2t_3.csv')

In [213]:
tmp

Unnamed: 0,review,label,review2,adj,verb,noun,exclamation,adj_stem,verb_stem
0,?,문화,,,,,,,
1,친절해요,문화,친절해요,친절해요,,,,친절하다,
2,좋아요 만족스러워요,문화,좋아요 만족스러워요,좋아요 만족스러워요,,,,좋다 만족스럽다,
3,와우~~,문화,와우,,,와우,,,
4,굿,문화,굿,,,굿,,,
...,...,...,...,...,...,...,...,...,...
141249,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,동물병원,설사를해서 병원갔어요 배를 만져보고 꼼꼼히 살펴보시더니 약은 안먹어도 되겠다고 하셔...,꼼꼼히 다행히 좋,해서 갔어요 만져 살펴보시더니 먹어도 되겠다고 하셔서 맞고 왔는데 졌어요,설사 병원 배 보고 약 주사 집 그다음 날,아,꼼꼼하다 다행하다 좋다,하다 가다 만지다 살펴보다 먹다 되다 하다 맞다 오다 지다
141250,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립...,동물병원,저희 천사 데려온 곳이고 중성화부터 혈액검사까지 전부 세세하게 봐주셔서 늘 감사드립니다,,데려온 세세하게 봐주셔서 드립니다,저희 천사 곳 중성 혈액 검사 전부 늘 감사,,,데려오다 세다 보다 드리다
141251,친절하십니다,동물병원,친절하십니다,친절하십니다,,,,친절하다,
141252,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,동물병원,진료 꼼꼼히 잘봐주세요 진료후 간식도 챙겨주시고 선생님께서 산책 가자고하니 요미가 ...,꼼꼼히 약발라주고 있는데,봐주세요 챙겨주시고 가자고하니 따라가네요 해주신 좋아졌어요,진료 진료 후 간식 선생님 산책 요미 처방 습진 약 눈꼽끼는,,꼼꼼하다 약바르다 있다,보다 챙기다 가다 따라가다 해주다 좋아지다
