In [11]:
import pandas as pd
import numpy as np
import re
from konlpy.tag import Okt

In [12]:
df = pd.read_csv('./data/review_data_1t.csv')

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70037 entries, 0 to 70036
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   index   70037 non-null  int64 
 1   산이름     70037 non-null  object
 2   내용      70037 non-null  object
dtypes: int64(1), object(2)
memory usage: 1.6+ MB


In [14]:
df.head(2)

Unnamed: 0,index,산이름,내용
0,1,가리산,[2023년 21번째 산행#블랙야크100대명산 19 인증완료 19/100추석에 서울...
1,1,가리산,[ 홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주...


In [16]:
df.columns = ['index','label','review']

In [17]:
df.head(2)

Unnamed: 0,index,label,review
0,1,가리산,[2023년 21번째 산행#블랙야크100대명산 19 인증완료 19/100추석에 서울...
1,1,가리산,[ 홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주...


In [18]:
# 정규 표현식을 사용하여 한글만 추출
def extract_korean(text):

    # 한글과 공백만 추출
    text = re.sub(r'[^ㄱ-ㅎㅏ-ㅣ가-힣\s]','',text)
    # 공백 2개 이상인경우 1개로 변환
    text = re.sub(r'\s+',' ',text)

    return text

In [19]:
# 형태소 분석 및 특정 품사 추출 함수
def extract_pos(text) :
    okt = Okt()
    pos_data = okt.pos(text)
    adj = ' '.join([word for word, tag in pos_data if tag in ['Adjective']])
    verb = ' '.join([word for word, tag in pos_data if tag in ['Verb']])
    noun = ' '.join([word for word, tag in pos_data if tag in ['Noun']])
    exclamation = ' '.join([word for word, tag in pos_data if tag in ['Exclamation']])
    
    # 각 품사에 대해 값이 없는 경우 NaN 할당
    adj = adj if adj else np.nan
    verb = verb if verb else np.nan
    noun = noun if noun else np.nan
    exclamation = exclamation if exclamation else np.nan
    
    return adj, verb, noun, exclamation                        
                            

In [20]:
# 한글만 추출하여 새로운 컬럼에 저장
df['review2'] = df['review'].map(extract_korean)

In [21]:
df_test = df.head(5).copy()
display(df_test)
df_test[['adj','verb','noun','exclamation']] = df_test['review2'].apply(extract_pos).apply(pd.Series)
df_test

Unnamed: 0,index,label,review,review2
0,1,가리산,[2023년 21번째 산행#블랙야크100대명산 19 인증완료 19/100추석에 서울...,년 번째 산행블랙야크대명산 인증완료 추석에 서울 올라가는길에 다음주 일요일 갈 만한...
1,1,가리산,[ 홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주...,홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주차...
2,1,가리산,[ 국내여행강원 홍천군#강원 #홍천 #가리산 #자연휴양림 ※ 네비게이션 주소 : ...,국내여행강원 홍천군강원 홍천 가리산 자연휴양림 네비게이션 주소 맵 가리산 자연휴양...
3,1,가리산,[ 홍천 가리산 레포츠파크주소 : 강원도 홍천군 두촌면 가리산길 426이용요금 : ...,홍천 가리산 레포츠파크주소 강원도 홍천군 두촌면 가리산길 이용요금 어드벤처 원 서...
4,1,가리산,[한국판 큰 바위 얼굴이 있는 정상에서 소양강 조망초록색 향기가 몹시 그리운 봄날에...,한국판 큰 바위 얼굴이 있는 정상에서 소양강 조망초록색 향기가 몹시 그리운 봄날에는...


Unnamed: 0,index,label,review,review2,adj,verb,noun,exclamation
0,1,가리산,[2023년 21번째 산행#블랙야크100대명산 19 인증완료 19/100추석에 서울...,년 번째 산행블랙야크대명산 인증완료 추석에 서울 올라가는길에 다음주 일요일 갈 만한...,가깝고 괜찮은 같은데 아니면 많아서 빠르게 없던 있었나 같은 있는데 있는지아마 적합...,올라가는 갈 되면 가고 걸어놨는데다 들어와 떠났다 들어 봤는데 해본다 들른 팜 갈 ...,년 산행 블랙 야크 명산 인증 완료 추석 서울 길 다음주 일요일 만 산 검색 홍천 ...,
1,1,가리산,[ 홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주...,홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주차...,있었고 있는 좋을 그러다 어렵게 있는지 없고 있었다 많았는데 푸근하 좋은데 많을 있...,합수 가 합수 합수 가 합수 오르는 부러진 치는 않지만 할 되었다 분이라면 미루어도...,홍천 가리산 등산 코스 자연휴양림 주차장 곡 무쇠 말재 정상 삽 고개 곡 주차장 원...,
2,1,가리산,[ 국내여행강원 홍천군#강원 #홍천 #가리산 #자연휴양림 ※ 네비게이션 주소 : ...,국내여행강원 홍천군강원 홍천 가리산 자연휴양림 네비게이션 주소 맵 가리산 자연휴양...,같아서 없었다 같은데 없으니 넓었는데 있었다 어떻게 좋겠다는 단순하게 맑고 예쁜데 ...,큰 하더라도 내려가시길 했는데 내렸다 켜진거 세웠는데 보면 했던거 올라가 본다 보니...,국내 여행 강원 홍천군 강원 홍천 가리산 자연휴양림 네비게이션 주소 맵 가리산 자연...,
3,1,가리산,[ 홍천 가리산 레포츠파크주소 : 강원도 홍천군 두촌면 가리산길 426이용요금 : ...,홍천 가리산 레포츠파크주소 강원도 홍천군 두촌면 가리산길 이용요금 어드벤처 원 서...,없어요 멀지 새로 당연히 흔한 흔한 솔직히 없을 느긋하게 같습니다 입니다라는 급하게...,이었죠 그리 않은 하지도 않았고 할 되어 다녀왔습니다 된 갔다가 세워져있던 되었어요...,홍천 가리산 레 포츠 파크 주소 강원도 홍천군 두촌면 가리산 길 이용 요금 어드벤처...,
4,1,가리산,[한국판 큰 바위 얼굴이 있는 정상에서 소양강 조망초록색 향기가 몹시 그리운 봄날에...,한국판 큰 바위 얼굴이 있는 정상에서 소양강 조망초록색 향기가 몹시 그리운 봄날에는...,있는 그리운 있는 아니었는데 있을 같았다 그런지 많은 없는 있을 뿐이었다 있는 있고...,큰 떠나라고 했다 대 하기로 날이었다 대 끝내자는 서두르면 해치울 보면서 하였다 피...,한국판 바위 얼굴 정상 소양강 망 초록색 향기 몹시 봄날 우리나라 산 고장 홍천 산...,


In [22]:
from tqdm import tqdm
tqdm.pandas()
# 형용사,동사,명사, 감탄사 추출
df[['adj','verb','noun','exclamation']] = df['review2'].progress_apply(extract_pos).progress_apply(pd.Series)

100%|██████████████████████████████████████████████████████████████████████████| 70037/70037 [1:58:22<00:00,  9.86it/s]
100%|██████████████████████████████████████████████████████████████████████████| 70037/70037 [00:19<00:00, 3659.93it/s]


In [25]:
df.to_csv('./data/review_data_1t_2.csv',index=False)

In [26]:
df

Unnamed: 0,index,label,review,review2,adj,verb,noun,exclamation
0,1,가리산,[2023년 21번째 산행#블랙야크100대명산 19 인증완료 19/100추석에 서울...,년 번째 산행블랙야크대명산 인증완료 추석에 서울 올라가는길에 다음주 일요일 갈 만한...,가깝고 괜찮은 같은데 아니면 많아서 빠르게 없던 있었나 같은 있는데 있는지아마 적합...,올라가는 갈 되면 가고 걸어놨는데다 들어와 떠났다 들어 봤는데 해본다 들른 팜 갈 ...,년 산행 블랙 야크 명산 인증 완료 추석 서울 길 다음주 일요일 만 산 검색 홍천 ...,
1,1,가리산,[ 홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주...,홍천 가리산 등산코스 자연휴양림 주차장 합수곡 무쇠말재 정상 가삽고개 합수곡 주차...,있었고 있는 좋을 그러다 어렵게 있는지 없고 있었다 많았는데 푸근하 좋은데 많을 있...,합수 가 합수 합수 가 합수 오르는 부러진 치는 않지만 할 되었다 분이라면 미루어도...,홍천 가리산 등산 코스 자연휴양림 주차장 곡 무쇠 말재 정상 삽 고개 곡 주차장 원...,
2,1,가리산,[ 국내여행강원 홍천군#강원 #홍천 #가리산 #자연휴양림 ※ 네비게이션 주소 : ...,국내여행강원 홍천군강원 홍천 가리산 자연휴양림 네비게이션 주소 맵 가리산 자연휴양...,같아서 없었다 같은데 없으니 넓었는데 있었다 어떻게 좋겠다는 단순하게 맑고 예쁜데 ...,큰 하더라도 내려가시길 했는데 내렸다 켜진거 세웠는데 보면 했던거 올라가 본다 보니...,국내 여행 강원 홍천군 강원 홍천 가리산 자연휴양림 네비게이션 주소 맵 가리산 자연...,
3,1,가리산,[ 홍천 가리산 레포츠파크주소 : 강원도 홍천군 두촌면 가리산길 426이용요금 : ...,홍천 가리산 레포츠파크주소 강원도 홍천군 두촌면 가리산길 이용요금 어드벤처 원 서...,없어요 멀지 새로 당연히 흔한 흔한 솔직히 없을 느긋하게 같습니다 입니다라는 급하게...,이었죠 그리 않은 하지도 않았고 할 되어 다녀왔습니다 된 갔다가 세워져있던 되었어요...,홍천 가리산 레 포츠 파크 주소 강원도 홍천군 두촌면 가리산 길 이용 요금 어드벤처...,
4,1,가리산,[한국판 큰 바위 얼굴이 있는 정상에서 소양강 조망초록색 향기가 몹시 그리운 봄날에...,한국판 큰 바위 얼굴이 있는 정상에서 소양강 조망초록색 향기가 몹시 그리운 봄날에는...,있는 그리운 있는 아니었는데 있을 같았다 그런지 많은 없는 있을 뿐이었다 있는 있고...,큰 떠나라고 했다 대 하기로 날이었다 대 끝내자는 서두르면 해치울 보면서 하였다 피...,한국판 바위 얼굴 정상 소양강 망 초록색 향기 몹시 봄날 우리나라 산 고장 홍천 산...,
...,...,...,...,...,...,...,...,...
70032,100,희양산,[🌈🌈🍒희양산(충북 괴산)🍒🎋🎋 🏔🏔희양산위치 : 충청북도 괴산군 연풍면 ...,희양산충북 괴산 희양산위치 충청북도 괴산군 연풍면 경상북도 문경시 가은읍높이 희양산...,험준한 빼어난 있는 있다 못지않게 무섭고 힘들고 없다 있어 야한다 있었는데 없어 험...,이루고 흐르는 솟은 일으켰던 이뤄 놓았고 한 되어 하여 탐 클라 클라 내려 늦은 클...,희양산 충북 괴산 희양산 위치 충청북도 괴산군 연풍면 경상북도 문경시 가은읍 높이 ...,
70033,100,희양산,[1.코스 : 은티마을 - 은티재 -주치봉-마당바위- 구왕봉 - 지름티재 - 희...,코스 은티마을 은티재 주치봉마당바위 구왕봉 지름티재 희양산 삼거리 희양산 성터 은티...,,가 재오,코스 은티 마을 은티재 주치 봉 마당 바위 왕봉 지름 티재 희양산 삼거리 희양산 성...,
70034,100,희양산,[ #극낙전 #산신각 #삼층석탑 #금색전 ...,극낙전 산신각 삼층석탑 금색전 삼층석탑 광고 후 계속됩니다 다음 취소 문경희양산봉...,좋아요 좋아요 없는 입니다 가능한 입니다 예쁘다 맑고 청량하고 좋았다 조용히 있어서...,됩니다 하기 했습니다 해보세요 알아보기 하신다 따라 보러가 하시는 넘 찐 밟아서 털...,낙전 산신 각 삼층석탑 금색 전 삼층석탑 광고 후 계속 다음 취소 희양산 봉암사 재...,
70035,100,희양산,[이 세상에 모든 전통주를 모아놓은군자 술마켓 전통주 바틀샵 구석구석 소개해드립니다...,이 세상에 모든 전통주를 모아놓은군자 술마켓 전통주 바틀샵 구석구석 소개해드립니다거...,솔직한 궁금하신 자세한 안녕하세요 맛없으면 천하는 많은 같은 작은 저렴하고 많기 있...,모아놓은 해드립니다 파는 찍어 가 내리시면 나옵니다 올립니다오 파는 먹을 들어가자 ...,이 세상 모든 전통주 군자 술 마켓 전통주 바틀 구석구석 소개 거기 술 사진 싹 옴...,플
