### 형태소 추출(긍정)

In [84]:
import pandas as pd
import re

In [85]:
from konlpy.tag import Komoran

In [86]:
komoran = Komoran()

In [87]:
komoran = Komoran(userdic = './data/combined_unique.dic')

In [88]:
df = pd.read_csv('./data/kakao_thired_preprocessed.csv')

In [89]:
df_positive_reviews = df.loc[df['classification_result'] == 1]

In [90]:
# 단어 추출 함수 정의 (불용어 제거 포함, 형태소별 분류)
def extract_words_by_pos(sentence, stopwords):
    try:
        tokens = komoran.pos(sentence)
        
        # 형태소별로 분류
        pos_dict = {
            'NNG': [],
            'NNP': [],
            'VA': [],
            'VV': []
        }
        
        for word, pos in tokens:
            if pos in pos_dict and word not in stopwords:
                pos_dict[pos].append(word)
        
        return pos_dict
    except Exception as e:  # 예외처리
        print(e, sentence)
        return {'NNG': [], 'NNP': [], 'VA': [], 'VV': []}

In [91]:
def remove_special_characters_and_emojis(text):
    if isinstance(text, str):
        text = re.sub(r"[^\w\sㄱ-ㅎㅏ-ㅣ가-힣]", "", text)
    return text

In [92]:
df_positive_reviews.insert(3, "review_text_preporcess", df_positive_reviews["review_text"].apply(remove_special_characters_and_emojis))

In [93]:
# 불용어 리스트 정의
stopwords = ['이', '그', '저', '것', '의', '에', '을', '를', '은', '는', '이', '가']

In [94]:
# 형태소 추출 및 불용어 제거
df_positive_reviews['extracted_words'] = df_positive_reviews['review_text'].apply(lambda x: extract_words_by_pos(x, stopwords))

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 가성비 찐맛집 짬뽕이 엄청 얼큰해서 해장하기 딱 좋은 것 같아요 홀에있는 직원분도 엄청 친절하시네요😄😄
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 가게가 깨끗하고 음식도 맛있따! 신선하고 푸짐한데 저렴하기까지 만족만족😋❣️
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 맛👍👍👍👍(5) 친절👍👍👍👍👍(5) 위생👍👍👍👍👍(5) 가성비👍👍👍👍👍(5) 혼자 먹을 때 짬뽕+공기밥 먹음 든든 탕스육만 시켜도 배부름 양 넉넉함 무엇보다 여기 홍반 화장실이 매장이랑 가까워서 좋았음❤️
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 여기 진짜 맛있어요!! 평소에 매콤하게 먹는 거 좋아하는데 고추짜장 맛있습니다아 ! 매장은 밝고 깨끗한 느낌이에요 ㅎㅎ 전반적으로 위생적이라고 생각했고, 직원분들도 친절하신 것 같아요. 탕짜면, 탕짬면도 먹었었는데 탕수육 양도 많고 가성비 좋은 거 같아요 😊
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 자짱.짬봉.땅수육. 👍 최고의 맛
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 방문포장으로 짜장면+탕수육 1인세트로 먹었어요 면 불은까봐 매장도착하면 바로 준비해주셨어요 사장님 친절하고 좋아요 맛있어요 추천해요👍
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_positive_reviews['extracted_words'] = df_positive_reviews['review_text'].apply(lambda x: extract_words_by_pos(x, stopwords))


In [95]:
# 결과 출력
print(df_positive_reviews['extracted_words'])

0       {'NNG': ['맛', '서비스'], 'NNP': ['매우', '만족', '임']...
1       {'NNG': ['방문'], 'NNP': ['탕수육'], 'VA': ['맛있', '...
9       {'NNG': ['가족', '홀', '남자', '정리', '자리', '안내', '음...
10      {'NNG': ['사장', '친절', '손님', '자리', '면'], 'NNP': ...
11      {'NNG': ['여', '짜', '밥', '맛집', '안', '요리', '사장',...
14      {'NNG': ['평균', '집', '고기'], 'NNP': [], 'VA': ['...
16      {'NNG': [], 'NNP': ['홍콩반점', '튀김', '요리'], 'VA':...
19      {'NNG': [], 'NNP': ['탕수육', '성비'], 'VA': ['맛있']...
22      {'NNG': ['맛', '최고'], 'NNP': [], 'VA': [], 'VV'...
24      {'NNG': ['체인점', '맛', '얼마', '안', '매장', '혼자', '식...
25      {'NNG': ['맛', '잇'], 'NNP': ['고추', '짬뽕'], 'VA':...
29      {'NNG': ['방문', '별점', '반신반의', '정도', '절대', '짜', ...
31      {'NNG': ['고기', '짜', '짜', '기름', '추천'], 'NNP': [...
32      {'NNG': ['편견', '짜', '밥', '맛'], 'NNP': ['홍콩반점',...
34      {'NNG': ['곳', '맛'], 'NNP': ['홍콩반점', '고정관념', '대...
38      {'NNG': [], 'NNP': ['홍콩반점', '지점', '차이'], 'VA':...
40             {'NNG': [], 'NNP': [], 'VA': [], 'VV': []}
41      {'NNG'

### 형태소분석 (부정)

In [96]:
df_negative_reviews = df.loc[df['classification_result'] == -1]

In [97]:
df_negative_reviews = df_negative_reviews.dropna(subset=['review_text'])

In [26]:
# 단어 추출 함수 정의 (불용어 제거 포함, 형태소별 분류)
def extract_words_by_pos(sentence, stopwords):
    try:
        tokens = komoran.pos(sentence)
        
        # 형태소별로 분류
        pos_dict = {
            'NNG': [],
            'NNP': [],
            'VA': [],
            'VV': []
        }
        
        for word, pos in tokens:
            if pos in pos_dict and word not in stopwords:
                pos_dict[pos].append(word)
        
        return pos_dict
    except Exception as e:  # 예외처리
        print(e, sentence)
        return {'NNG': [], 'NNP': [], 'VA': [], 'VV': []}

In [99]:
def remove_special_characters_and_emojis(text):
    if isinstance(text, str):
        text = re.sub(r"[^\w\sㄱ-ㅎㅏ-ㅣ가-힣]", "", text)
    return text

In [100]:
df_negative_reviews.insert(3, "review_text_preporcess", df_negative_reviews["review_text"].apply(remove_special_characters_and_emojis))

In [101]:
# 불용어 리스트 정의
stopwords = ['이', '그', '저', '것', '의', '에', '을', '를', '은', '는', '이', '가']

In [102]:
# 형태소 추출 및 불용어 제거
df_negative_reviews['extracted_words'] = df_negative_reviews['review_text'].apply(lambda x: extract_words_by_pos(x, stopwords))

'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 전반적으로 아쉬웠습니다 😢
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 맛은 좋아요^^ 탕수육 용기가 종이라 부먹을 못하는게 좀,,,😢😢 아쉬워요
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 변함  맛드럽게 없고 드럽 탕수육 절대 주문 🚫
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 고기짬뽕이 9500원 인데  양도 적고 맛도 별로예요  오랜만에 돈이 아깝다는 생각들었어요~  배고파서 파파이스 가서 나머지 배 채웠네요 🤣
'utf-8' codec can't decode byte 0xed in position 0: invalid continuation byte 여러분 이런 가게는 안가는겁니다 저도 위치가 좋아서 갔지 후기보고 가기싫긴했어요 1. 이 식당 후문은 음식쓰레기장에 흡연구역임(담배피는사람은 홍콩반점 알바생) 2. 홀직원 조선족분들은 표정 뷁에 개불친절 3. 맛은 밑에 후기들이 최악이라 함 점주는 이런 후기를 두고도 이딴식으로 운영하는 잘못입니다  혼밥하러 갔음. 메뉴 두개가 먹고싶어서 밥이랑 탕수육 시켰음 혼자 다 못먹을거같아서 포장용기를 달랬는데 일단 포장안된다함  내가 하나만 주면 알아서 포장하겠다하니깐 똥씹은 표정으로 표장용기값이 있는데 포장원래 안된다면서 주먹만한 용기 주고 감. 그 작은 용기엔 남은음식이 다 안들어가서 똑같은거 하나 더 달라고 정중히 요청함. 또 표장용기값이 있어서 안된다함 내가 용기값 결제할테니깐 걍 달랬는데 엄청 궁시렁거리면서 뒤에 직원한테 뭐라뭐라하면서 주더라  ㅋㅋ진짜 그거 100원 더함?ㅋㅋ 손님응대 개

In [103]:
# 결과 출력
print(df_negative_reviews['extracted_words'])

2       {'NNG': ['짜'], 'NNP': ['탕수육', '쟁반', '장', '고추',...
3       {'NNG': ['짜', '일반', '짜', '짜', '밥', '주문', '짜', ...
5       {'NNG': ['시간', '생각', '취소', '배', '못', '대신', '예정...
6       {'NNG': ['고기', '짜', '고기', '짜', '실패'], 'NNP': [...
7          {'NNG': [], 'NNP': [], 'VA': ['맛없'], 'VV': []}
12      {'NNG': ['주문', '최악', '관리', '곳'], 'NNP': ['키오스크...
13      {'NNG': ['친절', '분만', '음식', '관심', '인사', '맛'], '...
15      {'NNG': ['맛', '평', '매장', '회전', '존대', '서빙', '문제...
17      {'NNG': ['안', '음식', '입', '맛', '상한', '이후', '아내'...
18      {'NNG': ['배', '짜', '기름', '상상', '이상', '별점', '게시...
20      {'NNG': ['담'], 'NNP': ['짬뽕'], 'VA': [], 'VV': ...
21      {'NNG': ['여기저기', '음식', '메리트', '곱배기', '고기', '맛'...
23      {'NNG': ['음식', '하', '컵', '의자', '짜', '국물', '키',...
27      {'NNG': ['곳', '가세', '맛', '이름', '최악'], 'NNP': [...
28      {'NNG': ['파', '맛'], 'NNP': ['짜장면', '양파', '탕수육'...
30      {'NNG': ['전국', '최고', '맛', '최근', '현황', '고개', '의...
33      {'NNG': ['짜', '장맛'], 'NNP': [], 'VA': [], 'VV'...
35      {'NNG'

In [32]:
word_count_dict["위생"]

NameError: name 'word_count_dict' is not defined