## 긍정부분 감정분석

In [1]:
import numpy as np
import pandas as pd


def neg_counter(data):
    negative_n = 0
    neg_front_search = ['보이지', '아깝다', '충분하다않다', '더자세하다', '더좋다', '아쉽다',
                        '쓸데없다', '느리다', '빠르다', '면 좋다', '좋다것같다', '안되다',
                        '헤메다', ' 좋다듯하다', '부족하다', '더들어가다', '어렵다', '비싸', '빠르다것같다', '자주나가다', '그만',
                        '너무늦다', '부족하다', '부분', '당황', '안타깝다']

    neg_back_search = ['다만', '없다', '그런데', '충분하다않다', '조금 더', '근데', '쓸데없다', '솔직', '너무짧다']

    neg_binary_search = ['실망', '부족', '버거운', '것같다', '좋다것같다', '단점', '너무짧다', '어렵다',
                         '때문에', '보완', '섬세', '너무많다', '무리', '않다', '기다']

    # 실망 댓글에서 분류하기 위한 3가지 카테고리 => 영상 품질 실망, 컨텐츠 내용 실망, 재료 관련 실망 카테고리
    neg_video_accord = ['버퍼링', '화질', '속도', '빠르다', '짧다', '보이지않다', '놓치다', '오류', '어둡다', '어두워지다',
                        '안들리다', '보이지', '안보이', '영상', '진도', '뚝뚝', '버퍼링', '스킵', '모양', '안들리다', '세밀',
                        '사이트', '과정', '하단', '확대', '보기', '감기', '초점', '안보이', '화질', '목소리', '평가',
                        '어두워지다', '클로즈업', '안보', '가까이', '화면', '모션', '자막', '오류', '각도']

    neg_content_accord = ['힘들다', '어렵다', '구체적', '헷갈', '반복되다', '환기', '진행', '해소가', '뒤죽박죽',
                          '안나오다', '각인', '장식', '단어', '돈', '작품', '답', '답장', '설명', '방법', '듣기', '교재', '이해', '비용', '힘들다',
                          '어렵다', '깊이', '용이', '초보자', '피드백', '수업', '빠르다', '속도', '시간', '내용', '만들기', '답변', '정보', '진행',
                          '기법', '너무짧다', '강의', '반복되다', '예시', '처음', '앞']

    neg_material_accord = ['촌스럽다', '얇다', '상품', '안오다', '구슬', '준비물', '분량',
                           '패키지', '안오다', '제품', '구성', '주문', '재료', '프린터']

    neg_weight_word = ['다만', '그런데', '충분하다않다', '조금 더', '근데', '쓸데없다', '어렵다', '안타깝다', '좋다것같다',
                       '아쉽다', '더필요하다', '조금불편하다']

    neg_word_list_zip = [neg_front_search, neg_back_search, neg_binary_search,
                         neg_video_accord, neg_content_accord, neg_material_accord]

    for neg_word_list in neg_word_list_zip:
        for neg_word in neg_word_list:
            if neg_word in data:
                if neg_word in neg_weight_word:
                    negative_n += 6
                else:
                    negative_n += 1

    return negative_n


def pos_counter(data):
    positive_n = 0
    pos_front_search = ['빠르다', '감사', '알차다', '만족도', '성취감', '따르다', '구체적으로', '쉬다', '아주',
                        '자세하다', '알게', '좋다', '배우다', '꼼꼼하다', '쉽다', '피드백을', '가르치다', '따르다',
                        '뿌듯', '좋다']

    pos_back_search = ['빠르다', '감사', '알차다', '만족도', '성취감', '따르다', '구체적으로', '쉬다', '아주',
                       '자세하다', '알게', '좋다', '배우다', '꼼꼼하다', '쉽다', '피드백을', '가르치다', '따르다', '최고']

    # 긍정 댓글에서 분류하기 위한 2가지 카테고리 => 영상 설명, 결과물 만족 2가지 카테고리

    pos_content_accord = ['댓글', '답변', '친절', '정보', '팁', '성취', '설명', '피드백', '꼼꼼', '차분', '자세히', '차근차근',
                          '디테일', '기법', '상세', '강의', '이해', '자세', '쉽다', '다양', '실용', '알차다', '구체',
                          '노하우', '알차다']

    pos_product_accord = ['결과물', '디자인', '스타일', '퀄리티', '작품']

    pos_weight_word = ['최고', '너무 좋다', '뿌듯', '꼼꼼']

    pos_word_list_zip = [pos_front_search, pos_back_search, pos_content_accord, pos_product_accord]
    for pos_word_list in pos_word_list_zip:
        for pos_word in pos_word_list:
            if pos_word in data:
                if pos_word in pos_weight_word:
                    positive_n += 5
                else:
                    positive_n += 1

    return positive_n


def return_sentiment(data, weight_score):
    pos_score = pos_counter(data)
    neg_score = neg_counter(data)
    try:
        sentiment_percent = np.round((pos_score / (neg_score + pos_score)) * 100, 2)
    except:
        return 0, 0, 0, 'not enough data'

    if sentiment_percent > weight_score:
        return pos_score, neg_score, sentiment_percent, 'good'
    else:
        return pos_score, neg_score, sentiment_percent, 'sorry'


reviewList = pd.read_excel('./dataset/stemming_good_review(row_2774).xlsx', engine='openpyxl')
reviewList.drop(reviewList.loc[reviewList.review.isna()].index, axis=0, inplace=True)
reviewList.reset_index(inplace=True)
reviewList.drop('index', axis=1, inplace=True)

data_n = 0
correct_n = 0
fail_n = 0
not_correct_n = 0


print('<제대로 분석이 된 댓글들>\n')
for i in range(len(reviewList)):
    review = reviewList.iloc[i, 1]
    pos_score, neg_score, sent_per, sentiment = return_sentiment(review, 48)
    data_n += 1
    if sentiment == 'good':
        correct_n += 1


    elif sentiment == 'not enough data':
        not_correct_n += 1
        continue
    else:
        fail_n += 1
        print(review, i)

print('\n----------------------------긍정에 대한 감정분석 결과-------------------------------------')
print('전체 데이터 수: {}\n정확히 분류된 댓글: {}\n잘못 분류된 댓글: {}\n분류 정확도: {}%'.format(data_n, correct_n, fail_n, np.round(
    100 * correct_n / (correct_n + fail_n))))

# pos_score, neg_score, sent_per, sentiment =\
#     return_sentiment('작가님의 강의는 꼼꼼하다차다 좋다다른 클래스와 다르다준비물을 구매하다 않다 똑같이만들기는 쉬다 않다 . 사이즈도 안나오다 있다, 패턴만 따로구매도 안되다 하니 좀아쉽다. ㅠㅠ', 49)
# print(pos_score, neg_score, sent_per, sentiment)


<제대로 분석이 된 댓글들>

혼자 방 구석 서치만으로 자세하다알다 어렵다부분들까지 알다 좋다 17
차분하다알다 쉬다 천천히 설명하다 주시니까 만들다 과정이 어렵다않다  23
신기하다재다 내용이 많다 43
기본적인 것부터 알다 때문에 기초가 탄탄하다잡히다 아무 것도 모르다 기 본명칭부터 배우니까 다른 것들이 눈에 들어오다 시작하고 기존에 제가 사용하다 악세사리를 더 유심히 보다 되다 아직 궁금하다 많다배우다 싶다 많다프랑꼬를 통해 더 알아 갈다 생각이다저같이 아무 것도 모르다 분들취미로 여럽지 않다 배우다 싶다 분들이나 창업을 생각하다 분들도 도움이 되다 것같다고민하다 말다 주얼리 테라 피하다  49
제게는 많다의미를 가지게 되다 클래스이다 같다다른것은 차다 일단 집중과 다른 잡념들도 없애다 만들다 시간 내내즐겁다 51
다양하다기법을 이용한 악세사리 만들기에 이다 어렵다동선 말이까지 배우다 있다 좋다 52
손에 익숙하다않다 도구를 잡다 방법 등을 알다 만들다 성취 감이 생기다  54
여러가지 기법을 알다 있다세밀한 수업이다  61
악세사리의 품격을 업그레이드시키다 있다수업이다 62
너무 재미있다ㅎㅎ마지막 수업까지 빨리 듣다 싶다 ㅎ 63
부분 부분어렵다작업도 있다하작품이 하나 하나 완성되어다 때에 성취 감과 뿌듯하다너무 좋다 68
같다재료들로 여러가지 느낌의 주얼리를 만들다 수있다만들다 때마다 놀랍다한가지만 배우다 여러가지를 응용하다 수있다수업도 너무 재밌다 69
어렵다막히다 부분에 대해서 질문하다 늘알다 쉬다 설명해주다 개운하다마음이 듭니다 그리고색상을 알다 재미가 있다 78
색이 아직도 명확하다인식되다 않다 갈수록 공부하다 하다 더많아지다 느낌이다 79
역시 선생님 강의는 명쾌하다자다 들다 지루하다않다 여러번 반복하다 조색 마스터하다  82
차분하다분위기가 클래스 특성과 일단너무 잘맞다필기로 하다 이론 수업이 아니다직접 스티커로 붙이다 보다 체험해보다 진행하다 수업이라 지루하다않다  85
섞다 쓸다 때 먼저 색이 보이지않다 하다 앞에 칼라를 비교하다 섞다 

달 표현하는 방법이 신기하다 2565
앞으로의 수업이 기대되게 만들다 채다 터1이다  2574
재료 준비 과정이 너무 오래 걸리다 따르다 하다 엄두가 안나요 그만큼 시간도 없다그냥 강의 보 는걸로 만족 중이에여 ㅜㅜ 2583
밉다뜰리에  에서알다 방법으로 하다 뭔가이상하다결과물을 올리다 빠르다 좋다피드백을 줄다 그래서 더욱 잘만들수있다만들다  2585
조 근 조 근설명해주다 좋다근데 마지막으로 앙금만들다 때맨 마지막불다 대 한언급이 없다 헷갈리다 2586
미리 영상만 보다 재료 준비하다 빨리 만들다  2590
피드백잘해주다 달다 분들궁금증읽다 보다 답글이 도움이 되다  2593
수업을 보고듣다 보다 화과자의 매력에 점점빠져들다 없다 2594
상세하다 짚다 강의해주다 만들기어렵다않다  2602
속도가 빠르다않다 이해하다 좋다 2605
아직 재료를 받다 알다 디만 예습중 2624
쭘언니는 목소리 자체가 인강에 적합하다 같다너무 느리다 빠르다않다 설명이 굿 2626
캔들만들다 과정이 카메라에 더자다 보이다 좋다반짝이다 넣다 장면은 거의 보이지가 않다 이해하다 하다 차다 걸리다 무엇보다 재료가 초를 딱 하나씩만 만들다 정도로 보내다 이 점이 좀그렇다 2639
재밌다ㅎㅎㅎ재료를 더 사서해보다 싶다  2641
뜨다 질 온라인 수업을 처음들다 보다 과연 동영상을 보다 자다 따라가다 수있다하다 생각을 하다 저만의 기다 바이브 리 선생님께서 너무나 자다 가르치다 한번도 해메지 않다 자다 따르다 하다 수있다요 바이브 리 샘의 수업을 신청하고 한참 뒤에 선생님의 강의 셋을 같이 들다 수있다자유 이용권이 생기다 알게 되다 안타깝다선생님의 다른 클래스도 듣다 싶다 생각이 이번 클래스를 들다 생기다 일단 이번 수업은 완강을 하다 잠시 다른 수업 하나듣다 자유 이용권 신청하다 하다 중복되다 수업과 재료는 다른 인형만들다 때 사용하다 되다 요 바이브 리샘너무나 즐겁다인형 만들기에 집중하다 수업이다 감사하다 여러가지 팁알다  2646
어렵다부분도 엄청 쉬다 알다 너무 좋다 귀엽다인형들을 만

## 부정부분 감성분석

In [2]:
import numpy as np
import pandas as pd


def neg_counter(data):
    negative_n = 0
    neg_front_search = ['보이지', '아깝다', '충분하다않다', '더자세하다', '더좋다', '아쉽다',
                        '쓸데없다', '느리다', '빠르다', '면 좋다', '좋다것같다', '안되다',
                        '헤메다', ' 좋다듯하다', '부족하다', '더들어가다', '어렵다', '비싸', '빠르다것같다', '자주나가다', '그만',
                        '너무늦다', '부족하다', '부분', '당황', '안타깝다']

    neg_back_search = ['다만', '없다', '그런데', '충분하다않다', '조금 더', '근데', '쓸데없다', '솔직', '너무짧다']

    neg_binary_search = ['실망', '부족', '버거운', '것같다', '좋다것같다', '단점', '너무짧다', '어렵다',
                         '때문에', '보완', '섬세', '너무많다', '무리', '않다', '기다']

    # 실망 댓글에서 분류하기 위한 3가지 카테고리 => 영상 품질 실망, 컨텐츠 내용 실망, 재료 관련 실망 카테고리
    neg_video_accord = ['버퍼링', '화질', '속도', '빠르다', '짧다', '보이지않다', '놓치다', '오류', '어둡다', '어두워지다',
                        '안들리다', '보이지', '안보이', '영상', '진도', '뚝뚝', '버퍼링', '스킵', '모양', '안들리다', '세밀',
                        '사이트', '과정', '하단', '확대', '보기', '감기', '초점', '안보이', '화질', '목소리', '평가',
                        '어두워지다', '클로즈업', '안보', '가까이', '화면', '모션', '자막', '오류', '각도']

    neg_content_accord = ['힘들다', '어렵다', '구체적', '헷갈', '반복되다', '환기', '진행', '해소가', '뒤죽박죽',
                          '안나오다', '각인', '장식', '단어', '돈', '작품', '답', '답장', '설명', '방법', '듣기', '교재', '이해', '비용', '힘들다',
                          '어렵다', '깊이', '용이', '초보자', '피드백', '수업', '빠르다', '속도', '시간', '내용', '만들기', '답변', '정보', '진행',
                          '기법', '너무짧다', '강의', '반복되다', '예시', '처음', '앞']

    neg_material_accord = ['촌스럽다', '얇다', '상품', '안오다', '구슬', '준비물', '분량',
                           '패키지', '안오다', '제품', '구성', '주문', '재료', '프린터']

    neg_weight_word = ['다만', '그런데', '충분하다않다', '조금 더', '근데', '쓸데없다', '어렵다', '안타깝다', '좋다것같다',
                       '아쉽다', '더필요하다', '조금불편하다']

    neg_word_list_zip = [neg_front_search, neg_back_search, neg_binary_search,
                         neg_video_accord, neg_content_accord, neg_material_accord]

    for neg_word_list in neg_word_list_zip:
        for neg_word in neg_word_list:
            if neg_word in data:
                if neg_word in neg_weight_word:
                    negative_n += 6
                else:
                    negative_n += 1

    return negative_n


def pos_counter(data):
    positive_n = 0
    pos_front_search = ['빠르다', '감사', '알차다', '만족도', '성취감', '따르다', '구체적으로', '쉬다', '아주',
                        '자세하다', '알게', '좋다', '배우다', '꼼꼼하다', '쉽다', '피드백을', '가르치다', '따르다',
                        '뿌듯', '좋다']

    pos_back_search = ['빠르다', '감사', '알차다', '만족도', '성취감', '따르다', '구체적으로', '쉬다', '아주',
                       '자세하다', '알게', '좋다', '배우다', '꼼꼼하다', '쉽다', '피드백을', '가르치다', '따르다', '최고']

    # 긍정 댓글에서 분류하기 위한 2가지 카테고리 => 영상 설명, 결과물 만족 2가지 카테고리

    pos_content_accord = ['댓글', '답변', '친절', '정보', '팁', '성취', '설명', '피드백', '꼼꼼', '차분', '자세히', '차근차근',
                          '디테일', '기법', '상세', '강의', '이해', '자세', '쉽다', '다양', '실용', '알차다', '구체',
                          '노하우', '알차다']

    pos_product_accord = ['결과물', '디자인', '스타일', '퀄리티', '작품']

    pos_weight_word = ['최고', '너무 좋다', '뿌듯', '꼼꼼']

    pos_word_list_zip = [pos_front_search, pos_back_search, pos_content_accord, pos_product_accord]
    for pos_word_list in pos_word_list_zip:
        for pos_word in pos_word_list:
            if pos_word in data:
                if pos_word in pos_weight_word:
                    positive_n += 5
                else:
                    positive_n += 1

    return positive_n


def return_sentiment(data, weight_score):
    pos_score = pos_counter(data)
    neg_score = neg_counter(data)
    try:
        sentiment_percent = np.round((pos_score / (neg_score + pos_score)) * 100, 2)
    except:
        return 0, 0, 0, 'not enough data'

    if sentiment_percent > weight_score:
        return pos_score, neg_score, sentiment_percent, 'good'
    else:
        return pos_score, neg_score, sentiment_percent, 'sorry'


reviewList = pd.read_excel('./dataset/stemming_sorry_review.xlsx', engine='openpyxl')
reviewList.drop(reviewList.loc[reviewList.review.isna()].index, axis=0, inplace=True)
reviewList.reset_index(inplace=True)
reviewList.drop('index', axis=1, inplace=True)

data_n = 0
correct_n = 0
fail_n = 0
not_correct_n = 0


print('<제대로 분석이 된 댓글들>\n')
for i in range(len(reviewList)):
    review = reviewList.iloc[i, 1]
    pos_score, neg_score, sent_per, sentiment = return_sentiment(review, 48)
    data_n += 1
    if sentiment == 'sorry':
        correct_n += 1


    elif sentiment == 'not enough data':
        not_correct_n += 1
        continue
    else:
        fail_n += 1
        print(review, i)

print('\n----------------------------긍정에 대한 감정분석 결과-------------------------------------')
print('전체 데이터 수: {}\n정확히 분류된 댓글: {}\n잘못 분류된 댓글: {}\n분류 정확도: {}%'.format(data_n, correct_n, fail_n, np.round(
    100 * correct_n / (correct_n + fail_n))))

# pos_score, neg_score, sent_per, sentiment =\
#     return_sentiment('작가님의 강의는 꼼꼼하다차다 좋다다른 클래스와 다르다준비물을 구매하다 않다 똑같이만들기는 쉬다 않다 . 사이즈도 안나오다 있다, 패턴만 따로구매도 안되다 하니 좀아쉽다. ㅠㅠ', 49)
# print(pos_score, neg_score, sent_per, sentiment)


<제대로 분석이 된 댓글들>

입문 용으로 설명을 쉬다 해주다 좋다하지만마을지 기분이 미숙한 부분이 많이보여서 아쉽다 32
빠지다 제품 때문에 시간이 걸리다 기도하다 다른분들보내다 땐 체크하다 자다 보내다 정말완벽하다거예 요너무재밌다 쉽다강의이다  38
열심히해주다 중간 중간 좀 더 상세히설명하다 주다 좋다텐데아쉽다 40
친절하다 좋다속도가 조금빨르다요ㅠㅠ 48
아주자세하다알다 것은 좋다부분이다하지만처음 주신 장비들중에 날이 안서다 있다구두 칼 일지 비베다 펀치 등은 보완하다 하다  61
날대다 잇다 하다 때 좀 더자세하다설명해주다 좀 더좋다거같다요 하나 작품이 끝나다 때 좀엉성하다부분이 생기다 조금아쉽다웟어요 ㅜ그래도처음 작품을 제 손으로 만들다 되다 너무좋다일끝나다 구라 타다 공예하다 게 지금은 취미가 됫어요 만들다 자다 때가 제일뿌듯하다 65
처음 강의에서 하라는 대로하다 갑자기 다시 처음으로 가다 하다 차다 맷어요 ㅠㅠㅠ처음부터 31로보이다 주심이 좋다거같다ㅠㅠ 66
전반적으로 만족하다진도가 너무느리다비슷비슷하다강의가 반복되다 느낌이에요 좀 더 강의 내용이 다양하다 좋다평소궁금하다것들을 배우다 수있다 좋다 73
알아듣다 쉽다설명과 다소 무난하다 따르다 하다 수있다작품들인 것같다다만바라다 게있다응용 법이 좀 더있다 좋다 80
젛아요 피드백 좀그만하다싶다 용 클래스는 너무좋다이게 너무별로에요 너무 너무ㅜㅜ 88
꼼꼼하다설명을 잘하다 주시기는 하나자세하다보아야 하다 부분이 자다 보이지않다 점이 조금아쉽다 103
동영상이 좀 뒤죽박죽인 느낌ㅜㅜㅜ저만그렇다모르다 일단 동영상하다 번 쭉다보다 뒤에 다시 보기로 시작하다 게좋다듯 105
자세하다설명해주다 따르다 하다 쉽다개인 스케치까지 같이보다 줄알다 그 부분은 완강 후알다 작업하다 거라 아쉽다그 목적이 가장크다 강좌 타이틀이 조금 과장되다 듯하다  108
차분하다설명이 차다 좋다건의 사항있다플레이하다 작업따르다 위해멈추다 영상 한가운데붉다은색 화살표가 나오다 요 참고하다 화면이 가려지다 표현법을 자세하다볼 때아쉽다

## test dataset을 이용한 감성모델 정확도 검증

In [3]:
def stemming(review):
    from konlpy.tag import Okt
    okt = Okt()
    
    malist5 = okt.pos(review, norm=False, stem=True)    
    comment = ''
    last = ''
    for pos in malist5:
        if pos[1] in ['Verb','Punctuation','Adverb']:
          comment = comment + pos[0] + ' '
        elif last == pos[1]:
          comment = comment + ' ' + pos[0]
        elif pos[1] == 'Josa':
          comment = comment + pos[0] + ' '
        else:
          comment = comment + pos[0]
        last = pos[1]
    return comment

review_list = ['정말 너무너무 만족스러운 취미에요. 재미도 있고 결과물도 진짜 예쁘고 마음에 들어요. 전혀 돈이 아깝지 않아요!!!! 수국 무드등도 얼른 만들어봐야 겠어요♡',
              '갈색시약병이 공지 못본건지 바뀐걸 몰라서 그냥 유리병이 왔네요~ 갈색병 선물로 드릴려 했는데 실망했습니다 바뀐점을 미리 공지하시고 사진도 교체하시면 좋겠네요 기분좋다가 재료받고 구성품이 바뀌어 기분안좋았습니다',
              '울적한 기분을 캔들로 힐링했다~~ 정말 행복하고 뿌듯하고 성취감 뿜뿜!!! 적극적으로 추천합니당^^',
              '저울이 먹통이여서 그다음날 연락하고 재출고 해주시기로하셨습니다. 하지만 저희동네는 cj가 밤10시에온다는거~일단 그점이아쉽구요 주말끼고도 꽤 오래 기다렸던 터라 일단저울은 다이소서 사서했어요 온도계는좀아쉽습니다 온도가 천천히올라가서 올려놓고 기다려야해서 불편해요 향료양도 좀아쉽습니다 왁스는 다만들고 여유되더라고요 근데향료가 여유롭지않아요 제가만들다가 왁스타블렛을 실수로 엎어서 저는향료 모자랐..ㅜ 그거빼곤 만족입니다 저는 버블캔들몰드 다닦고했는데 왜 매끄럽게안나왔을까요 ㅜㅜ 추가향료사서 더만들어볼려고요',
              '마지막까지 완성했어요 ! 거울은 염색시켜서 했어요 !! 라탄은 충분히 물에 불려야 더 예쁘게 만들어지는것같아요 ! 만들고나니 너무 뿌듯하고 예쁘네욤 ! 단순 반복이라 처음에 잘 해두면 끝부분까지는 금방 할것같네요 ~~',
              '프랑스자수 좋아하는데요 채색자수는 처음보는거라 바로 질렀어요 넓은 면적을 물감을 칠하다니 와 진짜 기발하네요 그래서 너무 재밌어요 그림이랑 자수 둘다 배울 수 있어 뭔가 가성비 높은 취미라고 해야할까 암튼 재밌게 하고 있어요!',
              '정규클래스 처음인데 가격도무난하고 좋네요 3개월치가 이정도면.. 키트는 벌써 받았는데 이번꺼 패키지가 풍성해서 좋아요 ㅎㅎ 다음에는 새로운거 해보고싶어요',
              '라탄 엄청 재미있어요 설명도 친절하시구요 이제 제 스스로 더만들것을 찾아본답니다',
              '체험단 당첨으로 만들게 됐는데 사정이 생겨서 이제야 다 만들고 글을 써요! 처음에는 손도 아프고 익숙치않아서 어려웠는데, 하나씩 만들어 갈때마다 손재주가 느는게 보였어요 ! 강의에서도 이해하기쉽게 잘 설명해주셔서 이해하기 쉬웠고, 강의를 다시 볼려보거나 필요할때 볼수있다는게 가장 큰 장점인거같아요. 라탄도 충분한 양을 넣어주셔서 만들고 싶은걸 또 만들수있을거같아요! 전혀 돈 아깝지 않은 클래스같습니다! 덕분에 취미생활이 하나 더 늘었어요~ 감사합니다~',
              '살짝 살짝 헷갈리는 부분이 있긴 하지만 재밌게 만들었어요',
              '좋은 취미를 얻었어요♡ 입문과정으로 듣기좋아요 마무리할 때 살짝 헷갈린 감이 있어서 좀 더 클로즈업해주시면 좋을 것같아요 아직도 확실하게 한 건가 제 작품에 좀 미심쩍은 감이 있어요 ㅠㅠ 이 강좌보고 서점에 가 라탄 책도 사서 타원형 체반이나 꽃컵받침도 만들고 하네요 ㅎㅎ',
              '첨엔 어떻게 하지..? 했는데 하다 보니까 너무 재밌어요~~ㅎㅎ 요새 더워서 짜증 폭발했었는데 좋은 클래스 들으면서 힐링~~',
              '여기왜이이래요? 앱도 없고 키트준비도안하고 강의신청 받고 cs도 답답하고 ... 이것도 후기니까 지우지 마세요',
              '강의는 어려운것보다도 일단 너무 많이 섞는것이 아닌 내가 선호하는 향위주로 만드는법을 알려주셨음 좋았을텐데 강의대로 했는데 그향이 그향인듯해요 다 비슷비슷',
              '처음으로 알게된 하바리움이었는데 수업검색을 하다 저의 눈길을 끌어. 듣게되었습니다. 취미생활로 저의 마음까지 안정하게만들어주네요. 너무 좋습니다.신비로워요',
              '엔님의 강의가 좋은 건 초보자도 쉽고 간단하게 천연비누를 만들 수 있다는 거예요! 덕분에 강의 듣고 실용성 있는 천연비누 완성했어요.']

# 위의 리뷰에 대한 감정
review_sentiment = ['good', 'sorry', 'good', 'sorry', 'good',
                    'good', 'good', 'good', 'good', 'sorry',
                   'sorry', 'good', 'sorry', 'sorry', 'good',
                   'good']

correct_cnt = 0
for i, review in enumerate(review_list):
    stemming_review = stemming(review)
    pos_score, neg_score, sentiment_percent, sentiment = return_sentiment(stemming_review, 48)
    if sentiment == review_sentiment[i]:
        correct_cnt += 1
    print(stemming_review)
    print('Positive Score: ', pos_score)
    print('Negative Score: ', neg_score)
    print('Sentiment Score: ', sentiment_percent)
    print('Sentiment: ', sentiment)
    print('실제 감성: {}'.format(review_sentiment[i]))
    print('-------------------------------------\n')

model_accuracy = np.round(((correct_cnt/(i+1))*100), 2)
print('전체 데이터셋 개수: {}'.format((i+1)))
print('맞춘 리뷰 개수: {}'.format(correct_cnt))
print('train datset에 대한 정확도: {}%'.format(model_accuracy))

정말너무 너무 만족스럽다취미에요 . 재미도 있다결과물도 진짜예쁘다마음에 들다 . 전혀 돈이 아깝다않다 !!!! 수국 무드등도 얼른만들다 보다 겠다 ♡
Positive Score:  1
Negative Score:  3
Sentiment Score:  25.0
Sentiment:  sorry
실제 감성: good
-------------------------------------

갈색시 약병이 공지못보다 건지다 바뀌다 걸모르다 그냥 유리 병이 오다 ~ 갈색 병 선물로 드리다 하다 실망하다바뀌다 점을 미리 공지하다 사진도 교체하다 좋다기분좋다재료받다 구성품이 바뀌다 기분안좋다
Positive Score:  3
Negative Score:  4
Sentiment Score:  42.86
Sentiment:  sorry
실제 감성: sorry
-------------------------------------

울적하다기분을 캔들로 힐링하다 ~~ 정말행복하다 뿌듯하다성취 감 뿜뿜!!! 적극적으로 추천하다 ^^ 
Positive Score:  6
Negative Score:  0
Sentiment Score:  100.0
Sentiment:  good
실제 감성: good
-------------------------------------

저울이 먹통이여서 그다음 날 연락하고 재 출고해주다 하다 . 하지만저희동네는 cj가다 밤10시에온다는거~ 일단그점이 아쉽다주말끼다 꽤오래 기다리다 터라 일단 저울은 다이소서 사서하다 온도계는 좀아쉽다온도가 천천히 올라가다 올려놓다 기다리다 야하다 불편하다향료 양도 좀아쉽다왁스는 다만들고 여유되다 근데 향료가 여유롭다 않다 제가 만들다 왁스 타블렛을 실수로 엎어서 저는 향료모자라다 .. ㅜ그거빼다 만족이다저는 버블 캔들 몰드다 닦다 하다 왜매끄럽다안나오다 ㅜㅜ추가 향료 사서 더만들다 보다 
Positive Score:  3
Negative Score:  21
Sentiment Score:  12.5
Sentiment:  sorry


## 파라미터 조정 과정
#### 조정하는 파라미터 종류

- sentiment_score: 감정점수. 임계값으로서 해당 값을 넘으면 긍정, 넘지 못하면 부정으로 분류
- pos_weight_score: 긍정 가중치. 해당 단어가 문장에 존재하면 추가 점수를 부여
- neg_weight_score: 부정 가중치. 해당 단어가 문자엥 존해마면 추가 점수를 부여

In [4]:
import numpy as np
import pandas as pd


def neg_counter(data, neg_weight_score):
    negative_n = 0
    neg_front_search = ['보이지', '아깝다', '충분하다않다', '더자세하다', '더좋다', '아쉽다',
                        '쓸데없다', '느리다', '빠르다', '면 좋다', '좋다것같다', '안되다',
                        '헤메다', ' 좋다듯하다', '부족하다', '더들어가다', '어렵다', '비싸', '빠르다것같다', '자주나가다', '그만',
                        '너무늦다', '부족하다', '부분', '당황', '안타깝다']

    neg_back_search = ['다만', '없다', '그런데', '충분하다않다', '조금 더', '근데', '쓸데없다', '솔직', '너무짧다']

    neg_binary_search = ['실망', '부족', '버거운', '것같다', '좋다것같다', '단점', '너무짧다', '어렵다',
                         '때문에', '보완', '섬세', '너무많다', '무리', '않다', '기다']

    # 실망 댓글에서 분류하기 위한 3가지 카테고리 => 영상 품질 실망, 컨텐츠 내용 실망, 재료 관련 실망 카테고리
    neg_video_accord = ['버퍼링', '화질', '속도', '빠르다', '짧다', '보이지않다', '놓치다', '오류', '어둡다', '어두워지다',
                        '안들리다', '보이지', '안보이', '영상', '진도', '뚝뚝', '버퍼링', '스킵', '모양', '안들리다', '세밀',
                        '사이트', '과정', '하단', '확대', '보기', '감기', '초점', '안보이', '화질', '목소리', '평가',
                        '어두워지다', '클로즈업', '안보', '가까이', '화면', '모션', '자막', '오류', '각도']

    neg_content_accord = ['힘들다', '어렵다', '구체적', '헷갈', '반복되다', '환기', '진행', '해소가', '뒤죽박죽',
                          '안나오다', '각인', '장식', '단어', '돈', '작품', '답', '답장', '설명', '방법', '듣기', '교재', '이해', '비용', '힘들다',
                          '어렵다', '깊이', '용이', '초보자', '피드백', '수업', '빠르다', '속도', '시간', '내용', '만들기', '답변', '정보', '진행',
                          '기법', '너무짧다', '강의', '반복되다', '예시', '처음', '앞']

    neg_material_accord = ['촌스럽다', '얇다', '상품', '안오다', '구슬', '준비물', '분량',
                           '패키지', '안오다', '제품', '구성', '주문', '재료', '프린터']

    neg_weight_word = ['다만', '그런데', '충분하다않다', '조금 더', '근데', '쓸데없다', '어렵다', '안타깝다', '좋다것같다',
                       '아쉽다', '더필요하다', '조금불편하다']

    neg_word_list_zip = [neg_front_search, neg_back_search, neg_binary_search,
                         neg_video_accord, neg_content_accord, neg_material_accord]

    for neg_word_list in neg_word_list_zip:
        for neg_word in neg_word_list:
            if neg_word in data:
                if neg_word in neg_weight_word:
                    negative_n += neg_weight_score
                else:
                    negative_n += 1

    return negative_n


def pos_counter(data, pos_weight_score):
    positive_n = 0
    pos_front_search = ['빠르다', '감사', '알차다', '만족도', '성취감', '따르다', '구체적으로', '쉬다', '아주',
                        '자세하다', '알게', '좋다', '배우다', '꼼꼼하다', '쉽다', '피드백을', '가르치다', '따르다',
                        '뿌듯', '좋다']

    pos_back_search = ['빠르다', '감사', '알차다', '만족도', '성취감', '따르다', '구체적으로', '쉬다', '아주',
                       '자세하다', '알게', '좋다', '배우다', '꼼꼼하다', '쉽다', '피드백을', '가르치다', '따르다', '최고']

    # 긍정 댓글에서 분류하기 위한 2가지 카테고리 => 영상 설명, 결과물 만족 2가지 카테고리

    pos_content_accord = ['댓글', '답변', '친절', '정보', '팁', '성취', '설명', '피드백', '꼼꼼', '차분', '자세히', '차근차근',
                          '디테일', '기법', '상세', '강의', '이해', '자세', '쉽다', '다양', '실용', '알차다', '구체',
                          '노하우', '알차다']

    pos_product_accord = ['결과물', '디자인', '스타일', '퀄리티', '작품']

    pos_weight_word = ['최고', '너무 좋다', '뿌듯']

    pos_word_list_zip = [pos_front_search, pos_content_accord, pos_product_accord]
    for pos_word_list in pos_word_list_zip:
        for pos_word in pos_word_list:
            if pos_word in data:
                if pos_word in pos_weight_word:
                    positive_n += pos_weight_score
                else:
                    positive_n += 1

    return positive_n


def return_sentiment(data, sentiment_score, pos_weight_score, neg_weight_score):
    pos_score = pos_counter(data, pos_weight_score)
    neg_score = neg_counter(data, neg_weight_score)
    try:
        sentiment_percent = np.round((pos_score / (neg_score + pos_score)) * 100, 2)
    except:
        return 0, 0, 0, 'not enough data'

    if sentiment_percent > sentiment_score:
        return pos_score, neg_score, sentiment_percent, 'good'
    else:
        return pos_score, neg_score, sentiment_percent, 'sorry'


pos_reviewList = pd.read_excel('./dataset/stemming_good_review(row_2774).xlsx', engine='openpyxl')
pos_reviewList.drop(reviewList.loc[reviewList.review.isna()].index, axis=0, inplace=True)
pos_reviewList.reset_index(inplace=True)
pos_reviewList.drop('index', axis=1, inplace=True)

neg_reviewList = pd.read_excel('./dataset/stemming_sorry_review.xlsx', engine='openpyxl')
neg_reviewList.drop(reviewList.loc[reviewList.review.isna()].index, axis=0, inplace=True)
neg_reviewList.reset_index(inplace=True)
neg_reviewList.drop('index', axis=1, inplace=True)

data_n = 0
correct_n = 0
fail_n = 0
not_correct_n = 0

score_list = np.arange(40, 50)
pos_score_list = np.arange(2, 7)
neg_score_list = np.arange(2, 7)


score_param = []
pos_param_weight = []
neg_param_weight = []


pos_accuracy = []
neg_accuracy = []


case_cnt = 0
for score in score_list:
    for pos_weight in pos_score_list:
        for neg_weight in neg_score_list:
            for i in range(len(pos_reviewList)):
                review = pos_reviewList.iloc[i, 1]
                pos_score, neg_score, sent_per, sentiment = return_sentiment(review, score, pos_weight, neg_weight)
                data_n += 1
                if sentiment == 'good':
                    correct_n += 1

                elif sentiment == 'not enough data':
                    not_correct_n += 1
                    continue
                else:
                    fail_n += 1
            score_param.append(score)
            pos_param_weight.append(pos_weight)
            neg_param_weight.append(neg_weight)
            pos_accuracy.append(np.round(100 * correct_n / (correct_n + fail_n)))
            print('\n----------------------------긍부정 파라미터 조정 Case {}-------------------------------------'.format(case_cnt))
            case_cnt += 1
            print('sentiment_score(임계값): {}\npos_weight_score: {}\nneg_weight_score: {}\n'.format(score, pos_weight, neg_weight))
            print('긍정분류 정확도: {}%'.format(np.round(100 * correct_n / (correct_n + fail_n))))
            data_n = 0
            correct_n = 0
            fail_n = 0
            not_correct_n = 0
            
            
                    
            for i in range(len(neg_reviewList)):
                review = neg_reviewList.iloc[i, 1]
                pos_score, neg_score, sent_per, sentiment = return_sentiment(review, score, pos_weight, neg_weight)
                data_n += 1
                if sentiment == 'sorry':
                    correct_n += 1


                elif sentiment == 'not enough data':
                    not_correct_n += 1
                    continue
                else:
                    fail_n += 1
            neg_accuracy.append(np.round(100 * correct_n / (correct_n + fail_n)))

            print('부정분류 정확도: {}%'.format(np.round(100 * correct_n / (correct_n + fail_n))))
            data_n = 0
            correct_n = 0
            fail_n = 0
            not_correct_n = 0


----------------------------긍부정 파라미터 조정 Case 0-------------------------------------
sentiment_score(임계값): 40
pos_weight_score: 2
neg_weight_score: 2

긍정분류 정확도: 80.0%
부정분류 정확도: 72.0%

----------------------------긍부정 파라미터 조정 Case 1-------------------------------------
sentiment_score(임계값): 40
pos_weight_score: 2
neg_weight_score: 3

긍정분류 정확도: 80.0%
부정분류 정확도: 75.0%

----------------------------긍부정 파라미터 조정 Case 2-------------------------------------
sentiment_score(임계값): 40
pos_weight_score: 2
neg_weight_score: 4

긍정분류 정확도: 79.0%
부정분류 정확도: 76.0%

----------------------------긍부정 파라미터 조정 Case 3-------------------------------------
sentiment_score(임계값): 40
pos_weight_score: 2
neg_weight_score: 5

긍정분류 정확도: 78.0%
부정분류 정확도: 81.0%

----------------------------긍부정 파라미터 조정 Case 4-------------------------------------
sentiment_score(임계값): 40
pos_weight_score: 2
neg_weight_score: 6

긍정분류 정확도: 78.0%
부정분류 정확도: 83.0%

----------------------------긍부정 파라미터 조정 Case 5-------------------------------------



----------------------------긍부정 파라미터 조정 Case 45-------------------------------------
sentiment_score(임계값): 41
pos_weight_score: 6
neg_weight_score: 2

긍정분류 정확도: 81.0%
부정분류 정확도: 72.0%

----------------------------긍부정 파라미터 조정 Case 46-------------------------------------
sentiment_score(임계값): 41
pos_weight_score: 6
neg_weight_score: 3

긍정분류 정확도: 80.0%
부정분류 정확도: 75.0%

----------------------------긍부정 파라미터 조정 Case 47-------------------------------------
sentiment_score(임계값): 41
pos_weight_score: 6
neg_weight_score: 4

긍정분류 정확도: 79.0%
부정분류 정확도: 76.0%

----------------------------긍부정 파라미터 조정 Case 48-------------------------------------
sentiment_score(임계값): 41
pos_weight_score: 6
neg_weight_score: 5

긍정분류 정확도: 78.0%
부정분류 정확도: 81.0%

----------------------------긍부정 파라미터 조정 Case 49-------------------------------------
sentiment_score(임계값): 41
pos_weight_score: 6
neg_weight_score: 6

긍정분류 정확도: 78.0%
부정분류 정확도: 82.0%

----------------------------긍부정 파라미터 조정 Case 50--------------------------------


----------------------------긍부정 파라미터 조정 Case 91-------------------------------------
sentiment_score(임계값): 43
pos_weight_score: 5
neg_weight_score: 3

긍정분류 정확도: 78.0%
부정분류 정확도: 78.0%

----------------------------긍부정 파라미터 조정 Case 92-------------------------------------
sentiment_score(임계값): 43
pos_weight_score: 5
neg_weight_score: 4

긍정분류 정확도: 78.0%
부정분류 정확도: 82.0%

----------------------------긍부정 파라미터 조정 Case 93-------------------------------------
sentiment_score(임계값): 43
pos_weight_score: 5
neg_weight_score: 5

긍정분류 정확도: 77.0%
부정분류 정확도: 84.0%

----------------------------긍부정 파라미터 조정 Case 94-------------------------------------
sentiment_score(임계값): 43
pos_weight_score: 5
neg_weight_score: 6

긍정분류 정확도: 77.0%
부정분류 정확도: 86.0%

----------------------------긍부정 파라미터 조정 Case 95-------------------------------------
sentiment_score(임계값): 43
pos_weight_score: 6
neg_weight_score: 2

긍정분류 정확도: 79.0%
부정분류 정확도: 76.0%

----------------------------긍부정 파라미터 조정 Case 96--------------------------------


----------------------------긍부정 파라미터 조정 Case 137-------------------------------------
sentiment_score(임계값): 45
pos_weight_score: 4
neg_weight_score: 4

긍정분류 정확도: 77.0%
부정분류 정확도: 84.0%

----------------------------긍부정 파라미터 조정 Case 138-------------------------------------
sentiment_score(임계값): 45
pos_weight_score: 4
neg_weight_score: 5

긍정분류 정확도: 77.0%
부정분류 정확도: 86.0%

----------------------------긍부정 파라미터 조정 Case 139-------------------------------------
sentiment_score(임계값): 45
pos_weight_score: 4
neg_weight_score: 6

긍정분류 정확도: 77.0%
부정분류 정확도: 86.0%

----------------------------긍부정 파라미터 조정 Case 140-------------------------------------
sentiment_score(임계값): 45
pos_weight_score: 5
neg_weight_score: 2

긍정분류 정확도: 78.0%
부정분류 정확도: 77.0%

----------------------------긍부정 파라미터 조정 Case 141-------------------------------------
sentiment_score(임계값): 45
pos_weight_score: 5
neg_weight_score: 3

긍정분류 정확도: 78.0%
부정분류 정확도: 79.0%

----------------------------긍부정 파라미터 조정 Case 142--------------------------


----------------------------긍부정 파라미터 조정 Case 182-------------------------------------
sentiment_score(임계값): 47
pos_weight_score: 3
neg_weight_score: 4

긍정분류 정확도: 76.0%
부정분류 정확도: 86.0%

----------------------------긍부정 파라미터 조정 Case 183-------------------------------------
sentiment_score(임계값): 47
pos_weight_score: 3
neg_weight_score: 5

긍정분류 정확도: 76.0%
부정분류 정확도: 87.0%

----------------------------긍부정 파라미터 조정 Case 184-------------------------------------
sentiment_score(임계값): 47
pos_weight_score: 3
neg_weight_score: 6

긍정분류 정확도: 76.0%
부정분류 정확도: 88.0%

----------------------------긍부정 파라미터 조정 Case 185-------------------------------------
sentiment_score(임계값): 47
pos_weight_score: 4
neg_weight_score: 2

긍정분류 정확도: 78.0%
부정분류 정확도: 78.0%

----------------------------긍부정 파라미터 조정 Case 186-------------------------------------
sentiment_score(임계값): 47
pos_weight_score: 4
neg_weight_score: 3

긍정분류 정확도: 77.0%
부정분류 정확도: 83.0%

----------------------------긍부정 파라미터 조정 Case 187--------------------------


----------------------------긍부정 파라미터 조정 Case 227-------------------------------------
sentiment_score(임계값): 49
pos_weight_score: 2
neg_weight_score: 4

긍정분류 정확도: 76.0%
부정분류 정확도: 86.0%

----------------------------긍부정 파라미터 조정 Case 228-------------------------------------
sentiment_score(임계값): 49
pos_weight_score: 2
neg_weight_score: 5

긍정분류 정확도: 76.0%
부정분류 정확도: 87.0%

----------------------------긍부정 파라미터 조정 Case 229-------------------------------------
sentiment_score(임계값): 49
pos_weight_score: 2
neg_weight_score: 6

긍정분류 정확도: 76.0%
부정분류 정확도: 89.0%

----------------------------긍부정 파라미터 조정 Case 230-------------------------------------
sentiment_score(임계값): 49
pos_weight_score: 3
neg_weight_score: 2

긍정분류 정확도: 78.0%
부정분류 정확도: 79.0%

----------------------------긍부정 파라미터 조정 Case 231-------------------------------------
sentiment_score(임계값): 49
pos_weight_score: 3
neg_weight_score: 3

긍정분류 정확도: 77.0%
부정분류 정확도: 84.0%

----------------------------긍부정 파라미터 조정 Case 232--------------------------

In [5]:
max_accuracy = pos_accuracy[0] + neg_accuracy[0]
min_deviation = np.abs(pos_accuracy[0] - neg_accuracy[0])
max_index = 0

for i in range(len(score_param)):
    accuracy = pos_accuracy[i] + neg_accuracy[i]
    deviation = np.abs(pos_accuracy[i] - neg_accuracy[i])
    
    if max_accuracy < accuracy:
        if min_deviation >= deviation:
            max_accuracy = accuracy
            min_deviation = deviation
            max_index = i
            
print('인덱스: ', max_index)
print('감정점수 임계값: ', score_param[max_index])
print('긍정 정확도: ', pos_accuracy[max_index])
print('부정 정확도: ', neg_accuracy[max_index])
print('----------------------------------')
print('최종 정확도 합산: ', max_accuracy)
print('최종 편차: ', min_deviation)
print('최종 긍정 가중치: ', pos_param_weight[max_index])
print('최종 부정 가중치: ', neg_param_weight[max_index])

인덱스:  13
감정점수 임계값:  40
긍정 정확도:  79.0
부정 정확도:  81.0
----------------------------------
최종 정확도 합산:  160.0
최종 편차:  2.0
최종 긍정 가중치:  4
최종 부정 가중치:  5


In [7]:
review = '기분을 캔들로 힐링하다 정말 행복하다 뿌듯하다 성취감 적극적으로 추천하다'
pos_score, neg_score, sent_per, sentiment =  return_sentiment(review, 40, 4, 5)
print(pos_score, neg_score, sent_per, sentiment)

6 0 100.0 good
