참조: https://lovit.github.io/nlp/2019/04/30/textrank/

In [129]:
import pandas as pd
import glob

## 데이터 로드 및 긍정, 부정 나누기
- 긍정, 부정 분류된 csv 파일을 불러와 긍정, 부정을 나눠 저장
- 긍정 리뷰와 부정 리뷰의 비율에 따라 평점 부여

In [130]:
path = './분류리뷰'

file = glob.glob(path + "/*.csv")
data = []

for root in file:
    data.append(pd.read_csv(root, encoding = "cp949"))
    
data[0].head()

Unnamed: 0.1,Unnamed: 0,review,y
0,0,냄새를 쓱 맡아보니 매콤하면서도 먹음직스러운 향이 코를 스친다,1
1,1,까르보나라 파스타 먹을 때 꾸덕한 크림소스가 잘 묻을 수 있도록 링귀니를 사용하는 ...,1
2,2,불닭볶음면은 너무 맵지만 까르보불닭볶음면은 딱 좋은 맵기,1
3,3,매운맛의 원조 불닭소스와 크림분말이 만나서 부드럽게 즐기실 수 있어요,1
4,4,이 두가지 조합이 매운맛을 덜어주는데 큰 공신을 한다구욧,1


In [131]:
pos = []
neg = []
star = []  #평점을 부여할 변수

for i in range(20):
    data[i] = data[i].loc[:, 'review':'y']
    tmp_pos = data[i][data[i]['y'] == 1]
    tmp_neg = data[i][data[i]['y'] == 0]
    pos.append(tmp_pos)
    neg.append(tmp_neg)
    
    score = len(tmp_pos) / 20 * 10
    star.append(score)
    
pos[0].head()

Unnamed: 0,review,y
0,냄새를 쓱 맡아보니 매콤하면서도 먹음직스러운 향이 코를 스친다,1
1,까르보나라 파스타 먹을 때 꾸덕한 크림소스가 잘 묻을 수 있도록 링귀니를 사용하는 ...,1
2,불닭볶음면은 너무 맵지만 까르보불닭볶음면은 딱 좋은 맵기,1
3,매운맛의 원조 불닭소스와 크림분말이 만나서 부드럽게 즐기실 수 있어요,1
4,이 두가지 조합이 매운맛을 덜어주는데 큰 공신을 한다구욧,1


In [132]:
neg[0].head()

Unnamed: 0,review,y
17,까르보 불닭볶음면 컵라면은 매운 향에 비해 매운 맛이 강하지는 않았어요,0
18,입맛이 무뎌서 그런지 크림맛이 잘 느껴지지는 않았지만 적당히 맵고 부드러운 맛이에요,0


## 키워드 추출
- https://github.com/lovit/textrank
- 문장을 형태소 단위로 분류한 후 textrank를 사용하여 키워드 추출 (명사, 동사 등의 형태소를 골라서 적용)
- 키워드가 아닌 단어 제외 (라면 이름 -> 제조업체 -> 감상 -> 비교 -> 기타 순서)
- 긍정, 부정 각각 상위 3개의 키워드 추출

In [140]:
from textrank import KeywordSummarizer
from konlpy.tag import Komoran

komoran = Komoran()

def komoran_tokenize(sent):
    words = komoran.pos(sent, join=True)
    words = [w for w in words if ('/NN' in w or '/XR' in w or '/VA' in w or '/VV' in w)]
    return words

def get_keywords(df):
    sents = df['review'].tolist()
    if len(sents) == 0:
        sents = ["라면 라면 라면 라면 라면 라면 라면 라면 라면 라면 라면 라면"]
    
    keyword_extractor = KeywordSummarizer(tokenize = komoran_tokenize, min_count = 1, window = -1, verbose = False)
    keywords = keyword_extractor.summarize(sents, topk=30)
    key = []
    for word, rank in keywords:
        word = word.split("/")[0]
        if len(word) > 1:
            key.append([word, round(rank, 2)])
            
    return key

In [141]:
pos_keyword = []
neg_keyword = []

for i in range(20):
    if len(pos[i]) > 0:
        key = get_keywords(pos[i])
        pos_keyword.append(key)
    else:
        pos_keyword.append([])
        
    if len(neg[i]) > 0:
        key = get_keywords(neg[i])
        neg_keyword.append(key)
    else:
        neg_keyword.append([])

In [142]:
sub = ["불닭", "무파마", "짜파게티", "미역국", "스낵면", "신라면", "블랙", "진라면", "왕뚜껑", "컵누들", "라면", "봉지", "농심", 
       "오뚜기", "팔도", "느낌", "라고", "생각", "괜찮", "맛있", "강하", "모르", "좋아", "그렇", "이랑", "어울", "비하", "다면", 
       "사실", "정도", "그때", "비비", "보이", "이전", "구매", "들어"]

positive = []
negative = []

for item in pos_keyword:
    string = ""
    cnt = 0
    for key in item:
        for cond in sub:
            if cond in key[0]:
                break
        else:
            string += "#" + key[0] + " "
            cnt += 1
            
        if cnt == 3:
            break
    
    if string == "":
        string = "리뷰 데이터 부족ㅠㅠ"
    positive.append(string)
    
for item in neg_keyword:
    string = ""
    cnt = 0
    for key in item:
        for cond in sub:
            if cond in key[0]:
                break
        else:
            string += "#" + key[0] + " "
            cnt += 1
        
        if cnt == 3:
            break
    
    if string == "":
        string = "리뷰 데이터 부족ㅠㅠ"
    negative.append(string)

In [143]:
idx = 0

positive[idx], negative[idx]

('#소스 #크림 #매운맛 ', '#부드럽 #느끼 #크림 ')

## 서버에 저장하기 위한 출력
- 리뷰: @@ 단위로 구분하여 줄바꿈
- 키워드: 각 긍정 키워드, 부정 키워드 칸에 저장
- 평점: 평점 칸에 저장

In [144]:
sent_pos = []
sent_neg = []

for i in range(20):
    p = ""
    n = ""
    for item in pos[i]['review']:
        p += item + "@@"
    for item in neg[i]['review']:
        n += item + "@@"
    
    if p == "":
        p = "긍정 리뷰 데이터가 부족해요ㅠㅠ"
    if n == "":
        n = "부정 리뷰 데이터가 부족해요ㅠㅠ"
        
    sent_pos.append(p)
    sent_neg.append(n)

In [145]:
name = ['까르보불닭볶음면', "나가사끼짬뽕", "무파마", "미트스파게티불닭볶음면", "비빔면", "사천짜파게티", "새우탕", 
        "쇠고기미역국라면", "스낵면", "신라면건면", "신라면두부김치", "앵그리짜파구리", "오라이시", "진라면", "짜파게티범벅", 
        "짬뽕왕뚜껑", "참깨라면", "컵누들매콤", "컵누들베트남쌀국수", "크림진짬뽕"]

for i in range(20):
    print("=" * 50)
    print(name[i])
    print("=" * 50)
    print("-긍정리뷰-")
    print(sent_pos[i])
    print("-긍정키워드-")
    print(positive[i])
    print("-부정리뷰-")
    print(sent_neg[i])
    print("-부정키워드-")
    print(negative[i])
    print("-별점-")
    print(star[i])

까르보불닭볶음면
-긍정리뷰-
냄새를 쓱 맡아보니 매콤하면서도 먹음직스러운 향이 코를 스친다@@까르보나라 파스타 먹을 때 꾸덕한 크림소스가 잘 묻을 수 있도록 링귀니를 사용하는 것처럼 까르보불닭볶음면의 면발도 납작해서 한 젓가락 들었을 때 꾸덕한 소스가 같이 딸려 나오는 것이 참 좋다@@불닭볶음면은 너무 맵지만 까르보불닭볶음면은 딱 좋은 맵기@@매운맛의 원조 불닭소스와 크림분말이 만나서 부드럽게 즐기실 수 있어요@@이 두가지 조합이 매운맛을 덜어주는데 큰 공신을 한다구욧@@저같은 맵찔이가 아니시라면 참치마요 대신 전주비빔을 추천드려요@@내 기준에는 그래도 충분히 꾸덕꾸덕하게 느껴진다@@크림이 들어가면 느끼한 맛이 있을 것 같은데  매운 불닭볶음면 소스와 만나니 둘이 너무 잘 어울린다@@불닭볶음면 먹을 때 한번씩 멍때리며 찾아보기 좋을 것 같다@@약간 다른 라면이랑 확실히 면 자체도 특이하게 생기지 않았나요@@삼양식품의 운명을 바꾼 불닭볶음면 시리즈에 대한 내용이 너무 인상적이었기 때문@@다양한 연령층에게 어필할 수 있을 것으로 예상@@치즈가루와 부드럽고 매콤한 소스의 조화가 아주 좋다@@내 기준 까르보불닭볶음면은 살짝 덜 익어서 꼬들한 면 상태일 때 먹는 게 더 맛있는 것 같다@@불닭 시리즈는 다 맛있고 매워요@@확실히 매운맛에 크림이 들어가니까 적당히 매우면서 감칠맛이 함께 나는 편이었다@@동생이 맵린이라 이걸로 불닭 입문해서 맨날 먹던 적이 있었는데 확실히 크림이 들어가니까 매운 거 잘 못 먹는 사람들도 맛있게 먹기 좋은 맛이다@@까르보 같이 먹을 까르@@
-긍정키워드-
#소스 #크림 #매운맛 
-부정리뷰-
까르보 불닭볶음면 컵라면은 매운 향에 비해 매운 맛이 강하지는 않았어요@@입맛이 무뎌서 그런지 크림맛이 잘 느껴지지는 않았지만 적당히 맵고 부드러운 맛이에요@@
-부정키워드-
#부드럽 #느끼 #크림 
-별점-
9.0
나가사끼짬뽕
-긍정리뷰-
맵찔이도 충분히 맛있게 먹을 수 있을 정도로 많이 맵지는 않아요@@재구매 의사  있음@@최고지 맛있다@@그래도 오리