In [19]:
#Json파일 로드와 저장을 위한 라이브러리
import json
import pickle
import random

#자연어 토큰화를 위한 라이브러리
from konlpy.tag import Okt
twitter = Okt()

#데이터 로드와 모델 사용을 위한 라이브러리
from keras.models import Sequential
import keras
import tensorflow as tf
import numpy as np
import pandas as pd

#코사인 유사도 계산을 위한 통계 라이브러리
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

#웹툰 데이터 다운로드
webtoon_data = np.load('data/webtoon/web_toon_data.npy',allow_pickle='TRUE').item()

opening_model = keras.models.load_model('data/webtoon/opening_conv.h5')
opening_model_data = np.load('data/webtoon/opening_model_data.npy',allow_pickle='TRUE').item()
open_classes = np.load('data/webtoon/open_classes.npy',allow_pickle='TRUE').item()['file']
open_words = np.load('data/webtoon/open_words.npy',allow_pickle='TRUE').item()['file']

gerne_model = keras.models.load_model('data/webtoon/gerne_conv.h5')
gerne_model_data = np.load('data/webtoon/gerne_model_data.npy',allow_pickle='TRUE').item()
gerne_classes = np.load('data/webtoon/gerne_classes.npy',allow_pickle='TRUE').item()['file']
gerne_words = np.load('data/webtoon/gerne_words.npy',allow_pickle='TRUE').item()['file']

In [21]:
stop_word = ['웹툰','추천','내용','이야기','전개']

In [28]:
data = []
for work in webtoon_data:
    title = webtoon_data[work]['title']
    category = webtoon_data[work]['category']
    summary = webtoon_data[work]['summary']
    gerne = webtoon_data[work]['gerne']
    data.append({
        'title':title,
        'category':category,
        'gerne':gerne,
        'summary':category[0] +' '+ category[1] +' '+ summary
    })
data = pd.DataFrame(data)

In [4]:
def clean_up_sentence(sentence,stop_word):
    # tokenize the pattern
#     sentence_words = nltk.word_tokenize(sentence)
    pos_result = twitter.pos(sentence, norm=True, stem=True)
    sentence_words = [lex for lex, pos in pos_result if lex not in stop_word]
    # stem each word
#     sentence_words = [stemmer.stem(word.lower()) for word in sentence_words]
    return sentence_words

In [12]:
def bow(sentence, words, show_details=False, stop_word = []):
    # tokenize the pattern
    sentence_words = clean_up_sentence(sentence,stop_word)
    print(sentence_words)
    # bag of words
    bag = [0]*len(words)  
    for s in sentence_words:
        for i,w in enumerate(words):
            if w == s: 
                bag[i] = 1
                if show_details:
                    print ("found in bag: %s" % w)

    return(np.array(bag))

In [2]:
def predict_class(sentense,model,data_len,classes,words,stop_word=[]):
    p = bow(sentense, words, stop_word=stop_word)
    p = np.array(p)
    p = p.reshape(1,data_len)
    predict_value = model.predict(p)
    class_value = classes[np.argmax(predict_value[0])]
    return class_value, predict_value

In [23]:
def add_user_sentence(user_text,answer):
    """사용자가 원하는 내용을 받아서 데이터셋에 추가한 후 추가한 데이터셋 반환"""
    if answer[0] == answer[1]:
        newtf = data['gerne'] == answer[0]
        user_data= data[newtf]
    else :
        newtf = data['gerne'] == answer[0]
        newtf2 = data['gerne'] == answer[1]
        user_data= data[newtf].append(data[newtf2])
        
    user_data = user_data.append({'title':'UserData','category':'','gerne':'','summary':user_text},ignore_index=True)
    return user_data

In [24]:
def cosine_similarity(data):
    """데이터셋을 받아서 코사인 유사도와 단어 인덱스 사전 반환"""
    tfidf = TfidfVectorizer(stop_words='english')
    tfidf_matrix = tfidf.fit_transform(data['summary'])
    print('{}개의 데이터셋과 {}개의 단어 구성'.format(tfidf_matrix.shape[0],tfidf_matrix.shape[1]))
    
    cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix)
    indices = pd.Series(data.index, index=data['title']).drop_duplicates()
    
    return cosine_sim, indices

In [26]:
def get_recommendations(data, indices, cosine_sim, title="UserData"):
    # 선택한 영화의 타이틀로부터 해당되는 인덱스를 받아옵니다. 이제 선택한 영화를 가지고 연산할 수 있습니다.
    idx = indices[title]

    # 모든 영화에 대해서 해당 영화와의 유사도를 구합니다.
    sim_scores = list(enumerate(cosine_sim[idx]))

    # 유사도에 따라 영화들을 정렬합니다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 영화를 받아옵니다.
    sim_scores = sim_scores[1:11]

    # 가장 유사한 10개의 영화의 인덱스를 받아옵니다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴합니다.
    return data['title'].iloc[movie_indices]

In [13]:
def main_scenario():
    context = ''
    gerne = []
    
    user_answer = input('어떤 콘텐츠를 추천해 드릴까요?')
    answer, _ = predict_class(user_answer,opening_model, opening_model_data['words'], open_classes, open_words)
    context += ' '+user_answer
    print(answer, '를 추천해드릴게요')
    
    user_answer = input('어떤 장르의 웹툰을 추천해 드릴까요?')
    answer, _ = predict_class(user_answer,gerne_model,gerne_model_data['words'],gerne_classes,gerne_words,stop_word=stop_word)
    context += ' '+user_answer
    gerne.append(answer)
    print(answer, '를 추천해드릴게요')
    
    user_answer = input('어떤 스토리의 웹툰을 추천해 드릴까요?')
    answer, _ = predict_class(user_answer,gerne_model,gerne_model_data['words'],gerne_classes,gerne_words,stop_word=stop_word)
    gerne.append(answer)
    print(answer, '를 추천해드릴게요')
    
    context += ' '+user_answer
    data_set = add_user_sentence(context,gerne)
    cosine_sim, idx_dict = cosine_similarity(data_set)
    print(get_recommendations(data_set, idx_dict, cosine_sim))

In [29]:
main_scenario()

어떤 콘텐츠를 추천해 드릴까요?웹툰
['웹툰']
webtoon 를 추천해드릴게요
어떤 장르의 웹툰을 추천해 드릴까요?오늘 좀 우울해서 웃고싶어
['오늘', '좀', '우울하다', '웃다']
개그 를 추천해드릴게요
어떤 스토리의 웹툰을 추천해 드릴까요?진짜 소리내서 웃을수 있는 웃기고 재밌는 웹툰
['진짜', '소리내다', '웃다', '있다', '웃기', '고', '재밌다']
개그 를 추천해드릴게요
119개의 데이터셋과 1090개의 단어 구성
26      네이버 앱피소드
19     2019 병영일기
115        슈퍼트리오
41        내일은 웹툰
87     쌉니다 천리마마트
54          리얼주주
47        이말년씨리즈
18         오빠 왔다
14          와탕카2
92          진정친구
Name: title, dtype: object
