In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
from konlpy.tag import Kkma
kkma = Kkma()
#문단 -> 문장
para = "문자열 사용 방법 알려주세요. 문자열 초기화 방법 몰라. 문자열 출력은 어떻게 해?"
ex_sent = kkma.sentences(para)
len(ex_sent) #문장 2개
ex_sent

['문자열 사용 방법 알려 주세요.', '문자열 초기화 방법 몰라. 문자열 출력은 어떻게 해?']

In [3]:
# 문장 -> 단어(nouns)
from re import match
nouns = []
res = ""
for sent in ex_sent:
    for noun in kkma.nouns(sent):
        if len(str(noun)) >= 2 and (match('[^방법]', noun)) :
            nouns.append(noun)
            res = res + ' ' + noun 
    
nouns
res

' 문자열 사용 문자열 초기화 출력'

In [7]:
data = pd.read_csv('C:/Users/user/Desktop/recommend_dataset.csv', low_memory=False)
data[['genres']].head()
data[['keywords']].head()

Unnamed: 0,keywords
0,문자열 출력
1,문자열 초기화
2,조건문 if
3,조건문 if else
4,조건문 else


In [8]:
#사용자의 문장 데이터셋에 삽입
df = pd.DataFrame(data)
#df
new_data = {
   'ques_id': len(df) + 1,
   'ques_content': para,
    'language': 'NAN',
    'category': 'NAN',
    'sub_category': 'NAN',
    'keys_origin': 'NAN',
    'keywords': res,
    'genres': 'NAN'
}
data = df.append(new_data, ignore_index = True)
data


Unnamed: 0,ques_id,ques_content,language,category,sub_category,keywords_origin,keywords,genres,keys_origin
0,1,문자열 출력 방법,C,문자열,출력,"문자열, 출력",문자열 출력,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",
1,2,문자열 초기화,C,문자열,초기화,"문자열, 초기화",문자열 초기화,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",
2,3,if 문,C,조건문,,조건문,조건문 if,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",
3,4,if else문,C,조건문,,조건문,조건문 if else,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",
4,5,else 문,C,조건문,,조건문,조건문 else,"[{'id': 35, 'name': 'Comedy'}]",
5,6,switch 문,C,조건문,,조건문,조건문 switch,"[{'id': 28, 'name': 'Action'}, {'id': 80, 'nam...",
6,7,반복문 출력,C,반복문,출력,반복문,반복문 출력,"[{'id': 35, 'name': 'Comedy'}, {'id': 10749, '...",
7,8,반복문 종료,C,반복문,종료,반복문,반복문 종료,"[{'id': 28, 'name': 'Action'}, {'id': 12, 'nam...",
8,9,while문 종료,C,반복문,종료,반복문,while 종료,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",
9,10,for문 출력,C,반복문,출력,반복문,반복문 for 출력,"[{'id': 35, 'name': 'Comedy'}, {'id': 10749, '...",


In [14]:
#keywords에 대해 tf-idf 수행

tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(data['keywords'])
print(tfidf_matrix.shape)

(18, 12)


In [15]:
#코사인 유사도 구하기
cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)
print(cosine_sim)

indices = pd.Series(data.index, index=data['ques_content']).drop_duplicates()
print(indices.head())

idx = indices['if 문']
print(idx)

[[1.         0.36376261 0.         0.         0.         0.
  0.37861988 0.         0.         0.26557749 0.         1.
  1.         1.         1.         1.         1.         0.61149082]
 [0.36376261 1.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.36376261
  0.36376261 0.36376261 0.36376261 0.36376261 0.36376261 0.72761335]
 [0.         0.         1.         0.79115066 0.4023501  0.37001173
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.79115066 1.         0.79115066 0.29273502
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]
 [0.         0.         0.4023501  0.79115066 1.         0.37001173
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.        ]
 [0.         0.        

In [16]:
#사용자의 질문에 대해 코사인 유사도를 이용하여
#가장 유사도가 비슷한 질문을 찾아내는 함수
def get_recommendations(idx):
    #선택한 질문의 인덱스 구하기
    #idx = indices[question]
    
    #모든 질문에 대해 해당 질문과의 유사도 구하기
    sim_scores = list(enumerate(cosine_sim[idx]))
    
    #유사도에 따라 질문들 정렬
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    
    #가장 유사한 5개 질문 받아오기
    sim_scores = sim_scores[1:5]
    
    #가장 유사한 5개의 질문의 인덱스 받아오기
    ques_indices = [i[0] for i in sim_scores]
    
    #가장 유사한 5개의 질문 리턴
    return data['ques_content'].iloc[ques_indices]

In [19]:
# '반복문 종료' 과 비슷한 질문들 찾기
# get_recommendations('반복문 종료')
print(data.loc[17])
get_recommendations(17)

ques_id                                                        18
ques_content       문자열 사용 방법 알려주세요. 문자열 초기화 방법 몰라. 문자열 출력은 어떻게 해?
language                                                      NAN
category                                                      NAN
sub_category                                                  NAN
keywords_origin                                               NaN
keywords                                        문자열 사용 문자열 초기화 출력
genres                                                        NAN
keys_origin                                                   NAN
Name: 17, dtype: object


1       문자열 초기화
0     문자열 출력 방법
11       코사인cos
12        사인sin
Name: ques_content, dtype: object