In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import linear_kernel

In [2]:
data = pd.read_csv('가사전처리.csv', low_memory=False)

keep_col = ["제목","가수","장르","발매일","앨범명","가사"]
new_data = data[keep_col].replace('\\n',' ', regex=True)
new_data.to_csv("newFile.csv", index=False)
 
data.head(2)

Unnamed: 0,제목,가수,장르,발매일,앨범명,가사
0,이산혜연선사발원문,영인스님,종교음악,20101207,영인스님 염불 따라하기 1 (예불/천수경),시방 삼세 부처님과 팔만사천 큰 법보와\n\n \n\n보살 성문 스님네께 지성 귀...
1,사노라면,쟈니리,성인가요,20090501,걱정마,\n흐린 날도 날이 새면 행복하지 않던가\n\n새파랗게 젊다는게 한 밑천인데\n쩨쩨...


In [3]:
data = data.head(20000)

In [4]:
data['가사'].isnull().sum()

0

In [5]:
data['가사'] = data['가사'].fillna('')
data.index 

RangeIndex(start=0, stop=20000, step=1)

In [6]:
# ngram_range = (1,2) 단어의 묶음을 1개부터 2개까지 설정
tfidf = TfidfVectorizer(stop_words='english',analyzer = 'word',  min_df=2, ngram_range = (1, 2), sublinear_tf=True)

# 가사에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(data['가사'])
print(tfidf_matrix.shape)

tfidf.fit(data['가사']) # 벡터라이저가 단어들을 학습합니다. 
tfidf.vocabulary_ # 벡터라이저가 학습한 단어사전을 출력합니다. 
sorted(tfidf.vocabulary_.items(),reverse=True) # 단어사전을 정렬합니다.


(20000, 210295)


[('힙합이란', 210294),
 ('힙합이', 210293),
 ('힙합의', 210292),
 ('힙합음악을', 210291),
 ('힙합을', 210290),
 ('힙합은', 210289),
 ('힙합으로', 210288),
 ('힙합에', 210287),
 ('힙합씬의', 210286),
 ('힙합동무 라랄랄라라', 210285),
 ('힙합동무', 210284),
 ('힙합', 210283),
 ('힘찬 찬송', 210282),
 ('힘찬 박수도', 210281),
 ('힘찬 날개짓을', 210280),
 ('힘찬', 210279),
 ('힘차게 웃어줄', 210278),
 ('힘차게 라라라', 210277),
 ('힘차게 달려간다', 210276),
 ('힘차게 날아올라', 210275),
 ('힘차게', 210274),
 ('힘주시네', 210273),
 ('힘주시고', 210272),
 ('힘주네 위로함', 210271),
 ('힘주네', 210270),
 ('힘주고', 210269),
 ('힘조차 없어', 210268),
 ('힘조차 없게', 210267),
 ('힘조차', 210266),
 ('힘있는', 210265),
 ('힘입어', 210264),
 ('힘인데', 210263),
 ('힘인 거야', 210262),
 ('힘인', 210261),
 ('힘이지만 나의', 210260),
 ('힘이지만', 210259),
 ('힘이란', 210258),
 ('힘이라도 내겐', 210257),
 ('힘이라도', 210256),
 ('힘이들었죠 영원할것만', 210255),
 ('힘이들었죠', 210254),
 ('힘이들어요 그런거죠', 210253),
 ('힘이들어요', 210252),
 ('힘이들어도 괜찮아요', 210251),
 ('힘이들어도', 210250),
 ('힘이들어', 210249),
 ('힘이들면', 210248),
 ('힘이들땐', 210247),
 ('힘이들때', 210246),
 ('힘이들고', 210245),
 ('힘이들

In [7]:
cosine_sim = linear_kernel(tfidf_matrix, tfidf_matrix) 

In [8]:
#indices = pd.Series(data.index,index=data['제목']).drop_duplicates()

#indices = pd.Series(data.index,index=data[['제목','가수']]) 

indices = pd.Series(data.index,index= [ data['제목'], data['가수']]  ).drop_duplicates() 

   
print(indices.index)    

print(indices.head())

MultiIndex([(             '이산혜연선사발원문',   '영인스님'),
            (                  '사노라면',    '쟈니리'),
            (          '우리들이 함께 있는 밤',    '박기영'),
            (              '밤의 고독속에서',    '김현식'),
            (               '아이돌이 좋아',    '임정우'),
            (              '별것도 아닌 일',    '이진아'),
            ('Baby You Are Beautiful',    '성시경'),
            (                 '나는 너를',    '한승기'),
            (         'Psycho heaven',    '자우림'),
            (                '떠나는 저녁',    '이승철'),
            ...
            (                '바람이 분다',    '폰부스'),
            (               '번지없는 주막',    '백년설'),
            (                     '왜',    '장혜진'),
            (               '카스바의 여인',    '함중아'),
            (                  '나야나야',    '정수성'),
            (              '이 마음 다하여',   '세실리아'),
            (                 '살다가보면',     '정인'),
            (                    '자위',  '푸른 새벽'),
            (                  '봄의기적',    '이지형'),
            (                   '경

In [9]:
target_singer = '길구봉구'
target_singer = target_singer.strip()
target_title = '있어줄래'
target_title = target_title.strip()

idx = indices[(target_title, target_singer)][0]
print(idx)

17710


  result = self._run_cell(


In [10]:
def get_recommendations(title, singer, cosine_sim=cosine_sim):
    # 선택한 음악의 가수, 제목으로부터 해당되는 인덱스를 받아옵니다. 이제 선택한 음악를 가지고 연산할 수 있습니다.
    #idx = indices[title]
    idx = indices[(target_title, target_singer)][0]
    
    # 모든 음악에 대해서 해당 음악과의 유사도를 구합니다.
    sim_scores = list(enumerate(cosine_sim[idx]))
 
    # 유사도에 따라 음악들을 정렬합니다.
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # 가장 유사한 10개의 음악을 받아옵니다.
    sim_scores = sim_scores[1:11]

    #코사인값은 두 벡터의 방향이 완전히 같을 경우 1, 90°의 각을 이룰 경우 0, 180°로 완전히 반대 방향인 경우 -1의 값을 갖음
    print(sim_scores)
    
    # 가장 유사한 10개의 음악의 인덱스를 받아옵니다.
    movie_indices = [i[0] for i in sim_scores]

    # 가장 유사한 10개의 영화의 제목을 리턴합니다.
    
    
    a = data['가수'].iloc[movie_indices] 
    b = data['제목'].iloc[movie_indices]
    c = data['장르'].iloc[movie_indices]
 
    return '['+a+'] '+b+' ('+c+')' 

In [11]:
get_recommendations(target_title, target_singer)

  return runner(coro)


[(15948, 0.0989995364880518), (19165, 0.077177939821721), (13590, 0.07212946350827698), (5253, 0.07145823971573709), (12447, 0.07076666308025836), (3708, 0.06462275424586346), (6487, 0.06255710114938366), (16969, 0.06019129904812087), (2436, 0.05990317019060827), (1542, 0.05951054303199626)]


15948        [김선경] 곰신의 하루 (인디음악,포크블루스)
19165           [홍성민] 기억날 그날이 와도 (발라드)
13590                   [한경일] 반지 (발라드)
5253                 [거미] 단 한 사람 (CCM)
12447            [혜은이] 영원히 당신만을 (성인가요)
3708                [크나큰] 고백 (발라드,아이돌)
6487     [주윤하] 당신의 평화는 연약하다 (발라드,인디음악)
16969                [유미] 소녀의 고백 (발라드)
2436                  [포피] 꿈꿔왔었던 (발라드)
1542                   [박현서] 밤 중 (발라드)
dtype: object